JP2022514879A

JP2022514879A - 無細胞ｄｎａ末端特性

Info

Publication number: JP2022514879A
Application number: JP2021535750A
Authority: JP
Inventors: ユク－ミンデニスロー; ロッサワイクンチウ; クワンチーチャン; ペイヨンチアン; ウィンイェンチャン; クンスン
Original assignee: Chinese University of Hong Kong CUHK
Current assignee: Chinese University of Hong Kong CUHK
Priority date: 2018-12-19
Filing date: 2019-12-19
Publication date: 2022-02-16
Also published as: CN117778576A; WO2020125709A1; EP3899018B1; EP3899018A1; DK3899018T3; EP3899018A4; US20200199656A1; EP4300500A2; ES2968457T3; KR20210113237A; CN113366122A; AU2019410635A1; SG11202106114XA; EP4300500A3; CN113366122B; CA3123474A1; TW202039860A

Abstract

本開示は、試料の特性（例えば、臨床的関連ＤＮＡの画分濃度）を測定するため、および／またはそのような測定に基づいて生物の状態を決定するために、生物の生物学的試料における無細胞ＤＮＡ断片の配列末端モチーフの量（例えば、相対頻度）を測定するための技術を記載する。種々の組織タイプは、配列末端モチーフの相対頻度について種々のパターンを示す。本開示は、例えば、様々な組織由来の細胞ＤＮＡの混合物における、無細胞ＤＮＡの配列末端モチーフの相対頻度の測定のための様々な使用を提供する。そのような組織のうちの１つに由来するＤＮＡは、臨床的関連ＤＮＡと呼ばれ得る。【選択図】図２１

Description

関連出願の相互参照
本出願は、２０１８年１２月１９日に出願された「ＣＥＬＬ－ＦＲＥＥＤＮＡＥＮＤＣＨＡＲＡＣＴＥＲＩＳＴＩＣＳ」と題する米国仮特許出願第６２／７８２，３１６号のＰＣＴであり、その利益を主張し、それは、全ての目的のためにその全体が参照により本明細書に組み込まれる。

血漿ＤＮＡは、造血組織、脳、肝臓、肺、結腸、膵臓などを含むがこれらに限定されない、体内の複数の組織から放出された無細胞ＤＮＡで構成されていると考えられている（Ｓｕｎｅｔａｌ，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０１５；１１２：Ｅ５５０３－１２、Ｌｅｈｍａｎｎ－Ｗｅｒｍａｎｅｔａｌ，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０１６；１１３：Ｅ１８２６－３４、Ｍｏｓｓｅｔａｌ，ＮａｔＣｏｍｍｕｎ．２０１８；９：５０６８）。血漿ＤＮＡ分子（無細胞ＤＮＡ分子の一種）は、非ランダムプロセスを通じて生成されることが実証されており、例えば、そのサイズプロファイルは、１６６ｂｐの主要なピークおよび小さいピークで発生する１０ｂｐの周期性を示している（Ｌｏｅｔａｌ，ＳｃｉＴｒａｎｓｌＭｅｄ．２０１０；２：６１ｒａ９１、Ｊｉａｎｇｅｔａｌ，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０１５；１１２：Ｅ１３１７－２５）。

ごく最近、ヒトゲノムの位置（例えば、参照ゲノム上の位置）のサブセットが優先的に切断され、それにより、起源の組織との関係を有する末端位置を有する血漿ＤＮＡ断片が生成されることが報告された（Ｃｈａｎｅｔａｌ，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０１６；１１３：Ｅ８１５９－８１６８、Ｊｉａｎｇｅｔａｌ，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０１８；ｄｏｉ：１０．１０７３／ｐｎａｓ．１８１４６１６１１５）。Ｃｈａｎｄｒａｎａｎｄａら（ＢＭＣＭｅｄＧｅｎｏｍｉｃｓ．２０１５；８：２９）は、ｄｅｎｏｖｏディスカバリーソフトウェアＤＲＥＭＥ（Ｂａｉｌｅｙ，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２０１１；２７：１６５３－９）を使用して、組織タイプに関係なく、ヌクレアーゼ切断に関連するモチーフについて無細胞ＤＮＡデータをマイニングした。

本開示は、試料の特性（例えば、臨床的関連ＤＮＡの画分濃度）を測定するため、および／またはそのような測定に基づいて生物の状態を決定するために、生物の生物学的試料における無細胞ＤＮＡ断片の配列末端モチーフの量（例えば、相対頻度）を測定するための技術を記載する。種々の組織タイプは、配列末端モチーフの相対頻度について種々のパターンを示す。本開示は、例えば、様々な組織由来の無細胞ＤＮＡの混合物における、無細胞ＤＮＡの配列末端モチーフの相対頻度の測定のための様々な使用を提供する。そのような組織のうちの１つに由来するＤＮＡは、臨床的関連ＤＮＡと呼ばれ得る。

様々な例は、ＤＮＡ断片の末端配列を表す配列モチーフ（末端モチーフ）の量を定量化し得る。例えば、実施形態は、ＤＮＡ断片の末端配列についての配列モチーフのセットの相対頻度を決定し得る。様々な実装において、好ましい末端モチーフのセットおよび／または末端モチーフのパターンは、遺伝子型（例えば、組織特異的対立遺伝子）または表現型アプローチ（例えば、同じ条件を有する試料を使用する）を使用して決定され得る。好ましいセットまたは特定のパターンを有する相対頻度は、新しい試料の特性の分類（例えば、臨床的関連ＤＮＡの画分濃度）または生物の状態（例えば、胎児の在胎期間または病理のレベル）を測定するために、使用され得る。したがって、実施形態は、癌、自己免疫疾患、移植、および妊娠を含む生理学的変化を知らせるための測定値を提供し得る。

さらなる例として、配列末端モチーフは、臨床的に関連する無細胞ＤＮＡ断片についての生物学的試料の物理的濃縮および／またはインシリコ濃縮に使用され得る。濃縮は、胎児、腫瘍または移植などの臨床的関連組織に好ましい配列末端モチーフを使用し得る。物理的濃縮は、生物学的試料が臨床的関連ＤＮＡ断片について濃縮されるように、配列末端モチーフの特定のセットを検出する１つ以上のプローブ分子を使用し得る。インシリコ濃縮については、臨床的関連ＤＮＡについて好ましい末端配列のセットのうちの１つを有する無細胞ＤＮＡ断片の配列リードの群が同定され得る。特定の配列リードは、臨床的関連ＤＮＡに対応する尤度に基づいて保存され得、尤度は、好ましい配列末端モチーフを含む配列リードを説明する。保存された配列リードは、臨床的関連ＤＮＡ生物学的試料の特性を決定するために、分析され得る。

本開示のこれらおよび他の実施形態を、以下で詳細に説明する。例えば、他の実施形態は、本明細書に記載の方法に関連付けられたシステム、デバイス、およびコンピュータ可読媒体に関する。

本開示の実施形態の性質および利点のより良好な理解は、以下の詳細な説明および添付の図面を参照して得ることができる。

本開示の実施形態による、末端モチーフの例を示す。

本開示の実施形態による、胎児および母体のＤＮＡ分子間の示差的末端モチーフパターンを分析するための遺伝子型の差異ベースアプローチの概略図を示す。

本開示の実施形態による、胎児および母体のＤＮＡ分子間の末端モチーフ頻度の棒グラフを示す。

本開示の実施形態による、胎児および共有（すなわち、胎児に加えて母体）配列についての図３からの上位１０個の末端モチーフを示す。

本発明の実施形態による、妊婦における胎児および母体ＤＮＡ分子間のエントロピーの箱ひげ図を示す。本発明の実施形態による、妊婦における胎児および母体ＤＮＡ分子間のエントロピーの箱ひげ図を示す。

本開示の実施形態による、胎児および母体ＤＮＡ分子についての階層的クラスタリング分析を示す。本開示の実施形態による、胎児および母体ＤＮＡ分子についての階層的クラスタリング分析を示す。

図７Ａおよび図７Ｂは、本開示の実施形態による、種々の三半期にわたる妊婦についての全てのモチーフを使用したエントロピー分布を示す。図７Ｃおよび図７Ｄは、本開示の実施形態による、種々の三半期にわたる妊婦についての１０個のモチーフを使用したエントロピー分布を示す。

種々の在胎期間にわたって全断片についてのエントロピーを示す。第３三半期の対象における血漿ＤＮＡ断片のエントロピーは、第１および第２三半期のものよりも低い（ｐ値＝０．０６）ことが示された。種々の在胎期間にわたってＹ染色体由来断片についてのエントロピーを示す。第３三半期の対象におけるＹ染色体由来の断片のエントロピーは、第１および第２三半期のものよりも低い（ｐ値＝０．０１）ことが示された。

本開示の実施形態による、種々の三半期にわたる胎児および母体ＤＮＡ分子間の上位１０個にランク付けされた末端モチーフの分布を示す。本開示の実施形態による、種々の三半期にわたる胎児および母体ＤＮＡ分子間の上位１０個にランク付けされた末端モチーフの分布を示す。

本開示の実施形態による、種々の三半期にわたる胎児および共有分子間の上位１０個にランク付けされたモチーフの複合頻度を示す。

本開示の実施形態による、癌患者の血漿ＤＮＡにおける変異体および共有分子間の示差的末端モチーフパターンを分析するための遺伝子型の差異ベースアプローチの概略図を示す。

本開示の実施形態による、肝細胞癌における癌関連変異体および共有分子の血漿ＤＮＡ末端モチーフの状勢を示す。

本開示の実施形態による、肝細胞癌における癌関連変異体および共有分子の血漿ＤＮＡ末端モチーフの放射状の状勢を示す。

本開示の実施形態による、ＨＣＣ患者の血漿ＤＮＡにおける変異体および共有配列間の末端モチーフ頻度の順位差における上位１０個の末端モチーフを示す。

本開示の実施形態による、ＨＣＣ患者および妊娠中の女性についての８個の末端モチーフの複合頻度を示す。

本開示の実施形態による、ＨＣＣ症例についての種々のセットの末端モチーフについての共有および変異体断片についてのエントロピー値を示す。本開示の実施形態による、ＨＣＣ症例についての種々のセットの末端モチーフについての共有および変異体断片についてのエントロピー値を示す。

本開示の実施形態による、測定された循環腫瘍ＤＮＡ画分に対するモチーフ多様性スコア（エントロピー）のプロット。

本開示の実施形態による、ドナー特異的断片を使用したエントロピー分析を示す。ドナー特異的断片を使用した階層的クラスタリング分析を示す。

本開示の実施形態による、対象の生物学的試料における臨床的関連ＤＮＡの画分濃度を推定する方法を示すフローチャート。

本開示の実施形態による、胎児を妊娠している女性対象由来の生物学的試料を分析することにより、胎児の在胎期間を決定する方法を示すフローチャート。

本開示の実施形態による、血漿ＤＮＡ末端モチーフ分析のための表現型アプローチの概略図を示す。

本開示の実施形態による、全ての血漿ＤＮＡ分子を使用したＨＣＣ対象とＨＢＶ対象間の４ｍｅｒ末端モチーフの頻度プロファイルの例を示す。

本開示の実施形態による、種々のレベルの癌を有する様々な対象についての上位１０個の血漿ＤＮＡ４ｍｅｒ末端モチーフの複合頻度の箱ひげ図を示す。レベルは、対照：健康な対照対象、ＨＢＶ：慢性Ｂ型肝炎保有者、Ｃｉｒｒ：肝硬変の対象、ｅＨＣＣ：初期ステージのＨＣＣ、ｉＨＣＣ：即時ステージのＨＣＣ、およびａＨＣＣ：進行ステージ（ａｄｖａｎｃｅｄ－ｓｔａｇｅ）のＨＣＣである。本開示の実施形態による、ＨＣＣ対象と非癌対象間の上位１０個の血漿ＤＮＡ４ｍｅｒ末端モチーフの複合頻度の受信者動作特性（ＲＯＣ）曲線を示す。

本開示の実施形態による、種々の群にわたるＣＣＡモチーフの頻度の箱ひげ図を示す。本開示の実施形態による、非ＨＣＣ対象に存在する最も頻度の高い３ｍｅｒモチーフ（ＣＣＡ）を使用した非ＨＣＣ群とＨＣＣ群間のＲＯＣ曲線を示す。

本開示の実施形態による、２５６個の４ｍｅｒ末端モチーフを使用した種々の群にわたるエントロピー値の箱ひげ図を示す。本開示の実施形態による、１０個の４ｍｅｒ末端モチーフを使用した種々の群にわたるエントロピー値の箱ひげ図を示す。

本開示の実施形態による、種々の群にわたる３ｍｅｒモチーフを使用したエントロピー値の箱ひげ図を示す。３ｍｅｒモチーフ（合計６４モチーフ）を使用したＨＣＣ対象のエントロピーは、非ＨＣＣ対象のエントロピーよりも有意に高い（ｐ値＜０．０００１）ことがわかった。本開示の実施形態による、非ＨＣＣ群とＨＣＣ群間の６４個の３ｍｅｒモチーフのエントロピーを使用したＲＯＣ曲線を示す。ＡＵＣは０．８７２であることがわかった。

本開示の実施形態による、種々の群にわたる４ｍｅｒを使用したモチーフの多様性（エントロピー）スコアの箱ひげ図を示す。本開示の実施形態による、種々の群にわたる４ｍｅｒを使用したモチーフの多様性（エントロピー）スコアの箱ひげ図を示す。

本開示の実施形態による、健康な対照を癌から識別する様々な技術についての受信者動作曲線を示す。

本開示の実施形態による、様々なｋｍｅｒを使用したＭＤＳ分析についての受信者動作曲線を示す。

本開示の実施形態による、様々な腫瘍ＤＮＡ画分についてのＭＤＳベースの癌検出の性能を示す。

本開示の実施形態による、ＭＤＳ、ＳＶＭ、およびロジスティック回帰分析についての受信者動作曲線を示す。

本開示の実施形態による、種々のレベルの癌を有する種々の群にわたる上位１０個にランク付けされた末端モチーフについての階層的クラスタリング分析を示す。種々の群は、対照：健康な対照対象、ＨＢＶ：慢性Ｂ型肝炎保有者、Ｃｉｒｒ：肝硬変の対象、ｅＨＣＣ：初期ステージのＨＣＣ、ｉＨＣＣ：即時ステージのＨＣＣ、およびａＨＣＣ：進行ステージのＨＣＣを含む。

図３３Ａ～図３３Ｃは、本開示の実施形態による、種々のレベルの癌を有する種々の群にわたる全ての血漿ＤＮＡ分子を使用した階層的クラスタリング分析を示す。

本開示の実施形態による、種々のレベルの癌を有する種々の群にわたる全ての血漿ＤＮＡ分子を使用した、３ｍｅｒモチーフに基づく階層的クラスタリング分析を示す。

本開示の実施形態による、健康な対照対象とＳＬＥ患者間の全ての血漿ＤＮＡ分子を使用したエントロピー分析を示す。本開示の実施形態による、健康な対照対象とＳＬＥ患者間の全ての血漿ＤＮＡ分子を使用した階層的クラスタリング分析を示す。

本開示の実施形態による、健康な対照対象とＳＬＥ患者間の１０個の選択された末端モチーフを有する血漿ＤＮＡ分子を使用したエントロピー分析を示す。

本開示の実施形態による、末端モチーフおよびコピー数またはメチル化を含む複合分析のＲＯＣ曲線を示す。

本開示の実施形態による、ＨＣＣおよび非ＨＣＣ対象における配列決定された血漿ＤＮＡ断片およびそれらに隣接するゲノム配列の末端から共同で構築された４ｍｅｒに基づくエントロピー分析を示す。本開示の実施形態による、ＨＣＣおよび非ＨＣＣ対象における配列決定された血漿ＤＮＡ断片およびそれらに隣接するゲノム配列の末端から共同で構築された４ｍｅｒに基づくクラスタリング分析を示す。

本開示の実施形態による、血漿ＤＮＡの末端モチーフを定義するために使用される図１の技術１４０および１６０についてのＲＯＣ比較を示す。

本開示の実施形態による、組織特異的オープンクロマチン領域が血漿ＤＮＡ末端モチーフの識別力を改善することを示す精度の比較を示す。

本開示の実施形態による、サイズバンドに基づく血漿ＤＮＡ末端モチーフ分析を示す。

本開示の実施形態による、対象の生物学的試料における病理のレベルを分類する方法を示すフローチャート。

本開示の実施形態による、臨床的関連ＤＮＡについて生物学的試料を濃縮する方法を示すフローチャート。

本開示の実施形態による、臨床的関連ＤＮＡについて生物学的試料を濃縮する方法３７００を示すフローチャート。

本開示の実施形態による、ＣＣＣＡ末端モチーフを使用した胎児ＤＮＡ画分における増加を示す例示的なプロットを示す。

本発明の実施形態による、測定システムを例示する。

本発明の実施形態による、システムおよび方法とともに使用可能な例示的なコンピュータシステムのブロック図を示す。

用語
「組織」は、機能単位としてともに群化する細胞の群に対応する。２つ以上のタイプの細胞が、単一の組織内に見出され得る。種々のタイプの組織は、種々のタイプの細胞（例えば、肝細胞、肺胞細胞、または血球細胞）からなり得るが、種々の生物（母体対胎児）由来の組織または健常細胞対腫瘍細胞にも対応し得る。「参照組織」は、組織特異的メチル化レベルを決定するために使用される組織に対応し得る。種々の個体由来の同じ組織タイプの複数の試料を使用して、その組織タイプの組織特異的メチル化レベルを決定することができる。

「生物学的試料」は、対象（例えば、妊婦、癌を有する人、または癌を有する疑いがある人などのヒト（または他の動物）、臓器移植レシピエント、または器官が関与する疾患プロセス（例えば、心筋梗塞における心臓、脳卒中における脳、もしくは貧血における造血系）を有する疑いがある対象）から採取され、目的の１つ以上の核酸分子を含有する任意の試料を指す。生物学的試料は、血液、血漿、血清、尿、膣液、水腫（例えば、精巣の）からの液体、膣洗浄液体、胸膜液、腹水、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液、乳首からの排出液、体の種々の部分（例えば、甲状腺、乳腺）からの吸引液、眼内液（例えば、房水）などの体液であり得る。便試料もまた、使用され得る。様々な実施形態において、無細胞ＤＮＡのために濃縮された生物学的試料（例えば、遠心分離プロトコルを介して取得された血漿試料）におけるＤＮＡの大部分は、無細胞であり得、例えば、ＤＮＡの５０％超、６０％超、７０％超、８０％超、９０％超、９５％超、または９９％超は、無細胞であり得る。遠心分離プロトコルは、例えば、３，０００ｇ×１０分で流体部分を取得することと、残留細胞を除去するために３０，０００ｇでさらに１０分間再遠心分離することと、を含み得る。生物学的試料の分析の一環として、少なくとも１，０００個の無細胞ＤＮＡ分子が分析され得る。他の例として、少なくとも１０，０００個または５０，０００個または１００，０００個または５００，０００個または１，０００，０００個または５，０００，０００個、またはそれより多い無細胞ＤＮＡ分子が分析され得る。

「臨床的関連ＤＮＡ」は、例えば、そのようなＤＮＡの画分濃度を決定するため、または試料（例えば、血漿）の表現型を分類するために、測定されるべき特定の組織供給源のＤＮＡを指し得る。臨床的関連ＤＮＡの例は、母体血漿における胎児ＤＮＡ、または患者の血漿における腫瘍ＤＮＡ、または無細胞ＤＮＡを含む他の試料である。別の例は、移植患者の血漿、血清または尿における移植片関連ＤＮＡの量の測定を含む。さらなる例は、対象の血漿における造血性および非造血性ＤＮＡの画分濃度、または試料における肝臓ＤＮＡ断片（もしくは他の組織）の画分濃度、または脳脊髄液における脳ＤＮＡ断片の画分濃度の測定を含む。

「配列リード」は、核酸分子の任意の部分または全部から配列決定されるヌクレオチドの鎖を指す。例えば、配列リードは、核酸断片から配列決定された短鎖ヌクレオチド（例えば、約２０～１５０ヌクレオチド）、核酸断片の片端もしくは両端の短鎖ヌクレオチド、または生物学的試料中に存在する核酸断片全体の配列決定であり得る。配列リードは、例えば、配列決定技術を使用した、またはプローブを使用した種々の方法で、例えば、ハイブリダイゼーションアレイもしくは捕捉プローブで、または単一プライマーもしくは等温増幅を使用した、ポリメラーゼ連鎖反応（ＰＣＲ）もしくは線形増幅などの増幅技術で、取得することができる。生物学的試料の分析の一部として、少なくとも１，０００個の配列リードが分析され得る。他の例として、少なくとも１０，０００個または５０，０００個または１００，０００個または５００，０００個または１，０００，０００個または５，０００，０００個、またはそれより多い配列リードが分析され得る。

配列リードは、断片の末端に関連する「末端配列」を含み得る。末端配列は、断片の最も外側のＮ塩基、例えば断片の末端の２～３０塩基に対応し得る。配列リードが断片全体に対応する場合、配列リードは２つの末端配列を含み得る。対の末端配列決定が断片の末端に対応する２つの配列リードを提供する場合、各配列リードは１つの末端配列を含み得る。

「配列モチーフ」は、ＤＮＡ断片（例えば、無細胞ＤＮＡ断片）における塩基の短い繰り返しパターンを指し得る。配列モチーフは、断片の末端に生じ得、したがって、末端配列の一部であるか、またはそれを含み得る。「末端モチーフ」は、潜在的に特定のタイプの組織について、ＤＮＡ断片の末端で優先的に生じる末端配列についての配列モチーフを指し得る。末端モチーフはまた、断片の末端の直前または直後に生じ得、それにより、依然として末端配列に対応する。

「対立遺伝子」という用語は、同じ物理的ゲノム遺伝子座にある代替ＤＮＡ配列を指し、異なる表現型の特徴をもたらす場合ともたらさない場合がある。各染色体のコピーが２つある任意の特定の二倍体生物（男性の対象の性染色体を除く）では、各遺伝子の遺伝子型は、ホモ接合体においては同じであり、ヘテロ接合体においては異なる、その遺伝子座に存在する対立遺伝子の対を含む。生物の集団または種は、典型的には、様々な個体の各遺伝子座に複数の対立遺伝子を含む。集団内に２つ以上の対立遺伝子が見られるゲノム遺伝子座は、多型部位と呼ばれる。遺伝子座での対立遺伝子多様性は、存在する対立遺伝子の数（すなわち、多型の程度）、または集団内のヘテロ接合体の割合（すなわち、ヘテロ接合性率）として測定可能である。本明細書で使用される「多型」という用語は、その頻度に関係なく、ヒトゲノムにおける任意の個体間の多様性を指す。そのような多様性の例は、一塩基多型、単純なタンデムリピート多型、挿入－欠失多型、変異（疾患を引き起こし得る）、およびコピー数の多様性を含むが、これらに限定されない。本明細書で使用される「ハプロタイプ」という用語は、同じ染色体または染色体領域上で一緒に伝達される複数の遺伝子座での対立遺伝子の組み合わせを指す。ハプロタイプは、わずか１対の遺伝子座、または染色体領域、または染色体全体または染色体腕を指し得る。

「画分胎児ＤＮＡ濃度」という用語は、「胎児ＤＮＡの割合」および「胎児ＤＮＡ画分」という用語と互換的に使用され、胎児に由来する生物学的試料（例えば、母体の血漿または血清試料）に存在する胎児ＤＮＡ分子の割合を指す（Ｌｏｅｔａｌ，ＡｍＪＨｕｍＧｅｎｅｔ．１９９８；６２：７６８－７７５、Ｌｕｎｅｔａｌ，ＣｌｉｎＣｈｅｍ．２００８；５４：１６６４－１６７２）。同様に、腫瘍画分または腫瘍ＤＮＡ画分は、生物学的試料における腫瘍ＤＮＡの画分濃度を指し得る。

「相対頻度」は、割合（例えば、パーセンテージ、画分、または濃度）を指し得る。特に、特定の末端モチーフ（例えば、ＣＣＧＡ）の相対頻度は、例えば、ＣＣＧＡの末端配列を有することによって、末端モチーフＣＣＧＡに関連する無細胞ＤＮＡ断片の割合を提供し得る。

「集計値」は、例えば、末端モチーフのセットの相対的頻度の集合的特性を指し得る。例には、平均、中央値、相対頻度の合計、相対頻度間の変動（例えば、エントロピー、標準偏差（ＳＤ）、変動係数（ＣＶ）、四分位範囲（ＩＱＲ）、または種々の相対頻度中の特定のパーセンタイルカットオフ（例えば９５または９９パーセンタイル））、またはクラスタリングで実装し得る相対頻度の参照パターンからの差（例えば、距離）を含む。

「較正試料」は、臨床的関連ＤＮＡの画分濃度（例えば、組織特異的ＤＮＡ画分）が既知であるか、または較正方法を介して、例えば、ドナーのゲノムには存在するがレシピエントのゲノムには存在しない対立遺伝子を移植臓器のマーカーとして使用し得る移植など、組織に特異的な対立遺伝子を使用して決定される生物学的試料に対応し得る。別の例として、較正試料は、末端モチーフを決定し得る試料に対応し得る。較正試料は、両方の目的に使用され得る。

「較正データ点」は、「較正値」および臨床的関連ＤＮＡ（例えば、特定の組織タイプのＤＮＡ）の測定されたまたは既知の画分濃度を含む。較正値は、臨床的関連ＤＮＡの画分濃度が既知である較正試料について決定された相対頻度（例えば、集計値）から決定され得る。較正データ点は、様々な方法で、例えば、離散点として、または較正関数（検量線または較正面とも呼ばれる）として定義され得る。較正関数は、較正データ点の追加の数学的変換から導出され得る。

「部位」（「ゲノム部位」とも呼ばれる）は、単一の塩基位置、または相関する塩基位置の群、例えば、ＣｐＧ部位、または相関する塩基位置のより大きい群であり得る、単一の部位に対応する。「遺伝子座」は、複数の部位を含む領域に対応し得る。遺伝子座は、遺伝子座をその文脈における部位と等価にするであろうただ１つの部位を含み得る。

各ゲノム部位（例えば、ＣｐＧ部位）に対する「メチル化指数」は、その部位におけるメチル化を、その部位をカバーするリードの総数にわたって示す、（例えば、配列リードまたはプローブから決定されるような）ＤＮＡ断片の割合を指し得る。「リード」は、ＤＮＡ断片から取得された情報（例えば、部位のメチル化状態）に対応し得る。リードは、特定のメチル化状態のＤＮＡ断片と優先的にハイブリダイズする試薬（例えば、プライマーまたはプローブ）を使用して、取得され得る。典型的には、このような試薬は、ＤＮＡ分子のメチル化状態に応じてＤＮＡ分子を差別的に修飾する、または差別的に認識するプロセス、例えば、バイサルファイト変換、またはメチル化感受性制限酵素、またはメチル化結合タンパク質、または抗メチルシトシン抗体、または例えばメチルシトシンおよびヒドロキシメチルシトシンを認識する一分子配列決定技術、で処理後に適用される。

領域の「メチル化密度」は、この領域における部位をカバーするリードの総数で割った、メチル化を示す領域内の部位でのリード数を指し得る。この部位は、具体的な特徴を有し得、例えば、ＣｐＧ部位であり得る。したがって、領域の「ＣｐＧメチル化密度」は、この領域におけるＣｐＧ部位（例えば、特定のＣｐＧ部位、ＣｐＧアイランド内またはそれより大きな領域のＣｐＧ部位）をカバーするリードの総数で割ったＣｐＧメチル化を示すリード数を指す。例えば、ヒトゲノム中の各１００ｋｂビンのメチル化密度は、１００ｋｂ領域へマッピングされた配列リードによってカバーされた全てのＣｐＧ部位の割合として、ＣｐＧ部位のバイサルファイト処理後に変換されていないシトシン（メチル化されたシトシンに対応する）の総数から決定され得る。この分析はまた、５００ｂｐ、５ｋｂ、１０ｋｂ、５０ｋｂ、もしくは１Ｍｂなどの他のビンサイズに対して実施され得る。領域は、全ゲノム、または染色体、または染色体の一部（例えば、染色体腕）であり得る。ＣｐＧ部位のメチル化指数は、領域がそのＣｐＧ部位のみを含む場合、その領域のメチル化密度と同じである。「メチル化シトシンの割合」は、領域において分析されたシトシン残基の総数、すなわちＣｐＧの文脈外のシトシンを含む、に対する、メチル化されていることが示されている（例えば、バイサルファイト変換後に変換されていない）シトシン部位「Ｃ」の数を指し得る。メチル化指数、メチル化密度、およびメチル化シトシンの割合は、「メチル化レベル」の例である。バイサルファイト変換とは別に、当業者に既知の他のプロセスは、ＤＮＡ分子のメチル化状態を調べるために使用され得、メチル化状態に感受性のある酵素（例えば、メチル化感受性制限酵素）、メチル化結合タンパク質、メチル化状態に感受性のあるプラットフォームを使用する単一分子配列決定（例えば、ナノポア配列決定（Ｓｃｈｒｅｉｂｅｒｅｔａｌ，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０１３；１１０：１８９１０－１８９１５）およびＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ単一分子リアルタイム分析による（Ｆｌｕｓｂｅｒｇｅｔａｌ，ＮａｔＭｅｔｈｏｄｓ．２０１０；７：４６１－４６５））を含むが、これらに限定されない。ＤＮＡ分子のメチル化メトリックは、メチル化されている部位（例えば、ＣｐＧ部位）のパーセンテージに対応し得る。メチル化メトリックは、絶対数またはパーセンテージとして指定され得、これは、分子のメチル化密度と呼ばれ得る。

「配列決定深度」という用語は、遺伝子座が、その遺伝子座にアラインメントされた配列リードによってカバーされる回数を指す。遺伝子座は、ヌクレオチドの小ささ、または染色体腕の大きさ、またはゲノム全体の大きさであり得る。配列決定深度は、５０ｘ、１００ｘなどと表され、「ｘ」は、遺伝子座が配列リードでカバーされる回数を指す。また、配列決定深度は、複数の遺伝子座またはゲノム全体に適用することもでき、この場合、ｘはそれぞれ、遺伝子座もしくはハプロイドゲノムまたはゲノム全体が配列決定される平均回数を指し得る。ウルトラディープ配列決定は、少なくとも１００ｘの配列決定深度を指し得る。

「分離値」は、２つの値を包含する差または比、例えば、２つの画分寄与または２つのメチル化レベルに相当する。分離値は、単純な差または比であり得る。例として、ｘ／ｙの直接比はｘ／（ｘ＋ｙ）と同様に分離値である。分離値は、他の因子、例えば、倍数因子を含み得る。他の例として、値の関数の差または比、例えば、２つの値の自然対数（ｌｎ）の差または比が使用され得る。分離値には、差および比を含み得る。

「分離値」および「集計値」（例えば、相対頻度）は、異なる分類（状態）間で変化する試料の測定値を提供するパラメータ（メトリックとも呼ばれる）の２つの例であり、したがって様々な分類を決定するために使用され得る。集計値は、例えば、クラスタリングで行われるように、試料の相対頻度のセットと相対頻度の参照セット間で差が取られる場合の分離値であり得る。

本明細書で使用される「分類」という用語は、試料の特定の特性と関係した任意の数（複数可）または他の特徴（複数可）を指す。例えば、「＋」という記号（または「陽性」という語）は、試料が欠失または増幅を有するものとして分類されることを意味し得る。分類は、二項（例えば、陽性または陰性）であり得、またはより多くのレベルの分類（例えば、１～１０または０～１のスケール）を有し得る。

「カットオフ」および「閾値」という用語は、ある操作において使用される所定の数を指す。例えば、カットオフサイズは、それを超えると断片が除外されるサイズを指し得る。閾値は、特定の分類が適用されるのを上回るまたは下回る値であり得る。これらの用語のいずれかは、これらの文脈のいずれかにおいて使用され得る。カットオフまたは閾値は、「参照値」であり得るか、または特定の分類を表すか、もしくは２つ以上の分類間を区別する参照値から導出され得る。そのような参照値は、当業者によって理解されるように、様々な方法で決定され得る。例えば、メトリックは、異なる既知の分類を有する対象の２つの異なるコホートについて決定され得、参照値は、１つの分類（例えば、平均）の代表として、またはメトリックの２つのクラスター間の値（例えば、所望の感度および特異度を取得するために選択された）として選択され得る。別の例として、参照値は、試料の統計シミュレーションに基づいて決定され得る。

「癌のレベル」という用語は、癌が存在するかどうか（すなわち、存在または不在）、癌のステージ、腫瘍のサイズ、転移があるかどうか、体の総腫瘍負荷、治療に対する癌の応答、および／または癌の重症度の他の尺度（例えば、癌の再発）を指し得る。癌のレベルは、数字、または、記号、アルファベット文字、および色などの他のしるしであり得る。レベルは、ゼロであり得る。癌のレベルは、前悪性病態または前癌性病態（状態）も含み得る。癌のレベルは、様々な方法で使用され得る。例えば、スクリーニングは、癌を有することを今まで知らなかった人物において癌が存在するかどうかをチェックし得る。評価は、癌と診断されている人物を調べて、癌の進行を経時的に監視し、療法の有効性を研究し、または予後を決定し得る。一実施形態において、予後は、患者が癌で死亡する可能性、または特定の持続時間または特定の時間の後、癌が進行する可能性、または癌が転移する可能性もしくは程度として表し得る。検出は、「スクリーニング」を意味し得るか、または癌の示唆的な特徴（例えば、症状または他の陽性検査）を有する人物が癌を有するかどうかをチェックすることを意味し得る。

「病理のレベル」は、生物に関連する病理の量、程度、重症度を指し得、そのレベルは、癌について上記のとおりであり得る。病理の別の例は、移植された臓器の拒絶反応である。他の病理の例には、自己免疫発作（例えば、腎臓を損傷するループス腎炎または多発性硬化症）、炎症性疾患（例えば、肝炎）、線維化プロセス（例えば、肝硬変）、脂肪浸潤（例えば、脂肪肝疾患）、変性プロセス（例えば、アルツハイマー病）、および虚血性組織損傷（例えば、心筋梗塞または脳卒中）を含み得る。対象の健康な状態は、病理のない分類とみなし得る。

「約」または「およそ」という用語は、当業者によって決定される特定の値の許容誤差範囲内を意味し得、これは値の測定または決定方法、すなわち測定システムの制限について部分的に依存する。例えば、「約」は、当技術分野の慣例により、１以内または１を超える標準偏差を意味し得る。あるいは、「約」は、所与の値の最大２０％、最大１０％、最大５％、または最大１％の範囲を意味し得る。あるいは、特に生物学的システムまたはプロセスに関して、「約」または「およそ」という用語は、値の１桁以内、５倍以内、より好ましくは２倍以内を意味し得る。本出願および特許請求の範囲に特定の値が記載されている場合、特に明記しない限り、特定の値の許容誤差範囲内の「約」という用語を想定すべきである。「約」という用語は、当業者によって一般に理解されている意味を有し得る。「約」という用語は、±１０％を指し得る。「約」という用語は、±５％を指し得る。

詳細な説明

本開示は、試料の特性を測定するため、および／またはそのような測定に基づいて生物の状態を決定するために、生物の生物学的試料中の無細胞ＤＮＡ断片の末端モチーフの量（例えば、相対頻度）を測定するための技術を記載する。種々の組織タイプは、配列モチーフの相対頻度について種々のパターンを示す。本開示は、例えば、様々な組織からの無細胞ＤＮＡの混合物における、無細胞ＤＮＡの末端モチーフの相対頻度の測定のための様々な使用を提供する。そのような組織のうちの１つに由来するＤＮＡは、臨床的関連ＤＮＡと呼ばれ得る。

特定の組織の（例えば、胎児、腫瘍、または移植された臓器の）臨床的関連ＤＮＡは、相対頻度の特定のパターンを示し、これは集計値として測定され得る。試料における他のＤＮＡは、異なるパターンを示し得、それによって試料における臨床的関連ＤＮＡの量の測定が可能になる。したがって、一例では、臨床的関連ＤＮＡの画分濃度（例えば、パーセンテージ）は、末端モチーフの相対頻度に基づいて決定され得る。画分濃度は、数、数値範囲、または他の分類、例えば、高、中、または低、または画分濃度が閾値を超えるかどうかであり得る。様々な実装において、集計値は、末端モチーフのセットの相対頻度の合計、末端モチーフ全てまたはセットの相対頻度の分散（例えば、エントロピー、モチーフ多様性スコアとも呼ばれる）、または、参照パターン、例えば、既知の画分濃度を有する較正試料（複数可）の相対頻度のアレイ（ベクトル）からの差（例えば、総距離）であり得る。そのようなアレイは、相対頻度の参照セットとみなされ得る。そのような差は、階層的クラスタリング、サポートベクターマシン、ロジスティック回帰などの分類器において使用され得る。例として、臨床的関連ＤＮＡは、胎児、腫瘍、移植臓器、または他の組織（例えば、造血性または肝臓）のＤＮＡであり得る。

別の例において、病理のレベルは、モチーフの相対頻度を使用して決定され得る。異なる表現型を有する生物は、無細胞ＤＮＡ断片のモチーフ相対頻度の異なるパターンを示し得る。末端モチーフの相対頻度の集計値は、表現型を分類するために参照値と比較され得る。様々な実装において、集計値は、相対頻度の合計、相対頻度の分散、または相対頻度の参照セットからの差であり得る。病理の例には、癌およびＳＬＥなどの自己免疫疾患を含む。

別の例において、モチーフ相対頻度は、胎児の在胎期間を決定するために使用され得る。母体試料において、胎児の在胎期間が長くなる結果として、末端モチーフの相対頻度の集計値は、変化する。そのような集計値は、上記および他の場所で説明されているように決定され得る。

特定の組織由来の無細胞ＤＮＡ断片が好ましい特定の末端モチーフのセットを有することを考慮すると、好ましい末端モチーフは、特定の組織由来のＤＮＡ（臨床的関連ＤＮＡ）について試料を濃縮するために使用され得る。そのような濃縮は、物理試料を濃縮するための物理操作を介して実施され得る。いくつかの実施形態は、例えば、プライマーまたはアダプターを使用して、好ましい末端モチーフのセットに一致する末端配列を有する無細胞ＤＮＡ断片を捕捉および／または増幅し得る。他の例が、本明細書に記載される。

いくつかの実施形態において、濃縮は、インシリコで実施され得る。例えば、システムは、配列リードを受信し、末端モチーフに基づいてリードをフィルタリングして、臨床的関連ＤＮＡから対応するＤＮＡ断片の濃度が高い配列リードのサブセットを取得し得る。ＤＮＡ断片が好ましい末端モチーフを含む末端配列を有する場合、それは目的の組織に由来する尤度がより高いと同定し得る。本明細書に記載されているように、尤度は、ＤＮＡ断片のメチル化およびサイズに基づいてさらに決定され得る。

このような末端モチーフの使用は、末端位置を使用する場合に必要となり得る参照ゲノムの必要性を回避し得る（Ｃｈａｎｅｔａｌ，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０１６；１１３：Ｅ８１５９－８１６８、Ｊｉａｎｇｅｔａｌ，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０１８；ｄｏｉ：１０．１０７３／ｐｎａｓ．１８１４６１６１１５））。さらに、末端モチーフの数は参照ゲノムにおいて好ましい末端位置の数よりも少ない可能性があるため、各末端モチーフについてより多くの統計が収集され得、精度が向上し得る。

例えば、Ｃｈａｎｄｒａｎａｎｄａらは、断片開始部位周辺の５１ｂｐ（上流／下流２０ｂｐ）の領域のモノヌクレオチド頻度に関する位置特異的ヌクレオチドパターンに関して、母体と胎児の断片間に高い類似性があることを見出し（Ｃｈａｎｄｒａｎａｎｄａｅｔａｌ，ＢＭＣＭｅｄＧｅｎｏｍｉｃｓ．２０１５；８：２９）、それは末端周辺のモノヌクレオチド頻度に基づくそれらの方法の使用が、無細胞ＤＮＡ断片の起源の組織の情報を与えることができないことを意味するため、上記の方法で末端モチーフを使用するそのような能力は驚くべきことである。

Ｉ．無細胞ＤＮＡ末端モチーフ
末端モチーフは、無細胞ＤＮＡ断片の末端配列、例えば、断片のいずれかの末端でのＫ塩基の配列に関する。末端配列は、例えば、１、２、３、４、５、６、７などの様々な数の塩基を有するｋｍｅｒであり得る。末端モチーフ（または「配列モチーフ」）は、参照ゲノムの特定の位置とは対照的に、配列自体に関する。したがって、同じ末端モチーフは、参照ゲノム全体の多数の位置に生じ得る。末端モチーフは、例えば、開始位置の直前または終了位置の直後の塩基を同定するために、参照ゲノムを使用して決定され得る。このような塩基は、例えば、断片の末端配列に基づいて同定されるため、無細胞ＤＮＡ断片の末端に対応する。

図１は、本開示の実施形態による末端モチーフの例を示す。図１は、分析する４ｍｅｒ末端モチーフを定義する２つの方法を示す。技術１４０において、４ｍｅｒ末端モチーフは、血漿ＤＮＡ分子の各末端の最初の４ｂｐ配列から直接構築される。例えば、配列決定された断片の最初の４ヌクレオチドまたは最後の４ヌクレオチドが使用され得る。技術１６０において、４ｍｅｒ末端モチーフは、断片の配列決定された末端からの２ｍｅｒ配列およびその断片の末端に隣接するゲノム領域からの他の２ｍｅｒ配列を利用することによって共同で構築される。他の実施形態において、他のタイプのモチーフ、例えば、１ｍｅｒ、２ｍｅｒ、３ｍｅｒ、５ｍｅｒ、６ｍｅｒ、および７ｍｅｒの末端モチーフが使用され得る。

図１に示すとおり、無細胞ＤＮＡ断片１１０は、例えば、遠心分離などによる血液試料の精製プロセスを使用して取得される。血漿ＤＮＡ断片に加えて、例えば、血清、尿、唾液、および本明細書で言及される他のそのような無細胞試料由来の他のタイプの無細胞ＤＮＡ分子が使用され得る。一実施形態において、ＤＮＡ断片は、平滑末端化され得る。

ブロック１２０で、ＤＮＡ断片は、対末端配列決定に供される。いくつかの実施形態において、対末端配列決定は、ＤＮＡ断片の２つの末端から２つの配列リード、例えば、配列リードあたり３０～１２０塩基を生成し得る。これらの２つの配列リードは、ＤＮＡ断片（分子）の一対のリードを形成し得、各配列リードは、ＤＮＡ断片のそれぞれの末端の末端配列を含む。他の実施形態において、ＤＮＡ断片全体が配列決定され得、それにより、ＤＮＡ断片の両端の末端配列を含む単一の配列リードを提供する。

ブロック１３０で、配列リードは、参照ゲノムにアラインメントされ得る。このアラインメントは、配列モチーフを定義するための異なる方法を説明するためのものであり、いくつかの実施形態において使用されない場合がある。アラインメント手順は、ＢＬＡＳＴ、ＦＡＳＴＡ、Ｂｏｗｔｉｅ、ＢＷＡ、ＢＦＡＳＴ、ＳＨＲｉＭＰ、ＳＳＡＨＡ２、ＮｏｖｏＡｌｉｇｎ、およびＳＯＡＰなどの様々なソフトウェアパッケージを使用して実施され得る。

技術１４０は、ゲノム１４５へのアラインメントを有する、配列決定された断片１４１の配列リードを示す。５’末端を開始とみなして、第１の末端モチーフ１４２（ＣＣＣＡ）は、配列決定された断片１４１の開始にある。第２の末端モチーフ１４４（ＴＣＧＡ）は、配列決定された断片１４１の尾部にある。そのような末端モチーフは、一実施形態において、酵素がＣＣＣＡを認識し、次に最初のＣの直前に切断を行うときに生じ得る。その場合、ＣＣＣＡは優先的に血漿ＤＮＡ断片の末端にある。ＴＣＧＡについては、酵素がそれを認識し、Ａの後に切断を行い得る。

技術１６０は、ゲノム１６５へのアラインメントを有する、配列決定された断片１６１の配列リードを示す。５’末端を開始とみなして、第１の末端モチーフ１６２（ＣＧＣＣ）は、配列決定された断片１６１の開始の直前に生じる第１の部分（ＣＧ）、および配列決定された断片１６１の開始の末端配列の一部である第２の部分（ＣＣ）を有する。第２の末端モチーフ１６４（ＣＣＧＡ）は、配列決定された断片１６１の尾部の直後に生じる第１の部分（ＧＡ）、および配列決定された断片１６１の尾部の末端配列の一部である第２の部分（ＣＣ）を有する。このような末端モチーフは、一実施形態において、酵素がＣＧＣＣを認識し、次にＧとＣとの間を切断するときに生じ得る。その場合、ＣＣは、その直前にＣＧが生じている血漿ＤＮＡ断片の末端に優先的に存在し、それによってＣＧＣＣの末端モチーフを提供するであろう。第２の末端モチーフ１６４（ＣＣＧＡ）については、酵素はＣとＧとの間を切断し得る。その場合、ＣＣは優先的に血漿ＤＮＡ断片の末端に存在するであろう。技術１６０について、隣接するゲノム領域および配列決定された血漿ＤＮＡ断片からの塩基の数を変えられ得、必ずしも固定比率に制限されるとは限らず、例えば、２：２の代わりに、比率は２：３、３：２、４：４、２：４などであり得る。

無細胞ＤＮＡ末端のシグネチャに含まれるヌクレオチドの数が多いほど、モチーフの特異性が高くなり、これは、ゲノムにおいて正確な構成で順序付けられた６塩基を有する確率が、ゲノムにおいて正確な構成で順序付けられた２塩基を有する確率よりも低いためである。したがって、末端モチーフの長さの選択は、使用目的の用途に必要な感度および／または特異度によって支配され得る。

末端配列は、配列リードを参照ゲノムにアラインメントするために使用されるため、末端配列、または直前／直後から決定された任意の配列モチーフは、依然として末端配列から決定される。したがって、技術１６０は、他の塩基への末端配列の関連を作成し、参照は、その関連を作成するためのメカニズムとして使用される。技術１４０と１６０間の差異は、特定のＤＮＡ断片がどの２つの末端モチーフに割り当てられるかであり、これは、相対頻度についての特定の値に影響を与える。しかし、製造において使用されるものとして一貫した技術がトレーニングデータに使用される限り、全体的な結果（例えば、臨床的関連ＤＮＡの画分濃度、病理のレベルの分類など）は、ＤＮＡ断片が末端モチーフにどのように割り当てられるかによって影響を受ない。

特定の末端モチーフに対応する末端配列を有するＤＮＡ断片のカウントされた数は、相対頻度を決定するためにカウントされ得る（例えば、メモリ内のアレイに保存され得る）。以下でより詳細に説明するように、無細胞ＤＮＡ断片についての末端モチーフの相対頻度は分析され得る。末端モチーフの相対頻度における差は、種々のタイプの組織および種々の表現型、例えば種々のレベルの病理について検出されている。該差は、特定の末端モチーフを有するＤＮＡ断片の量または末端モチーフのセット（例えば、使用される長さに対応するｋｍｅｒの全ての可能な組み合わせ）にわたる全体的なパターン、例えば、分散（エントロピーなど、モチーフ多様性スコアとも呼ばれる）によって定量化され得る。

ＩＩ．遺伝子型の差異に基づくアプローチ
種々の組織タイプが種々の末端モチーフを有することを同定した。本明細書では、末端モチーフを使用して、臨床的関連ＤＮＡ、例えば、胎児ＤＮＡ、腫瘍ＤＮＡ、移植された臓器からのＤＮＡ、または特定の器官からのＤＮＡの画分濃度を決定する方法を説明する。

特定のタイプの臨床的関連ＤＮＡに優先的な末端モチーフを同定するために、遺伝子型の差異は、臨床的関連組織に由来するものとしてＤＮＡ断片を同定するために使用され得る。ＤＮＡ断片が臨床的関連組織由来のものであることが検出されると、ＤＮＡ断片の末端モチーフが決定され得る。末端モチーフの相対頻度の分析は、末端モチーフの相対頻度が種々の組織によって変化することを明らかにする。以下で説明するように、相対頻度の差の定量化は、臨床的関連ＤＮＡの画分濃度が既知である較正試料（複数可）（例えば、組織特異的対立遺伝子などの別の技術によって測定された）と組み合わせて使用され得、生物学的試料における臨床的関連ＤＮＡの画分濃度の分類を決定する。

較正試料における臨床的関連ＤＮＡの画分濃度の測定が必要な場合があるが、結果として得られる較正値（例えば、較正関数の一部として）は、臨床的関連ＤＮＡに固有のものである対立遺伝子を同定することなく、新しい試料の画分濃度を決定するために使用され得る。このようにして、画分濃度は、より堅牢な方法で決定され得る。

Ａ．妊娠
母体および胎児ゲノム間の遺伝子型の差異は、胎児および母体ＤＮＡ分子を区別するために使用され得る。例えば、母親がホモ接合（ＡＡ）で、胎児がヘテロ接合（ＡＢ）である有益な一塩基多型（ＳＮＰ）部位を利用し得る。

図２は、本開示の実施形態による、胎児および母体ＤＮＡ分子間の示差的末端モチーフパターンを分析するための遺伝子型の差異ベースアプローチの概略図を示す。図２に示すように、胎児特異的対立遺伝子（Ｂ）を保有する胎児特異的分子２０５が決定され得る。他方、共有対立遺伝子（Ａ）を保有する共有分子２０７が決定され得、これは、胎児ＤＮＡ分子が概して母体血漿ＤＮＡプールにおける少数派であるため、主に母体由来のＤＮＡ分子を表す。したがって、共有分子に由来する任意の分子の特性は、母体のバックグラウンドＤＮＡ分子（すなわち、造血系由来のＤＮＡ分子）の特徴を反映する。対立遺伝子に加えて、他の胎児特異的マーカー（例えば、エピジェネティックマーカー）が使用され得る。

図１の技術１４０を使用して、４ｍｅｒ末端モチーフを分析した。２５６個の末端モチーフが分析された。各４ｍｅｒモチーフの割合を計算し、棒グラフ２２０として示される棒グラフを使用して２５６個のモチーフにわたって頻度を比較した。このような棒グラフは、各４ｍｅｒが末端モチーフとして生じる相対頻度（％）を提供する。説明を簡単にするために、いくつかの４ｍｅｒのみを示す。相対頻度（単に「頻度」と呼ばれることもある）は、（末端モチーフを有するＤＮＡ断片の数）／分析されたＤＮＡ断片の総数によって決定され得、両末端をカウントするために分母において２つの因数を有する場合がある。そのようなパーセンテージは、１つ以上の他のモチーフ（潜在的に第１の末端モチーフを含む）の量に対する第１の末端モチーフについての１つの量（例えば、カウント）の比率に関連するので、相対頻度とみなされ得る。見てのとおり、末端モチーフ２２２は、種々の組織タイプのＤＮＡ断片間で相対頻度に顕著な差を有する。このような差は、様々な目的、例えば、胎児ＤＮＡについて試料を濃縮する、または胎児ＤＮＡ濃度を決定するために使用され得る。

棒グラフ２２０に示される相対頻度の値は、２５６個の値を有するアレイに値を保存され得る。カウンターは、末端モチーフのセットの各末端モチーフに対して存在し得、特定の末端モチーフのカウンターは、新しいＤＮＡ断片がそのカウンターに対応する末端モチーフを有するたびに増分される。モチーフのセットは、例えば、全ての末端モチーフ、または参照試料において最も多く生じるものまたは参照試料において最大の分離を示すものなど、より小さなセットとして様々な方法で選択され得る。

様々な定量化技術は、試料の相対頻度についての尺度を提供するために使用され得、そのような定量化技術は、臨床的関連ＤＮＡ由来の無細胞ＤＮＡの量を分類するために使用され得る。一例の定量化技術は、本明細書では複合頻度とも呼ばれる、末端モチーフのセットの相対頻度の合計を含む。例として、そのようなセットは、特定の組織タイプで最も頻繁に生じる、または２つの組織タイプ間で最大の分離を有すると同定される末端モチーフであり得る。加重合計も使用され得る。重みは、事前に決定され得、または可変であり得、例えば、所与の頻度の重みは、頻度自体に依存し得る。エントロピーはそのような例である。

別の実施形態において、胎児および母体ＤＮＡ分子間の末端モチーフにおける状勢の差異を捕捉するために、エントロピーベース分析２３０が使用され得る。エントロピーは分散／多様性の一例である。モチーフ（例えば、合計２５６個のモチーフ）の頻度の分布を分析するために、エントロピーの１つの定義は次の方程式を使用する：

式中、Ｐ_ｉは特定のモチーフの頻度であり、エントロピー値が高いほど、多様性が高い（すなわち、ランダム性が高い）ことを示す。

この例では、２５６個のモチーフが、頻度に関して等しく存在する場合、エントロピーは最大値（すなわち、５．５５）を達成する。対照的に、２５６個のモチーフが、頻度において偏った分布を有する場合、エントロピーは減少する。例えば、ある特定のモチーフが９９％を占め、他のモチーフが残りの１％を構成する場合、この定式化においては、エントロピーは０．１１に減少するが、ログなしまたはログのみを使用するなど、他の定式化が使用され得る。したがって、モチーフ頻度のエントロピーの減少は、末端モチーフにわたる頻度分布における歪みの増加を意味する。モチーフ頻度の増加するエントロピーは、モチーフにわたる頻度がそれらのモチーフの等しい確率に向かってシフトすることを示唆する。したがって、モチーフ頻度のエントロピーは、血漿ＤＮＡにおいて末端モチーフの存在量がどれだけ均一に存在するかを測定する。モチーフ頻度における均一の程度が高いほど、より高いエントロピー値が期待される。言い換えれば、モチーフ頻度のエントロピーの減少は、その頻度に関して、末端モチーフにわたって歪みの増加を意味する。

様々な他の例において、種々のモチーフの頻度の間での標準偏差（ＳＤ）、変動係数（ＣＶ）、四分位範囲（ＩＱＲ）または特定のパーセンタイルのカットオフ（例えば、９５または９９パーセンタイル）は、胎児および母体ＤＮＡ分子間の末端モチーフパターンの状勢変化を評価するために、使用され得る。このような様々な例は、末端モチーフのセットについての相対頻度における分散／多様性の尺度を提供する。図２におけるエントロピーの定義を考慮すると、１つの末端モチーフのみがゼロでないカウントを有する場合、エントロピーは最小値を有する。他の末端モチーフがいくつかのＤＮＡ断片において現れる場合、エントロピーは増加するであろう。選択がない場合（例えば、全てが同じ頻度を有する１つの仮想シナリオにおける全ての末端モチーフについてのランダム分布）、エントロピーは最大値になるであろう。このようにして、エントロピーは、末端モチーフについての無細胞ＤＮＡ断片の末端配列の全体的な選択性を定量化する。

プロット２３５は、共有配列（主に母体）および胎児配列のエントロピー値を示している。共有配列は、ジェノタイピング測定についての許容誤差内で、ほぼ１００％の胎児ＤＮＡを有する胎児配列よりも少ない胎児ＤＮＡ（元の試料に１０％の胎児ＤＮＡが含まれる場合は約５％）を含む。この分離を考慮すると、試料における胎児ＤＮＡの濃度が高いほど、エントロピー値の差は大きくなる。胎児ＤＮＡ濃度とエントロピー間のこの関係は、例えば、１つ以上の較正値を使用して測定されるように、胎児ＤＮＡ濃度を決定するために使用され得る。例えば、臨床的関連ＤＮＡの濃度は、別の技術を使用して較正試料に対して測定され得（較正値がもたらされ）、これは、男性の胎児にＹ染色体ＤＮＡを使用すること、または腫瘍組織について以前に同定された変異を使用することなど、概して、適用可能となり得ない。較正試料についてのエントロピー測定値を考慮すると、２つのエントロピー値（１つは試験試料について、もう１つは較正試料について）の比較は、較正試料において測定された濃度を使用して、試験試料についての画分濃度を提供し得る。較正値および較正関数のこのような使用のさらなる詳細については、後に記載する。

さらに別の実施形態において、クラスタリングベース分析２４０が採用され得る。縦軸は４ｍｅｒのモチーフに対応し、横軸は、例えば、胎児ＤＮＡの濃度について種々の分類を有する種々の試料に対応する。色は、特定の試料についての特定の４ｍｅｒモチーフの相対頻度に対応し、例えば、赤の較正試料２４２は値が低い緑の較正試料２４４よりも濃度が高い。

クラスタリングベース分析は、２５６個の４ｍｅｒ末端モチーフの頻度プロファイルの類似性が、胎児および母体ＤＮＡ分子間の類似性（すなわち、群間の分子特性）と比較して、胎児ＤＮＡ分子内または母体ＤＮＡ分子内（すなわち、群内分子特性）のいずれかで比較的高いという仮定を利用し得る。したがって、共有配列に由来する末端モチーフ（例えば、より高濃度の共有配列）で特徴付けられる個体の較正試料は、胎児特異的配列に由来する末端モチーフで特徴付けられる個体の較正試料（例えば、共有配列の濃度が低く、したがって胎児がより高い）とは異なると予想された。各個体は、２５６個の末端モチーフおよびそれに対応する頻度を含むベクトル（すなわち、２５６次元のベクトル）に対応した。クラスタリング技術の例には、階層的クラスタリング、重心ベースクラスタリング、分布ベースクラスタリング、密度ベースクラスタリングを含むが、これらに限定されない。種々のクラスターは、母体および胎児ＤＮＡ断片間の末端モチーフの頻度における差により、それらは種々の相対頻度のパターンを有するため、試料における胎児ＤＮＡの異なる量に対応し得る。

胎児および母体ＤＮＡ分子間の末端モチーフの差異を評価するために、マイクロアレイプラットフォーム（ＨｕｍａｎＯｍｎｉ２．５、Ｉｌｌｕｍｉｎａ）を使用して母体のバフィーコートおよび胎児の試料をそれぞれ遺伝子型決定し、一致した血漿ＤＮＡ試料を配列決定した。第１（１２～１４週）、第２（２０～２３週）、および第３（３８～４０週）三半期の各々からの１０人の妊婦由来の末梢血試料を取得し、各状況に由来する血漿および母体のバフィーコート試料を採取した。母親がホモ接合で、胎児がヘテロ接合である１９５，３３１個の有益なＳＮＰ（範囲：１４６，４２８－２０２，８００）の中央値を取得した。胎児特異的対立遺伝子を保有する血漿ＤＮＡ分子は、胎児特異的ＤＮＡ分子として同定された。共有対立遺伝子を保有する血漿ＤＮＡ分子が同定され、主に母体由来のＤＮＡ分子であると考えられている。これらの試料の間の胎児ＤＮＡ画分中央値は、１７．１％（範囲：７．０％～４６．８％）であった。マッピングされた対末端リードの１億３００万の中央値（範囲：５２００万～１億８６００万）が、各状況について取得された。各血漿ＤＮＡ分子の末端モチーフは、断片末端に最も近い４ｍｅｒ配列を生物情報学的に調査することによって決定された。この試料セットの分析結果は以下に提供する。

１．ランク付け順の相対頻度における差
胎児および母体ＤＮＡ分子間のモチーフ頻度のランク付けされた差における上位末端モチーフは、胎児および母体ＤＮＡ分子の検出または濃縮に役立つと考えた。したがって、２７０ｘの配列決定深度の１人の妊婦における胎児および母体ＤＮＡ分子間の頻度の差に関して、末端モチーフをランク付けした。胎児および共有配列は、上記と同様の方法を使用して、有益なＳＮＰに従って同定された。

図３は、本開示の実施形態による、胎児および母体ＤＮＡ分子間の末端モチーフ頻度の棒グラフを示す。データは、２７０ｘの配列決定深度の１人の妊婦から取得された。縦軸は、ＤＮＡ断片の数（配列リードから決定される）から決定された所与の４ｍｅｒモチーフの頻度パーセンテージに対応し、それは、所与の４ｍｅｒモチーフを分析されたＤＮＡ断片の末端配列の総数（例えば、ＤＮＡ断片の数の２倍）で割ったものである。横軸は、２５６種の４ｍｅｒに対応している。４ｍｅｒは、共有配列の頻度が減少する順に並べられ、図３は、縦軸に使用されるスケールが異なる２つに分けられる。胎児ＤＮＡ分子（胎児特異的対立遺伝子を有するもの）および母体のＤＮＡ分子（共有対立遺伝子を有するもの）間で、末端モチーフの頻度の差が観察された。

図４は、本開示の実施形態による、胎児および共有（すなわち、胎児に加えて母体）配列について、図３からの上位１０個の末端モチーフを示す。縦軸はシフトされ、１％の頻度で始まる。上位１０個の末端モチーフは、ＣＣＣＡ、ＣＣＡＧ、ＣＣＴＧ、ＣＣＡＡ、ＣＣＣＴ、ＣＣＴＴ、ＣＣＡＴ、ＣＡＡＡ、ＣＣＴＣ、およびＣＣＡＣである。見てのとおり、一部の末端モチーフは、共有配列と胎児特異的配列との間に他よりも大きな差がある。したがって、母体ＤＮＡと胎児ＤＮＡとを識別するために、単に最も頻度が高い末端モチーフとは対照的に、最大の差を有する末端モチーフを使用してもよい。

２．エントロピーの使用
次に、様々な試料について、共有対立遺伝子を有するＤＮＡ分子のエントロピー、および胎児特異的対立遺伝子を有するＤＮＡ分子のエントロピーが分析された。前者は母体として同定され、後者は胎児として同定される。各試料について、胎児ＤＮＡ分子のエントロピーおよび共有ＤＮＡ分子のエントロピー（「母体」とラベル付け）の２つのデータ点が取得される。

図５Ａは、胎児ＤＮＡ分子における末端モチーフのエントロピーが母体ＤＮＡ分子における末端モチーフのエントロピーよりも低いことを示しており（ｐ値＜０．０００１）、母体ＤＮＡ分子に由来する末端モチーフの分布においてより高い歪みがあることを示唆している。図５Ａのエントロピーは、所与の試料について、および胎児ＤＮＡまたは母体ＤＮＡ分子の所与のプールについて、これらの実施例において４ｍｅｒが使用され、２５６個のモチーフ全てを使用して決定される。

図２のプロット２３５と同様に、２つの組織タイプについてのエントロピーの差は、エントロピーが、無細胞ＤＮＡ断片の混合物（例えば、血漿または血清）における胎児ＤＮＡの画分濃度を決定するために使用され得ることを示している。上記のとおり、胎児ＤＮＡとして同定されたプールは、母体プールよりも胎児ＤＮＡのパーセンテージが高い（例えば、ほぼ１００％）。プールのタイプについて決定されたエントロピー値は異なる。したがって、エントロピーと胎児のＤＮＡ濃度との間には関係がある。この関係は、較正試料の胎児ＤＮＡ濃度の測定値（較正値）および対応するエントロピー値（相対頻度の例）に基づく較正関数として決定され得、較正値および相対頻度は、較正データ点を形成し得る。胎児ＤＮＡ濃度が異なる較正試料は、エントロピー値が異なる。胎児ＤＮＡ濃度の出力を提供するために新たに測定された相対頻度（例えば、エントロピー）が較正関数に入力され得るように、較正関数は、較正データ点に適合され得る。

図５Ｂは、図４の１０個のモチーフの相対頻度を使用した場合のエントロピーを示す。示されているように、関係は、この所与の１０個の末端モチーフのセットについてより高いエントロピーを有する胎児配列で変化する。胎児ＤＮＡの画分濃度はまだ決定され得るが、異なる較正関数が使用されるだろう。したがって、較正に使用されるモチーフのセットは、後で使用されるもの、すなわち、エントロピーに基づいた画分濃度、またはセットの相対頻度の他の集計値を測定する場合、と同じである必要がある。

３．クラスタリング
さらに、妊婦について階層的クラスタリング分析を実行した。各妊婦は、全ての４ｍｅｒの末端モチーフ頻度を含む２５６次元のベクトルによって特徴付けられた。確かに、胎児特異的配列および母体のＤＮＡ分子に由来する末端モチーフで特徴付けられる個体は、２つの群にクラスター化され得る。

図６Ａおよび６Ｂは、本開示の実施形態による、第１三半期妊娠期間の胎児および母体ＤＮＡ分子についての階層的クラスタリング分析を示す。図６Ａは、２５６個の４ｍｅｒ末端モチーフ頻度に基づく階層的クラスタリング分析を示す。縦軸は、４ｍｅｒのモチーフに対応し、横軸は、様々な試料の種々の部分（すなわち、胎児特異的の６２０個（黄色）および共有の６１０個（青）の配列）に対応する。色は、試料の特定の部分の特定の４ｍｅｒモチーフの相対頻度に対応する。

種々の部分（胎児特異的および共有）は、種々の胎児ＤＮＡ濃度を有し、したがって、胎児ＤＮＡの濃度について種々の分類を有する。このようなクラスタリングが較正試料を使用して実施される場合、胎児ＤＮＡ濃度は、例えば上記のエントロピーセクションで説明されているように測定され得る。各較正試料は、使用されるモチーフの数（例えば、他のｋｍｅｒが使用され得るが、胎児および共有配列間に最大の差を有し得るとして、全て４ｍｅｒまたは潜在的に４ｍｅｒのサブセットのみについての２５６個）に等しい長さの対応するベクトルを有する。

図６Ｂは、２５６個の４ｍｅｒ末端モチーフ頻度に基づく階層的クラスタリング分析のためのズームイン視覚化を示す。各行は、１つのタイプの末端モチーフ（すなわち、異なる末端モチーフ）を表す。各列は妊娠中の対象を表す。グラデーションの色は、末端モチーフの頻度を示す。赤は最高頻度を表し、緑は最低頻度を表す。見てのとおり、胎児ＤＮＡ濃度が異なる試料を表す２つの部分（胎児および共有）は、２つの別々のクラスターにきれいにクラスター化されており、胎児ＤＮＡ濃度のレベルが異なる試料を識別し得る良好な精度を示している。

４．種々の三半期の試料
画分濃度が異なる試料を識別できることに加えて、いくつかの実施形態は、種々の在胎期間で妊娠対象由来の種々の試料を識別できる（例えば、どの三半期か、またはちょうど第３三半期であるかどうか）。

図７Ａおよび７Ｂは、本開示の実施形態による、種々の三半期にわたる妊婦の全てのモチーフを使用したエントロピー分布を示す。興味深いことに、胎児特異的断片を使用して決定された末端モチーフの数のエントロピー値は、在胎期間に関連しているようであるが（ｐ値：０．０２４、第１三半期データ対第２および第３三半期由来のプールされたデータ）、共有断片（主に母体ＤＮＡ）からのものは、在胎期間（ｐ値：１、第１三半期データ対第２および第３三半期由来のプールされたデータ）に関連付けられないようであった。妊娠後期は、概して胎児のＤＮＡ濃度が高くなる。したがって、濃度と在胎期間の間には相関関係がある可能性がある。

胎児特異的断片については、第１三半期と比較して、第２および第３三半期のエントロピーが減少した。したがって、胎児の断片は、在胎期間を伝え得る。そして、共有断片は、本質的に一定のエントロピーを有しているので（例えば、主に母体断片であり、および／またはそのような胎児信号を打ち消す末端モチーフの母体生理学関連の変化のため）、全ての断片についてのエントロピーの変化は胎児の断片の変化によって在胎期間を反映する。種々の三半期の間のエントロピーのそのような関係は、母体の断片の存在によりあまり変化を示さないが、その関係は依然として存在する。しかし、胎児特異的対立遺伝子が同定され得る場合（例えば、男性の胎児または予想される胎児ＤＮＡ濃度と同様のパーセンテージで発生する対立遺伝子を同定することによって、または父方の遺伝子型情報を使用して）、より顕著な関係が存在する（例えば、図７Ｂに示すように）。

図７Ｃおよび７Ｄは、本開示の実施形態による、種々の三半期にわたる妊婦についての１０個のモチーフを使用したエントロピー分布を示す。１０個のモチーフは、共有断片から決定されたランキングによって選択された。これらの図は、たとえモチーフの特定の選択によって、関係が減少し得る場合（図７Ｂの増加とは対照的に）でも、胎児特異的断片について種々の三半期のエントロピーが依然として変化することを示している。

図８Ａは、本開示の実施形態による、種々の在胎期間にわたる全ての断片のエントロピーを示す。エントロピーは、２５６個の４ｍｅｒ末端モチーフ全てを使用して決定される。第３三半期の対象における血漿ＤＮＡ断片のエントロピーは、第１および第２三半期のものと比べてより低い（ｐ値＝０．０６）ことが示された。そして、第２三半期の平均は、第１三半期よりも低い。したがって、胎児の断片の全てが含まれる場合（図７Ａの共有断片とは対照的に）、エントロピーは在胎期間を提供する。

図８Ｂは、種々の在胎期間にわたるＹ染色体由来の断片のエントロピーを示す。第３三半期の対象におけるＹ染色体由来の断片のエントロピーは、第１および第２三半期のものよりも低い（ｐ値＝０．０１）ことが示された。（Ｙ染色体由来の胎児特異的配列を使用して）胎児分子をフィルタリングしたこれらの試料は、第３三半期と第２の三半期の間のより大きな分離を示す。

図９および１０は、本開示の実施形態による、種々の三半期にわたる胎児および母体ＤＮＡ分子間の上位１０個にランク付けされた末端モチーフの分布を示す。胎児および母体ＤＮＡ分子間のモチーフ頻度におけるランク付けされた差の上位１０個の末端モチーフは、１つの単一ディープ配列決定妊娠の場合からマイニングされた。次に、これらの上位１０個の末端モチーフは、各試料を分析するために使用された。

これらの目的の末端モチーフを保有する胎児および共有ＤＮＡ分子の割合は、第１（１２－１４週）、第２（２０－２３週）、および第３（３８－４０週）三半期のそれぞれからの１０人の妊婦からなる独立したコホートにおいて計算された。共有分子と比較して胎児ＤＮＡ分子においてより高いことがわかった末端モチーフが多数あり、それらの末端モチーフが起源の組織と特定の関係を有することを示唆している。例えば、ＣＡＡＡ％の中央値は、第１（１．２６％対１．１１％）、第２（１．２４％対１．１１％）、および第３（１．２４％対１．１５％）三半期にわたって、共有分子（主に母体）よりも胎児ＤＮＡ分子の方が一貫して高いことがわかった。したがって、末端モチーフＣＡＡＡは、ＣＡＡＡの末端配列を有する特定のＤＮＡ断片が胎児に由来する尤度の増加を示すマーカーとして同定され得る。

特定の末端モチーフは、在胎期間とのより顕著な関係を示している。例えば、末端モチーフＣＣＣＡを有する胎児ＤＮＡ分子は、ＣＣＡＧ、ＣＣＴＧ、ＣＣＡＡ、ＣＣＣＴ、およびＣＣＡＣと同様に、在胎期間とともに継続的な（単調な）増加を示す。しかしながら、ＣＣＴＴは、中央値が第２三半期で低下し、その後第３三半期で増加するため継続的な増加を示さない。

別の実施形態において、種々の三半期にわたる胎児および母体ＤＮＡ分子間の差を見るために上位１０個にランク付けされた末端モチーフを組み合わせ得る。

図１１は、本開示の実施形態による、種々の三半期にわたる胎児および共有分子間の上位１０個にランク付けされたモチーフの複合頻度を示す。図１１に示すように、胎児および母体ＤＮＡ分子間の上位１０個にランク付けされたモチーフの複合頻度における差は、第１三半期（ｐ値：０．９２）と比較して、第２三半期（ｐ値：０．０１３）および第３三半期（Ｐ値：０．００１９）の両方で比較的大きいことがわかった。胎児分子についての頻度は、第１三半期から第２三半期、第３三半期と継続的に増加するが、この継続的な関係は、共有分子については示されていない。これは、種々の生理学的条件（例えば、在胎期間）が、種々の起源の組織に由来する末端モチーフに影響を与えることを示している。

Ｂ．腫瘍学
妊娠の文脈で考案された遺伝子型の手段は、腫瘍学の文脈でも適用され得る。

図１２は、本開示の実施形態による、癌患者の血漿ＤＮＡにおける変異体および共有分子間の示差的末端モチーフパターンを分析するための遺伝子型の差異ベースアプローチの概略図を示す。図１２に示すように、腫瘍特異的対立遺伝子（Ｂ）を保有する腫瘍特異的分子１２０５が決定され得る。他方、共有対立遺伝子（Ａ）を保有する共有分子１２０７が決定され得、これは、腫瘍ＤＮＡ分子は概して血漿ＤＮＡプールにおいて少数派であるため、主に健康由来（ｈｅａｌｔｈｙ－ｄｅｒｉｖｅｄ）のＤＮＡ分子を表すであろう。

一例として、変異体配列（すなわち、癌関連変異を保有する血漿ＤＮＡ）および共有配列（主に造血性由来のＤＮＡ）を同定し得る。癌関連変異は、腫瘍組織（肝細胞癌、ＨＣＣ）に存在するが、正常細胞（例えば、バフィーコート）には存在しない多様体として定義され得る。例えば、ＨＣＣ患者において、腫瘍組織の遺伝子型が特定のゲノム遺伝子座で「ＡＧ」であり、バフィーコート細胞の遺伝子型が「ＡＡ」であると仮定すると、腫瘍組織に特異的に存在する「Ｇ」は癌関連変異とみなされ、「Ａ」は共有野生型対立遺伝子とみなされる。様々な実装において、変異体配列は、腫瘍からの組織生検を配列決定することによって、または、例えば、米国特許公開第２０１４／０１００１２１号に記載されているように、血漿または血清などの無細胞試料を分析することによって取得され得る。

変異体配列と共有配列との間の末端モチーフの頻度プロファイルは、血漿ＤＮＡが２２０ｘの深さで配列決定されたＨＣＣ患者において決定された。棒グラフ１２２０は、各４ｍｅｒが変異体および共有配列についての末端モチーフとして生じる相対頻度（％）を提供する。そのような相対頻度は、上記図２の棒グラフ２２０のとおり決定され得る。見てのとおり、末端モチーフ１２２２は、異なる組織タイプのＤＮＡ断片間で相対頻度に顕著な差がある。そのような差は、様々な目的、例えば、腫瘍ＤＮＡについて試料を濃縮するため、または腫瘍ＤＮＡ濃度を測定するために使用され得る。

別の実施形態において、腫瘍および共有ＤＮＡ分子間の末端モチーフの状勢の差異を捕捉するために、図２と同様に、エントロピーベース分析１２３０が使用され得る。プロット１２３５は、共有配列および腫瘍配列についてのエントロピー値を示している。エントロピーまたは他の分散メトリックにおける差は、例えば、較正関数を使用して、腫瘍画分濃度を提供し得る。

さらに別の実施形態において、図２の胎児分析と同様に、クラスタリングベース分析１２４０が実施され得る。試料における腫瘍配列の量についての分類は、腫瘍画分の分類が既知の参照クラスターに属する新しい試料に基づいて決定され得る。

１．ランク付け順の相対頻度における差
図１３は、本開示の実施形態による、肝細胞癌における癌関連変異体および共有分子の血漿ＤＮＡ末端モチーフの状勢を示す。変異体配列と共有配列との間で変化することが観察された末端モチーフが多数あり、例えば、ＣＣＣＡ、ＣＣＡＧ、ＣＣＡＡ、ＣＣＴＧ、ＣＣＴＴ、ＣＣＣＴ、ＣＡＡＡ、ＣＣＡＴ、ＴＡＡＡ、ＡＡＡＡモチーフであるが、これらに限定されない。図１３は、図３と同様の情報を示しているが、臨床的関連ＤＮＡについては胎児ＤＮＡではなく腫瘍ＤＮＡである。

図１４は、本開示の実施形態による、肝細胞癌における癌関連変異体および共有分子の血漿ＤＮＡ末端モチーフの放射状の状勢を示す。種々の末端モチーフは、外周に列挙されており、末端モチーフの頻度は、種々の半径方向の長さで示されている。末端モチーフは、非腫瘍（例えば、健康）細胞の野生型（ｗｔ）対立遺伝子の頻度によって並び変えられている。頻度値１４１０は、ｗｔ対立遺伝子に対応し、頻度値１４２０は、変異体（ｍｕｔ）対立遺伝子に対応する。この放射状の表示は、野生型（共有）配列と比較した変異体配列の末端モチーフの相対頻度における顕著な差を示している。

図１５Ａは、本開示の実施形態による、ＨＣＣ患者の血漿ＤＮＡにおける変異体配列と共有配列との間の末端モチーフ頻度の順位差における上位１０個の末端モチーフを示す。上位末端モチーフは、参照試料における共有配列について決定される。示されているように、上位末端モチーフは、ＣＣＣＡ、ＣＣＡＧ、ＣＣＡＡ、ＣＣＴＧ、ＣＣＴＴ、ＣＣＣＴ、ＣＡＡＡ、ＣＣＡＴ、ＴＡＡＡ、およびＡＡＡＡである。相対頻度における差は、末端モチーフ間で変化する。例えば、変異体および共有配列間に最も大きな差を示すモチーフ（ＣＣＣＡ）は、それぞれ１．９％および１．６％であることがわかり、そのようなモチーフについて、共有配列（主に血液細胞由来の野生型配列）と比較して、変異体配列において１５％減少したことを示唆している。

図１５Ｂは、本開示の実施形態による、ＨＣＣ患者および妊娠中の女性についての８つの末端モチーフの複合頻度を示す。複合頻度は、例えば、末端モチーフのセットの相対頻度の合計としての例示的な集計値である。見てのとおり、これら２つのシナリオ、野生型（ＷＴ）および変異体、ならびに母体および胎児配列間のそれぞれにおいて２つのクラスの配列について複合頻度に分離がある。野生型（ＷＴ）および変異体についての複合頻度の分離は、母体および胎児配列についての分離よりも大きくなる。

この複合頻度は、胎児分析についてのエントロピープロットと同様の挙動を示す。したがって、図１５Ｂは、臨床的関連ＤＮＡの画分濃度を決定するために使用され得る相対頻度の集計値の別の例を示す。そして、図１５Ｂにおけるｗｔ対変異体の関係は、他の臨床的関連ＤＮＡ（例えば、腫瘍ＤＮＡ）の画分濃度も決定され得ることを示している。

２．エントロピーの利用
図１６Ａおよび１６Ｂは、本開示の実施形態による、ＨＣＣ症例についての種々のセットの末端モチーフの共有および変異体断片についてのエントロピー値を示す。胎児配列と同様に、２種の配列についてのエントロピー間の関係は、使用する末端モチーフのセットによって変化する。図１６Ａは、４ｍｅｒについて２５６個全ての末端モチーフを使用する。変異体断片についての頻度分布がより均一（例えば、より平坦）なため、変異体断片についてエントロピーは高くなる。また、頻度分布の歪みが高いため、共有断片のエントロピーは低くなる。

図１６Ｂは、共有断片についてＨＣＣ対象において生じる４ｍｅｒの上位１０個の末端モチーフを使用する。エントロピーの関係は、上位１０個のモチーフでは逆である。図１６Ａおよび１６Ｂの両方は、胎児ＤＮＡ濃度を決定するための較正分析が、腫瘍ＤＮＡ濃度を決定するためにも使用され得ることを示している。

上記のとおり、高いエントロピー値は、末端モチーフにおける高い多様性を示す。モチーフ多様性スコア（ＭＤＳ）は、循環無細胞ＤＮＡの生物学的試料における臨床的関連ＤＮＡ（例えば、胎児、移植、腫瘍など）の画分濃度を推定するために使用され得る。

図１７は、本開示の実施形態による、測定された循環腫瘍ＤＮＡ画分に対するモチーフ多様性スコアのプロットである。複数の較正試料のそれぞれについて、較正データ点１７０５が測定された。較正データ点は、試料についてのモチーフ多様性スコアおよび臨床的関連ＤＮＡの画分濃度、この場合は腫瘍ＤＮＡ画分を含む。腫瘍ＤＮＡ画分は、癌関連コピー数異常を利用することによって血漿ＤＮＡにおける腫瘍ＤＮＡ画分を測定するソフトウェアパッケージｉｃｈｏｒＣＮＡに基づいて推定された（Ａｄａｌｓｔｅｉｎｓｓｏｎｅｔａｌ．２０１７）。

所与の試料は、腫瘍ＤＮＡを有さない健康な対照試料、または腫瘍ＤＮＡ画分がゼロ以外である、すなわち腫瘍ＤＮＡおよび他の（例えば、健康な）ＤＮＡが存在する腫瘍を有する患者からの試料であり得る。ＨＣＣ患者の血漿ＤＮＡのＭＤＳ値は、腫瘍ＤＮＡ画分と正の相関があることがわかった（スピアマンのρ：０．５９７、ｐ値：０．０００２）。これは、較正関数１７１０（この例では線形関数）で示されている。

較正関数１７１０は、モチーフ多様性スコアが測定された新しい試験試料における腫瘍ＤＮＡ画分を決定するために使用され得る。較正関数１７１０は、例えば回帰を使用して、較正データ点１７０５への機能的適合によって決定され得る。

いくつかの例において、新しい試験試料についてのＭＤＳの計算値Ｘは、関数Ｆ（Ｘ）への入力として使用され得、Ｆは較正関数（曲線）である。Ｆ（Ｘ）の出力は画分濃度である。各Ｘ値について異なり得る誤差範囲を提供することができ、それによりＦ（Ｘ）の出力として値の範囲を提供することができる。他の例において、新しい試料におけるＭＤＳについての測定値０．９５に対応する画分濃度は、ＭＤＳ０．９５での較正データ点から計算された平均濃度として決定され得る。別の例として、較正データ点１７０５は、特定の較正値について画分ＤＮＡ濃度の範囲を提供するために使用され得、その範囲は、画分濃度が閾値量を超えているかどうかを決定するために使用され得る。

Ｃ．移植
遺伝子型技術はまた、移植、例えば、肝臓移植を監視するために適用され得る。レシピエントがホモ接合であり、ドナーがヘテロ接合であるＳＮＰ部位は、移植患者における血漿中のドナー特異的ＤＮＡ分子および主に造血性ＤＮＡを決定することを可能にするだろう。

図１８Ａは、本開示の実施形態によるドナー特異的断片を使用したエントロピー分析を示す。図１８Ｂは、ドナー特異的断片を使用した階層的クラスタリング分析を示す。図１８Ａおよび図１８Ｂに示すように、肝臓移植の文脈において、肝臓特異的ＤＮＡ分子は、共有配列（主に血液由来のＤＮＡ）とは異なる特性を有することが観察された。血漿ＤＮＡ末端モチーフのエントロピーは、概して、共有配列と比較して、ドナー特異的ＤＮＡ分子（肝臓ＤＮＡ）においてより低いことがわかった（図１８Ａ）。肝臓特異的ＤＮＡ分子に由来する末端モチーフで特徴付けられる個体は、共にクラスター化され、共有ＤＮＡ分子に由来する末端モチーフで特徴付けられる個体は別の群にクラスター化された。

Ｄ．画分濃度の分類
上記のように、１つ以上の末端モチーフのセットの相対頻度は、臨床的関連ＤＮＡの画分濃度の分類を決定するために使用され得る。

図１９は、本開示の実施形態による、対象の生物学的試料における臨床的関連ＤＮＡの画分濃度を推定する方法１９００を示すフローチャートである。生物学的試料は、臨床的関連ＤＮＡおよび無細胞である他のＤＮＡを含み得る。他の例において、生物学的試料は、臨床的関連ＤＮＡを含まない場合があり、推定される画分濃度は、臨床的関連ＤＮＡのゼロまたは低いパーセンテージを示し得る。方法１９００および本明細書に記載の任意の他の方法の態様は、コンピュータシステムによって実施され得る。

ブロック１９１０で、生物学的試料由来の複数の無細胞ＤＮＡ断片が分析されて、配列リードが取得される。配列リードは、複数の無細胞ＤＮＡ断片の末端に対応する末端配列を含み得る。例として、配列リードは、配列決定またはプローブベースの技術を使用して取得され得、これらのいずれかは、例えば、増幅または捕捉プローブを介した濃縮を含み得る。

配列決定は、様々な方法で、例えば、超並列配列決定または次世代シーケンシングを使用して、単一分子配列決定を使用して、および／または二本鎖もしくは一本鎖ＤＮＡ配列決定ライブラリ調製プロトコルを使用して、実施され得る。当業者は、使用され得る様々な配列決定技術を理解するであろう。配列決定の一部として、配列リードの一部が細胞核酸に対応し得ることが可能である。

配列決定は、例えば本明細書に記載されるような標的化配列決定であり得る。例えば、生物学的試料は、特定の領域由来のＤＮＡ断片について濃縮され得る。濃縮は、例えば参照ゲノムによって定義されるように、ゲノムの一部または全体に結合する捕捉プローブを使用することを含み得る。

統計的に有意な数の無細胞ＤＮＡ分子は、画分濃度の正確な決定を提供するために分析され得る。いくつかの実施形態において、少なくとも１，０００個の無細胞ＤＮＡ分子が分析される。他の実施形態において、少なくとも１０，０００個または５０，０００個または１００，０００個または５００，０００個または１，０００，０００個または５，０００，０００個、またはそれより多い無細胞ＤＮＡ分子が分析され得る。

ブロック１９２０で、複数の無細胞ＤＮＡ断片のそれぞれについて、配列モチーフは、無細胞ＤＮＡ断片の１つ以上の末端配列のそれぞれについて決定される。配列モチーフは、Ｎ塩基位置（例えば、１、２、３、４、５、６など）を含み得る。例として、配列モチーフは、例えば、図１に記載されているように、ＤＮＡ断片の末端に対応する末端での配列リードを分析すること、信号を特定のモチーフと相関させること（例えば、プローブが使用される場合）、および／または配列リードを参照ゲノムにアラインメントすることによって決定され得る。

例えば、配列決定デバイスによる配列決定後、配列リードは、例えば、有線または無線通信または取り外し可能な記憶デバイスを介して配列決定を実施する配列決定デバイスに通信可能に結合され得るコンピュータシステムによって受信され得る。いくつかの実装において、核酸断片の両端を含む１つ以上の配列リードが受信され得る。ＤＮＡ分子の位置は、ＤＮＡ分子の１つ以上の配列リードをヒトゲノムのそれぞれの部分、例えば、特定の領域にマッピングする（アラインメントする）ことによって決定され得る。他の実施形態において、特定のプローブ（例えば、ＰＣＲまたは他の増幅後）は、特定の蛍光色などを介して位置または特定の末端モチーフを示し得る。同定は、無細胞ＤＮＡ分子が配列モチーフのセットの１つに対応することであり得る。

ブロック１９３０で、複数の無細胞ＤＮＡ断片の末端配列に対応する１つ以上の配列モチーフのセットの相対頻度が決定される。配列モチーフの相対頻度は、配列モチーフに対応する末端配列を有する複数の無細胞ＤＮＡ断片の割合を提供し得る。１つ以上の配列モチーフのセットは、１つ以上の参照試料の参照セットを使用して同定され得る。臨床的関連ＤＮＡの末端モチーフおよび他のＤＮＡ（例えば、健康なＤＮＡ、母体ＤＮＡ、または移植された臓器をどのように受け取ったかという対象のＤＮＡ）間の差が同定され得るように、遺伝子型の差が決定され得るが、参照試料については臨床的関連ＤＮＡの画分濃度を知る必要はない。特定の末端モチーフは、差に基づいて選択され得る（例えば、絶対またはパーセンテージの差が最も大きい末端モチーフを選択する）。相対頻度の例は、本開示全体を通して説明されている。

いくつかの実装において、配列モチーフはＮ塩基位置を含み、１つ以上の配列モチーフのセットは、Ｎ塩基の全ての組み合わせを含む。いくつかの例において、Ｎは２または３以上の整数であり得る。１つ以上の配列モチーフのセットは、１つ以上の較正試料または画分濃度の較正に使用されない他の参照試料で生じる最も頻度の高いものから上位Ｍ（例えば、１０）個の配列モチーフであり得る。

ブロック１９４０で、１つ以上の配列モチーフのセットの相対頻度の集計値が決定される。例示的な集計値は、例えば、エントロピー値（モチーフ多様性スコア）、相対頻度の合計、およびモチーフのセットについてカウントのベクトル（例えば、ベクトルは可能な４ｍｅｒの２４５モチーフについての２５６カウント、または可能な３ｍｅｒの６４モチーフの６４カウント）に対応する多次元データ点を含む、開示全体を通して説明される。１つ以上の配列モチーフのセットが複数の配列モチーフを含む場合、集計値は、セットの相対頻度の合計を含み得る。

一例として、１つ以上の配列モチーフのセットが複数の配列モチーフを含む場合、集計値は、セットの相対頻度の合計を含み得る。別の例として、集計値は、相対頻度の分散に対応し得る。例えば、集計値は、エントロピー項を含み得る。エントロピー項は、項の合計を含み得、各項は、相対頻度に相対頻度の対数を掛けたものを含み得る。別の例として、集計値は、機械学習モデル、例えばクラスタリングモデルの最終出力または中間出力を含み得る。

ブロック１９５０で、生物学的試料における臨床的関連ＤＮＡの画分濃度の分類は、集計値を１つ以上の較正値と比較することによって決定される。１つ以上の較正値は、臨床的関連ＤＮＡの画分濃度が既知の（例えば、測定された）１つ以上の較正試料から決定され得る。比較は、複数の較正値に対してであり得る。比較は、試料における臨床的関連ＤＮＡの画分濃度の変化に対する集計値の変化を提供する較正データに適合する較正関数に集計値を入力することによって生じ得る。別の例として、１つ以上の較正値は、１つ以上の較正試料における無細胞ＤＮＡ断片を使用して測定される１つ以上の配列モチーフのセットの相対頻度の１つ以上の集計値に対応し得る。

較正値は、各較正試料の集計値として計算され得る。較正データ点は、試料ごとに決定され得、較正データ点は、較正値および試料について測定された画分濃度を含む。これらの較正データ点は、方法１９００で使用され得るか、または最終的な較正データ点を決定するために（例えば、関数の適合を介して定義されるように）使用され得る。例えば、線形関数は、画分濃度の関数として較正値に適合させ得る。線形関数は、方法１９００で使用される較正データ点を定義し得る。新しい試料の新しい集計値は、出力の画分濃度を提供するために比較の一部として関数への入力として使用され得る。したがって、１つ以上の較正値は、複数の較正試料の臨床的関連ＤＮＡの画分濃度を使用して決定される較正関数の複数の較正値であり得る。

別の例として、新しい集計値は、画分濃度の同じ分類（例えば、同じ範囲内）を有する試料の平均集計値と比較され得、新しい集計値が別の分類の平均への較正値よりもこの平均に近い場合、新しい試料は、最も近い較正値と同じ濃度であると決定され得る。このような技術は、クラスタリングを実施するときに使用され得る。例えば、較正値は、画分濃度の特定の分類に対応するクラスターについての代表値であり得る。

較正データ点の決定は、例えば、以下のように、画分濃度を測定することを含み得る。１つ以上の較正試料の各較正試料について、臨床的関連ＤＮＡの画分濃度は、較正試料において測定され得る。１つ以上の配列モチーフのセットの相対頻度の集計値は、較正データ点を取得することの一部として較正試料由来の無細胞ＤＮＡ断片を分析することによって決定され得、それによって１つ以上の集計値を決定する。各較正データ点は、較正試料における臨床的関連ＤＮＡの測定された画分濃度および較正試料について決定された集計値を指定し得る。１つ以上の較正値は、１つ以上の集計値であり得るか、または１つ以上の集計値を使用して決定され得る（例えば、較正関数を使用する場合）。画分濃度の測定は、本明細書に記載されるような様々な方法、例えば、臨床的関連ＤＮＡに特異的な対立遺伝子を使用することによって、実施され得る。

様々な実施形態において、臨床的関連ＤＮＡの画分濃度を測定することは、組織特異的対立遺伝子またはエピジェネティックマーカーを使用して、または、例えば、米国特許公開第２０１３／０２３７４３１号に記載されているようなＤＮＡ断片のサイズを使用して、実施され得、それは参照によって全体が組み込まれる。組織特異的なエピジェネティックマーカーは、試料における組織特異的なＤＮＡメチル化パターンを示すＤＮＡ配列を含み得る。

様々な実施形態において、臨床的関連ＤＮＡは、胎児ＤＮＡ、腫瘍ＤＮＡ、移植された臓器由来のＤＮＡ、および特定の組織タイプ（例えば、特定の器官由来）からなる群から選択され得る。臨床的関連ＤＮＡは、特定の組織タイプのものであり得、例えば、特定の組織タイプは、肝臓または造血性である。対象が妊婦である場合、臨床的関連ＤＮＡは、胎児ＤＮＡに対応する胎盤組織であり得る。別の例として、臨床的関連ＤＮＡは、癌を有する器官に由来する腫瘍ＤＮＡであり得る。

概して、１つ以上の較正試料から決定された１つ以上の較正値は、画分濃度が測定されている生物学的（試験）試料に使用されるのと同様のアッセイを使用して生成されることが好ましい。例えば、配列決定ライブラリは同じ方法で生成され得る。処理技術の２つの例は、ＧｅｎｅＲｅａｄ（ｗｗｗ．ｑｉａｇｅｎ．ｃｏｍ／ｕｓ／ｓｈｏｐ／ｓｅｑｕｅｎｃｉｎｇ／ｇｅｎｅｒｅａｄ－ｓｉｚｅ－ｓｅｌｅｃｔｉｏｎ－ｋｉｔ／＃ｏｒｄｅｒｉｎｇｉｎｆｏｒｍａｔｉｏｎ）およびＳＰＲＩ（固相可逆固定化、ＡＭＰｕｒｅビーズ、ｗｗｗ．ｂｅｃｋｍａｎ．ｈｋ／ｒｅａｇｅｎｔｓ＿ｄｅｐｒ／ｇｅｎｏｍｉｃ＿ｄｅｐｒ／ｃｌｅａｎｕｐ－ａｎｄ－ｓｉｚｅ－ｓｅｌｅｃｔｉｏｎ／ｐｃｒ）である。ＧｅｎｅＲｅａｄは、主に腫瘍断片である短いＤＮＡを除去し得、それは、野生型および変異体断片と同様に胎児および移植の場合の末端モチーフの相対頻度に影響を与え得る。

Ｅ．在胎期間の決定
図７Ａ、７Ｂ、および８～１０の上記のとおり、胎児特異的断片モチーフは、在胎期間を推測するために使用され得る。

図２０は、本開示の実施形態による、胎児を妊娠している女性対象由来の生物学的試料を分析することによって、胎児の在胎期間を決定する方法２０００を示すフローチャートである。生物学的試料は、女性対象および胎児由来の無細胞ＤＮＡ分子を含む。

ブロック２０１０で、配列リードを取得するために、生物学的試料由来の複数の無細胞ＤＮＡ断片が分析される。配列リードは、複数の無細胞ＤＮＡ断片の末端に対応する末端配列を含み得る。ブロック２０１０は、図１９のブロック１９１０と同様の方法で実施され得る。

分析の前、後、または一部として、複数の無細胞ＤＮＡ断片は、例えば、図２および５Ａについて上記のとおり、胎児に由来するものとして同定され得る。これは、胎児または最も胎児でありそうなもののＤＮＡ断片についてフィルタリングし得る。例として、複数の無細胞ＤＮＡ断片は、胎児特異的対立遺伝子または胎児特異的エピジェネティックマーカーを使用して同定され得る。別の例として、配列リードのそれぞれについて、配列リードが胎児に対応する尤度は、１つ以上の配列モチーフのセットの配列モチーフを含む配列リードの末端配列に基づいて決定され得る。例えば、セクションＩＩ．Ｅで説明されているとおり、他の基準も使用され得る。尤度は、閾値と比較され得、配列リードは、尤度が閾値を超えた場合に胎児に由来するものとして同定され得る。臨床的関連ＤＮＡについて試料を濃縮する方法のさらなる詳細については、セクションＩＶに見られ得る。

ブロック２０２０で、複数の無細胞ＤＮＡ断片のそれぞれについて、配列モチーフは、無細胞ＤＮＡ断片の１つ以上の末端配列のそれぞれについて決定される。ブロック２０２０は、図１９のブロック２０２０と同様の方法で実施され得る。

ブロック２０３０で、複数の無細胞ＤＮＡ断片の末端配列に対応する１つ以上の配列モチーフのセットの相対頻度が決定される。配列モチーフの相対頻度は、配列モチーフに対応する末端配列を有する複数の無細胞ＤＮＡ断片の割合を提供し得る。ブロック２０３０は、図１９のブロック１９３０と同様の方法で実施され得る。

ブロック２０４０で、１つ以上の配列モチーフのセットの相対頻度の集計値が決定される。ブロック２０４０は、図１９のブロック１９４０と同様の方法で実施され得る。

ブロック２０５０で、１つ以上の較正データ点が取得される。各較正データ点は、集計値に対応する在胎期間（例えば、上の図で説明されている三半期）を指定し得る。上記のように、１つ以上の較正データ点は、既知の在胎期間を有し、無細胞ＤＮＡ分子を含む複数の較正試料から決定され得る。いくつかの実装において、１つ以上の較正データ点は、既知の在胎期間を有する複数の較正試料における無細胞ＤＮＡ分子から決定された測定された集計値を近似する較正関数を形成する複数の較正データ点であり得る。

ブロック２０６０で、集計値は、少なくとも１つの較正データ点の較正値と比較される。例えば、新たな試料の新しい集計値は、図８Ａにおいて決定されるように第３三半期の平均と比較され得る。別の例として、少なくとも１つの較正データ点の較正値は、複数の較正試料のうちの少なくとも１つにおいて無細胞ＤＮＡ分子を使用して測定された集計値に対応し得る。集計値の比較は、複数の較正値に対してであり得、例えば、それぞれが複数の較正試料のうちの１つに対応する。比較は、在胎期間に対する集計値の変化を提供する較正データへの関数適合（較正関数）に集計値を入力することによって生じ得る。比較は、例えば、ブロック１９５０に関して、方法１９００について説明したのと同様の方法で実施され得る。

ブロック２０７０で、比較に基づいて胎児の在胎期間が推定される。新しい集計値が第３三半期の平均（または使用される他の較正値）に最も近い場合、新しい試料が第３三半期であると決定され得る。別の例として、新しい集計値は、図８Ａまたは他の同様の図におけるデータに適合する較正関数（例えば、線形関数）と比較され得る。この関数は、例えば線形関数のＹ値として在胎期間を出力し得る。較正関数を使用するために本明細書で提供される他の例もまた、在胎期間を決定する文脈で使用され得る。

ＩＩＩ．表現型アプローチ
妊娠中の対象、癌の対象、同様に肝移植について、遺伝子型ベース分析を使用して、血漿ＤＮＡ末端モチーフの存在は、起源の組織との関係を生んだ。癌患者において、腫瘍ＤＮＡが血液循環に放出され、血漿ＤＮＡ末端モチーフの元の正常な提示が変化すると推論した。しかしながら、癌の病理生物学の他の側面、例えば、腫瘍の微小環境（Ｔ細胞、Ｂ細胞、好中球などに浸潤）が異なる末端モチーフを生成し、末端モチーフの状勢に影響を与える可能性を排除するものではない。したがって、癌対象と非癌対照対象間の血漿ＤＮＡ末端モチーフの分析は、対照対象からＨＣＣを分類する力を明らかにするであろう。

図２１は、本開示の実施形態による、血漿ＤＮＡ末端モチーフ分析のための表現型アプローチの概略図を示す。図２１は、図２および１２と類似しており、例えば、相対頻度がプロットされ得、分散値（例えば、エントロピー）が決定され得、クラスタリングが実施され得る。

図２１において、血漿ＤＮＡ分子から推定された末端モチーフ（例えば、４ｍｅｒ）が使用され、癌と対照の対象間で比較され、それにより遺伝子型マーカーの制限がなくなり、多くの臨床シナリオ、例えば、自己免疫疾患（例えば、全身性エリテマトーデス、ＳＬＥ）および移植において広く適用できるようになる。配列決定された全ての血漿ＤＮＡ断片を使用した表現型アプローチを使用して、遺伝子型の差異ベースアプローチにおいて行われたのと非常に類似した分析手順で、エントロピーおよびクラスタリング分析が実施され得る。これに関連して、エントロピー分析およびクラスタリング分析は、対照と罹患対象間で比較される。

罹患分子２１０５は、疾患を有すると決定された１人以上の対象由来である。対照分子２１０７は、疾患を有さない１人以上の対象由来である。末端モチーフのセットの相対頻度は、分子の２つのプールに対して決定される。棒グラフ１２２０は、各４ｍｅｒが対照および罹患配列の末端モチーフとして生じる相対頻度（％）を提供する。そのような相対頻度は、図２の棒グラフ２２０について上記のように決定され得る。見てのとおり、末端モチーフ２１２２は、種々の組織タイプのＤＮＡ断片間で相対頻度に顕著な差を有する。このような差は、様々な目的、例えば、新しい試料を罹患か罹患でないか、または疾患のいくつか他のレベルに分類するために使用され得る。

腫瘍および共有ＤＮＡ分子間の末端モチーフにおける状勢の差を捕捉するために、図２と同様に、エントロピーベース分析２１３０が使用され得る。プロット２１３５は、対照対象および罹患対象についてのエントロピー値を示している。エントロピーまたは他の分散メトリックにおける差は、疾患に関連する病理のレベルの分類を提供し得る。

さらに別の実施形態において、図２の胎児分析および図１２の腫瘍分析と同様に、クラスタリングベース分析２１４０が実施され得る。病理のレベルの分類は、分類が既知の参照クラスターに属する新しい試料に基づいて決定され得る。

したがって、相対頻度の集計値の一例において、各個体は、４ｍｅｒの末端モチーフに関する２５６個の頻度を含むベクトル（すなわち、２５６次元ベクトル）によって特徴付けられ得る。他の例において、種々のモチーフ頻度間での標準偏差（ＳＤ）、変動係数（ＣＶ）、四分位範囲（ＩＱＲ）または、特定のパーセンタイルのカットオフ（例えば、９５または９９パーセンタイル）は、疾患と対照群間の末端モチーフパターンの状勢の変化を評価するために使用され得る。集計値の他の例も他のセクションで提供されており、ここで適用される。

Ａ．腫瘍学
いくつかの実施形態において、疾患（病理）は癌であり得る。したがって、いくつかの実施形態は、癌のレベルを分類し得る。

１．ランク付け順の相対頻度における差
図２２は、本開示の実施形態による、全ての血漿ＤＮＡ分子を使用した肝細胞癌（ＨＣＣ）とＢ型肝炎ウイルス（ＨＢＶ）対象間の４ｍｅｒ末端モチーフの頻度プロファイルの例を示す。図２２は、ＨＣＣ患者における２５６個の末端モチーフの頻度を１人のＨＢＶ対象と比較している。同様のプロットとして、縦軸はモチーフの頻度であり、横軸はそれぞれの末端モチーフに対応する。図２２において、非ＨＣＣ対象におけるモチーフ頻度の平均に基づいて、モチーフを昇順にランク付けした。下部のプロットは上部のプロットに続いているが、説明を簡単にするためにスケールが異なる。

ＨＣＣ患者おいて異常を示す多くの末端モチーフがあった。例えば、ＨＢＶ対象と比較して、ＨＣＣ患者において頻度の増加を示した上位１０個のランク付けされた末端モチーフ（ＴＧＧＧ、ＴＡＡＡ、ＡＡＡＡ、ＧＡＡＡ、ＧＧＡＧ、ＴＡＧＡ、ＧＣＡＧ、ＴＧＧＴ、ＧＣＴＧ、およびＧＡＧＡ）は、１．１２～１．３５倍の変化の範囲で平均１．２２倍変化し、また、ＨＣＣ患者において頻度の減少を示した上位１０個の末端モチーフ（ＣＣＣＡ、ＣＣＡＧ、ＣＣＡＡ、ＣＣＣＴ、ＣＣＴＧ、ＣＣＡＣ、ＣＣＡＴ、ＣＣＣＣ、ＣＣＴＣ、およびＣＣＴＴ）は、１．１６～１．２９倍の変化の範囲で平均１．２３倍変化した。非癌群と比較してＨＣＣ群におけるその頻度の増加（または別個のセットとして減少）を示すそのような上位モチーフのセットは、癌に関する新しい対象を分類するために使用され得ることができる。別の例として、ランク付けプロセスは、ＨＣＣの増加を示す全てのモチーフを選択し得、ＨＣＣと非ＨＣＣ対象間でＡＵＣに従って降順でそれらのモチーフをランク付けし得る。次に、ＡＵＣ値に基づいて上位１０個のモチーフを選択する。

血漿ＤＮＡ末端モチーフを使用して診断の可能性を試験するために、２０人の健康な対照対象（対照）、２２人の慢性Ｂ型肝炎保有者（ＨＢＶ）、１２人の肝硬変対象（Ｃｉｒｒ）、２４人の初期ステージＨＣＣ（ｅＨＣＣ）、１１人の即時ステージＨＣＣ（ｉＨＣＣ）、および対リードの中央値が２億１５００万（範囲：９７００万～１６億８１００万）の７人の進行ステージＨＣＣ（ａＨＣＣ）を配列決定した。

図２３Ａは、本開示の実施形態による、種々のレベルの癌を有する様々な対象についての上位１０個の血漿ＤＮＡ４ｍｅｒ末端モチーフの複合頻度の箱ひげ図を示す。図２２のデータ、すなわち、ＨＢＶ対象における頻度に基づいて、上位１０個の血漿ＤＮＡの４ｍｅｒ末端モチーフが選択された。複合頻度は、所与の対象の１０個の末端モチーフの頻度の合計である。上位１０個の末端モチーフの複合頻度は、非癌対象と比較してＨＣＣ患者において有意に減少していることがわかった（ｐ値＜０．０００１）。重要なことに、この末端モチーフ分析を使用すると、ｅＨＣＣ患者の５８．３％が９５％の特異性で同定され得た。さらに、癌の種々のステージが検出され得る。例えば、進行ＨＣＣ（ａｄｖａｎｃｅｄＨＣＣ）はｅＨＣＣおよびｉＨＣＣよりも大幅に低い値を有する。

図２３Ｂは、本開示の実施形態による、ＨＣＣと非癌対象間の上位１０個の血漿ＤＮＡ４ｍｅｒ末端モチーフの複合頻度の受信者動作特性（ＲＯＣ）曲線を示す。ＲＯＣ曲線の曲線下面積（ＡＵＣ）は０．９１であることがわかり、血漿ＤＮＡ末端モチーフが実際にＨＣＣを非癌対象から区別する臨床的可能性を有することを示している。別の実施形態において、ＨＣＣ対象と非ＨＣＣ対象間で最大の分離を有する７つの末端モチーフの複合頻度は、０．９２のＡＵＣを提供する。

図２４Ａは、本開示の実施形態による、種々の群にわたるＣＣＡモチーフの頻度の箱ひげ図を示す。非ＨＣＣ群で最も頻度の高い３ｍｅｒモチーフ（ＣＣＡ）は、ＨＣＣ群で有意に低いことが示された（ｐ値＜０．０００１）。図２４Ｂは、本開示の実施形態による、非ＨＣＣ対象に存在する最も頻度の高い３ｍｅｒモチーフ（ＣＣＡ）を使用した非ＨＣＣとＨＣＣ群間のＲＯＣ曲線を示す。ＡＵＣは０．９１５であることがわかった。最も頻度の高い４ｍｅｒ（ＣＣＣＡ）も、同様のＡＵＣ０．９１を提供する。

２．エントロピーの使用（モチーフの多様性スコア）
図２５Ａは、本開示の実施形態による、２５６個の４ｍｅｒ末端モチーフを使用する種々の群にわたるエントロピー値の箱ひげ図を示す。４ｍｅｒの２５６個のモチーフ全てが使用された。図２５Ａに示すように、ＨＣＣ患者において（平均：５．２４２、範囲：５．１６４～５．２９）では、非ＨＣＣ対象（平均：５．２０３、範囲：５．１２４～５．２５３）と比較して、エントロピー値が有意に増加した（ｐ値＜０．０００１）。重要なことに、この末端モチーフ分析を使用すると、ｅＨＣＣ患者の４１．７％が９５％の特異性で同定され得た。エントロピーは、非ＨＣＣ群と比較して、ＨＣＣ、ＩＨＣＣ、および進行ステージＨＣＣ群で一般的に増加した。さらに、癌の種々のステージが検出され得る。例えば、進行ＨＣＣは、ｅＨＣＣやｉＨＣＣよりも大幅に高い値を有する。

図２５Ｂは、本開示の実施形態による、１０個の４ｍｅｒ末端モチーフを使用した種々の群にわたるエントロピー値の箱ひげ図を示す。ここで、ＨＣＣ対象は、非ＨＣＣ対象と比較して減少したエントロピーを有する。したがって、使用される末端モチーフのセットは、関係を増加から減少に変え得る。例えば、上位１０個のモチーフを使用すると、ＨＣＣ群のエントロピーが減少する。いずれにせよ、ＨＣＣおよび非ＨＣＣ群、同様に進行ＨＣＣ間で、ＨＣＣの初期ステージと比較して診断力がある。

図２６Ａは、本開示の実施形態による、種々の群にわたる３ｍｅｒモチーフを使用したエントロピー値の箱ひげ図を示す。３ｍｅｒモチーフ（合計６４モチーフ）を使用したＨＣＣ対象のエントロピーは、非ＨＣＣ対象のエントロピーよりも有意に高い（ｐ値＜０．０００１）ことがわかった。図２６Ｂは、本開示の実施形態による、非ＨＣＣとＨＣＣ群間の６４個の３ｍｅｒモチーフのエントロピーを使用したＲＯＣ曲線を示す。ＡＵＣは０．８７２であることがわかった。

上記のとおり、エントロピー値が高いほど、末端モチーフの多様性が高いことを示す。様々な癌タイプと対照（例えば、健康な）試料間を識別するためにモチーフ多様性スコアを使用する実施形態の能力のさらなる説明として、公開された研究からのデータが使用された。

図２７Ａおよび２７Ｂは、本開示の実施形態による、種々の群にわたる４ｍｅｒを使用したモチーフ多様性スコアの箱ひげ図を示す。モチーフの多様性スコアを決定するために２５６個の４ｍｅｒ全てを使用した。公開された研究（Ｓｏｎｇｅｔａｌ．２０１７）からダウンロードした血漿ＤＮＡの配列決定結果を使用してＭＤＳ分析を実施した場合、様々な癌タイプ間で血漿ＤＮＡ末端多様性の増加が概して観察され得、それが種々の解剖学的部位からの種々の腫瘍細胞がそれらのＤＮＡを血液循環に流すという事実を反映し得る（Ｂｅｔｔｅｇｏｗｄａｅｔａｌ．２０１４）。分析された癌は、肝細胞癌（ＨＣＣ）、肺癌（ＬＣ）、乳癌（ＢＣ）、胃癌（ＧＣ）、多形性神経膠芽細胞腫（ＧＢＭ）、膵臓癌（ＰＣ）、および結腸直腸癌（ＣＲＣ）であった。

種々の癌タイプにわたるＭＤＳの変化の一般化可能性をさらに試験するために、中央値４２００万の対エ末端リード（範囲：１９００万～６５００万）で、結腸直腸癌（ｎ＝１０）、肺癌（ｎ＝１０）、上咽頭癌（ｎ＝１０）、および頭頸部扁平上皮細胞癌（ｎ＝１０）の患者を含む他の癌タイプの４０個の血漿ＤＮＡ試料を使用して、独立したコホートをさらに配列決定した。図２７Ｂに示すように、癌患者群のＭＤＳ値（中央値：０．９４３、範囲：０．９３９～０．９４９）は、癌を有さない対照群（中央値：０．９４１、範囲：０．９３３－０．９４６、ｐ－値＜０．０００１、ウィルコクソン合計ランク検定）よりも有意に高かった。

図２８は、本開示の実施形態による、健康な対照を癌から識別する様々な技術についての受信者動作曲線を示す。健康な対照者（ｎ＝３８）、ＨＢＶ保有者（ｎ＝１７）、肝細胞癌（ｎ＝３４）、結腸直腸癌（ｎ＝１０）、肺癌（ｎ＝１０）、上咽頭癌（ｎ＝１０）、および頭頸部扁平上皮細胞癌（ｎ＝１０）を有する患者を含む合計１２９個の試料があった。興味深いことに、ＭＤＳベースの方法２８０１（ＡＵＣ＝０．８５）は、断片サイズ２８０３（ＡＵＣ＝０．７４、ｐ値＝０．００４０、ＤｅＬｏｎｇ検定）（Ｙｕｅｔａｌ．２０１７ｂ）、末端が好ましい断片２８０４（ＡＵＣ＝０．５２、ｐ値＜０．０００１）（Ｊｉａｎｇｅｔａｌ．２０１８）および配向認識型形質無細胞断片シグナル、ＯＣＦ、２８０２（ＡＵＣ＝０．６８、ｐ値＝０．００１３）（Ｓｕｎｅｔａｌ．２０１９）を含む他の断片メトリックと比較して、最高の性能を有するようであった。複合分析２８０５は、技術のいずれか１つが対象が癌を有すると分類した場合、対象が癌を有すると同定した。

癌および非癌を識別するためのＭＤＳ分析の精度は、種々の長さのモチーフについても比較的良好に維持される。分析は、１ｍｅｒ～５ｍｅｒについてのＭＤＳを使用して実施された。

図２９は、本開示の実施形態による、様々なｋｍｅｒを使用するＭＤＳ分析の受信者動作曲線を示す。１～５ｍｅｒのモチーフから推定されるＭＤＳ値には、癌を有する患者と有しない患者とを区別する力もある。１ｍｅｒ分析２９０１は０．８１ＡＵＣを提供する。２ｍｅｒ分析２９０２は０．８５ＡＵＣを提供する。３ｍｅｒ分析２９０３は０．８５ＡＵＣを提供する。４ｍｅｒ分析２９０４は０．８５ＡＵＣを提供する。５ｍｅｒ分析２９０５は０．８１ＡＵＣを提供する。

また、コンピュータシミュレーションに従って、ＭＤＳベースの癌検出の性能に対する腫瘍ＤＮＡ画分の影響を調査した。

図３０は、本開示の実施形態による、様々な腫瘍ＤＮＡ画分のＭＤＳベースの癌検出の性能を示す。図３０に示すように、癌検出の性能は、血漿ＤＮＡにおける腫瘍ＤＮＡ画分が増加するにつれて、次第に改善された。例えば、ＲＯＣの曲線下面積（ＡＵＣ）は、腫瘍ＤＮＡ画分が０．１％での患者についてはわずか０．５２であったが、腫瘍ＤＮＡ画分が３％での患者については、ＡＵＣは０．９まで増加し、５％の腫瘍画分ですでに最大に近づいているが、より高い濃度で、さらに増加した。

３．機械学習（ＳＶＭ、回帰、およびクラスタリング）
血漿ＤＮＡ末端モチーフを使用して癌患者を検出するための分類器が構築され得るかどうかをさらに調査するために、２５６個の血漿ＤＮＡ末端モチーフを使用して、癌を有する患者（ｎ＝５５）および癌を有しない患者（ｎ＝７４）を識別する分類器を構築し、それぞれ、サポートベクターマシン（ＳＶＭ）および各末端モチーフの大きさと方向を考慮したロジスティック回帰を使用した。ＳＶＭ分析は、２５６次元の場所で癌患者および非癌患者を最もよく識別する超平面を同定し、訓練データ点は、４ｍｅｒ個の２５６個のモチーフのそれぞれの頻度である。ロジスティック回帰は、２５６個の頻度のそれぞれを乗算する係数を決定し、ロジスティック関数の結果の出力のカットオフも決定し、これは、乗算された頻度の加重合計であり得る、または加重合計を入力として受信し得る。そのようなロジスティック関数は、当業者によく知られているように、シグモイド関数または他の活性化関数であり得る。

過剰適合の問題を最小限に抑えるために、受信者動作特性（ＲＯＣ）曲線分析を使用して性能を評価するために、リーブワンアウト手順を採用した。リーブワンアウト手順は、次の手順に従って実施された。Ｎ個の試料サイズのうち、１つの試料を試験試料として除外し、残りの試料（Ｎ－１）を使用して、２５６個の血漿ＤＮＡ末端モチーフを使用したＳＶＭおよびロジスティック回帰に基づいた分類器を訓練した。次に、訓練された分類器を使用して、除外された試料が癌の有無にかかわらず対象から採取されたものとして分類されたかどうかを判断した。残りの試料から訓練された分類器を試験するために、１つの試料を試験試料として体系的に除外した。したがって、各試料についての予測結果を取得し得、制度は予測結果から計算された。

図３１は、本開示の実施形態による、ＭＤＳ、ＳＶＭ、およびロジスティック回帰分析についての受信者動作曲線を示す。ＭＤＳベース分析（ＡＵＣ＝０．８５）と比較して、２５６個の末端モチーフを有する分類器を使用してのＡＵＣにおいてわずかな増加（ＳＶＭおよびロジスティック回帰の両方でＡＵＣ＝０．８９）を観察した。

別の機械学習技術として、末端モチーフの頻度に基づくクラスタリングを使用した。

図３２は、本開示の実施形態による、種々のレベルの癌を有する種々の群にわたる上位１０個にランク付けされた末端モチーフについての階層的クラスタリング分析を示す。示されているように、ＨＣＣ対象（ｅＨＣＣ：初期ステージＨＣＣ３２０５、ｉＨＣＣ：即時ステージＨＣＣ３２３０、およびａＨＣＣ：進行ステージＨＣＣ３２２５）は概して共にクラスター化され、非ＨＣＣ（健康な対照対象、ＨＢＶ：慢性Ｂ型肝炎保有者）は概して共にクラスター化される。例えば、右側のクラスターは初期のＨＣＣ３２０５（黄色）である。左中央には、主に対照３２１０、ＨＢＶ３２１５、および肝硬変３２２０がある。ＨＣＣと非ＨＣＣ群間の明確なクラスタリングパターンは、末端モチーフが血漿ＤＮＡ末端モチーフにおける疾患関連の優先傾向を反映することを示唆し、血漿ＤＮＡ末端モチーフについての潜在的な診断力を示唆した。統計的技術として接続性ベースの階層的クラスタリングに加えて、重心ベースクラスタリング、分布ベースクラスタリング、密度ベースクラスタリングなど、他のクラスタリング技術が使用され得る。

図３３Ａ～３３Ｃは、本開示の実施形態による、種々のレベルの癌を有する種々の群にわたる全ての血漿ＤＮＡ分子を使用した階層的クラスタリング分析を示す。図３３Ａは、２５６個の４ｍｅｒ末端モチーフ頻度に基づく階層的クラスタリング分析を示す。図３３Ｂは、２５６個の４ｍｅｒ末端モチーフ頻度に基づく階層的クラスタリング分析についてのームイン視覚化を示す。各行は、１つのタイプの末端モチーフを表す。各列は、個々の血漿ＤＮＡ試料を表す。グラデーションの色は、末端モチーフの頻度を示す。赤いものは最高頻度を表し、緑のものは最低頻度を表す。図３３Ｃは、末端モチーフを使用したＨＣＣおよび非ＨＣＣ対象の主成分分析（ＰＣＡ）を示す。主成分は、最大の分散を提供する２５６個のモチーフの線形結合であり、例えば、頻度の加重合計が得られる。

ＨＣＣおよび非ＨＣＣの対象は、２つの異なるクラスターを形成しているようであるため、全ての血漿ＤＮＡ分子に由来する末端モチーフは、ＨＣＣを非ＨＣＣの対象と識別するための重要な指標となる。図３３Ａおよび３３Ｂは、ＨＣＣ対象３３０５（赤）が１つの群にクラスター化される傾向があり、非ＨＣＣ対象３３１０（青）が別の群にクラスター化される傾向があることを示している。図３３Ｃにおいて、ＰＣＡ分析はまた、ＨＣＣおよび非ＨＣＣ対象が２つの異なる群にクラスター化される傾向があることを示した。ＰＣ１およびＰＣ２は、相対頻度の異なる線形結合（加重平均など）に対応し、これは、相対頻度の特定のヒストグラムのパターンを表し得る。図３３Ｃは、クラスタリングを実施する前、またはカットオフ値もしくはカットオフ平面を使用する前に、線形結合（または他の変換）が実施され得ることを示している。したがって、変換された相対頻度は、集計値を決定するために使用され得る。

図３４は、本開示の実施形態による、種々のレベルの癌を有する種々の群にわたる全ての血漿ＤＮＡ分子を使用した、３ｍｅｒモチーフに基づく階層的クラスタリング分析を示す。説明を簡単にするために、ヒートマップの上部のみが示されている。示されているように、ＨＣＣ対象（ｅＨＣＣ：初期ステージＨＣＣ３４０５、ｉＨＣＣ：即時ステージＨＣＣ３４３０、およびａＨＣＣ：進行ステージＨＣＣ３４２５）は概して共にクラスター化され、非ＨＣＣ（健康な対照対象３４１０、ＨＢＶ３４１５：慢性Ｂ型肝炎保有者、および肝硬変３４２０）は概して共にクラスター化される。

これらの発見に基づいて、機械学習（例えば、深層学習）モデルは、血漿ＤＮＡ末端モチーフを含む２５６次元ベクトルを使用することにより、これらに限定されないが、サポートベクターマシン（ＳＶＭ）、決定木、単純ベイズ分類、ロジスティック回帰、クラスタリングアルゴリズム、ＰＣＡ、特異値分解（ＳＶＤ）、ｔ分布型確率的近傍埋め込み（ｔＳＮＥ）、人工ニューラルネットワーク、および分類器のセットを構成し、それらの予測の加重投票を行うことによって新たなデータ点を分類するアンサンブル方法を含む、癌分類器を訓練するために使用され得る。一連の癌患者および非癌患者を含む「２５６次元ベクトルベースマトリックス」に基づいて癌分類器が訓練されると、新しい患者について癌になる確率が予測できるようになる。

機械学習アルゴリズムのこのような使用において、集計値は、参照値と比較し得る確率または距離（例えば、ＳＶＭを使用する場合）に対応し得る。他の実施形態において、集計値は、２つの分類間のカットオフと比較される、または所与の分類の代表値と比較される、モデル（例えば、ニューラルネットワークの初期の層）における初期の出力に対応し得る。

Ｂ．免疫疾患モニタリング
図３５Ａは、本開示の実施形態による、健康な対照対象とＳＬＥ患者間の全ての血漿ＤＮＡ分子を使用したエントロピー分析を示す。図３５Ｂは、本開示の実施形態による、健康な対照対象とＳＬＥ患者間の全ての血漿ＤＮＡ分子を使用した階層的クラスタリング分析を示す。

エントロピー（図３５Ａ、ｐ値：０．０００１４）およびクラスタリング分析（図３５Ｂ）を含む血漿ＤＮＡ末端モチーフの全体的な状勢異常分析は、ＳＬＥ患者が健康な対照対象と区別され得ることを示した。例えば、ＳＬＥを有する対象についてエントロピーは増加する（図３５Ａ）。そして、２つのクラスターは概して左側（ＳＬＥ３５１０）と右側（対照／通常３５０５）に形成される。したがって、自己免疫疾患は血漿ＤＮＡ断片化パターンを変化させ、それによってＳＬＥと対照対象間の血漿ＤＮＡ末端モチーフの識別力を示す。

図３６は、本開示の実施形態による、健康な対照対象とＳＬＥ患者間の１０個の選択された末端モチーフを有する血漿ＤＮＡ分子を使用したエントロピー分析を示す。対照対象について相対頻度が最も高い上位１０個のモチーフが使用された。他の表現型と同様に、モチーフのセットは、ＳＬＥエントロピーが高いか低いかに影響を与え得る。対照について値が最も高いものとして１０個のモチーフが選択されたことを考慮すると、値が互いに類似しているため（すなわち、ランク付けのため）、エントロピーは高くなる。また、ＳＬＥエントロピーは、変動が多いほど低くなる。例えば、ＳＬＥ対象についてランク付けされていないためである。ＳＬＥ試料を使用して上位１０個のモチーフが選択された場合、逆の関係が存在し得る。したがって、自己免疫疾患（例えば、ＳＬＥ）のレベルは、相対頻度の集計値を使用して決定され得る。

Ｃ．末端モチーフおよび従来のメトリックについての相乗分析
血漿ＤＮＡ末端モチーフおよび他の測定基準（コピー数異常（ＣＮＡ）、低メチル化、および高メチル化）の複合分析が、非侵襲的癌検出の性能を改善するかどうかを試験した。例えば、決定木ベースの分類は、複合分析に使用され得る。

図３７は、本開示の実施形態による、ＨＣＣおよび非ＨＣＣ対象の末端モチーフおよびコピー数またはメチル化を含む複合分析のＲＯＣ曲線を示す。末端モチーフ分析は、４ｍｅｒの３５６個のモチーフ全てを使用して決定されたモチーフ多様性スコアを使用する。複合分析は、いずれかの分析が癌の分類をもたらした場合に癌を同定する。末端モチーフおよびメチル化分析の複合分析（ＡＵＣ：０．９４）または末端モチーフおよびＣＮＡ分析の複合分析（ＡＵＣ：０．９３）は、末端モチーフのみを使用した分析（ＡＵＣ：０．８６）よりも優れていた。メチル化分析は、癌および非癌を識別する異常なビンのカットオフ数で、正常な対照の数を上回っている低メチル化（メチル化密度ｚスコア＜－３として定義される）の１Ｍｂビンの数を使用した。ＣＮＡ分析は、癌および非癌を識別する異常なビンのカットオフ数で、ｚスコアが３超または－３未満である１Ｍｂビンの数を使用した。メチル化分析のさらなる詳細については、米国特許公開２０１４／００８０７１５に見つけることができ、ＣＮＡ分析については、米国特許公開ＵＳ２０１３／００４０８２４に見つけることができる。

決定木ベースの分類の例について説明する。例えば、ランダムフォレストアルゴリズムを使用して、ＣＮＡ、低メチル化、高メチル化、サイズ（例えば、米国特許公開２０１３／０２３７４３１に記載）、末端モチーフ、および断片化パターン（例えば、米国特許公開２０１７／００２４５１３および２０１９／０３４１１２７ならびに米国特許出願１６／５１９，９１２に記載）などの各メトリックについてのカットオフを推定し得る。各メトリックは、特定のカットオフを有する。１つのメトリック（低メチル化）を例にとると、１つのケースは、メトリックがカットオフを下回っているか上回っているかに応じて、癌または非癌として分類され得る。１つのメトリックは、決定木における１つの節を表す。例えば、試料が木全体の全ての節を移動した後、投票の過半数（例えば、癌を示す節の数が非癌を示す節よりも多い）が最終的な分類を提供し得る。

Ｄ．血漿ＤＮＡの末端モチーフを定義するための別の方法の例
血漿ＤＮＡの末端モチーフを定義する別の方法を使用する実現可能性を実証するために、図１の技術１６０が採用されてＨＣＣおよび非ＨＣＣ対象を分析し、これは２０人の健康な対照対象（対照）、２２人の慢性Ｂ型肝炎保有者（ＨＢＶ）、１２人の肝硬変対象（Ｃｉｒｒ）、２４人の初期ステージＨＣＣ（ｅＨＣＣ）、１１人の即時ステージＨＣＣ（ｉＨＣＣ）、および７人の進行ステージＨＣＣ（ａＨＣＣ）を含む。

図３８Ａは、本開示の実施形態による、ＨＣＣおよび非ＨＣＣ対象における配列決定された血漿ＤＮＡ断片およびそれらの隣接ゲノム配列の末端から共同で構築された４ｍｅｒに基づくエントロピー分析を示す。エントロピーは、２５６個の末端モチーフ全てを使用して決定された。図１の技術１４０を使用してモチーフを定義した分析と同様に、ＨＣＣ対象のエントロピーは非癌対象とは異なる。また、進行ＨＣＣは、ｅＨＣＣおよびｉＨＣＣとは大きく異なる。図３８Ｂは、本開示の実施形態による、ＨＣＣ対象３８１０および非ＨＣＣ対象３８０５における配列決定された血漿ＤＮＡ断片およびそれらの隣接ゲノム配列の末端から共同で構築された４ｍｅｒに基づくクラスタリング分析を示す。

図３９は、本開示の実施形態による、血漿ＤＮＡの末端モチーフを定義するために使用される図１の技術１４０および１６０についてのＲＯＣ比較を示す。図３８Ａと同じ対象を用い、４ｍｅｒを使用したエントロピー分析を実施して分類した。方法（ｉ）は技術１４０に対応し、方法（ｉｉ）は技術１６０に対応する。図１における技術１４０と比較して、図１の技術１６０を使用すると、わずかに劣る性能（ＡＵＣ：０．８１５対０．８５６）が観察された。

Ｅ．識別を改善するためのフィルタリング
特定のＤＮＡ断片（末端モチーフ以外）をフィルタリングし、例えば、感度および特異度の高い精度を提供するために特定の基準が使用され得る。例として、末端モチーフ分析は、例えば、複数のオープンクロマチン領域のうちの１つ内に完全にまたは部分的にアラインメントするリードによって決定されるように、特定の組織のオープンクロマチン領域に由来するＤＮＡ断片に限定され得る。例えば、オープンクロマチン領域と重複する少なくとも１つのヌクレオチドを有する任意のリードは、オープンクロマチン領域内のリードとして定義され得る。典型的なオープンクロマチン領域は、ＤＮａｓｅＩ過敏性部位によると約３００ｂｐである。オープンクロマチン領域のサイズは、オープンクロマチン領域を定義するために使用される技術、例えばＡＴＡＣ－ｓｅｑ（トランスポーゼースアクセス可能クロマチン配列決定のためのアッセイ（ＡｓｓａｙｆｏｒＴｒａｎｓｐｏｓａｓｅＡｃｃｅｓｓｉｂｌｅＣｈｒｏｍａｔｉｎＳｅｑｕｅｎｃｉｎｇ））対ＤＮａｓｅＩ－Ｓｅｑによって変化し得る。

別の例として、特定のサイズのＤＮＡ断片が、末端モチーフ分析を実施するために選択され得る。以下に示すように、これは、末端モチーフの相対頻度の集計値の分離を増加させ、それによって精度を向上させる。

さらなる例は、ＤＮＡ断片のメチル化特性を使用し得る。胎児および腫瘍ＤＮＡは概して低メチル化されている。実施形態は、ＤＮＡ断片のメチル化メトリック（例えば、密度）を決定し得る（例えば、ＤＮＡ断片上でメチル化される部位（複数可）の割合または絶対数として）。また、測定されたメチル化密度に基づく末端モチーフ分析において使用するためのＤＮＡ断片が選択され得る。例えば、ＤＮＡ断片は、メチル化密度が閾値を超えている場合にのみ使用され得る。

参照ゲノムと比較して、ＤＮＡ断片が配列多様性（例えば、塩基置換、挿入、または欠失）を含むかどうかも、フィルタリングに使用され得る。

様々なフィルタリング基準は、を組み合わせて使用され得る。例えば、各基準を満たす必要がある場合や、少なくとも特定の数の基準を満たす必要がある場合がある。別の実装において、断片が臨床的関連ＤＮＡ（例えば、胎児、腫瘍、または移植）に対応する確率が決定され得、閾値はＤＮＡ断片が末端モチーフ分析において使用される前に満たすべき確率を課した。さらなる例として、特定の末端モチーフの頻度カウンターへのＤＮＡ断片の寄与は、確率に基づいて重み付けされ得る（例えば、１つを追加する代わりに、１未満の値を有する確率を追加する）。したがって、特定の末端モチーフを有するＤＮＡ断片は、より高い重みが付けられ、および／またはより高い確率を有するであろう。そのような濃縮は、以下でさらに説明する。

１．組織特異的なクロマチン領域にわたる末端モチーフ
種々の組織は、アポトーシス中に好ましい断片化パターンを有しているため（Ｃｈａｎｅｔａｌ，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０１６；１１３：Ｅ８１５９－８１６８、Ｊｉａｎｇｅｔａｌ，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０１８；ｄｏｉ：１０．１０７３／ｐｎａｓ．１８１４６１６１１５）、血漿ＤＮＡ末端モチーフ分析のための特定のゲノム領域の選択は、罹患患者および対照対象を分類する際の識別力をさらに改善するとさらに推論した。例としてＨＣＣ患者の検出を取り上げると、血液および肝臓のオープンクロマチン領域が使用された。

図４０は、本開示の実施形態による、組織特異的オープンクロマチン領域が、ＨＣＣおよび非癌患者の血漿ＤＮＡ末端モチーフの識別力を改善することを示す精度の比較を示す。分析は、４ｍｅｒを使用した２５６個のモチーフ全てのエントロピーおよび、上位１０個のモチーフの複合頻度について実施された。肝臓のオープンクロマチンの結果について、リードが肝臓のオープンクロマチン領域のうちの１つと重複する少なくとも１つのヌクレオチドを有する場合、配列リードは保持された（すなわち、フィルタリング除外されなかった）。

肝臓のオープンクロマチン領域と重複する血漿ＤＮＡ分子に由来する末端モチーフの力は、上位１０個にランク付けされたモチーフの複合頻度を使用して、０．９１８のＡＵＣで最高の性能をもたらす。対照的に、任意の選択なしの２５６個のモチーフ全ての血漿ＤＮＡ分子に由来する末端モチーフの識別力は、最小の０．８５５のＡＵＣであった。

したがって、特定の組織が癌についてスクリーニングされている場合、その特定の組織のオープンクロマチン由来のＤＮＡ断片（または少なくとも末端配列がオープンクロマチン領域にある場合）は、分析を実施するために使用され得るのに対して、これらの同定された領域にないＤＮＡ断片は使用されない。癌はＨＣＣであったため、ここでは肝臓が使用された。ＤＮＡ断片の位置は、配列リードを参照ゲノムにアラインメントすることで決定され得、それは、オープンクロマチン領域を文献またはデータベースから同定され得る。

２．サイズバンドベース末端モチーフ解析
特定の末端モチーフの頻度は、分析されているサイズ範囲（サイズバンド）に応じて変化することが示され、例えば、ＣＣＣＡのパーセンテージはこの挙動を示す。これは、サイズバンドベース末端モチーフ分析が、癌患者を非癌対象と区別するための血漿ＤＮＡ末端モチーフを使用において性能に影響を与え得ることを意味する。この可能性を説明するために、５０～８０ｂｐ、８１～１１０ｂｐ、１１１～１４０ｂｐ、１４１～１７０ｂｐ、１７１～２００ｂｐ、２０１～２３０ｂｐを含むがこれらに限定されない一連のサイズ範囲を試験して、分析されるサイズバンドが全体的な診断性能にどのように影響するか調査する。

図４１は、本開示の実施形態による、サイズバンドベース血漿ＤＮＡ末端モチーフ分析を示す。モチーフ多様性スコア（エントロピー）を使用した分類は、４ｍｅｒの２５６個のモチーフを使用して決定される。図４１において様々な範囲が列挙されているが、他の範囲が使用されてもよい。５０～８０分析４１０１は０．８２６ＡＵＣを提供する。８１～１１０分析４１０２は０．５３７ＡＵＣを提供する。１１１～１４０分析４１０３は０．５５１ＡＵＣを提供する。１４１～１７０分析４１０４は０．７１６ＡＵＣを提供する。１７１～２００分析４１０５は０．７６９ＡＵＣを提供する。２０１～２３０分析４１０６は０．７５６ＡＵＣを提供する。

そのようなサイズ範囲は、臨床的関連ＤＮＡを濃縮する技術のために使用され得る。例えば、５０～８０塩基のＤＮＡ分子を選択すると、腫瘍ＤＮＡについて試料を濃縮するであろう。単一のサイズ範囲ではなく、複数の互いに素なサイズ範囲が使用され得る。このような濃縮は、５０～８０塩基対８１～１１０塩基のサイズ範囲でより良いＡＵＣが生じる理由となり得る。

５０～８０ｂｐの範囲内の血漿ＤＮＡ分子に由来する末端モチーフは、非ＨＣＣ対象からＨＣＣを検出する最高の識別力を与えるようであった（ＡＵＣ：０．８３）。したがって、実施形態は、ＤＮＡ断片をフィルタリングして特定のサイズ範囲の断片を選択し得、次に、選択されたＤＮＡ断片（リード）を使用して、相対頻度およびその後の操作を決定し得る。例として、サイズフィルタリングは、物理的な分離を介して、または配列リードを使用してサイズを決定することによって実行され得る（例えば、断片全体が配列決定されている場合の長さ、または対末端を参照にアラインメントすることによって）。短いＤＮＡの物理的濃縮の例には、ゲル電気泳動でのバンド切り取り、キャピラリー電気泳動での特定の保持時間での溶出液の収集、液体クロマトグラフィー後、またはマイクロ流体工学によるものを含む。

Ｆ．病理のレベルの分類
図４２は、本開示の実施形態による、対象の生物学的試料における病理のレベルを分類する方法４２００を示すフローチャートである。無細胞ＤＮＡを含む生物学的試料。方法４２００の態様は、図１９の方法１９００および図２０の方法２０００と同様の方法で実施され得る。

ブロック４２１０で、配列リードを取得するために生物学的試料由来の複数の無細胞ＤＮＡ断片が分析される。配列リードは、複数の無細胞ＤＮＡ断片の末端に対応する末端配列を含む。ブロック４２１０は、図１９のブロック１９１０と同様の方法で実施され得る。

ブロック４２２０で、複数の無細胞ＤＮＡ断片のそれぞれについて、配列モチーフが、無細胞ＤＮＡ断片の１つ以上の末端配列のそれぞれについて決定される。ブロック４２２０は、図１９のブロック１９２０と同様の方法で実施され得る。

ブロック４２３０で、複数の無細胞ＤＮＡ断片の末端配列に対応する１つ以上の配列モチーフのセットの相対頻度が決定される。配列モチーフの相対頻度は、配列モチーフに対応する末端配列を有する複数の無細胞ＤＮＡ断片の割合を提供し得る。ブロック４２３０は、図１９のブロック１９３０と同様の方法で実施され得る。例えば、１つ以上の配列モチーフのセットは、Ｎ個の塩基位置を含み得る。１つ以上の配列モチーフのセットは、Ｎ塩基の全ての組み合わせを含み得る。Ｎは、３以上の整数、およびその他の整数であり得る。

別の例として、１つ以上の配列モチーフのセットは、１つ以上の参照試料において決定される２つのタイプのＤＮＡ間で最大の差を有する上位Ｍ個の配列モチーフ、例えば、全てが最大の正の差（例えば、上位１０個または他の数）または最大の負の差がある全てを示すモチーフであり得る。Ｍは、１以上の整数であり得る。方法１９００および２０００について、２つのタイプのＤＮＡは、臨床的関連ＤＮＡおよび他のＤＮＡであり得る。方法４２００について、２つのタイプのＤＮＡは、病理のレベルについて異なる分類を有する２つの参照試料由来のものであり得る。さらなる例として、１つ以上の配列モチーフのセットは、１つ以上の参照試料において生じる上位Ｍ個の最も頻度の高い配列モチーフであり得、例えば、図２２に示されるように、参照試料はＨＢＶ試料などの非癌試料である。

ブロック４２４０で、１つ以上の配列モチーフのセットの相対頻度の集計値が決定される。ブロック４２４０は、図１９のブロック１９４０と同様の方法で実施され得る。集計値の例は、本開示全体を通して説明され、エントロピー、複合頻度、クラスタリングにおいてもしくはＳＶＭを使用して実装され得る相対頻度の参照パターンからの差（例えば、距離）、２つの分類間のカットオフと比較される、もしくは所与の分類の代表値と比較される機械学習モデル（例えば、ニューラルネットワークにおける中間層または最終層）においての差または出力から決定される値（例えば、確率）を含む。

１つ以上の配列モチーフのセットが複数の配列モチーフを含む場合、集計値は、セットの相対頻度の合計を含み得る。合計は加重合計であり得る。例えば、集計値は、加重合計を含む項の合計を含むエントロピー項を含み得る。各項は、相対頻度に相対頻度の対数を掛けたものを含み得る。集計値は、相対頻度の分散に対応し得る。

別の例において、集計値は、機械学習モデルの最終または中間出力を含む。様々な実装において、機械学習モデルはクラスタリング、サポートベクターマシン、またはロジスティック回帰を使用する。

ブロック４２５０で、病理のレベルの分類は、集計値の参照値との比較に基づいて、対象について決定され得る。例として、病理は癌または自己免疫障害であり得る。例として、レベルは、癌ではない、初期ステージ、中期ステージ、または進行ステージであり得る。その後、分類はレベルの１つを選択し得る。したがって、分類は、複数のステージの癌を含む複数のレベルの癌から決定され得る。例として、癌は、肝細胞癌、肺癌、乳癌、胃癌、多形性神経膠芽細胞腫、膵臓癌、結腸直腸癌、上咽頭癌、および頭頸部扁平上皮細胞癌であり得る。一例として、自己免疫障害は全身性エリテマトーデスであり得る。

さらなる例において、病理のレベルは、病理に関連する臨床的関連ＤＮＡの画分濃度に対応する。例えば、病理のレベルは癌であり得、臨床的関連ＤＮＡは腫瘍ＤＮＡであり得る。参照値は、方法１９００について説明したように、較正試料から決定された較正値であり得る。

いくつかの実施形態において、無細胞ＤＮＡは、複数の無細胞ＤＮＡ断片を同定するためにフィルタリングされる。フィルタリングの例は、上記のセクションに記載されている。例えば、フィルタリングは、メチル化（密度または特定の部位がメチル化されているかどうか）、サイズ、またはＤＮＡ断片が由来する領域に基づき得る。無細胞ＤＮＡは、特定の組織のオープンクロマチン領域由来のＤＮＡ断片についてフィルタリングされ得る。

ＩＶ．濃縮
特定の末端モチーフのセットを示す特定の組織由来のＤＮＡ断片の選択は、その特定の組織からのＤＮＡの試料を濃縮するために使用され得る。したがって、実施形態は、臨床的関連ＤＮＡのために試料を濃縮し得る。例えば、特定の末端配列を有するＤＮＡ断片のみが、アッセイを使用して配列決定され、増幅され、および／または捕捉され得る。別の例として、配列リードのフィルタリングは、例えば、セクションＩＩＩ．Ｅで説明されているのと同様の方法で実施され得る。

Ａ．物理的濃縮
物理的濃縮は、様々な方法で、例えば、特定のプライマーまたはアダプターを使用して実施され得るような、標的配列決定またはＰＣＲを介して、実施され得る。末端配列の特定の末端モチーフが検出された場合、アダプターが断片の末端に追加され得る。次に、配列決定が実施されると、アダプターを有するＤＮＡ断片のみが配列決定され（または少なくとも主に配列決定され）、それによって標的化配列決定が提供される。

別の例として、特定の末端モチーフのセットにハイブリダイズするプライマーが使用され得る。次に、これらのプライマーを使用して配列決定または増幅が実施され得る。特定の末端モチーフに対応する捕捉プローブがまた、さらなる分析のためにそれらの末端モチーフを有するＤＮＡ分子を捕捉するために使用され得る。いくつかの実施形態は、血漿ＤＮＡ分子の末端に短いオリゴヌクレオチドを連結し得る。次に、プローブは、部分的に末端モチーフであり、部分的に連結されたオリゴヌクレオチドである配列のみを認識するように設計され得る。

いくつかの実施形態は、ＣＲＩＳＰＲベースの診断技術を使用することができ、例えば、ガイドＲＮＡを使用して、臨床的関連ＤＮＡの好ましい末端モチーフに対応する部位を特定し、次にヌクレアーゼを使用して、Ｃａｓ－９またはＣａｓ－１２を使用して行われ得るように、ＤＮＡ断片を切断する。例えば、末端モチーフを認識するためにアダプターが使用され得、末端モチーフ／アダプターハイブリッドを切断し、分子を所望の末端でさらに濃縮するための普遍的な認識可能な末端を作成するためにＣＲＩＳＰＲ／Ｃａｓ９またはＣａｓ－１２が使用され得る。

図４３は、本開示の実施形態による、臨床的関連ＤＮＡについて生物学的試料を濃縮する方法４３００を示すフローチャートである。生物学的試料は、臨床的関連ＤＮＡ分子および無細胞の他のＤＮＡ分子を含む。方法４３００は、特定のアッセイを使用して濃縮を実施し得る。

ブロック４３１０で、生物学的試料から複数の無細胞ＤＮＡ断片が受け取られる。臨床的関連ＤＮＡ断片（例えば、胎児または腫瘍）は、他のＤＮＡ（例えば、母体ＤＮＡ、健康なＤＮＡ、または血液細胞）よりも高い相対頻度で生じる配列モチーフを含む末端配列を有する。例として、図３および１３からのデータを使用し得る。したがって、臨床的関連ＤＮＡについて濃縮するために配列モチーフが使用され得る。

ブロック４３２０で、複数の無細胞ＤＮＡ断片は、複数の無細胞ＤＮＡ断片の末端配列における配列モチーフを検出する１つ以上のプローブ分子に供される。プローブ分子のそのような使用は、検出されたＤＮＡ断片を取得する結果をもたらし得る。一例において、１つ以上のプローブ分子は、複数の無細胞ＤＮＡ断片を調査し、検出されたＤＮＡ断片を増幅するために使用される新しい配列を付加する１つ以上の酵素を含み得る。別の例において、１つ以上のプローブ分子は、ハイブリダイゼーションによって末端配列における配列モチーフを検出するために表面に付着され得る。

ブロック４３３０で、検出されたＤＮＡ断片は、臨床的関連ＤＮＡ断片について生物学的試料を濃縮するために使用される。一例として、検出されたＤＮＡ断片を使用して、臨床的関連ＤＮＡ断片について生物学的試料を濃縮することは、検出されたＤＮＡ断片を増幅することを含み得る。別の例として、検出されたＤＮＡ断片は捕捉され得、検出されなかったＤＮＡ断片は廃棄され得る。

Ｂ．インシリコ濃縮
インシリコ濃縮は、様々な基準を使用して、特定のＤＮＡ断片を選択または破棄し得る。そのような基準は、末端モチーフ、オープンクロマチン領域、サイズ、配列多様性、メチル化、およびその他のエピジェネティックな特性を含む。エピジェネティックな特性には、ＤＮＡ配列の変化を伴わないゲノムの全ての修飾を含む。基準は、例えば、特定のサイズ範囲、特定の量を上回るまたは下回るメチル化メトリック、２つ以上のＣｐＧ部位のメチル化状態の組み合わせ（例えば、メチル化ハプロタイプ（Ｇｕｏｅｔａｌ，ＮａｔＧｅｎｅｔ．２０１７；４９：６３５－４２））など特定の性質を必要とする、または閾値を超える複合確率を有する、カットオフを指定し得る。そのような濃縮はまた、そのような確率に基づいてＤＮＡ断片を重み付けすることを含み得る。

例として、濃縮された試料は、病理を分類するために（上記のように）、同様に腫瘍もしくは胎児の変異を同定するために、または染色体もしくは染色体領域の増幅／欠失検出のためのタグカウントのために使用され得る。例えば、特定の末端モチーフまたは末端モチーフのセットが肝臓癌に関連する場合（すなわち、非癌または他の癌よりも高い相対頻度）、癌スクリーニングを実施するための実施形態は、そのようなＤＮＡ断片を、この好ましい１つの、またはこの好ましいセットの末端モチーフを有さないＤＮＡ断片よりも高く重み付けし得る。

図４４は、本開示の実施形態による、臨床的関連ＤＮＡについて生物学的試料を濃縮する方法４４００を示すフローチャートである。生物学的試料は、臨床的関連ＤＮＡ分子および無細胞の他のＤＮＡ分子を含む。方法４４００は、配列リードの特定の基準を使用して、濃縮を実施し得る。

ブロック４４１０で、配列リードを取得するために生物学的試料由来の複数の無細胞ＤＮＡ断片が分析される。配列リードは、複数の無細胞ＤＮＡ断片の末端に対応する末端配列を含む。ブロック４４１０は、図１９のブロック１９１０と同様の方法で実施され得る。

ブロック４４２０で、複数の無細胞ＤＮＡ断片のそれぞれについて、配列モチーフが、無細胞ＤＮＡ断片の１つ以上の末端配列のそれぞれについて決定される。ブロック４４２０は、図１９のブロック１９２０と同様の方法で実施され得る。

ブロック４４３０で、他のＤＮＡよりも高い相対頻度で臨床的関連ＤＮＡにおいて生じる１つ以上の配列モチーフのセットが同定される。配列モチーフ（複数可）のセットは、本明細書に記載の遺伝子型または表現型の技術によって同定され得る。較正または参照試料は、臨床的関連ＤＮＡに選択的な配列モチーフをランク付けおよび選択のために使用され得る。

ブロック４４４０で、末端配列において１つ以上の配列モチーフのセットを有する配列リードの群が同定される。これは、フィルタリングの最初の段階とみなし得る。

ブロック４４５０で、閾値を超える臨床的関連ＤＮＡに対応する尤度を有する配列リードが保存され得る。尤度は、末端モチーフ（複数可）のセットを使用して決定され得る。例えば、配列リードの群の各配列リードについて、配列リードが臨床的関連ＤＮＡに対応する配列リードの尤度は、１つ以上の配列モチーフのセットの配列モチーフを含む配列リードの末端配列に基づいて決定され得る。尤度は閾値と比較され得る。例として、閾値は経験的に決定され得る。例えば、臨床的関連ＤＮＡの濃度が配列リードの群について測定され得る試料について、様々な閾値が試験され得る。最適な閾値は、配列リードの総数の特定の割合を維持しながら、濃度を最大化し得る。閾値は、健康な対照または疾患を有しないが同様の病因学的リスク要因にさらされた対照群において存在する１つ以上の末端モチーフの濃度の１つ以上の所与のパーセンタイル（５、１０、９０、または９５）によって決定され得る。閾値は、回帰または確率スコアであり得る。

尤度が閾値を超える場合、配列リードはメモリ（例えば、ファイル、テーブル、または他のデータ構造）に保存され得、それにより、保存された配列リードを取得する。閾値を下回る尤度を有する配列リードは、破棄されるか、または保持されているリードのメモリ位置に保存され得ない、またはデータベースのフィールドが、後の分析がそのようなリードを除外し得るようにリードの閾値が低いことを示すフラグを含み得る。例として、尤度は、オッズ比、ｚスコア、または確率分布などの様々な技術を使用して決定され得る。

ブロック４４６０で、保存された配列リードは、他のフローチャートに記載されているように、例えば、本明細書に記載されているように、臨床的関連ＤＮＡ生物学的試料の特性を決定するために分析され得る。方法１９００、２０００、および４２００はそのような例である。例えば、臨床的関連ＤＮＡ生物学的試料の特性は、臨床的関連ＤＮＡの画分濃度であり得る。別の例として、特性は、生物学的試料が取得された対象の病理のレベルであり得、病理のレベルは、臨床的関連ＤＮＡに関連している。別の例として、特性は、生物学的試料が取得された妊婦の胎児の在胎期間であり得る。

他の基準が、尤度を決定するために使用され得る。複数の無細胞ＤＮＡ断片のサイズは、配列リードを使用して測定され得る。特定の配列リードが臨床的関連ＤＮＡに対応する尤度は、特定の配列リードに対応する無細胞ＤＮＡ断片のサイズにさらに基づき得る。

メチル化も使用され得る。したがって、実施形態は、特定の配列リードに対応する無細胞ＤＮＡ断片の１つ以上の部位での１つ以上のメチル化状態を測定し得る。特定の配列リードが臨床的関連ＤＮＡに対応する尤度は、１つ以上のメチル化状態にさらに基づき得る。さらなる例として、リードがオープンクロマチン領域の同定されたセット内にあるかどうかがフィルターとして使用され得る。

図４５は、本開示の実施形態によるＣＣＣＡ末端モチーフを使用した胎児ＤＮＡフラクションの増加を示す例示的なプロットを示す。縦軸は、試験された試料についての胎児ＤＮＡ画分である。２セットのデータは、（１）有益なＳＮＰと重複する全ての断片（すなわち、胎児特異的対立遺伝子を有する断片）および（２）ＣＣＣＡ末端モチーフを持ち、有益なＳＮＰと重複する断片についてである。したがって、左側のデータは試料全体における実際の胎児ＤＮＡ画分を提供し、右側のデータはインシリコで濃縮された試料のデータを提供する。この例において、末端モチーフがＣＣＣＡの場合、尤度は閾値を超えていると決定され得る。より多くのモチーフが同様の方法で、例えば、尤度が閾値を超えていることを示す群として使用され得る。

胎児ＤＮＡ画分の相対的増加の中央値は３．２％（ＩＱＲ：１．３～６．４％）である。胎児ＤＮＡ画分の相対的増加は、（ｂ－ａ）／ａ^＊１００によって定義され、ａは、母親がホモ接合で胎児がヘテロ接合である有益なＳＮＰと重複する全ての断片によって計算された元の胎児ＤＮＡ画分であり、ｂは、胎児のＤＮＡ分子において豊富であるＣＣＣＡモチーフによってタグ付けされた断片によって計算された胎児ＤＮＡ画分である。

本明細書に記載の方法のいずれかについて、無細胞ＤＮＡ断片の１つ以上の末端配列のそれぞれについての配列モチーフは、参照ゲノムを使用して（例えば、図１の技術１６０を介して）実施され得る。そのような技術は、無細胞ＤＮＡ断片に対応する１つ以上の配列リードを参照ゲノムにアラインメントすること、末端配列に隣接する参照ゲノムにおける１つ以上の塩基を同定すること、および配列モチーフを決定するための末端配列および１つ以上の塩基を使用することを含む。

Ｖ．例となるシステム
図４６は、本発明の実施形態による、測定システム４６００を例示する。示されたシステムは、試料ホルダ４６１０内の無細胞ＤＮＡ分子などの試料４６０５を含み、試料４６０５はアッセイ４６０８と接触して物理的特性４６１５の信号を提供し得る。試料ホルダの例は、アッセイのプローブおよび／もしくはプライマー、または液滴が（アッセイを含む液滴とともに）移動するチューブを含む、フローセルであり得る。試料からの物理的特性４６１５（例えば、蛍光強度、電圧、または電流）は、検出器４６２０によって検出される。検出器４６２０は、データ信号を構成するデータ点を取得するために、間隔をおいて（例えば、周期的な間隔）測定し得る。一実施形態において、アナログ－デジタル変換器は、検出器からのアナログ信号をデジタル形態へと複数回変換する。試料ホルダ４６１０および検出器４６２０は、アッセイデバイス、例えば、本明細書に記載される実施形態に従って配列決定を実施する配列決定装置を形成し得る。データ信号４６２５は、検出器４６２０から論理システム４６３０へ送信される。データ信号４６２５は、ローカルメモリ４６３５、外部メモリ４６４０、または記憶デバイス４６４５に保存され得る。

論理システム４６３０は、コンピュータシステム、ＡＳＩＣ、マイクロプロセッサなどであり得るか、またはそれらを含み得る。それはまた、ディスプレイ（例えば、モニタ、ＬＥＤディスプレイなど）、およびユーザ入力デバイス（例えば、マウス、キーボード、ボタンなど）を含み得るか、またはそれらに連結され得る。論理システム４６３０および他の構成要素は、スタンドアローンもしくはネットワーク接続されたコンピュータシステムの一部であり得るか、または検出器４６２０および／または試料ホルダ４６１０を含むデバイス（例えば、配列決定デバイス）に直接取り付けられ得るか、または組み込まれ得る。論理システム４６３０はまた、プロセッサ４６５０において実行するソフトウェアを含み得る。論理システム４６３０は、本明細書に説明される方法のいずれかを実施するようにシステム４６００を制御するための命令を保存するコンピュータ可読媒体を含み得る。例えば、論理システム４６３０は、配列決定または他の物理的操作が実施されるように、試料ホルダ４６１０を含むシステムにコマンドを提供し得る。そのような物理的操作は、特定の順序で、例えば、試薬が特定の順序で追加および除去されるように、実施され得る。そのような物理的操作は、試料を取得してアッセイを実施するために使用され得るように、例えば、ロボットアームを含む、ロボットシステムによって実施され得る。

本明細書で言及されるコンピュータシステムのうちのいずれも、任意の好適な数のサブシステムを利用し得る。コンピュータシステム１０においてこのようなサブシステムの例を図４７に示す。いくつかの実施形態において、コンピュータシステムは、単一のコンピュータ装置を含み、サブシステムは、コンピュータ装置の構成要素であり得る。他の実施形態において、コンピュータシステムは、各々がサブシステムであり、内部構成要素を備える、複数のコンピュータ装置を含み得る。コンピュータシステムは、デスクトップコンピュータおよびラップトップコンピュータ、タブレット、携帯電話、ならびに他の携帯デバイスを含み得る。

図４７に示されるサブシステムは、システムバス７５を介して相互接続される。プリンタ７４、キーボード７８、記憶デバイス（複数可）７９、ディスプレイアダプター８２に接続されたモニタ７６（例えば、ＬＥＤなどのディスプレイスクリーン）、およびその他などの追加のサブシステムが示されている。Ｉ／Ｏコントローラ７１に結合する周辺機器および入力／出力（Ｉ／Ｏ）デバイスは、入力／出力（Ｉ／Ｏ）ポート７７（例えば、ＵＳＢ、ＦｉｒｅＷｉｒｅ（登録商標））などの当技術分野において既知である任意の数の手段によって、コンピュータシステムに接続され得る。例えば、Ｉ／Ｏポート７７または外部インターフェース８１（例えば、Ｅｔｈｅｒｎｅｔ、Ｗｉ－Ｆｉなど）を使用して、Ｉｎｔｅｒｎｅｔなどの広域ネットワーク、マウス入力デバイス、またはスキャナに、コンピュータシステム１０を接続し得る。システムバス７５を介した相互接続は、中央プロセッサ７３が、各サブシステムと通信し、システムメモリ７２または記憶デバイス（複数可）７９（例えば、ハードドライブまたは光ディスクなどの固定ディスク）からの複数の命令の実行、およびサブシステム間の情報交換を制御することを可能にする。システムメモリ７２および／または記憶デバイス（複数可）７９は、コンピュータ可読媒体を具現化し得る。別のサブシステムは、カメラ、マイクロホン、および加速度計、ならびにこれらに類するものなどのデータ収集デバイス８５である。本明細書に言及されるデータのうちのいずれも、１つの構成要素から別の構成要素に出力されてもよく、ユーザに対して出力されてもよい。

コンピュータシステムは、例えば、外部インターフェース８１によって、内部インターフェースによって、または１つの構成要素から別の構成要素に接続され得る、もしくは取り外され得る記憶デバイスを介して、ともに接続された、複数の同じ構成要素またはサブシステムを含み得る。いくつかの実施形態において、コンピュータシステム、サブシステム、または装置は、ネットワーク上で通信し得る。そのような例において、１つのコンピュータをクライアント、別のコンピュータをサーバとみなすことができ、各々が、同じコンピュータシステムの一部であり得る。クライアントおよびサーバは各々、複数のシステム、サブシステム、または構成要素を含み得る。

実施形態の態様は、制御ロジックの形態で、ハードウェア回路（例えば、特定用途向け集積回路もしくはフィールドプログラマブルゲートアレイ）を使用して、および／またはモジュール式もしくは集積様態で汎用プログラマブルプロセッサを有するコンピュータソフトウェアを使用して、実装され得る。本明細書で使用される場合、プロセッサは、シングルコアプロセッサ、同じ集積チップ上のマルチコアプロセッサ、または単一の回路基板もしくはネットワーク化された上の複数の処理ユニット、ならびに専用のハードウェアを含み得る。本開示および本明細書に提供される教示に基づいて、当業者は、ハードウェア、およびハードウェアとソフトウェアとの組み合わせを使用して、本発明の実施形態を実装するための他の方法および／または方法を認識および理解するであろう。

本出願で説明されるソフトウェア構成要素または関数のうちのいずれも、例えば、Ｊａｖａ、Ｃ、Ｃ＋＋、Ｃ＃、Ｏｂｊｅｃｔｉｖｅ－Ｃ、Ｓｗｉｆｔなどの任意の好適なコンピュータ言語、または、例えば、従来の技術もしくはオブジェクト指向の技術を使用するＰｅｒｌもしくはＰｙｔｈｏｎなどのスクリプト言語を使用する、処理デバイスによって実行されるソフトウェアコードとして実装され得る。ソフトウェアコードは、記憶および／または伝送のためのコンピュータ可読媒体上に一連の命令またはコマンドとして記憶され得る。好適な非一時的コンピュータ可読媒体は、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、磁気媒体（ハードドライブもしくはフロッピーディスクなど）、または光学媒体（コンパクトディスク（ＣＤ）もしくはＤＶＤ（デジタル多用途ディスク）など）、またはブルーレイディスクおよびフラッシュメモリなどを含み得る。コンピュータ可読媒体は、そのような記憶または送信デバイスの任意の組み合わせであってもよい。

そのようなプログラムはまた、コード化され、インターネットを含む様々なプロトコルに従う有線ネットワーク、光ネットワーク、および／または無線ネットワークを介した送信に適合した搬送波信号を使用して送信され得る。したがって、コンピュータ可読媒体は、そのようなプログラムでコード化されたデータ信号を使用して作成され得る。プログラムコードでコード化されたコンピュータ可読媒体は、互換性のあるデバイスでパッケージ化されていてもよく、または（例えば、インターネットダウンロードを介して）他のデバイスとは別個に提供され得る。任意のそのようなコンピュータ可読媒体は、単一のコンピュータ製品（例えば、ハードドライブ、ＣＤ、もしくはコンピュータシステム全体）上もしくはその内部に存在し得、システムまたはネットワーク内の異なるコンピュータ製品上もしくはその内部に存在し得る。コンピュータシステムは、モニタ、プリンタ、または本明細書に記載の結果のうちのいずれかをユーザへ提供するための他の好適なディスプレイを含み得る。

本明細書記載の方法のうちのいずれも、ステップを実施するように構成することができる１つ以上のプロセッサを含むコンピュータシステムを用いて全体的または部分的に実施され得る。したがって、実施形態は、本明細書に説明される方法のうちのいずれかのステップを実施するように構成されたコンピュータシステムを対象とし得、潜在的には異なる構成要素がそれぞれのステップまたはそれぞれのステップの群を実施する。番号付けされたステップとして提示されるが、本明細書の方法のステップは、同時にもしくは異なる時間に、または異なる順序で実施され得る。加えて、これらのステップの部分は、他の方法からの他のステップの部分と併用され得る。また、あるステップの全てまたは部分は、任意選択的であり得る。加えて、本方法のうちのいずれかのステップのうちのいずれかは、これらのステップを実施するためのシステムのモジュール、ユニット、回路、または他の手段を用いて実施され得る。

特定の実施形態の具体的な詳細は、本発明の実施形態の趣旨および範囲から逸脱することなく、任意の好適な様態で組み合わせることができる。しかしながら、本発明の他の実施形態は、各個々の態様、またはこれらの個々の態様の具体的な組み合わせに関する具体的な実施形態を対象とし得る。

本開示の例示的実施形態の上の説明は、例示および説明の目的で提示されている。包括的であること、または本開示を説明された正確な形態に限定することは意図されず、多くの修正および変更が、先の教示に鑑みて可能である。

「ａ」、「ａｎ」、または「ｔｈｅ」の記述は、それとは反対に具体的に示されない限り、「１つ以上」を意味することが意図される。「または」の使用は、それとは反対に具体的に示されない限り、「を除く、または」ではなく「を含む、または」を意味することが意図される。「第１」の構成要素への言及は、第２の構成要素が提供されることを必ずしも必要としない。さらに、「第１」または「第２」の構成要素への言及は、明示的に述べられていない限り、言及される構成要素を特定の場所に限定するものではない。「～に基づいて」という用語は、「少なくとも一部に基づいて」を意味することを意図している。

本明細書において言及される全ての特許、特許出願、刊行物、および明細書は、全ての目的に対して参照によりそれらの全体が組み込まれる。いかなるものも、先行技術であるとは認められていない。

Claims

対象の生物学的試料において、病理のレベルを分類する方法であって、前記生物学的試料は、無細胞ＤＮＡを含み、前記方法は、
前記生物学的試料由来の複数の無細胞ＤＮＡ断片を分析して配列リードを取得することであって、前記配列リードは、前記複数の無細胞ＤＮＡ断片の末端に対応する末端配列を含む、配列リードを取得することと、
前記複数の無細胞ＤＮＡ断片のそれぞれについて、前記無細胞ＤＮＡ断片の１つ以上の末端配列のそれぞれの配列モチーフを決定することと、
前記複数の無細胞ＤＮＡ断片の前記末端配列に対応する１つ以上の配列モチーフのセットの相対頻度を決定することであって、配列モチーフの相対頻度は、前記配列モチーフに対応する末端配列を有する前記複数の無細胞ＤＮＡ断片の割合を提供する、相対頻度を決定することと、
前記１つ以上の配列モチーフのセットの前記相対頻度の集計値を決定することと、
前記集計値と参照値との比較に基づいて、前記対象についての病理のレベルの分類を決定することと、を含む、方法。
前記無細胞ＤＮＡをフィルタリングして、前記複数の無細胞ＤＮＡ断片を同定することをさらに含む、請求項１に記載の方法。
前記フィルタリングが、ＤＮＡ断片が由来するサイズまたは領域に基づく、請求項２に記載の方法。
前記無細胞ＤＮＡが、特定の組織のオープンクロマチン領域由来のＤＮＡ断片についてフィルタリングされる、請求項３に記載の方法。
前記病理が、癌である、請求項１に記載の方法。
前記癌が、肝細胞癌、肺癌、乳癌、胃癌、多形性神経膠芽細胞腫、膵臓癌、結腸直腸癌、上咽頭癌、および頭頸部扁平上皮細胞癌である、請求項５に記載の方法。
前記分類が、癌の複数のステージを含む癌の複数のレベルから決定される、請求項５に記載の方法。
前記病理が、自己免疫障害である、請求項１に記載の方法。
前記自己免疫障害が、全身性エリテマトーデスである、請求項８に記載の方法。
前記病理のレベルが、前記病理に関連する臨床的関連ＤＮＡの画分濃度に対応する、請求項１に記載の方法。
対象の生物学的試料における臨床的関連ＤＮＡの画分濃度を推定する方法であって、前記生物学的試料は、前記臨床的関連ＤＮＡおよび無細胞である他のＤＮＡを含み、前記方法は、
前記生物学的試料由来の複数の無細胞ＤＮＡ断片を分析して配列リードを取得することであって、前記配列リードは、前記複数の無細胞ＤＮＡ断片の末端に対応する末端配列を含む、配列リードを取得することと、
前記複数の無細胞ＤＮＡ断片のそれぞれについて、前記無細胞ＤＮＡ断片の１つ以上の末端配列のそれぞれの配列モチーフを決定することと、
前記複数の無細胞ＤＮＡ断片の前記末端配列に対応する１つ以上の配列モチーフのセットの相対頻度を決定することであって、配列モチーフの相対頻度は、前記配列モチーフに対応する末端配列を有する前記複数の無細胞ＤＮＡ断片の割合を提供する、相対頻度を決定することと、
前記１つ以上の配列モチーフのセットの前記相対頻度の集計値を決定することと、
前記集計値を臨床的関連ＤＮＡの画分濃度が既知の１つ以上の較正試料から決定された１つ以上の較正値と比較することによって、前記生物学的試料における臨床的関連ＤＮＡの前記画分濃度の分類を決定することと、を含む、方法。
前記臨床的関連ＤＮＡが、胎児ＤＮＡ、腫瘍ＤＮＡ、移植臓器由来のＤＮＡ、および特定の組織タイプからなる群から選択される、請求項１１に記載の方法。
前記臨床的関連ＤＮＡが、特定の組織タイプのものである、請求項１１に記載の方法。
前記特定の組織タイプが、肝臓または造血性である、請求項１３に記載の方法。
前記対象が、妊娠中の女性であり、前記臨床的関連ＤＮＡが胎盤組織である、請求項１１に記載の方法。
前記臨床的関連ＤＮＡが、癌を有する器官に由来する腫瘍ＤＮＡである、請求項１１に記載の方法。
前記１つ以上の較正値が、複数の較正試料の臨床的関連ＤＮＡの画分濃度を使用して決定される較正関数の複数の較正値である、請求項１１に記載の方法。
前記１つ以上の較正値が、前記１つ以上の較正試料における無細胞ＤＮＡ断片を使用して測定される前記１つ以上の配列モチーフのセットの前記相対頻度の１つ以上の集計値に対応する、請求項１１に記載の方法。
前記１つ以上の較正試料の各較正試料について、
前記較正試料における臨床的関連ＤＮＡの前記画分濃度を測定することと、
較正データ点の取得の一部として前記較正試料由来の無細胞ＤＮＡ断片を分析することによって、前記１つ以上の配列モチーフのセットの前記相対頻度の前記集計値を決定し、それによって１つ以上の集計値を決定することと、をさらに含み、各較正データ点が、前記較正試料における臨床的関連ＤＮＡの前記測定された画分濃度、および前記較正試料について決定された前記集計値を指定し、前記１つ以上の較正値が、前記１つ以上の集計値であるか、または前記１つ以上の集計値を使用して決定される、請求項１１に記載の方法。
前記較正試料における臨床的関連ＤＮＡの前記画分濃度の測定が、前記臨床的関連ＤＮＡに特異的な対立遺伝子を使用して実施される、請求項１９に記載の方法。
胎児を妊娠している女性対象由来の生物学的試料を分析することによって胎児の在胎期間を決定する方法であって、前記生物学的試料は、前記女性対象および前記胎児由来の無細胞ＤＮＡ分子を含み、前記方法は、
前記生物学的試料由来の複数の無細胞ＤＮＡ断片を分析して配列リードを取得することであって、前記配列リードは、前記複数の無細胞ＤＮＡ断片の末端に対応する末端配列を含む、配列リードを取得することと、
前記複数の無細胞ＤＮＡ断片のそれぞれについて、前記無細胞ＤＮＡ断片の１つ以上の末端配列のそれぞれの配列モチーフを決定することと、
前記複数の無細胞ＤＮＡ断片の前記末端配列に対応する１つ以上の配列モチーフのセットの相対頻度を決定することであって、配列モチーフの相対頻度が、前記配列モチーフに対応する末端配列を有する前記複数の無細胞ＤＮＡ断片の割合を提供する、相対頻度を決定することと、
前記１つ以上の配列モチーフのセットの前記相対頻度の集計値を決定することと、
１つ以上の較正データ点を取得することであって、各較正データ点は、集計値に対応する在胎期間を指定し、前記１つ以上の較正データ点は、既知の在胎期間を有し、無細胞ＤＮＡ分子を含む複数の較正試料から決定される、較正データ点を取得することと、
前記集計値を少なくとも１つの較正データ点の較正値と比較することと、
前記比較に基づいて前記胎児の在胎期間を推定することと、を含む、方法。
前記１つ以上の較正データ点が、既知の在胎期間を有する前記複数の較正試料における前記無細胞ＤＮＡ分子から決定された測定された集計値を近似する較正関数を形成する複数の較正データ点である、請求項２１に記載の方法。
前記集計値が、それぞれ前記複数の較正試料の１つに対応する複数の較正値と比較される、請求項２１に記載の方法。
前記少なくとも１つの較正データ点の前記較正値が、前記複数の較正試料のうちの少なくとも１つにおける前記無細胞ＤＮＡ分子を使用して測定された前記集計値に対応する、請求項２１に記載の方法。
前記複数の無細胞ＤＮＡ断片を前記胎児に由来するものとして同定することをさらに含む、請求項２１に記載の方法。
前記複数の無細胞ＤＮＡ断片が、胎児特異的対立遺伝子または胎児特異的エピジェネティックマーカーを使用して同定される、請求項２５に記載の方法。
前記複数の無細胞ＤＮＡ断片が、
前記配列リードのそれぞれについて、
前記１つ以上の配列モチーフのセットの配列モチーフを含む前記配列リードの末端配列に基づいて、前記配列リードが前記胎児に対応する尤度を決定することと、
前記尤度を閾値と比較することと、
前記尤度が前記閾値を超えたときに、前記配列リードを前記胎児に由来するものとして同定することと、によって同定される、請求項２５に記載の方法。
前記１つ以上の配列モチーフのセットが、Ｎ塩基位置を含み、前記１つ以上の配列モチーフのセットが、Ｎ塩基の全ての組み合わせを含み、Ｎが３以上の整数である、請求項１～２７のいずれか一項に記載の方法。
前記１つ以上の配列モチーフのセットが、１つ以上の参照試料において決定された２つのタイプのＤＮＡの間で最大の差を有する上位Ｍ個の配列モチーフであり、Ｍが１以上の整数である、請求項１～２７のいずれか一項に記載の方法。
前記２つのタイプのＤＮＡが、前記臨床的関連ＤＮＡおよび前記他のＤＮＡである、請求項２９に記載の方法。
前記２つのタイプのＤＮＡが、前記病理のレベルについて異なる分類を有する２つの参照試料に由来する、請求項２９に記載の方法。
前記１つ以上の配列モチーフのセットが、１つ以上の参照試料において発生する上位Ｍ個の最も頻度の高い配列モチーフであり、Ｍは１以上の整数である、請求項１～２７のいずれか一項に記載の方法。
前記１つ以上の配列モチーフのセットが、複数の配列モチーフを含み、前記集計値が前記セットの前記相対頻度の合計を含む、請求項２８～３２のいずれか一項に記載の方法。
前記合計が、加重合計である、請求項３３に記載の方法。
前記集計値が、エントロピー項を含み、前記エントロピー項が前記加重合計を含む項の合計を含み、各項が前記相対頻度の対数を乗じた相対頻度を含む、請求項３４に記載の方法。
前記集計値が、前記相対頻度の分散に対応する、請求項１～３５のいずれか一項に記載の方法。
前記集計値が、機械学習モデルの最終または中間の出力を含む、請求項１～３５のいずれか一項に記載の方法。
前記機械学習モデルが、クラスタリング、サポートベクターマシン、またはロジスティック回帰を使用する、請求項３７に記載の方法。
臨床的関連ＤＮＡについて生物学的試料を濃縮する方法であって、前記生物学的試料は、前記臨床的関連ＤＮＡおよび無細胞である他のＤＮＡを含み、前記方法は、
前記生物学的試料由来の複数の無細胞ＤＮＡ断片を分析して配列リードを取得することであって、前記配列リードは、前記複数の無細胞ＤＮＡ断片の末端に対応する末端配列を含む、配列リードを取得することと、
前記複数の無細胞ＤＮＡ断片のそれぞれについて、前記無細胞ＤＮＡ断片の１つ以上の末端配列のそれぞれの配列モチーフを決定することと、
前記他のＤＮＡよりも高い相対頻度で前記臨床的関連ＤＮＡに存在する１つ以上の配列モチーフのセットを同定することと、
末端配列における前記１つ以上の配列モチーフのセットを有する前記配列リードの群を同定することと、
前記配列リードの前記群の配列リードごとについて、
前記１つ以上の配列モチーフのセットの配列モチーフを含む前記配列リードの末端配列に基づいて、前記配列リードが前記臨床的関連ＤＮＡに対応する尤度を決定することと、
前記尤度を閾値と比較することと、
前記尤度が前記閾値を超えたときに、前記配列リードを保存し、それによって保存された配列リードを取得することと、
前記保存された配列リードを分析して、前記臨床的関連ＤＮＡ前記生物学的試料の特性を決定することと、を含む、方法。
前記臨床的関連ＤＮＡ前記生物学的試料の前記特性が、（１）前記臨床的関連ＤＮＡの画分濃度、（２）前記生物学的試料が取得された対象の病理のレベル、前記臨床的関連ＤＮＡに関連する病理の前記レベル、または（３）前記生物学的試料が取得された妊娠中の女性の胎児の在胎期間である、請求項３９に記載の方法。
前記配列リードを使用して前記複数の無細胞ＤＮＡ断片のサイズを測定することをさらに含み、特定の配列リードが前記臨床的関連ＤＮＡに対応する前記尤度を決定することが、前記特定の配列リードに対応する前記無細胞ＤＮＡ断片のサイズにさらに基づく、請求項３９に記載の方法。
特定の配列リードに対応する無細胞ＤＮＡ断片の１つ以上の部位での１つ以上のメチル化状態を測定することをさらに含み、前記特定の配列リードが前記臨床的関連ＤＮＡに対応する前記尤度を決定することが、前記１つ以上のメチル化状態にさらに基づく、請求項３９に記載の方法。
前記無細胞ＤＮＡ断片の１つ以上の末端配列のそれぞれについての前記配列モチーフを決定することが、
前記無細胞ＤＮＡ断片に対応する１つ以上の配列リードを参照ゲノムにアラインメントすることと、
前記末端配列に隣接する前記参照ゲノムにおける１つ以上の塩基を同定することと、
前記末端配列および前記１つ以上の塩基を使用して前記配列モチーフを決定することと、を含む、請求項１～４２のいずれか一項に記載の方法。
臨床的関連ＤＮＡについて生物学的試料を濃縮する方法であって、前記生物学的試料は、前記臨床的関連ＤＮＡおよび無細胞である他のＤＮＡを含み、前記方法は、
前記生物学的試料由来の複数の無細胞ＤＮＡ断片を受け取ることであって、臨床的関連ＤＮＡ断片は、前記他のＤＮＡよりも高い相対頻度で発生する配列モチーフを含む末端配列を有する、無細胞ＤＮＡ断片を受け取ることと、
前記複数の無細胞ＤＮＡ断片を、前記複数の無細胞ＤＮＡ断片の前記末端配列における前記配列モチーフを検出する１つ以上のプローブ分子に供し、それにより、検出されたＤＮＡ断片を取得することと、
前記検出されたＤＮＡ断片を使用して前記臨床的関連ＤＮＡ断片について前記生物学的試料を濃縮することと、を含む、方法。
前記検出されたＤＮＡ断片を使用して前記臨床的関連ＤＮＡ断片について前記生物学的試料を濃縮することが、
前記検出されたＤＮＡ断片を増幅することを含む、請求項４４に記載の方法。
前記１つ以上のプローブ分子が、前記複数の無細胞ＤＮＡ断片を調べ、前記検出されたＤＮＡ断片を増幅するために使用される新しい配列を付加する１つ以上の酵素を含む、請求項４５に記載の方法。
前記検出されたＤＮＡ断片を使用して前記臨床的関連ＤＮＡ断片について前記生物学的試料を濃縮することが、
前記検出されたＤＮＡ断片を捕捉することと、
検出されなかったＤＮＡ断片を破棄することと、を含む、請求項４４に記載の方法。
１つ以上のプローブ分子が、表面に結合され、ハイブリダイゼーションによって前記末端配列における前記配列モチーフを検出する、請求項４７に記載の方法。
請求項１～４８のいずれか一項に記載の方法を実施するコンピュータシステムを制御するための複数の命令を記憶するコンピュータ可読媒体を備える、コンピュータ製品。
請求項４９に記載のコンピュータ製品と、
前記コンピュータ可読媒体に記憶された命令を実行するための１つ以上のプロセッサと、を備える、システム。
請求項１～４８のいずれか一項に記載の方法を実施するための手段を備える、システム。
請求項１～４８のいずれか一項に記載の方法を実施するように構成された１つ以上のプロセッサを備える、システム。
請求項１～４８のいずれか一項に記載の方法のステップをそれぞれ実施するモジュールを備える、システム。