JP2023145696A

JP2023145696A - 無細胞ウイルス核酸を用いる癌スクリーニングの強化

Info

Publication number: JP2023145696A
Application number: JP2023126899A
Authority: JP
Inventors: ユク－ミンデニスロー; Dennis Lo Yuk-Ming; ロッサワイクンチウ; Kwun Rossa Chiu Wai; クワンチーチャン; Kwan Chee Chan; ペイヨンチアン; Peiyong Jiang; ワイケイラム; Wai Kei Lam
Original assignee: Chinese University of Hong Kong CUHK
Current assignee: Chinese University of Hong Kong CUHK
Priority date: 2017-07-26
Filing date: 2023-08-03
Publication date: 2023-10-11
Also published as: IL272030A; EP4234723A3; PH12020500156A1; ES2959360T3; AU2018305609B2; CN111051536A; EP3658684B1; SG11202000609SA; US20190032145A1; EP3658684A1; TW201920683A; EP4234723A2; US10731224B2; AU2018305609A1; CA3070898A1; EP3658684A4; US20200325546A1; JP2020527958A; KR20200035427A; AU2023202318A1

Abstract

【課題】初期ステージでの腫瘍を検出するための感度および／または特異度を有する方法を提供すること。【解決手段】生体試料の混合物中の無細胞ＤＮＡ分子を分析して、ウイルスＤＮＡを検出することができる。ウイルスゲノムの１つ以上の部位でのウイルスＤＮＡ分子のメチル化を決定することができる。混合物メチル化レベル（複数可）は、特定のウイルスゲノムの部位（複数可）のセットにおいてメチル化された複数の無細胞ＤＮＡ分子のうちの１つ以上の量に基づいて測定することができる。混合物メチル化レベル（複数可）は、様々な方法で、例えば、ある部位で、または複数の部位もしくは領域にわたってメチル化される無細胞ＤＮＡ分子の密度として決定されることができる。混合物メチル化レベル（複数可）は、例えば、他の対象の少なくとも２つのコホートから決定された参照メチル化レベル（複数可）と比較することができる。コホートは、特定のウイルスゲノムに関連した異なる分類（第１の病態を含む）を有することができる。対象が第１の病態を有するかどうかの第１の分類は、比較に基づいて決定することができる。【選択図】なし

Description

関連出願の相互参照
本出願は、「ＥｎｈａｎｃｅｍｅｎｔＯｆＣａｎｃｅｒＳｃｒｅｅｎｉｎｇＵｓｉｎｇＣｅｌｌ－ＦｒｅｅＶｉｒａｌＮｕｃｌｅｉｃＡｃｉｄｓ」と題された、２０１７年７月２６日に出願された米国仮特許出願第６２／５３７，３２８号の優先権を主張し、かつその非仮出願である。その全内容はすべての目的のために参照により本明細書に組み込まれる。

腫瘍細胞が腫瘍由来ＤＮＡを血流に放出するという発見は、無細胞試料（血漿など）を使用して対象における腫瘍の存在、位置、および／またはタイプを決定することができる非侵襲的方法の開発を巻き起こした。多くの腫瘍は、発生初期に発見されれば治療可能であり得る。しかし、現在の方法では、初期ステージでの腫瘍を検出するための感度および／または特異度が欠けている可能性があり、多数の偽陽性または偽陰性の結果を返し得る。例えば、特定のウイルスは癌に関連するが、癌ではない対象においてウイルスＤＮＡを検出することができ、それによって偽陽性の結果が生じる。

検査の感度とは、ある病態に対して陽性の対象がその病態に対して陽性となる可能性を指し得る。検査の特異度とは、ある病態に対して陰性の対象がその病態に対して陰性となる可能性を指し得る。腫瘍の早期検出のためのアッセイでは、感度や特異度の問題が誇張される場合があり得る。例えば、そのような腫瘍検出方法が実行される試料は腫瘍由来を比較的少量しか含み得ず、初期ステージで検査された個体間では病態自体が比較的低い有病率となるためである。したがって、腫瘍の検出により高い感度および／または特異度を有する方法には臨床的必要性がある。

実施形態は、例えば、ヒトなどの動物界における対象の生体試料を分析するためのシステム、装置、および方法を提供する。生体試料の混合物中の無細胞ＤＮＡ分子を分析して、例えば、特定のウイルスゲノムにおける位置を決定することにより、ウイルスＤＮＡを検出することができる。ウイルスゲノムの１つ以上の部位におけるウイルスＤＮＡのメチル化状態を決定することができる。混合物メチル化レベル（複数可）は、特定のウイルスゲノムの部位（複数可）のセットにおいてメチル化された複数の無細胞ＤＮＡ分子のうちの１つ以上の量に基づいて測定することができる。混合物メチル化レベル（複数可）は、様々な方法で、例えば、特定の部位でまたは複数の部位にわたって、場合によっては複数の領域（各領域は１つ以上の部位を含む）にわたって、メチル化される無細胞ＤＮＡ分子のパーセンテージ／密度として決定されることができる。

混合物メチル化レベル（複数可）は、例えば、他の対象の少なくとも２つのコホートから決定された参照メチル化レベル（複数可）と比較することができる。コホートは、特定のウイルスゲノムに関連した異なる分類（第１の病態を含む）を有することができる。他のコホート（複数可）は、他の病態（複数可）に対応することができる。この比較は、様々な方法で、例えば、Ｎ個のメチル化レベルの多次元ポイントを形成し、Ｎ個の参照メチル化レベルとの差を決定することによって、実行されることができる。対象が第１の病態を有するかどうかの第１の分類は、この比較に基づいて決定することができる。

本開示のこれらおよび他の実施形態を、以下で詳細に説明する。例えば、他の実施形態は、本明細書に記載の方法に関連付けられたシステム、デバイス、およびコンピューター可読媒体に関する。

本開示の実施形態の性質および利点のより良好な理解は、以下の詳細な説明および添付の図面を参照して得ることができる。

本開示の実施形態による標的化バイサルファイト配列決定のための捕捉プローブの設計を示す。本開示の実施形態による、伝染性単核球症、鼻咽頭癌（ＮＰＣ）、およびナチュラルキラー（ＮＫ）－Ｔ細胞リンパ腫の患者におけるエプスタイン・バーウイルス（ＥＢＶ）ゲノム全体におけるＣｐＧ部位のメチル化密度を示す。本開示の実施形態による、初期ステージＮＰＣ（ステージＩ）を有するスクリーニングコホートからの患者（ＡＬ０３８）における血漿ＥＢＶＤＮＡのメチル化プロファイルを示す。本開示の実施形態による、異なる病態を有する２人の患者間のＥＢＶゲノム全体におけるＣｐＧ部位のメチル化密度の差を示す。本開示の実施形態による、ＮＰＣ（ＴＢＲ１３９２およびＴＢＲ１４１６）を有する２人の患者間のＥＢＶゲノム全体におけるＣｐＧ部位のメチル化密度の差を示す。本開示の実施形態による、初期ステージＮＰＣを有する患者（ＡＯ０５０）と血漿ＥＢＶＤＮＡの偽陽性結果を有する対象（ＨＢ００２）との間の血漿ＥＢＶＤＮＡのメチル化パターンの差を示す。本開示の実施形態による、ある患者のＥＢＶゲノム全体におけるＣｐＧ部位のメチル化密度（ｘ軸）と、他の患者の同じＣｐＧ部位の対応するメチル化密度（ｙ軸）を示すドットプロットである。本開示の実施形態による、伝染性単核球症（ＩＭ）（ｎ＝２）、ＥＢＶ関連リンパ腫（ｎ＝３）、一時的陽性の血漿ＥＢＶＤＮＡ（ｎ＝３）、持続的陽性の血漿ＥＢＶＤＮＡ（ｎ＝３）、およびＮＰＣ（ｎ＝６）を有する対象におけるＥＢＶゲノムのＣｐＧ部位に基づく血漿ＥＢＶＤＮＡのメチル化割合を示す。本開示の実施形態による、第１の選択基準を満たす特異的メチル化領域（ＤＭＲ）のマイニングを示す。図９に記載された基準を満たす特異的メチル化領域のゲノム座標をリストする表である。本開示の実施形態による、伝染性単核球症（ＩＭ）（ｎ＝２）、ＥＢＶ関連リンパ腫（ｎ＝３）、一時的陽性の血漿ＥＢＶＤＮＡ（ｎ＝３）、持続的陽性の血漿ＥＢＶＤＮＡ（ｎ＝３）、およびＮＰＣ（ｎ＝６）を有する対象における図１０に記載の３９個のＤＭＲ内の８２１個のＣｐＧ部位に基づく血漿ＥＢＶＤＮＡのメチル化割合を示す。本開示の実施形態による、第２の選択基準を満たす特異的メチル化領域（ＤＭＲ）のマイニングを示す。本開示の実施形態による、一時的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象、持続的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象、およびＮＰＣ患者における図１２に明記の４６個のＤＭＲに基づく血漿ＥＢＶＤＮＡのメチル化割合を示す。本開示の実施形態による、第３の選択基準を満たす代表的なメチル化コンセンサス領域のマイニングを示す。本開示の実施形態による、伝染性単核球症（ＩＭ）（ｎ＝２）、ＥＢＶ関連リンパ腫（ｎ＝３）、一時的陽性の血漿ＥＢＶＤＮＡ（ｎ＝３）、持続的陽性の血漿ＥＢＶＤＮＡ（ｎ＝３）、およびＮＰＣ（ｎ＝６）を有する対象の同一群における図１２に記載の「代表的な」ＣｐＧ部位に基づく血漿ＥＢＶＤＮＡのメチル化割合を示す。本開示の実施形態による、持続的に陽性の血漿ＥＢＶＤＮＡを有する３症例のプールされた配列決定データで８０％超の部位、およびＮＰＣを有する対象３人で２０％未満の平均値の部位にわたるメチル化割合を有するＣｐＧ部位の例を示す。本開示の実施形態による、持続的に陽性の血漿ＥＢＶＤＮＡを有する３症例のプールされた配列決定データで２０％未満の部位、およびＮＰＣを有する対象３人で８０％超の部位にわたるメチル化割合を有するＣｐＧ部位の例を示す。本開示の実施形態による、ＮＰＣ患者６人（本発明のスクリーニングコホートからの初期ステージ疾患の患者４人を含む）、節外性ＮＫ－Ｔ細胞リンパ腫患者２人、および伝染性単核球症患者２人についての血漿ＥＢＶＤＮＡのメチル化パターン分析に基づく階層的クラスタリング分析を使用したクラスター樹状図を示す。本開示の実施形態による、ＮＰＣ患者６人（本発明のスクリーニングコホートからの初期ステージＮＰＣ患者４人を含む）、および持続的に陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象３人についての血漿ＥＢＶＤＮＡのメチル化パターン分析に基づく階層的クラスタリング分析を使用したクラスター樹状図を示す。鼻咽頭癌、ＮＫ－Ｔ細胞リンパ腫、および感染性単核球症の患者の全ＥＢＶゲノムにおけるすべての非重複５００ｂｐ領域のメチル化レベルを示すヒートマップ２０００を示す。本開示の実施形態による、ＮＰＣ患者２人（ＴＢＲ１３９２とＴＢＲ１４１６）および伝染性単核球症患者２人（ＴＢＲ１６１０とＴＢＲ１６６１）、ならびに連続分析で持続的に陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象３人（ＡＦ０９１、ＨＢ００２、およびＨＦ０２０）においてＥＢＶゲノムおよびヒトゲノムにマッピングされた配列決定された血漿ＤＮＡ断片のサイズ分布のサイズプロファイルを示す。本開示の実施形態による、ＮＰＣ患者６人および血漿ＥＢＶＤＮＡに対して持続的に陽性である対象３人におけるサイズ比を示す。本開示の実施形態による、一時的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象、持続的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象、およびＮＰＣ患者におけるＥＢＶＤＮＡサイズ比を示す。本開示の実施形態による、一時的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象、持続的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象、およびＮＰＣ患者において配列決定されたすべての血漿ＤＮＡリードのうちの血漿ＥＢＶＤＮＡリード（ＥＢＶゲノムにマッピングされた血漿ＤＮＡリード）の割合を示す。本開示の実施形態による、ＮＰＣ患者、一時的陽性、および持続的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象についての血漿ＥＢＶＤＮＡリードの割合および対応するサイズ比値のプロットである。本開示の実施形態による、ＮＰＣ患者、一時的陽性、および持続的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象についての血漿ＥＢＶＤＮＡリードの割合および対応するメチル化割合値のプロットである。本開示の実施形態による、ＮＰＣ患者、一時的陽性、および持続的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象についての血漿ＥＢＶＤＮＡリードの割合および対応するサイズ比およびメチル化割合値の３次元プロットを示す。本開示の実施形態による、数ベース、サイズベース、およびメチル化ベースの分析の様々な組み合わせの受信者動作特性曲線（ＲＯＣ）曲線分析を示す。ＨＰＶ陽性の頭頸部扁平上皮癌（ＨＰＶ＋ｖｅＨＮＳＣＣ）の５症例の臨床ステージを示す。本開示の実施形態による、ＨＰＶ陽性頭頸部扁平上皮癌（ＨＰＶ＋ｖｅＨＮＳＣＣ）を有する個々の患者における血漿ＨＰＶＤＮＡのメチル化プロファイルを示す。本開示の実施形態による、ＨＰＶ＋ｖｅＨＮＳＣＣを有する患者２人におけるＨＰＶゲノム全体におけるすべてのＣｐＧ部位のメチル化レベルを示す。本開示の実施形態による、Ｂ型肝炎ウイルス（ＨＢＶ）ＤＮＡリード（ＨＢＶゲノムにマッピングされた血漿ＤＮＡリード）の割合、ならびに慢性Ｂ型肝炎ウイルス感染（ＨＢＶ）患者９人および肝細胞癌（ＨＣＣ）患者１０人についてのＨＢＶゲノム全体におけるすべてのＣｐＧ部位のメチル化割合を示す。本開示の実施形態による、第１の病態の分類を決定するための動物である対象の生体試料を分析する方法を示すフローチャートである。本発明の一実施形態によるシステムを示す。本発明の実施形態による、システムおよび方法とともに使用可能な、例示的なコンピューターシステムのブロック図を示す。

付録Ａは、持続的陽性のＥＢＶＤＮＡを有する対象３人とＮＰＣ患者３人のプールされた配列データ間のこれらのＣｐＧ部位のメチル化割合の差が２０％を超える場合に、特異的メチル化レベルを持つＥＢＶゲノム全体における個々のＣｐＧ部位のリストを示す。＊でマークされた部位は、４０％超、＊＊は６０％超、＊＊＊は８０％超のメチル化割合の差である。

用語
「試料」、「生体試料」、または「患者試料」という用語は、生きている対象または死んだ対象に由来する任意の組織または物質を含むことを意味する。生体試料は、無細胞試料であり得、これは、対象からの核酸分子と、病原体、例えば場合によってはウイルスからの核酸分子との混合物を含み得る。生体試料は一般に、核酸（例えば、ＤＮＡまたはＲＮＡ）またはその断片を含む。「核酸」という用語は一般に、デオキシリボ核酸（ＤＮＡ）、リボ核酸（ＲＮＡ）、またはそれらの任意のハイブリッドまたは断片を指し得る。試料中の核酸は無細胞核酸であってもよい。試料は、液体試料または固体試料（例えば、細胞または組織試料）であり得る。生体試料は、血液、血漿、血清、尿、膣液、水腫（例えば精巣の）からの液、膣洗浄流体、胸水、腹水、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液、乳首からの排出液、体の異なる部分からの吸引液などの体液であり得る。便試料もまた、使用することができる。種々の実施形態では、無細胞ＤＮＡのために濃縮された生体試料（例えば、遠心分離プロトコルを介して得られた血漿試料）におけるＤＮＡの大部分は、無細胞であり得る（例えば、ＤＮＡの５０％、６０％、７０％、８０％、９０％、９５％、または９９％超は、無細胞であり得る）。遠心分離プロトコルは、例えば、３，０００ｇ×１０分で流体部分を得ることと、残留細胞を除去するために３０，０００ｇでさらに１０分間再遠心分離することと、を含み得る。

本明細書で使用される「断片」（例えば、ＤＮＡ断片）という用語は、少なくとも３つの連続したヌクレオチドを含むポリヌクレオチドまたはポリペプチド配列の一部を指し得る。核酸断片は、親ポリペプチドの生物学的活性および／またはいくつかの特徴を保持することができる。核酸断片は、二本鎖または一本鎖、メチル化または非メチル化、インタクトまたはニック、他の高分子、例えば脂質粒子、タンパク質と複合または非複合であり得る。一例では、鼻咽頭癌細胞は、エプスタイン・バーウイルス（ＥＢＶ）ＤＮＡ断片を対象、例えば患者、の血流に放出することができる。これらの断片は、血漿中の腫瘍由来ＤＮＡのレベルを検出するために使用することができる、１つ以上のＢａｍＨＩ－Ｗ配列断片を含むことができる。ＢａｍＨＩ－Ｗ配列断片は、Ｂａｍ－ＨＩ制限酵素を使用して認識および／または消化することができる配列に対応する。ＢａｍＨＩ－Ｗ配列は、配列５´－ＧＧＡＴＣＣ－３´を指し得る。

腫瘍由来の核酸は、腫瘍細胞内の病原体からの病原体核酸を含む、腫瘍細胞から放出された任意の核酸を指し得る。例えば、エプスタイン・バーウイルス（ＥＢＶ）ＤＮＡは、鼻咽頭癌（ＮＰＣ）の対象の癌細胞から放出され得る。

「アッセイ」という用語は一般に、核酸の特性を決定するための技術を指す。アッセイ（例えば第１のアッセイまたは第２のアッセイ）は一般に、試料中の核酸の量、試料中の核酸のゲノム同一性、試料中の核酸のコピー数変動、試料中の核酸のメチル化状態、試料中の核酸の断片サイズ分布、試料中の核酸の変異状態、または試料中の核酸の断片化パターンを決定する技術を指す。当業者に既知の任意のアッセイを使用して、本明細書で言及される核酸の特性のいずれかを検出することができる。核酸の特性には、配列、量、ゲノム同一性、コピー数、１つ以上のヌクレオチド位置でのメチル化状態、核酸のサイズ、１つ以上のヌクレオチド位置での核酸の突然変異、および核酸の断片化のパターン（例えば、核酸が断片化するヌクレオチド位置（複数可））が含まれる。用語「アッセイ」は、用語「方法」と交換可能に使用されてもよい。アッセイまたは方法は特定の感度および／または特異度を有し、その診断ツールとしての相対的な有用性はＲＯＣ－ＡＵＣ統計を使用して測定することができる。

本明細書で使用される「ランダム配列決定」という用語は一般に、配列決定される核酸断片が、配列決定手順の前に、具体的に特定または既定されていない配列決定を指す。特定の遺伝子座位を標的とするための配列特異的プライマーは、必要とされない。いくつかの実施形態において、断片の端部にアダプターを付加し、配列決定のためのプライマーをアダプターに結合させる。したがって、いかなる断片も、同じ普遍的なアダプターに結合する同じプライマーで配列決定することができ、よって、配列決定はランダムであり得る。ランダム配列決定を使用して、超並列配列決定（ｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌｓｅｑｕｅｎｃｉｎｇ）を実施してもよい。

「配列リード」は一般に、核酸分子の任意の部分または全部から配列決定されたヌクレオチドの鎖を指す。例えば、配列リードは、核酸断片から配列決定されたヌクレオチドの短鎖（例えば、約２０～１５０個の塩基）、核酸断片の片端もしくは両端のヌクレオチドの短鎖、または生体試料に存在する核酸断片全体の配列決定であり得る。配列リードは、例えば、配列決定技術を使用するもしくはプローブを使用する様々な方法で、例えば、ハイブリダイゼーションアレイもしくは捕捉プローブで、または単一プライマーもしくは等温増幅を使用してポリメラーゼ連鎖反応（ＰＣＲ）もしくは線形増幅などの増幅技術で、あるいは質量分析などの生物物理学的測定に基づいて、得られ得る。

「メチローム」は、ゲノム（例えば、ヒトもしくは他の動物ゲノム、またはウイルスゲノム）における複数の部位または遺伝子座におけるＤＮＡメチル化の量の尺度を提供する。メチロームは、ゲノムの全部、ゲノムの実質的な部分、またはゲノムの比較的わずかな部分（複数可）に対応し得る。関心対象のメチロームの例は、腫瘍細胞（例えば、鼻咽頭癌、肝細胞癌、子宮頸癌）のメチローム、ウイルスメチローム（例えば、対象の健常もしくは腫瘍細胞内に存在するＥＢＶの）；細菌メチローム、ならびに臓器（例えば、脳細胞、骨、肺、心臓、筋肉、および腎臓などのメチローム）であり、それは、ＤＮＡを体液（例えば、血漿、血清、汗、唾液、尿、生殖分泌物、精液、便液、下痢液、脳脊髄液、消化管分泌物、腹水、胸水、眼内液、水腫（例えば、精巣の）からの液、嚢胞液、膵臓分泌物、腸分泌物、痰、涙、乳房および甲状腺からの吸引液など）に寄与することができる。臓器は、移植臓器であってもよい。胎児のメチロームは別の例である。

「血漿メチローム」は、動物（例えば、ヒト）の血漿または血清から決定されたメチロームである。血漿メチロームは、血漿および血清が無細胞ＤＮＡを含むので、無細胞メチロームの例である。血漿メチロームはまた、胎児／母体メチロームの、腫瘍／患者メチロームの、異なる組織もしくは臓器に由来するＤＮＡの、臓器移植状況下でのドナー／レシピエントメチロームの混合物、および／または異なるゲノム（例えば、動物ゲノムおよび細菌／ウイルスゲノム）由来のＤＮＡの混合物であるので、混合メチロームの例でもある。

「部位」（「ゲノム部位」とも呼ばれる）は、単一の塩基位置、または相関する塩基位置の群、例えば、ＣｐＧ部位、または相関する塩基位置のより大きい群であり得る、単一の部位に対応する。「遺伝子座」は、複数の部位を含む領域に対応し得る。遺伝子座は、遺伝子座をその脈絡における部位と等価にするであろうただ１つの部位を含むことができる。

各ゲノム部位（例えば、ＣｐＧ部位）に対する「メチル化指数」は、その部位におけるメチル化を、その部位をカバーするリード数の合計にわたって示す、（例えば、配列リードまたはプローブから決定されるような）ＤＮＡ断片の割合を指し得る。「リード」は、ＤＮＡ断片から得られた情報（例えば、部位のメチル化状態）に対応することができる。読み取りは、特定のメチル化状態のＤＮＡ断片と優先的にハイブリダイズする試薬（例えば、プライマーまたはプローブ）を使用して、得ることができる。典型的には、このような試薬は、ＤＮＡ分子のメチル化状態、例えば、バイサルファイト変換、またはメチル化感受性制限酵素、またはメチル化結合タンパク質、または抗メチルシトシン抗体に応じて、ＤＮＡ分子を特異的に修飾するか、または特異的に認識するプロセスによる処理後に適用される。別の実施形態において、メチルシトシンおよびヒドロキシメチルシトシンを認識する単一分子配列決定技術を使用して、メチル化状態を解明し、メチル化指数を決定することができる。

領域の「メチル化密度」は、この領域における部位をカバーするリード数の合計で割ったメチル化を示す、領域内の部位におけるリード数を指し得る。この部位は、具体的な特徴を有し得、例えば、ＣｐＧ部位であり得る。したがって、領域の「ＣｐＧメチル化密度」は、この領域におけるＣｐＧ部位（例えば、特定のＣｐＧ部位、ＣｐＧアイランド内またはそれより大きな領域のＣｐＧ部位）をカバーするリード数の合計で割ったＣｐＧメチル化を示すリード数を指す。例えば、ヒトゲノム中の各１００ｋｂビンのメチル化密度は、１００ｋｂ領域へマッピングされた配列読み取りによって覆われたすべてのＣｐＧ部位の割合として、ＣｐＧ部位の（メチル化されたシトシンに対応する）バイサルファイト処理後に変換されていないシトシンの総数から判定することができる。この分析はまた、５００ｂｐ、５ｋｂ、１０ｋｂ、５０ｋｂ、もしくは１Ｍｂなどの他のビンサイズに対して実施することができる。領域は、全ゲノム、または染色体、または染色体の一部（例えば、染色体腕）であり得る。ＣｐＧ部位のメチル化指数は、領域がそのＣｐＧ部位のみを含む場合、その領域のメチル化密度と同じである。「メチル化シトシンの割合」は、この領域における解析されたシトシン残基の総数、すなわち、ＣｐＧの脈絡外のシトシンを含む、メチル化されている（例えば、バイサルファイト変換後に未変換）ことが示されているシトシン部位「Ｃ」の数を指し得る。メチル化指数、メチル化密度、およびメチル化シトシンの割合は、「メチル化レベル」の例であり、これは、部位におけるメチル化読み取りの数を含む、他の比を含み得る。バイサルファイト変換とは別に、当業者に既知の他のプロセスを使用して、ＤＮＡ分子のメチル化状態を調べることができ、このプロセスは、メチル化状態に敏感な酵素（例えば、メチル化感受性制限酵素）、メチル化結合タンパク質、メチル化状態に感受性のあるプラットフォームを用いる単一分子配列決定（例えば、ナノポア配列決定（Ｓｃｈｒｅｉｂｅｒｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉ２０１３；１１０：１８９１０－１８９１５）、およびＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ単一分子リアルタイム分析（Ｆｌｕｓｂｅｒｇｅｔａｌ．ＮａｔＭｅｔｈｏｄｓ２０１０；７：４６１－４６５））によるものを含むが、これらに限定されない。

「メチル化プロファイル」（メチル化状態とも呼ばれる）は、領域に対するＤＮＡメチル化に関連した情報を含む。ＤＮＡメチル化に関連する情報は、ＣｐＧ部位のメチル化指数、領域中のＣｐＧ部位のメチル化密度、連続した領域にわたるＣｐＧ部位の分布、２つ以上のＣｐＧ部位を含有する領域内の各個々のＣｐＧ部位のメチル化のパターンまたはレベル、および非ＣｐＧメチル化を含むことができるが、これらに限定されない。ゲノムの実質的な部分（例えば、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、または９０％超をカバーする）のメチル化プロファイルは、メチロームと同等であると見なすことができる。哺乳類ゲノムにおける「ＤＮＡメチル化」は、典型的には、ＣｐＧジヌクレオチドにおけるシトシン残基の５´炭素へのメチル基の付加（すなわち、５－メチルシトシン）を指す。ＤＮＡメチル化は、他の文脈、例えば、ＣＨＧおよびＣＨＨにおいてはシトシンにおいて生じ得、ここで、Ｈは、アデニン、シトシン、またはチミンである。シトシンのメチル化は、５－ヒドロキシメチルシトシンの形態でもあり得る。Ｎ^６－メチルアデニンなどの非シトシンメチル化もまた、報告されている。

「メチル化認識配列」とは、配列決定プロセス中にＤＮＡ分子のメチル化状態を確認することができる配列決定方法を指し、これにはバイサルファイト配列決定、またはメチル化感受性制限酵素消化、抗メチルシトシン抗体もしくはメチル化結合タンパク質を使用する免疫沈降、またはメチル化状態の解明を可能にする単一分子配列決定が含まれるが、これらに限定されない。「メチル化認識アッセイ」または「メチル化感受性アッセイ」には、ＭＳＰ、プローブに基づく調査、ハイブリダイゼーション、制限酵素消化とそれに続く密度測定、抗メチルシトシン免疫アッセイ、メチル化シトシンまたはヒドロキシメチルシトシンの割合の質量分析調査、配列決定を伴わない免疫沈降などの配列決定および非配列決定に基づく方法の両方が含まれ得る。

「組織」は、機能単位としてともに群化する細胞の群に対応する。２つ以上のタイプの細胞が、単一の組織内に見出され得る。異なるタイプの組織は、異なるタイプの細胞（例えば、肝細胞、肺胞細胞、または血球細胞）からなり得るが、異なる生物（宿主対ウイルス）由来の組織または健常細胞対腫瘍細胞にも対応し得る。「組織」という用語は一般に、ヒト体内に見られる任意の細胞群（例えば、心臓組織、肺組織、腎臓組織、鼻咽頭組織、口腔咽頭組織）を指し得る。いくつかの態様では、「組織」または「組織型」という用語は、無細胞核酸が由来する組織を指すために使用され得る。一例では、ウイルス核酸断片は、例えば、エプスタイン・バーウイルス（ＥＢＶ）の血液組織に由来し得る。別の例では、ウイルス核酸断片は、腫瘍組織、例えば、ＥＢＶまたはヒトパピローマウイルス感染（ＨＰＶ）に由来し得る。

「分離値」（または相対存在量）は、２つのＤＮＡ分子量、２つの寄与率、または２つのメチル化レベル（試料（混合物）メチル化レベルおよび参照メチル化レベルなど）などの２つの値を含む差または比に対応する。分離値は、単純な差または比であり得る。例として、ｘ／ｙの直接比はｘ／（ｘ＋ｙ）と同様に分離値である。分離値は、他の因子、例えば、倍数因子を含むことができる。他の例として、値の関数の差または比、例えば、２つの値の自然対数（ｌｎ）の差または比を使用することができる。分離値は、差および／または比を含むことができる。メチル化レベルは、相対存在量の例であり、例えば、メチル化ＤＮＡ分子（例えば、特定の部位）と他のＤＮＡ分子（例えば、特定の部位にある他のすべてのＤＮＡ分子または非メチル化ＤＮＡ分子）との相対存在量である。他のＤＮＡ分子量は、正規化因子として機能することができる。別の例として、すべてまたは非メチル化ＤＮＡ分子の強度に対するメチル化ＤＮＡ分子の強度（例えば、蛍光または電界強度）を決定することができる。相対存在量は、体積あたりの強度も含むことができる。

本明細書で使用される「分類」という用語は、試料の特定の特性と関係した任意の数（複数可）または他の特徴（複数可）を指す。例えば、「＋」記号（または「陽性」という語）は、試料が、特定のレベルの病態（例えば、癌）を有するとして分類されることを示し得る。分類は、二項（例えば、陽性または陰性）であってもよく、またはより多くのレベルの分類（例えば、１～１０もしくは０～１のスケール）を有してもよい。

「カットオフ」、「閾値」、または参照レベルという用語は、操作で使用される所定の数を指し得る。閾値または参照値は、特定の分類が適用される値より上または下の値、例えば、対象が病態を有するかどうか、または病態の重症度などの病態の分類であってもよい。カットオフは、試料または対象の特徴を参照して、または参照せずに、予め決定されてもよい。例えば、カットオフは、検査される対象の年齢または性別に基づいて選択され得る。カットオフは、検査データの出力後に、かつそれに基づいて選択され得る。例えば、試料の配列決定が特定の深度に達するときに、特定のカットオフが使用され得る。別の例として、１つ以上の病態の既知の分類および測定された特性値（例えば、メチル化レベル）を有する参照対象を使用して、異なる病態および／または病態の分類（例えば、対象が病態を有するかどうか）を区別する参照レベルを決定することができる。これらの用語のうちのいずれも、これらの文脈のうちのいずれにおいても使用することができる。

「対照」、「対照試料」、「参照」、「参照試料」、「正常」、および「正常試料」という用語は、特定の病態を持たない試料、またはそうでなければ健康な試料を一般的に説明するために交換可能に使用され得る。一例では、本明細書に開示される方法は、腫瘍を有する対象に対して実施することができ、参照試料は、対象の健康な組織から採取された試料である。別の例では、参照試料は、疾患、例えば、癌または癌の特定ステージを有する対象から採取した試料である。参照試料は、対象またはデータベースから取得され得る。参照は一般に、対象からの試料を配列決定することから得られた配列リードをマッピングするために使用される参照ゲノムを指す。参照ゲノムは一般に、生体試料および生得的試料からの配列リードが整列および比較され得る、１倍体または２倍体ゲノムを指す。１倍体ゲノムについては、各遺伝子座において１つのヌクレオチドのみが存在する。２倍体ゲノムについては、ヘテロ接合遺伝子座を特定することができ、このような遺伝子座は２つの対立遺伝子を有し、いずれかのアレルが、遺伝子座への整列のマッチングを可能にし得る。参照ゲノムは、例えば、１つ以上のウイルスゲノムを含めることにより、ウイルスに対応し得る。

本明細書で使用される「健康である」という語句は一般に、良好な健康状態を有する対象を指す。このような対象は、悪性疾患または非悪性疾患が存在しないことを示す。「健常者」は、通常「健康である」とは見なされない、アッセイされる病態とは無関係の他の疾患または病態を有し得る。

「癌」または「腫瘍」という用語は交換可能に使用され、一般に、組織の異常な塊を指し、その塊の増殖は正常組織の増殖を上回り、協調されない。癌または腫瘍は、以下の特性に応じて「良性」または「悪性」と定義され得る。形態および機能性を含む細胞分化の程度、増殖速度、局所浸潤、および転移。「良性」腫瘍は一般に十分に分化しており、悪性腫瘍よりも特徴的に増殖が遅く、発生部位に局在したままである。さらに、良性腫瘍には、遠隔部位に浸潤、侵襲、または転移する能力を有さない。「悪性」腫瘍は一般に低分化（退形成）であり、周囲組織の進行性浸潤、侵襲、および破壊を伴う特徴的な急速な増殖を示す。さらに、悪性腫瘍には遠隔部位に転移する能力を有する。「ステージ」は、悪性腫瘍の進行状況を説明するために使用されることができる。初期ステージの癌または悪性腫瘍は、後期ステージの悪性腫瘍よりも体内の腫瘍量が少なく、一般的に症状が少なく、予後が良好で、治療成績が良好であることに関連している。後期または進行ステージの癌または悪性腫瘍は、多くの場合、遠隔転移および／またはリンパ拡散に関連している。

「癌のレベル」（またはより一般的には「疾患のレベル」もしくは「病態のレベル」）という用語は、癌が存在するか（すなわち、存在または不在）、癌のステージ、腫瘍のサイズ、転移があるかどうか、身体の総腫瘍量、治療に対する癌の反応、および／または癌の重症度の他の尺度（癌の再発など）を指し得る。癌のレベルは、記号、アルファベット文字、および色などの数または他のしるしであり得る。レベルは、ゼロであり得る。癌のレベルには、前悪性病態または前癌性病態（状態）も含まれ得る。癌のレベルは、様々な方法で使用することができる。例えば、スクリーニングにより、癌を有することを今まで知らなかった人物において癌が存在するかどうかをチェックすることができる。評価は、癌と診断されている人物を調べて、癌の進行を経時的に監視し、療法の有効性を研究し、または予後を決定することができる。一実施形態において、予後は、患者が癌で死亡する可能性、または特定の持続時間または特定の時間の後に癌が進行する可能性、または癌が転移する可能性として表すことができる。検出は、「スクリーニング」を意味することができ、または癌の示唆的な特徴（例えば、症状または他の陽性検査）を有する人物が癌を有するかどうかをチェックすることを意味し得る。「病理学のレベル」とは、病原体に関連する病理学のレベルを指すことができ、そのレベルは癌について上で説明したとおりであり得る。疾患／病態のレベルはまた、癌について上で説明したとおりであり得る。癌が病原体に関連している場合、癌のレベルは病理学のレベルの一種になり得る。

「サイズプロファイル」および「サイズ分布」という用語は一般に、生体試料中のＤＮＡ断片のサイズに関する。サイズプロファイルは、様々なサイズのある量のＤＮＡ断片の分布を提供するヒストグラムであり得る。様々な統計パラメーター（サイズパラメーターまたは単にパラメーターとも呼ばれる）は、あるサイズプロファイルを別のものと区別することができる。１つのパラメーターは、すべてのＤＮＡ断片に対する、または他のサイズもしくは範囲のＤＮＡ断片に対する、特定のサイズもしくはサイズ範囲のＤＮＡ断片の割合である。

「偽陽性」（ＦＰ）という用語は、病態を有さない対象を指し得る。偽陽性とは一般に、腫瘍、癌、前癌性病態（例えば、前癌性病変）、限局性癌または転移性癌、非悪性疾患を有さない、またはそうでなければ健康である対象を指す。偽陽性という用語は一般に、病態を有さないが、本開示のアッセイまたは方法によって病態を有すると特定される対象を指す。

「感度」または「真陽性率」（ＴＰＲ）という用語は、真陽性の数を真陽性と偽陰性の数の合計で割ったものを指し得る。感度は、真に病態を有する集団の割合を正確に特定するアッセイまたは方法の能力を特徴付けることができる。例えば、感度は、癌を有する集団内の対象の数を正しく特定する方法の能力を特徴付けることができる。別の例では、感度は、癌を示す１つ以上のマーカーを正確に特定する方法の能力を特徴付けることができる。

「特異度」または「真陰性率」（ＴＮＲ）という用語は、真陰性の数を真陰性と偽陽性の数の合計で割ったものを指し得る。特異度は、真に病態を有さない集団の割合を正確に特定するアッセイまたは方法の能力を特徴付けることができる。例えば、特異度は、癌を有さない集団内の対象の数を正しく特定する方法の能力を特徴付けることができる。別の例では、特異度は、癌を示す１つ以上のマーカーを正しく特定する方法の能力を特徴付けることができる。

「ＲＯＣ」または「ＲＯＣ曲線」という用語は、受信者動作特性曲線を指し得る。ＲＯＣ曲線は、二項分類システムの性能をグラフィカルに表現されることができる。任意の所与の方法について、様々な閾値設定で感度を特異度に対してプロットすることにより、ＲＯＣ曲線を生成することができる。対象における腫瘍の存在を検出する方法の感度および特異度は、対象の血漿試料中の腫瘍由来核酸の様々な濃度で決定され得る。さらに、得られた３つのパラメーター（感度、特異度、閾値設定など）のうちの少なくとも１つ、およびＲＯＣ曲線によって、任意の不明なパラメーターの値または期待値を決定し得る。不明なパラメーターは、ＲＯＣ曲線に適合した曲線を使用して決定され得る。「ＡＵＣ」または「ＲＯＣ－ＡＵＣ」という用語は一般に、受信者動作特性曲線下の領域を指す。このメトリックは、方法の感度と特異度の両方を考慮して、方法の診断的有用性の尺度を提供し得る。一般的に、ＲＯＣ－ＡＵＣの範囲は０．５～１．０であり、０．５に近い値は方法の診断的有用性が限られていること（例えば、低感度および／または低特異度）を示し、１．０に近い値は方法の診断的有用性が高いこと（例えば、高感度および／または高特異度）を示す。例えば、参照により本明細書に組み込まれる、Ｐｅｐｅｅｔａｌ，“ＬｉｍｉｔａｔｉｏｎｓｏｆｔｈｅＯｄｄｓＲａｔｉｏｉｎＧａｕｇｉｎｇｔｈｅＰｅｒｆｏｒｍａｎｃｅｏｆａＤｉａｇｎｏｓｔｉｃ，Ｐｒｏｇｎｏｓｔｉｃ，ｏｒＳｃｒｅｅｎｉｎｇＭａｒｋｅｒ，”Ａｍ．Ｊ．Ｅｐｉｄｅｍｉｏｌ２００４，１５９（９）：８８２－８９０を参照されたい。尤度関数、オッズ比、情報理論、予測値、キャリブレーション（適合度を含む）、および再分類測定を使用して診断的有用性を特徴付ける追加のアプローチは、参照によりその全体が本明細書に組み込まれる、Ｃｏｏｋ，“ＵｓｅａｎｄＭｉｓｕｓｅｏｆｔｈｅＲｅｃｅｉｖｅｒＯｐｅｒａｔｉｎｇＣｈａｒａｃｔｅｒｉｓｔｉｃＣｕｒｖｅｉｎＲｉｓｋＰｒｅｄｉｃｔｉｏｎ，”Ｃｉｒｃｕｌａｔｉｏｎ２００７，１１５：９２８－９３５に要約されている。

「約」または「およそ」という用語は、当業者によって決定される特定の値の許容誤差範囲内を意味し得、これは値の測定または決定方法、すなわち測定システムの制限について部分的に依存する。例えば、「約」は、当技術分野の慣例により、１以内または１を超える標準偏差を意味し得る。あるいは、「約」は、所与の値の最大２０％、最大１０％、最大５％、または最大１％の範囲を意味し得る。あるいは、特に生物学的システムまたはプロセスに関して、「約」または「およそ」という用語は、値の１桁以内、５倍以内、より好ましくは２倍以内を意味し得る。本出願および特許請求の範囲に特定の値が記載されている場合、特に明記しない限り、特定の値の許容誤差範囲内の「約」という用語を想定すべきである。「約」という用語は、当業者によって一般に理解されている意味を有し得る。「約」という用語は±１０％を指し得る。「約」という用語は、±５％を指し得る。

本明細書で使用される用語は、特定のケースのみを説明する目的のものであり、限定することを意図したものではない。本明細書で使用される場合、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、文脈上明らかに別途指示されない限り、複数形も含むことを意図している。「または」の使用は、それとは反対に具体的に示されない限り、「排他的なまたは」ではなく「包含的なまたは」を意味することが意図される。「～に基づいて」という用語は、「～に少なくとも部分的に基づいて」を意味することを意図している。さらに、「～を含む（ｉｎｃｌｕｄｉｎｇ）」、「～を含む（ｉｎｃｌｕｄｅｓ）」、「～を有する（ｈａｖｉｎｇ）」、「～を有する（ｈａｓ）」、「～とともに（ｗｉｔｈ）」という用語、またはその変形は、詳細な説明および／または特許請求の範囲のいずれかで使用される限りでは、そのような用語は、「～を含む（ｃｏｍｐｒｉｓｉｎｇ）」という用語と同様の様態で包括的であることを意図している。

本開示では、血液中の循環ＥＢＶＤＮＡ断片のメチル化パターンの分析に基づいて、異なるＥＢＶ関連疾患、悪性腫瘍、状態または完全に健康な個人を区別するアプローチを説明する。無細胞ＥＢＶＤＮＡ分子のメチル化パターンの分析には、いくつかの用途または実用性がある。非侵襲的方法での無細胞ウイルス分子のメチル化分析の実現可能性は、スクリーニング、予測医学、リスク層別化、監視、および予後診断との関連で臨床応用を強化するであろう。

実施形態は、例えば単一の採血からの単一時点分析においてさえ、異なるウイルス関連病態の対象（例えば、ＮＰＣ患者）と検出可能な血漿ＥＢＶＤＮＡの明らかに健常な対象とを区別することができる。実施形態は、対象が疾患または癌を有するかどうかのスクリーニングまたは検出のために、癌患者の疾患モニタリングのために、予後診断のために、および疾患または癌のリスク予測のために（すなわち、対象が疾患または癌を将来発症するかどうかを予測するために）も使用されることができる。このアプローチは、ＥＢＶ以外のウイルスにも一般化されることができる。したがって、このアプローチは、ウイルスＤＮＡベースのバイオマーカーを特定するための一般的なアプローチである。
Ｉ．癌およびウイルス

ＤＮＡウイルスとＲＮＡウイルスの両方が、ヒトに癌を引き起こす可能性があることが示されている。いくつかの実施形態では、対象は、ウイルス（例えば、オンコウイルス）に起因する癌を有し得る。いくつかの実施形態では、対象は癌を有していてもよく、癌はウイルスＤＮＡを使用して検出可能であってもよい。ＲＮＡの分析では、核酸は相補的ＤＮＡ（ｃＤＮＡ）として存在し、これはＲＮＡからコピーされ、宿主細胞での複製の培地であり得る。これらのｃＤＮＡはメチル化を有し、実施形態で使用され得る。

様々なウイルス感染は、様々な癌またはその他の病態に関連する。例えば、ＥＢＶ感染は、ＮＰＣおよびナチュラルキラー（ＮＫ）Ｔ細胞リンパ腫、ホジキンリンパ腫、胃癌、および伝染性単核球症と密接に関連している。Ｂ型肝炎ウイルス（ＨＢＶ）感染およびＣ型肝炎ウイルス（ＨＣＶ）感染は、肝細胞癌（ＨＣＣ）の発症リスクの増加と関連している。ヒトパピローマウイルス感染（ＨＰＶ）は、子宮頸癌（ＣＣ）および頭頸部扁平上皮癌（ＨＮＳＣＣ）の発症リスクの増加と関連している。例ではＥＢＶに重点を置いているが、技術はＨＰＶ、ＨＢＶ、および他のウイルス、特に癌に関連するウイルスに関する癌および他の病態に等しく適用することができる。
Ａ．ＥＢＶ

世界の人口の９５％が生涯にわたる無症候性のエプスタイン・バーウイルス（ＥＢＶ）感染症と推定されており、それによりウイルスは健康な個体のメモリＢ細胞に潜伏し、体内で持続する（Ｙｏｕｎｇｅｔａｌ．ＮａｔＲｅｖＣａｎｃｅｒ２０１６１６（１２）：７８９－８０２）。少数の対象が症候性感染症を発症し、ウイルス感染による伝染性単核球症として現れる。ＥＢＶは、鼻咽頭癌（ＮＰＣ）、胃癌、バーキットリンパ腫、ホジキンリンパ腫、ナチュラルキラーＴ細胞（ＮＫ－Ｔ細胞）リンパ腫、および移植後リンパ増殖性障害（ＰＴＬＤ）を含む、いくつかの悪性腫瘍または上皮および血液起源の癌様症候群との関連で発癌性ウイルスとも見なされる。

循環ＥＢＶＤＮＡは、ＥＢＶ関連悪性腫瘍の患者においてその診断および予後の役割が探究されている。この点で、血漿ＥＢＶＤＮＡは、ＮＰＣのバイオマーカーとして確立されている（Ｌｏｅｔａｌ．ＣａｎｃｅｒＲｅｓ１９９９；５９：１１８８－９１）。血漿ＥＢＶＤＮＡを用いた定期的な調査は、ＮＰＣの診断が確認される患者の残存疾患および再発検出に対して推奨される（Ｌｏｅｔａｌ．ＣａｎｃｅｒＲｅｓ１９９９；５９：５４５２－５，Ｃｈａｎｅｔａｌ．ＪＮａｔｌＣａｎｃｅｒＩｎｓｔ２００２；９４：１６１４－９，Ｌｅｕｎｇｅｔａｌ．Ｃａｎｃｅｒ２００３，９８（２），２８８－９１およびＬｅｕｎｇｅｔａｌ．ＡｎｎＯｎｃｏｌ２０１４；２５（６）：１２０４－８）。血漿ＥＢＶＤＮＡはまた、ホジキンリンパ腫（Ｋａｎａｋｒｙｅｔａｌ．Ｂｌｏｏｄ２０１３；１２１（１８）：３５４７－３５５３）、節外性ＮＫ－Ｔ細胞リンパ腫（Ｗａｎｇｅｔａｌ．Ｏｎｃｏｔａｒｇｅｔ２０１５；６（３０）：３０３１７－２６，Ｋｗｏｎｇｅｔａｌ．Ｌｅｕｋｅｍｉａ２０１４；２８（４）：８６５－８７０）、およびＰＴＬＤ（ＧｕｌｌｅｙａｎｄＴａｎｇ．ＣｌｉｎＭｉｃｒｏｂｉｏｌＲｅｖ２０１０；２３（２）：３５０－６６）を含む他のＥＢＶ関連悪性腫瘍の予後に関して重要性を有することを示している。

しかし、このような感染症にかかっているすべての対象が関連癌になるわけではない。血漿ＥＢＶＤＮＡの供給源は、ＮＰＣを有さない人において異なっていなければならない。ＮＰＣ細胞から循環へのＥＢＶＤＮＡの持続的な放出とは異なり、ＥＢＶＤＮＡの供給は、ＮＰＣを有さない人では一時的にそのようなＤＮＡを提供するだけである。
Ｂ．偽陽性

癌スクリーニングとの関係において、本発明者らは、最近、定量的ＰＣＲ（ｑＰＣＲ）による血漿ＥＢＶＤＮＡ分析を使用するＮＰＣスクリーニングに関する大規模な予測研究を実施した（Ｃｈａｎｅｔａｌ．ＮＥｎｇｌＪＭｅｄ２０１７；３７７：５１３－５２２）。本発明者らは、登録時にＮＰＣに対して無症候性であったすべての募集対象（スクリーニングコホート）の血漿ＥＢＶＤＮＡレベルを分析した。検出可能な量の血漿ＥＢＶＤＮＡを有する対象は、初期検査の４週間後にＥＢＶＤＮＡについて再検査された。募集された２０，１７４人の対象のうち、１，１１２人が最初の検査で検出可能な血漿ＥＢＶＤＮＡを有していた。血漿ＥＢＶＤＮＡの量の測定に基づいた追跡検査で持続的陽性であった対象は３０９人であった。その後、血漿ＥＢＶＤＮＡの結果が持続的陽性である対象３４人が、内視鏡検査および磁気共鳴画像法（ＭＲＩ）によりＮＰＣを有することが確認された。前述のように、血漿ＥＢＶＤＮＡは、ＮＰＣまたはその他のＥＢＶ関連悪性腫瘍を有さない明らかな健常者で検出することができた。

ＮＰＣスクリーニングを受けた対象２０，１７４人では、単一時点分析に基づく血漿ＥＢＶＤＮＡ偽陽性率は約５％であった（（１１１２－３４）／（２０１７４－３４）＝５．３％）。２回の連続ＥＢＶＤＮＡ分析により、偽陽性率は１．５％に低下した。しかしながら、血漿ＥＢＶＤＮＡの連続検査では、最初の陽性結果が得られた対象から追加の血液試料を採取する必要があり、これはロジスティックな課題を提起し得る。また、陽性の血漿ＥＢＶＤＮＡ結果を有する対象のかなりの割合はＮＰＣを有さない（単一時点分析で陽性の結果を示している対象の９６％は、（１１１２－３４）／１１１２として決定され、ＮＰＣを有さない）。偽陽性結果の対象には、一連の評価、および確定診断のために内視鏡検査やＭＲＩなどの不必要な調査が必要であろう。これらはすべて、患者の不安および高いフォローアップコストにつながり得る。したがって、ＮＰＣ患者と偽陽性の血漿ＥＢＶＤＮＡ結果の対象とを単一時点の血液分析で区別することを目指す。この例では、偽血漿ＥＢＶＤＮＡ陽性率は非ＮＰＣ陽性率と見なされるか、または１回限りの陽性率とも呼ばれる。
Ｃ．メチル化の使用

これまでの研究では、異なるタイプのウイルス潜伏型（０、Ｉ、ＩＩ、およびＩＩＩ型）が報告されており、これらは異なるＥＢＶ関連悪性腫瘍で見られる潜伏型関連ウイルス遺伝子転写パターンによって定義されている（Ｙｏｕｎｇｅｔａｌ．ＮａｔＲｅｖＣａｎｃｅｒ２０１６；１６（１２）：７８９－８０２）。ウイルス潜伏型は、潜伏型関連遺伝子転写パターンによって定義される。したがって、異なるタイプのウイルス潜伏型のウイルスは、異なるウイルス遺伝子転写のパターンを有する。同じタイプのウイルス潜伏型を持つ異なるＥＢＶ関連疾患または病態は、類似のウイルス遺伝子転写パターンを有することができる。

異なる潜伏型の中には、複製起点、Ｃプロモーター、Ｗプロモーター、Ｑプロモーター、およびＬＭＰ１／２プロモーターを含む異なるウイルス遺伝子プロモーターの、異なるウイルス遺伝子発現プロファイルおよび異なるメチル化状態がある（Ｗｏｅｌｌｅｒｅｔａｌ．ＣｕｒｒＯｐｉｎＶｉｒｏｌ２０１３；３（３）：２６０－５）。ＤＮＡメチル化は遺伝子発現の調節に寄与し、潜伏型特異的なメチル化パターンがあることが示唆されている（Ｌｉｅｂｅｒｍａｎ．ＮａｔＲｅｖＭｉｃｒｏｂｉｏｌ２０１３；１１（１２）：８６３－７５）。一例では、これまでの研究により、Ｃプロモーターのメチル化状態が発見されており、これは、メチル化特異的ＰＣＲを使用するＮＰＣ患者の鼻咽頭ブラシ細胞診試料由来のＥＢＶＤＮＡにおける潜伏型ＩＩ型特異的なメチル化パターンに適合性がある（Ｒａｍａｙａｎｔｉｅｔａｌ．ＩｎｔＪＣａｎｃｅｒ１４０，１４９－１６２）。しかし、異なるＥＢＶ関連疾患または病態は、同じタイプのウイルス潜伏型を有することができ、したがって、類似のウイルス遺伝子転写パターンを有する（例を次の段落で説明）。ゆえに、ウイルス潜伏型は、疾患または癌のステージと相関がない。

同じタイプのウイルス潜伏型を持つ異なるＥＢＶ関連疾患は、類似のメチル化パターンを有することが予想される（Ｔｅｍｐｅｒａｅｔａｌ．ＳｅｍｉｎＣａｎｃｅｒＢｉｏｌ２０１４；２６：２２－９，Ｆｅｊｅｒｅｔａｌ．ＪＧｅｎＶｉｒｏｌ２００８；８９：１３６４－７０）。一例では、これまでの研究により、メチル化特異的ＰＣＲを使用して、健康なＥＢＶ血清陽性個体由来のＢ細胞およびＥＢＶ陽性リンパ腫由来の腫瘍組織の両方で、ＥＢＶのウイルスプロモーター領域全体における類似のメチル化パターン（潜伏型Ｉ型を呈する）が示された（Ｐａｕｌｓｏｎｅｔａｌ．ＪＶｉｒｏｌ１９９９；７３：９９５９－６８）。

これまでの研究では、異なるＥＢＶ関連疾患の細胞株および組織試料のバイサルファイト変換ＤＮＡのアンプリコン配列決定により、ＥＢＶのメチル化プロファイルを研究することを試みた（Ｆｅｒｎａｎｄｅｘｅｔａｌ．ＧｅｎｏｍｅＲｅｓ２００９；１９（３）：４３８－５１）。設計された７７個のアンプリコンは、９４個の異なるＥＢＶ潜伏型遺伝子および溶解遺伝子の転写開始部位、ならびに２つの構造ＲＮＡ（ＥＢＥＲ１およびＥＢＥＲ２）をカバーした。ＥＢＶゲノム全体における転写開始部位のメチル化状態（メチル化または非メチル化のいずれか）を評価した。これらの結果は、定量化とは対照的に、遊離ウイルスＤＮＡはＤＮＡメチル化を欠き、ＥＢＶ関連悪性腫瘍の細胞株または組織試料由来のウイルスＤＮＡには多数のメチル化ＥＢＶ転写開始部位があったことのみを示した。重要なことに、異なる悪性病態（すなわち、ＮＰＣおよび異なるリンパ腫）の試料は、転写開始部位のメチル化パターンに基づいたクラスタリング分析と一緒にクラスター化され、一時的陽性または持続的陽性の対象は特定されなかった。そのメチル化パターンに基づいて、異なる悪性病態を区別することができなかった。

これまでの研究のほとんどは、腫瘍および細胞株の試料におけるウイルスのメチル化プロファイルの分析に重点を置いてきた。これらの腫瘍試料は、外科的生検などの侵襲的手技を通じて取得される必要がある。これは、スクリーニングや連続モニタリングなどの診断用途を制限し得る。また、これまでの研究は、定量的な結果ではなく、質的な側面に重点を置いてきた。

上記の報告データにもかかわらず、本発明者らは、同じタイプのウイルス潜伏型を示す異なるＥＢＶ関連疾患を区別する実現可能性を調査する。上記の報告データとは対照的に、本発明者らは、異なるＥＢＶ関連疾患または疾患ステージを区別することができる血漿ＥＢＶＤＮＡ配列のメチル化プロファイルの分析に基づいた方法について説明する。例えば、ウイルス遺伝子プロモーターのメチル化状態（メチル化または非メチル化）のみを分析する代わりに、無細胞ＥＢＶＤＮＡ分子の各ＣｐＧ部位のメチル化レベルをゲノム全体様態で高解像度で調べた。驚くことに、本発明者らのデータは、無細胞ＥＢＶＤＮＡ分子のメチル化分析に基づいて、同じ潜伏型で異なるＥＢＶ関連病態と悪性腫瘍とを区別することができることを明らかにする。このように、本発明者らのデータは、潜伏型特有の変動性を超える無細胞ＥＢＶＤＮＡメチル化パターンに関する新しい情報を提供する。

実施形態は、血中（例えば、血漿または血清）の無細ＥＢＶＤＮＡ分子のメチル化パターンを分析することができる。本開示の実施形態はまた、無細胞ＥＢＶＤＮＡ分子を含む他の体液、例えば、尿（Ｃｈａｎｅｔａｌ．ＣｌｉｎＣａｎｃｅｒＲｅｓ２００８；１４（１５）：４８０９－１３）、血清、膣液、子宮または膣洗浄液、胸水、腹水、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液などにも使用することができる。糞便試料も使用することができる。技術的課題は、組織試料中の腫瘍ＤＮＡの分析と比較した場合、ウイルス分子の存在量が少なく断片化されているという性質である。本開示は、非侵襲的方法での無細胞ウイルス分子のメチル化分析の実現可能性を実証する。
ＩＩ．無細胞ＥＢＶＤＮＡ分子のメチル化の測定

メチル化レベル（複数可）は、例えば、動物（ヒトなど）、ウイルス、または他のゲノムの様々な部位で測定されることができる。メチル化レベルは、１つ以上の部位、例えばＣｐＧ部位のメチル化情報を使用して決定されることができる。メチル化情報には、特定の部位でメチル化されたＤＮＡ分子の数、またはメチル化／非メチル化ＤＮＡ分子の量に対応する強度シグナルを含むことができる。メチル化レベルは、メチル化ＤＮＡ分子と非メチル化ＤＮＡ分子との間の相対存在量を提供でき、例えば、部位でのすべてのＤＮＡ分子量または非メチル化ＤＮＡ分子量は正規化係数として機能することができる。

ウイルスゲノムの場合、血漿中のウイルスゲノム全体における特定の遺伝子座の平均メチル化ＣｐＧ密度（メチル化密度、ＭＤとも呼ばれる）は、次の方程式を使用して計算されることができる。

式中、Ｍはメチル化ウイルスリードの数、Ｕはウイルスゲノム全体における遺伝子座位内のＣｐＧ部位での非メチル化ウイルスリードの数である。遺伝子座位内に２つ以上のＣｐＧ部位がある場合、ＭおよびＵはそれぞれ部位全体のメチル化および非メチル化リードの数に対応する。例として、このようなメチル化または非メチル化されている個々のＤＮＡ断片の数は、配列決定またはデジタルＰＣＲを使用して決定されることができる。別の例として、特定のリード数をカウントするのとは対照的に、メチル化密度は、リアルタイムＰＣＲを使用して決定して、シグナル強度の比（例えば、メチル化強度と非メチル化強度の比）を得ることができる。したがって、強度シグナルが複数の核酸に対応する場合、核酸の分析をまとめて実行することができる。メチル化レベルの特定の形式は、例えば、上記の割合またはＭとＵの割合など、様々であり得る。
Ａ．メチル化レベルを評価するための様々な技術

メチル化レベルを決定するために、例えば、ゲノム（例えば、ヒトゲノムまたはウイルスゲノム）のすべてまたは実質的な部分にわたるメチル化プロファイルを決定するために、異なるアプローチを使用することができる。メチル化プロファイルを包括的に調査するために、実施形態例は、バイサルファイト変換ＤＮＡの超並列配列決定（ＭＰＳ）を使用して、ゲノム全体の情報とヌクレオチドごとおよび対立遺伝子ごとのメチル化レベルの定量的評価を提供することができる。任意のメチル化感受性アッセイを使用して、選択したＣｐＧ部位のメチル化レベルを決定することができる。他の技術の例としては、単一分子配列決定（例えば、ナノポア配列決定（Ｓｉｍｐｓｏｎｅｔａｌ．ＮａｔＭｅｔｈｏｄｓ２０１７；１４（４）：４０７－４１０））、メチル化特異的ＰＣＲ（Ｈｅｒｍａｎｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ１９９６；９３（１８）：９８２１－９８２６）、メチル化状態に基づいてＤＮＡ分子を特異的に修飾する酵素（メチル化感受性制限酵素など）、メチル化結合タンパク質（抗体など）による処理、または質量分析法に基づく方法（例えば、Ｌｉｎｅｔａｌ．ＡｎａｌＣｈｅｍ２０１６；８８（２）：１０８３－７）が挙げられる。

様々なタイプのメチル化を分析することができる。いくつかの実施形態では、例としてシトシン残基の５－メチル化を使用した。他のタイプのＤＮＡメチル化の変化、例えば、ヒドロキシメチル化またはアデニンのメチル化も使用することができる。したがって、ヒドロキシメチル化を検出するための技術もまた使用することができ、例えば、酸化バイサルファイト配列決定（Ｂｏｏｔｈｅｔａｌ．Ｓｃｉｅｎｃｅ２０１２；３３６（６０８３）：９３４－７）とテトアシストバイサルファイト配列決定（ＮＡＴＰｒｏｔｏｃ２０１２；７（１２）：２１５９－７０）などである。メチル化プロファイルの決定および使用に関するさらなる詳細は、米国特許公開第２０１５／００１１４０３号および同第２０１６／００１７４１９号、ならびに同第２０１７／００２９９００号に見出すことができ、それらはそれらの全体が参照により組み込まれる。

バイサルファイト修飾の間に、非メチル化シトシンはウラシルに続いてチミンに変換されるが、ＰＣＲ増幅後、メチル化シトシンはそのまま残る（ＦｒｏｍｍｅｒＭ，ｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ１９９２；８９：１８２７－３１）。配列決定とアラインメントの後、個々のＣｐＧ部位のメチル化は、ＣｐＧ部位のシトシン残基でのメチル化配列リード数「Ｍ」（メチル化）と非メチル化配列リード数「Ｕ」（非メチル化）から推測されることができる。バイサルファイト配列決定を使用して、異なるウイルス関連病態の対象の血漿からウイルスメチロームを構築することができる。

上述のように、メチル化プロファイリングは、バイサルファイト変換ＤＮＡの超並列配列決定（ＭＰＳ）を使用して実行されることができる。バイサルファイトに変換されたＤＮＡのＭＰＳは、ランダムもしくはショットガン方式、またはターゲット方式で実行されることができる。例えば、バイサルファイト変換したＤＮＡの目的の領域（複数可）は、液相または固相ハイブリダイゼーションベースのプロセスを使用して捕捉した後、ＭＰＳを行うことができる。

ＭＰＳは、合成プラットフォームごとの配列決定（例えば、ＩｌｌｕｍｉｎａＨｉＳｅｑ、ＮｅｘｔＳｅｑ、ＮｏｖａＳｅｑプラットフォーム）、ライゲーションプラットフォームごとの配列決定（例えば、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓのＳＯＬｉＤプラットフォーム）、半導体ベースの配列決定システム（例えば、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓのＩｏｎＴｏｒｒｅｎｔまたはＩｏｎＰｒｏｔｏｎプラットフォーム）、ＧｅｎａｐＳｙｓＧｅｎｅＥｌｅｃｔｒｏｎｉｃＮａｎｏ－ＩｎｔｅｇｒａｔｅｄＵｌｔｒａ－Ｓｅｎｓｉｔｉｖｅ（ＧＥＮＩＵＳ）テクノロジー、単一分子配列決定（例えば、ＨｅｌｉｃｏｓシステムまたはＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓシステム）、またはナノポアベースの配列決定システム（例えば、ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓまたはＲｏｃｈｅのＧｅｎｉａプラットフォーム（ｓｅｑｕｅｎｃｉｎｇ．ｒｏｃｈｅ．ｃｏｍ／ｒｅｓｅａｒｃｈ－－－ｄｅｖｅｌｏｐｍｅｎｔ／ｎａｎｏｐｏｒｅ－ｓｅｑｕｅｎｃｉｎｇ．ｈｔｍｌ））を使用して実行することができる。脂質二重膜とタンパク質ナノポアを使用して構築されたナノポア、および固体状態のナノポア（グラフェンベースのものなど）を含むナノポアベースの配列決定。選択された単一分子配列決定プラットフォームにより、ＤＮＡ分子（Ｎ６－メチルアデニン、５－メチルシトシン、および５－ヒドロキシメチルシトシンを含む）のメチル化状態をバイサルファイト変換なしで直接解明することができるので（Ｂ．Ａ．Ｆｌｕｓｂｅｒｇｅｔａｌ．２０１０ＮａｔＭｅｔｈｏｄｓ；７：４６１－４６５；Ｊ．Ｓｈｉｍｅｔａｌ．２０１３ＳｃｉＲｅｐ：３：１３８９．ｄｏｉ：１０．１０３８／ｓｒｅｐ０１３８９）、このようなプラットフォームを使用すると、非バイサルファイト変換試料ＤＮＡ（例えば、血漿または血清ＤＮＡ）のメチル化状態を分析することができる。配列は、ペアエンド配列決定を含むか、ＤＮＡ分子全体の単一配列リードを提供し得る。

配列決定に加えて、例えば、上記のような他の技術を使用することができる。一実施形態では、メチル化プロファイリングは、メチル化特異的ＰＣＲ、またはメチル化感受性制限酵素消化とそれに続くＰＣＲ、またはリガーゼ連鎖反応とそれに続くＰＣＲにより行うことができる。さらに他の実施形態では、ＰＣＲは、単一分子またはデジタルＰＣＲの形態である（Ｂ．Ｖｏｇｅｌｓｔｅｉｎｅｔａｌ．１９９９ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ；９６：９２３６－９２４１）。さらなる実施形態では、ＰＣＲはリアルタイムＰＣＲであり得る（Ｌｏｅｔａｌ．ＣａｎｃｅｒＲｅｓ１９９９；５９（１６）：３８９９－９０３ａｎｄＥａｄｓｅｔａｌ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ２０００；２８（８）：Ｅ３２）。他の実施形態では、ＰＣＲは多重ＰＣＲであり得る。一実施形態では、マイクロアレイベースの技術を使用することにより、メチル化プロファイリングを行うことができる。

配列決定後、配列リードは、メチル化データ解析パイプラインであるＭｅｔｈｙｌ－Ｐｉｐｅ（Ｊｉａｎｇｅｔａｌ．ＰＬｏＳＯｎｅ２０１４；９：ｅ１００３６０）で処理して、ヒトゲノム全体（ｈｇ１９）、ＥＢＶゲノム全体（ＡＪ５０７７９９．２）、ＨＢＶゲノム全体、およびＨＰＶゲノム全体からなる人工的に組み合わせた参照配列にマッピングさせることができる。異なる参照配列を使用することができ、１つの参照配列に結合するのではなく、ゲノムの各々に対してマッピングを実行することができる。組み合わせたゲノム配列内の一意の位置にマッピングさせる配列決定されたリードを下流解析に使用することができる。
Ｂ．捕捉プローブを使用する標的化バイサルファイト配列決定

特定の実施形態は、血漿ＥＢＶＤＮＡ分子のメチル化パターンについて特定の領域を調べることができる。一実施形態において、捕捉強化した標的化バイサルファイト配列決定を使用して、異なるＥＢＶ関連疾患または病態を有する対象の循環中の無細胞ウイルスＤＮＡ分子を分析することができる。例えば、捕捉プローブは、ＥＢＶゲノムのＣｐＧ部位のすべてまたは一部をカバーするように設計されることができる。このアプローチは、他のウイルスにも使用されることができる。したがって、捕捉プローブは、Ｂ型肝炎ウイルス（ＨＢＶ）ゲノム、ヒトパピローマウイルス（ＨＰＶ）ゲノム、およびその他のウイルス／細菌ゲノムのＣｐＧ部位のすべてまたは一部をカバーするように設計されることもできる。同じ分析で、ヒトゲノムのゲノム領域をターゲットにするために、捕捉プローブを含めることもできる。

いくつかの実施形態では、ウイルスゲノムとヒトゲノムとの間のサイズの差を考慮するために、目的のヒトゲノム領域を使用するよりも多くのプローブを設計して、ウイルスゲノム配列にハイブリダイズすることができる。別の実施形態では、例えば、約２００ｂｐのサイズの各ウイルスゲノム領域をカバーする平均約２００μＭのハイブリダイジングプローブ（例えば、２００倍のタイリング捕捉プローブ）を設計することにより、ウイルスゲノム全体を標的とすることができる。一実施形態および一例として、ヒトのゲノムにおける目的の領域の場合、約２００ｂｐサイズの各領域をカバーする（例えば、５倍のタイリング捕捉プローブ）、平均５つのハイブリダイジングプローブを設計する。例解として、捕獲プローブは図１に従って設計され得る。

図１は、本開示の実施形態による標的化バイサルファイト配列決定のための捕捉プローブの設計を示す。図１は、捕捉プローブに関する情報、例えば、捕捉領域のサイズ、およびプローブでカバーされたタイリング量を示す。捕捉プローブは様々な長さで、互いにオーバーラップすることができる。このような捕捉プローブは、ＳｅｑＣａｐ－Ｅｐｉシステム（Ｎｉｍｂｌｅｇｅｎ）を使用することができる。他の実施形態は、そのような捕捉プローブを使用しなくてもよい。

列１０１は、配列のタイプ、すなわち、ヒトまたはウイルス標的の常染色体を特定する。列１０２は、特定の配列（例えば、染色体または特定のウイルスゲノムの配列）を特定する。列１０３は、捕捉プローブがカバーする塩基対（ｂｐ）の全長を示す。捕獲プローブは、配列全体をカバーしていなくてもよい（例えば、常染色体に示すように）が、例えば、ウイルスゲノムの場合、配列全体をカバーしていてもよい。列１０４は、捕捉プローブの深度を示し、プローブファイリングフォールドとも呼ばれる。これらの数字は、任意の所与の位置をカバーするプローブの数を伝える。常染色体の場合、捕獲プローブは平均で５倍のタイリングを提供する。ウイルス標的の場合、捕捉プローブは、平均で２００倍のタイリングを提供する。したがって、ウイルスに対するプローブの数は、常染色体よりも単位長あたりのパーセンテージ／割合が高くなる。このような高レベルのウイルス標的の捕捉プローブ濃度は、ウイルスＤＮＡを捕捉する可能性を最大化するのに役立つことができる。
ＩＩＩ．様々な病態での血漿ＥＢＶＤＮＡのメチル化レベル

例えば、ＮＰＣ、伝染性単核球症、ホジキンリンパ腫、ＮＫ－Ｔ細胞リンパ腫など様々なＥＢＶ関連疾患／病態を有する患者、および検出可能な血漿ＥＢＶＤＮＡを有する明らかに健康な個体において、血漿ＥＢＶＤＮＡ分子のメチル化パターンを分析した。検出可能な血漿ＥＢＶＤＮＡを有する明らかに健康なこれらの対象は、ＮＰＣのスクリーニングのために動員された対象コホートから回収され、２群に分類された。第１の群には、初期検査では血漿ＥＢＶＤＮＡレベルが検出可能であったが、追跡検査では検出不可能なレベルであり、「一時的陽性」と示された対象が含まれていた。第２の群には、初期検査と追跡検査の両方で検出可能な血漿ＥＢＶＤＮＡレベルを有し、「持続的陽性」と示された対象が含まれていた。

特別に設計された捕獲プローブにより捕獲強化した標的化バイサルファイト配列決定を使用した。分析した各血漿試料について、ＱＩＡａｍｐＤＳＰＤＮＡ血液ミニキットを使用して、４ｍＬ血漿からＤＮＡを抽出した。いずれの場合も、抽出されたすべてのＤＮＡは、ＫＡＰＡライブラリー調製キット（Ｒｏｃｈｅ）またはＴｒｕＳｅｑＤＮＡＰＣＲフリーライブラリー調製キット（Ｉｌｌｕｍｉｎａ）を使用する配列決定ライブラリーの調製に使用された。アダプターに連結されたＤＮＡ産物は、ＥｐｉＴｅｃｔＢｉｓｕｌｆｉｔｅＫｉｔ（Ｑｉａｇｅｎ）を使用して２回バイサルファイト処理にかけた。ＫＡＰＡＨｉＦｉＨｏｔＳｔａｒｔＵｒａｃｉｌ＋ＲｅａｄｙＭｉｘＰＣＲキット（Ｒｏｃｈｅ）を使用して、バイサルファイトに変換した試料に対して１２～１５サイクルのＰＣＲ増幅を実施した。第１のＰＣＲ増幅により、標的を捕捉するＤＮＡの量を増やすことができる。標的の捕獲反応のために、ＤＮＡの投入量を提案することができる。血漿由来の入力ＤＮＡ量（増幅なし）は、標的の捕捉に十分でない可能性がある。

次に、上記のウイルスおよびヒトゲノム領域をカバーするカスタム設計のプローブを使用して、増幅産物をＳｅｑＣａｐ－Ｅｐｉシステム（Ｎｉｍｂｌｅｇｅｎ）で捕捉した（図１）。実質的な「ＤＮＡの喪失」が捕捉ステップで生じ得る。標的捕捉反応後のＤＮＡ量は、配列決定に必要な量より少なくてもよい。したがって、第２の増幅段階（例えば、ＰＣＲを使用）は、後続の配列決定ステップのためにＤＮＡ量を増幅することができる。したがって、いくつかの実施形態において、標的捕捉後、捕捉生成物を１４サイクルのＰＣＲにより濃縮し、ＤＮＡライブラリーを生成した。ＤＮＡライブラリーは、ＮｅｘｔＳｅｑプラットフォーム（Ｉｌｌｕｍｉｎａ）で配列決定された。配列決定の実行ごとに、ペアエンドモードを使用して、一意の試料バーコードを持つ４～６個の試料を配列決定した。各ＤＮＡ断片から、２つの末端の各々から７５ヌクレオチドを配列決定したが、他のヌクレオチド数も配列決定することができる。
Ａ．異なるＥＢＶ関連病態における血漿ＥＢＶＤＮＡのメチル化プロファイル

図２は、本開示の実施形態による、伝染性単核球症、ＮＰＣ、およびＮＫ－Ｔ細胞リンパ腫の患者のＥＢＶゲノム全体におけるＣｐＧ部位のメチル化密度を示す。ＥＢＶＤＮＡのメチル化プロファイルは、血漿ＥＢＶＤＮＡ断片の標的化キャプチャーバイサルファイト配列決定により生成された。横軸は、ＥＢＶ参照ゲノムのゲノム座標を示す。縦軸は、単一のＣｐＧ部位の解像度でのメチル化密度を示す。

ＥＢＶゲノム全体におけるＣｐＧ部位のメチル化密度は、上述の式で導き出された。
異なる対象間で血漿ＥＢＶＤＮＡのメチル化密度の異なるパターンを観察することができた。ＤＮＡメチル化のプロファイルのこれらの差は、全体的なレベルまたは遺伝子座特異的レベルで分析され得た。例えば、全体的なレベルでは、ＮＰＣ患者２人（ＴＢＲ１３９２とＴＢＲ１４１６）（メチル化密度８３．８％と８１．３％）よりも伝染性単核球症患者（ＴＢＲ１６１０）（メチル化密度５７．３％）で低メチル化レベルが観察された。全体的メチル化レベルは、ゲノム全体における部位のメチル化測定を使用して、単一の値を決定する。

また、比較的巨視的なレベルで、ＮＫ－Ｔ細胞リンパ腫（ＴＢＲ１６２９）の患者は、ＮＰＣ患者の２人（ＴＢＲ１３９２およびＴＢＲ１４１６）よりも、ＥＢＶゲノム全体におけるメチル化レベルにおいて、高い多様性（例えば、ゲノム座標５００００～１０００００）を示した。不均一性は、メチル化密度プロットにおいてくぼみとして現れる。ＮＰＣ患者は比較的均一な密度を有するが、リンパ腫患者は密度が著しく低下する多くの小さな谷を示し、それによって櫛のような構造になる。

ＤＮＡメチル化のパターンは、遺伝子座特異的または領域特異的レベルで分析することもできる。これらの遺伝子座は、任意のサイズのもの、および少なくとも１つのＣｐＧ部位のものであり得る。これらの遺伝子座は、注釈付きのウイルス遺伝子と関連する場合としない場合がある。このような領域特異的メチル化レベルは、同一病態の異なる対象に同様の値を有し得るが、異なる病態の他の対象とは異なる値を有する。

図２では、本発明者らは、４つのゲノム領域、すなわち領域２０１（７，０００～１３，０００）、領域２０２（１３８，０００～１３９，０００）、領域２０３（１４３，０００～１４５，０００）、および領域２０４（１６９，０００～１７０，０００）を定義する。領域２０１および２０４における領域特異的なメチル化密度は、伝染性単核球症（ＴＢＲ１６１０）の症例よりもＮＰＣ（ＴＢＲ１３９２およびＴＢＲ１４１６）の２つの症例で高かった。逆に、領域２０３において領域に特異的なメチル化密度は、伝染性単核球症の症例よりもＮＰＣの２つの症例で低かった。領域２０３で領域特異的ＤＮＡメチル化密度は、ＮＰＣおよび伝染性単核球症の他の症例よりもＮＫ－Ｔ細胞リンパ腫（ＴＢＲ１６２９）の症例で最も高かった。このような結果は、異なるＥＢＶ関連病態の患者において、全体的レベルおよび遺伝子座特異的レベルに対する血漿ＥＢＶＤＮＡ断片のメチル化プロファイルに異なるパターンが存在することを示す。

したがって、領域２０１における低メチル化レベルは、対象が伝染性単核球症を有することを示すことができる。領域２０４の高メチル化レベルは、対象がＮＰＣであることを示し得る。また、領域２０３のメチル化レベルが高いことは、対象がＮＫ－Ｔ細胞リンパ腫を有することを示す。高または低（または中間範囲）を定義する閾値の特定の値は、図２に示すタイプの測定値に基づいて各領域に対して決定されることができる。このような領域は、異なる病態を有する対象のメチル化プロファイルを分析し、異なる病態に対して異なるメチル化密度を持つ領域を選択することにより選択されることができる。さらに、複数の領域からの測定値を、例えば、クラスタリング技術または決定木を介して組み合わせることができる。
Ｂ．初期ステージＮＰＣ

図３は、初期ステージＮＰＣ（ステージＩ）を有する本発明のスクリーニングコホートからの患者（ＡＬ０３８）の血漿ＥＢＶＤＮＡのメチル化プロファイル、および低濃度の血漿ＥＢＶＤＮＡ（定量的ＰＣＲで測定した血漿１ｍＬあたり８コピー）を示す。血漿ＤＮＡは初期の血液試料から抽出された。初期（ベースライン）検査が陽性の対象は、４週間後に再検査され、それを追跡検査と見なした。この患者は採血時にＮＰＣの症状がなく、癌は２段階分析による血漿ＥＢＶＤＮＡのリアルタイムＰＣＲ分析を使用するスクリーニングにより検出された。リアルタイムＰＣＲによって持続的陽性の血漿ＥＢＶＤＮＡを有する対象を、経鼻内視鏡検査およびＭＲＩを使用してさらに確認した。

図３は、シグナルにはノイズが多いことを示し、例えば、いくつかの部位は１００％のメチル化密度を有し、いくつかの部位はゼロなどの非常に低いメチル化密度を有する。そのようなノイズの多い挙動を除去するために、実施形態は、ウィンドウ内の部位でのすべての配列リードの組み合わせたメチル化密度を使用して測定される領域メチル化レベルを使用することができる。例えば、２００ｂｐのウィンドウを使用することができ、これによりノイズを減らし、よりスムーズなデータを提供することができる。したがって、試料内のＥＢＶＤＮＡ配列の濃度が低くても、メチル化レベルを測定することができ、かつ異なる病態を区別するために使用することができる。病態を区別するこのような能力を示すさらなるデータを以下に示す。

この患者では、捕捉された血漿ＥＢＶＤＮＡ断片の量は、進行ステージＮＰＣおよび高濃度の血漿ＥＢＶＤＮＡを有する他の患者２人（ＴＢＲ１３９２およびＴＢＲ１４１６）よりも比較的少なかった。前述のように、これは、たとえＥＰＶ濃度が低い症例でも、メチル化レベル（複数可）をなおも使用して特定の病態（この場合はＮＰＣ）を特定し得ることを示す。さらに、血漿ＥＢＶの量は、疾患のレベル（例えば、癌のレベル）を決定する一部として使用されることができる。
Ｃ．患者間のメチル化プロファイルの差分値

メチル化プロファイルの差は、ＮＰＣおよび伝染性単核球症の患者の比較を提供し得る。図２で前述したように、異なるＥＢＶ関連病態の患者間で血漿ＥＢＶＤＮＡの異なるメチル化パターンが存在する。本発明者らは、これらの異なる患者間でのＥＢＶゲノム全体におけるＣｐＧ部位のメチル化密度を比較することにより、メチル化パターンの差を分析する。
１．異なる病態

図４は、本開示の実施形態による、異なる病態を有する２人の患者の間のＥＢＶゲノム全体におけるＣｐＧ部位のメチル化密度の差を示す。横軸は、ＥＢＶゲノムのゲノム座標である。縦軸は、２人の患者間のメチル化の部位ごとの差を示す。ＮＰＣ（ＴＢＲ１３９２）と伝染性単核球症（ＴＢＲ１６１０）とのメチル化の差の中央値は、２３．９％（ＩＱＲ（四分位範囲）：１４．８～３９．３％）であり、ＥＢＶゲノムのＣｐＧ部位全体におけるＮＰＣメチル化レベルは、伝染性単核球症よりもＮＰＣで系統的に高いことを示している。ＮＰＣ（ＴＢＲ１４１６）と伝染性単核球症（ＴＢＲ１６１０）の別の比較でも、メチル化の差の類似パターン（中央値：２２．９％、ＩＱＲ：１３．３～３７．８％）が観察された。

上の図は、ＮＰＣ患者（ＴＢＲ１３９２）と伝染性単核球症患者（ＴＢＲ１６１０）のメチル化密度の差を示す。１つのＣｐＧ部位での陽性値は、その特定の部位において症例ＴＢＲ１６１０よりも症例ＴＢＲ１３９２の方がメチル化密度が高いことを示す。陰性値は、そのＣｐＧ部位において症例ＴＢＲ１６１０よりも症例ＴＢＲ１３９２の方がメチル化密度が低いことを示す。

下の図は、別のＮＰＣ患者（ＴＢＲ１４１６）と同じ伝染性単核球症患者（ＴＢＲ１６１０）の間のメチル化密度の差を示す。このグラフィック表示は、異なるＥＢＶ関連病態における血漿ＥＢＶＤＮＡのメチル化パターンの分析および比較の一例を示す。

一般に、ＮＰＣ患者はより高いメチル化を有し、メチル化の差は有意な値を有する。このような差分値は、様々な方法で、例えば、合計して全体的な差分値を取得するなど、定量化することができる。この全体的な差分値は、クラスタリングで使用される２人の対象間の距離として機能することができ、各メチル化値（例えば、部位ごとのインデックスまたは領域ごとのレベル）は、多次元データポイント中の１つのデータポイントである。
２．同一病態

図５は、本開示の実施形態による、ＮＰＣ（ＴＢＲ１３９２およびＴＢＲ１４１６）の同じ診断を有する２人の患者間のＥＢＶゲノム全体におけるＣｐＧ部位のメチル化密度の差を示す。一般に、２つの異なる疾患を有する患者のこれまでの分析と比較して、ＥＢＶゲノム全体におけるメチル化密度の差はより小さい（図４）。２人のＮＰＣ対象（ＴＢＲ１３９２対ＴＢＲ１４１６）間のメチル化差の中央値は、０．３％（ＩＱＲ：－１．２～２．５％）であった。これは、ＥＢＶ関連疾患と同じ診断を受けた患者が、類似の血漿ＥＢＶＤＮＡのメチル化パターンを有し得ることを示す。メチル化密度の差は、特定の症例に特有のいくつかの疾患特性に影響を与え、追加の診断または予後情報を提供し得る。
３．ＮＰＣおよび偽陽性

図６は、本開示の実施形態による、初期ステージＮＰＣを有する患者（ＡＯ０５０）と血漿ＥＢＶＤＮＡの偽陽性結果を有する対象（ＨＢ００２）との間の血漿ＥＢＶＤＮＡのメチル化パターンの差を示す。この比較は、初期ステージＮＰＣ患者と、ＮＰＣを有さないが連続検査で血漿ＥＢＶＤＮＡが持続的陽性であった対象との血漿ＥＢＶＤＮＡのメチル化パターンを示す。どちらも本発明のスクリーニングコホートからのものであった。血漿ＤＮＡを動員時に最初の血液試料から抽出した。

図６に示すように、初期ステージＮＰＣ患者（ＡＯ０５０）と血漿ＥＢＶＤＮＡの偽陽性結果（ＨＢ００２）を有する対象との間には、血漿ＥＢＶＤＮＡのメチル化パターンに差がある。しかし、ＮＰＣ対象とＩＭ対象との差の数とサイズは、図４のプロットよりも小さい。したがって、ＮＰＣ対象と偽陽性対象との間に差があるという事実は、癌スクリーニングの精度を高める能力を示す。また、差がＩＭ対象とは異なるスケールのものであるという事実は、３つの病態のいずれかを有する対象を区別するあらゆる能力を示す。この観察に基づいて、血漿ＥＢＶＤＮＡメチル化パターンを使用して、２つの群（初期ステージＮＰＣを有する対象および偽陽性の結果を有する対象）を区別する診断的有用性を調査し、そのデータを後のセクションで提供する。
Ｄ．同様の患者と異なる患者のメチル化密度間の相関

異なる部位でのメチル化密度の差分値を分析することに加えて、メチル化密度を一緒にプロットして、相関関係またはその欠如を特定し得る。例えば、２次元プロットの各データポイントには、同じ部位の２人の対象からの２つのメチル化密度を含めることができる。メチル化密度が相関している場合（例えば、対象２人が同一病態を有する場合）、プロットは線形の挙動を示す。メチル化密度が相関していない場合（例えば、対象２人が同一病態を有する場合）、プロットは線形の挙動を示さない。

図７Ａ～７Ｃは、２つの臨床症例間の血漿ＥＢＶＤＮＡのメチル化プロファイルの差を示す。図７Ａ～７Ｃでは、３つのグラフの各データポイントは、１人の患者のＥＢＶゲノム全体におけるＣｐＧ部位のメチル化密度（ｘ軸上）および対応する他の患者の同じＣｐＧ部位のメチル化密度（ｙ軸上）を表す。

図７Ａおよび７Ｂは、異なる疾患（１人のＮＰＣと１人の伝染性単核球症）を有する２人の患者間のメチル化密度を示す。図に示すように、メチル化密度は相関していない。ＮＰＣ対象は、ＩＭ対象と一致しない高いメチル化密度（例えば、８０％以上）を一貫して有するため、上部に水平バンドが生じる。このような挙動は、２つの対象が異なること、例えば、異なる病態を示す。異なる病態には、疾患のあるものと疾患のないものが含まれ得る。

図７Ｃは、ＮＰＣを有する２人の異なる患者間のメチル化密度を示す。図７Ｃでは、斜めの傾向線（勾配はほぼ１に等しい）を観察することができ、これは各ＣｐＧ部位のメチル化密度が、ＮＰＣを有する２人の異なる患者間で類似していることを示唆している。このグラフィカルパターンは、図７Ａおよび７Ｂでは観察されない。これらの結果は、異なるＥＢＶ関連疾患の患者が、血漿ＥＢＶＤＮＡ断片の異なるメチル化プロファイルのパターンを有することを再び示唆する。実施形態は、部位（または部位の領域）のそのような異なるメチル化特性を使用して、異なる病態間で異なるメチル化密度を有する部位／領域を特定し、それらの部位／領域を使用して病態を区別するためのメチル化レベル（複数可）を決定することができる。
ＩＶ．血漿ＥＢＶＤＮＡのメチル化パターンを使用するＥＢＶ関連病態の識別

異なるＥＢＶ関連病態における血漿ＥＢＶＤＮＡのメチル化プロファイルの体系的な比較のために、各症例について「メチル化割合」（一種の「メチル化密度」の一例）を使用した。血漿ＥＢＶＤＮＡ断片のメチル化割合は、次の方程式を使用して導き出すことができる。
式中、Ｍ´はメチル化されたリード数、Ｕ´は１つ以上のＣｐＧ部位での非メチル化リード数であり、予め選択することができる。メチル化割合は、本発明の捕捉プローブでカバーされるＥＢＶゲノム内のすべてのＣｐＧ部位または一部のＣｐＧ部位に基づいて計算されることができる。メチル化レベルの他の例も使用されることができる。
Ａ．ゲノム全体のメチル化レベルの集約

ＥＢＶゲノム全体における単一メチル化レベルの一例として決定されることができる。特定のＣｐＧ部位のセットでメチル化されたＥＢＶＤＮＡ分子の集合数を使用して、体積の尺度などの他のＤＮＡ分子を含む測定量による正規化、他のＤＮＡ分子に対応する強度、または他のＤＮＡ分子の数とともに、ゲノム全体のメチル化レベルとしてメチル化割合を決定することができる。一実施形態では、本発明者らは、本発明の捕捉プローブによってカバーされるＥＢＶゲノム内のＣｐＧ部位に基づいて、血漿ＥＢＶＤＮＡ分子のメチル化割合を計算した。

図８は、本開示の実施形態による、伝染性単核球症（ＩＭ）（患者数ｎ＝２）、ＥＢＶ関連リンパ腫（ｎ＝３）、一時的陽性の血漿ＥＢＶＤＮＡ（ｎ＝３）、持続的陽性の血漿ＥＢＶＤＮＡ（ｎ＝３）、およびＮＰＣ（ｎ＝６）を有する対象においてカバーされる全ＣｐＧ部位に基づく血漿ＥＢＶＤＮＡのメチル化割合を示す。図８は、５つの異なる病態の箱ひげ図を示す。図に示すように、中央値は異なる病態を区別するために十分に分離されている。例えば、約７９％の参照レベルは、ＥＢＶが持続的に陽性である患者とＮＰＣを有する患者とを区別することができる。

全体として、血漿ＥＢＶＤＮＡのゲノム全体の集合したメチル化割合を分析することで、異なるＥＢＶ関連疾患／病態を区別することができた（ｐ値＝８．５２ｅ－０５、一元分散分析検定）。ＮＰＣ患者６人のうちの４人は、スクリーニングコホートからの患者で、初期ステージＮＰＣ（ステージＩまたはＩＩ）であった。したがって、初期ステージの病態でさえ、その病態（例えば、持続的陽性の対象）を有さない対象と区別することができる。異なる参照レベルを使用して異なる病態を区別することができ、例えば、約５７％未満を使用してＩＭを特定し、５７％～６３％を使用して一時的陽性の対象を特定することができる。いくつかの実施形態では、所与のメチル化レベルについて、より幅広い病態セットからの２つ以上の病態を特定することができる（例えば、リンパ腫および一時的陽性は５７％～６３％の範囲で特定されることができる）。そのような状況では、確率を各病態に割り当てることができる。例えば、検査対象のメチル化は、２群の参照対象、すなわち、病態Ａ（例：リンパ腫）に罹患している１群と、病態Ｂ（例：伝染性単核球症）に罹患しているもう１群と比較することができる。参照対象の２群の平均からの標準偏差の数を決定することができる。標準偏差の数に基づいて、２つの病態に罹患している確率を計算することができる。これらの確率を使用して、これら２つの病態に罹患している相対的な可能性を判断することができる。

選択される特定の参照値（複数可）は、メチル化レベルが決定される特定の様態に依存し得る。例えば、メチル化割合は、メチル化ＤＮＡ分子の数Ｍ（例えば、リード数または強度を使用して決定される）を非メチル化ＤＮＡ分子の数Ｕ（例えば、リード数または強度を使用して決定される）で割った、例えば、Ｍ／Ｕである。他のスケーリング係数または加算係数は、特定の参照値を変更し得る。本試料のメチル化レベルが参照試料のメチル化レベルと同じ様態で決定される限り、選択された参照レベルが適用される。参照レベルは、後の結果に示すように、メチル化レベルを測定するために選択した部位にも依存し得る。

メチル化レベルを使用して異なる病態を区別する能力は、部位で検出されたＤＮＡ分子の数に依存し得るが、本明細書に示された結果は、ＥＢＶＤＮＡ分子の数が比較的少なくなり得ることを示す。例えば、図８では、異なる対象における血漿ＥＢＶＤＮＡ分子の５％値は４４であり、最小は２６である。種々の実施形態では、無細胞ウイルスＤＮＡ分子の数は、少なくとも１０個の無細胞ＤＮＡ分子、例えば、２０、３０、４０、５０、１００、または５００個の無細胞ＤＮＡ分子を含むことができる。他の実施形態では、無細胞ＤＮＡ分子の総数を対象について分析し、特定のウイルスゲノムは少なくとも１，０００個の無細胞ＤＮＡ分子またはそれ以上（例えば、少なくとも１０，０００個、少なくとも１００，０００個、または少なくとも１，０００，０００個）であり得る。
Ｂ．特異的メチル化領域（ＤＭＲ）

捕捉プローブでカバーされるすべての部位を使用する代わりに、特定の部位のみを使用することができる。これらの部位は、すべての部位を分析して、特定の特性、例えば、特定の病態間で異なるメチル化レベルを有する部位を選択することにより決定されることができる。部位は、領域ごとに個別にまたは集合的に分析されることができ、例えば、１つの領域に２つ以上の部位を割り当て、その領域に対してメチル化レベルを決定することができる。部位および領域は、ウイルスゲノムにわたり得ることにより、例えば、１つの部位／領域に限定されずに、ゲノム全体であり得る。例えば、１ｋｂ、２ｋｂ、５ｋｂ、または１０ｋｂごとに少なくとも１つの部位／領域を使用することができる。

したがって、いくつかの実施形態は、特異的メチル化領域（ＤＭＲ）内のＣｐＧ部位に基づいてメチル化割合を計算することができる。血漿ＥＢＶＤＮＡのメチル化パターンが異なるＥＢＶ関連疾患で異なることを先に示した。したがって、ＤＭＲが存在するべきであり、ＤＭＲ内ではメチル化レベルは異なる疾患／病態間で異なる。個々の部位を使用することに加えて、異なるサイズの非重複ウィンドウを使用することができる。例えば、非重複領域のサイズは、５０ｂｐ、１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、６００ｂｐ、８００ｂｐ、および１０００ｂｐに設定することができるが、これらに限定されない。別の例では、各ＣｐＧ部位は、例えば、結合部位領域を使用せずに、個別に分析されることができる。

ＤＭＲは、異なる病態の対象の特定のメチル化レベルを有するように選択されることができる。例えば、領域内のＣｐＧ部位のメチル化割合が、疾患／病態の１つ以上の症例において１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、または９０％未満、かつ別の疾患／病態の１つの症例において１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％または９０％超である場合、ＤＭＲを定義することができる。さらに別の実施形態では、疾患ごとに２つ以上の症例を使用してＤＭＲを定義することができる。また、２つを超える疾患／病態のカットオフ基準、例えば、各病態で異なる範囲のメチル化レベルなどを使用することができる。
１．ＩＭ＜５０％およびＮＰＣ＞８０％を使用するＤＭＲ

このようなＤＭＲのマイニングを示すために、伝染性単核球症患者１人（ＴＢＲ１６１０）とＮＰＣ患者１人（ＴＢＲ１３９２）を無作為に選択した。ここでは、まず、ＥＢＶゲノム全体におけるサイズが５００塩基対（ｂｐ）の非重複ウィンドウ（位置１～５００、５０１～１０００などのビン）を設定した。５００ｂｐの領域内で、ＩＭ（ＴＢＲ１６１０）およびＮＰＣ（ＴＢＲ１３９２）を有する患者における領域内のすべてのＣｐＧ部位の平均メチル化割合を計算した。この例では、領域内のすべてのＣｐＧ部位の平均メチル化割合が、伝染性単核球症（ＴＢＲ１６１０）の症例では５０％未満であり、ＮＰＣ（ＴＢＲ１３９２）の症例では８０％超である場合に、５００－ｂｐ領域はＤＭＲの第１の選択基準を満たし得る。

図９は、本開示の実施形態による、第１の選択基準を満たす特異的メチル化領域（ＤＭＲ）のマイニングを示す。図９は、図７Ａに示す２つの症例に対応する。図９の各データポイントは、ＩＭ対象（ｘ軸）のＥＢＶゲノム全体の５００－ｂｐ領域のメチル化割合と、ＮＰＣ対象（ｙ軸）の対応する同じ５００－ｂｐ領域のメチル化割合を表す。上で定義されたこの第１の選択基準を使用して、本発明者らは、８２１個のＣｐＧ部位（本発明のプローブで捕捉されるＥＢＶゲノム内の全ＣｐＧ部位の約１０％）からなる合計３９個のＤＭＲを特定した。これらの３９個のＤＭＲは、図９の左上隅にある。

図９では、ＮＰＣ対象のメチル化割合を縦軸上に示し、ＩＭ対象のメチル化割合を横軸上に示す。垂直線９０１ＩＭ症例のメチル化割合の５０％のカットオフを示す。水平線９０２は、ＮＰＣ症例の８０％のカットオフを示す。したがって、左上のセクション（一般に９１０としてマーク）の領域は、この例のＤＭＲに対応する。

図１０は、図９に記載された基準を満たす３９個の特異的メチル化領域のゲノム座標をリストする表である。列１００１は、この例ではＥＢＶであるウイルスゲノムをリストする。列１００２は、参照ＥＢＶゲノムの開始ゲノム座標を示す。列１００３は、参照ＥＢＶゲノムの終了ゲノム座標を示す。メチル化密度列１００４ＩＭ対象およびＮＰＣ対象におけるメチル化密度。

これらのＤＭＲは、他の対象のメチル化レベル（複数可）を決定するために使用することができる。一実施形態では、このＤＭＲセットのうちの１つの部位をカバーする各配列リードのメチル化状態を使用して、ＤＭＲセットに対応する割合を決定する。このメチル化割合は、図８と同様の様態で決定されることができるが、配列リードのサブセット、すなわちＤＭＲのセット内の部位に対応するものが使用される。他の実施形態では、ＤＭＲの各々について個々のメチル化レベルを決定することができる。対象のメチル化レベルは、多次元データポイントを形成することができ、例えば、クラスタリング技術または参照平面（多次元空間の超平面）は、異なる病態を有する対象または異なる分類／病態のレベルを分離することができる。これらの病態を区別するために他の分析方法、例えば、ナイーブベイズ、ランダムフォレスト、決定木、サポートベクターマシン、ｋ最近傍、Ｋ平均クラスタリング、ガウス混合モデル（ＧＭＭ）、密度ベースの空間クラスタリング、階層的クラスタリング、ロジスティック回帰分類、およびその他の教師ありおよび教師なし分類または回帰方法を使用することができるがこれらに限定されない。

図１１は、本開示の実施形態による、伝染性単核球症（ＩＭ）（ｎ＝２）、ＥＢＶ関連リンパ腫（ｎ＝３）、一時的陽性の血漿ＥＢＶＤＮＡ（ｎ＝３）、持続的陽性の血漿ＥＢＶＤＮＡ（ｎ＝３）、およびＮＰＣ（ｎ＝６）を有する対象の同一群における上述（図８）の３９個のＤＭＲ内の８２１個のＣｐＧ部位に基づく血漿ＥＢＶＤＮＡのメチル化割合を示す。これらは、図８で使用されたものと同じ対象である。メチル化割合は、３９個のＤＭＲのセット内の８２１部位に対応する（例えば、整列させる）配列リードを使用して、単一の値として決定される。

図１１は、５つの異なる病態の箱ひげ図を示す。図に示すように、中央値は異なる病態を区別することができる。例えば、約７５％の参照レベルは、ＥＢＶが持続的に陽性である患者とＮＰＣを有する患者とを区別することができる。異なる群間でメチル化割合の統計的に有意な差を観察することができ（ｐ値＝１．８３ｅ－０５、一元分散分析検定）、これは図８よりも優れている。

図１１には、図８といくつかの差がある。例えば、ＤＭＲがこれらの対象の特定の範囲にあるように特異的に選択されているので、ＩＭとＮＰＣの値の広がりは小さい。このような結果は、異なる病態を示すメチル化レベルの異なる範囲基準が、対象の異なる分類を識別するより選択的な技術を提供することができることを示す。さらに、ＮＰＣ対象と持続的に陽性の対象との差は、図８よりも大きい。
２．ＩＭ＜８０％およびＮＰＣ＞９０％を使用するＤＭＲ

前のセクションと同様に、初期ＮＰＣ患者と、検出可能な血漿ＥＢＶＤＮＡを有する非ＮＰＣ患者とを区別するために、分化メチル化領域に基づいて使用メチル化割合の分析を行った。分析されたすべてのＮＰＣ患者および非ＮＰＣ対象は、見込みスクリーニングコホートを通じて特定された（Ｃｈａｎｅｔａｌ．ＮＥｎｇｌＪＭｅｄ２０１７；３７７：５１３－５２２）。ＤＭＲをマイニングするために、ＮＰＣ患者２人（ＴＢＲ１４１６およびＦＤ０８９）および伝染性単核球症の患者１人（ＴＢＲ１７４８）を無作為に選択した。さらに別の実施形態では、検出可能な血漿ＥＢＶＤＮＡを有する非ＥＢＶ対象を含む他のＥＢＶ関連疾患または病態をＤＭＲのマイニングに使用し得る。ＥＢＶゲノム全体でサイズが５００塩基対（ｂｐ）の非重複ウィンドウを設定する。

図１２は、本開示の実施形態による、第２の選択基準を満たす特異的メチル化領域（ＤＭＲ）のマイニングを示す。前のセクションとは対照的に、ＤＭＲのマイニングには、疾患ごとに２つ以上の症例（この分析ではＮＰＣ）を含めた。第２の選択基準は、（１）サイズが５００ｂｐの非重複、連続ウィンドウ、および（２）選択された伝染性単核球症の症例（ＴＢＲ１７４８）で８０％未満、鼻咽頭癌の両症例（ＴＢＲ１４１６およびＦＤ０８９）で９０％超の領域内のＣｐＧ部位のメチル化割合に対応する。図１２の各データポイントは、ＩＭ対象（ｘ軸）のＥＢＶゲノム全体の５００－ｂｐ領域内のすべてのＣｐＧ部位の平均メチル化割合と、ＮＰＣ対象２人（ｙ軸上）の同じ領域の対応する平均メチル化割合を表す。

図１２では、ＮＰＣ対象のメチル化割合を縦軸上に示し、ＩＭ対象のメチル化割合を横軸上に示す。垂直線１２０１は、ＩＭ症例のメチル化割合の８０％のカットオフを示す。水平線９０２は、ＮＰＣ症例の９０％のカットオフを示す。上で定義されたこの第２の選択基準を使用して、１，５２０ＣｐＧ部位（本発明のプローブで捕捉されたＥＢＶゲノム内の全ＣｐＧ部位の約２０％）からなる合計４６個のＤＭＲを特定した。４６個のＤＭＲは左上のセクションに示される（一般的に領域１２１０としてマークされる）。

図１３は、本開示の実施形態による、一時的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象、持続的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象、およびＮＰＣ患者における図１２に明記の４６個のＤＭＲに基づく血漿ＥＢＶＤＮＡのメチル化割合を示す。各データポイントは異なる対象に対応する。一時的陽性および持続性陽性の分類は、前述のとおり、すなわち、試料から２回採取されたＥＢＶＤＮＡリードの数に基づいて決定される。

標的化バイサルファイト配列決定により、一時的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象１１７人、持続的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象３９人、ＮＰＣ患者３０人を分析した。非ＮＰＣ対象およびＮＰＣ患者はすべて、見込みスクリーニングコホートから動員された。上で定義したＤＭＲ（図１２）に基づいて、３群間で血漿ＥＢＶＤＮＡのメチル化割合を比較した。メチル化割合は、４６個のＤＭＲのセット内の１，５２０部位に対応する（例えば、整列させる）配列リードを使用して、単一の値として決定される。

一実施形態では、メチル化割合の集計の計算のために、様々なＤＭＲに異なる重みを割り当てることができる。このような重み付けは、様々な方法、例えば、部位での各メチル化配列リードのスケーリング係数（例えば、領域により高い重みを付ける場合は１を超える係数を掛ける）で実装することができるか、またはスケーリング係数を領域のメチル化割合に適用し得、これにより、領域のメチル化割合の加重平均値を提供する。この例では、定義されたすべてのＤＭＲに等しく重みを適用した。

ＮＰＣ群の４６個のＤＭＲに基づく血漿ＥＢＶＤＮＡの平均メチル化割合（平均＝８８．３％）は、一時的陽性（平均＝６５．３％）および持続的陽性（平均＝７１．１％）の血漿ＥＢＶＤＮＡを有する他の２つの非ＮＰＣ群の平均メチル化割合よりも有意に高かった（ｐ＜０．０００１、クラスカル・ワリス検定）。したがって、ＮＰＣ患者は、血漿ＥＢＶＤＮＡのメチル化プロファイルの差（例えば、ＤＭＲに基づく血漿ＥＢＶＤＮＡのメチル化割合で表される）に基づいて、検出可能な血漿ＥＢＶＤＮＡ（一時的陽性または持続的陽性）を有する非ＮＰＣ対象と区別することができる。

この例および本明細書に記載の他の実施形態において、分類を区別するための参照レベルは様々な方法で決定することができる。一実施形態では、ＮＰＣ対象とＮＰＣではない対象とを区別するために使用されるカットオフ値（参照レベル）は、分析中のＮＰＣ患者（トレーニングセット）間のＥＢＶＤＮＡメチル化割合の最低値であり得る。他の実施形態では、カットオフ値は、例えば、ＮＰＣ患者の平均ＥＢＶＤＮＡメチル化割合マイナス１標準偏差（ＳＤ）、平均マイナス２ＳＤ、平均マイナス３ＳＤとして決定することができる。さらに他の実施形態では、カットオフは、例えば、分析中のＮＰＣ患者の１００％、９５％、９０％、８５％、８０％を含むがこれらに限定されないノンパラメトリック法により、受信者動作特性（ＲＯＣ）曲線を使用して決定され得る。

本例では、メチル化割合の８０％のカットオフ値を設定して、ＮＰＣ検出で９５％を超える感度を実現することができる。この８０％のカットオフ値を使用すると、ＮＰＣ患者３０人中２９人、一時的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象１１９人中１６人、および持続的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象３９人中６人が、標的化バイサルファイト配列決定により定義された４６個のＤＭＲ内に決定された血漿ＥＢＶＤＮＡのメチル化割合を有し、カットオフ値（８０％）より高かった。計算された感度、特異度、および陽性予測値は、それぞれ９６．７％、８５．９％、および５８．５％であった。
Ｃ．同一病態の代表的なメチル化コンセンサス領域

以下の例では、同一病態の対象間でメチル化密度が似ている領域を特定することを目的とした。このような領域を、病態の代表的なメチル化コンセンサス領域と定義する。いくつかの実施形態では、そのような基準はまた、病態間の特異的メチル化の基準と組み合わせることができる。

「代表的な」メチル化コンセンサス領域の特定を実証するために、ＮＰＣ患者２人（ＴＢＲ１３９２およびＴＢＲ１４１６）を無作為に選択した。ここでは、ＥＢＶゲノムを５００ｂｐの非重複領域に分割した。他の実施形態では、異なるサイズの重複領域が設定され得る。例えば、重複領域のサイズは、５０ｂｐ、１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、６００ｂｐ、８００ｂｐ、および１０００ｂｐに設定することができる。５００ｂｐの領域内で、ＮＰＣ（ＴＢＲ１３９２およびＴＢＲ１４１６）を有する患者２人における領域内のすべてのＣｐＧ部位の平均メチル化割合を計算した。

図１４は、本開示の実施形態による、第３の選択基準を満たす代表的なメチル化コンセンサス領域のマイニングを示す。第３の選択基準は、（１）サイズが５００ｂｐの非重複、連続ウィンドウ、（２）２つのＮＰＣ症例間の１％未満の領域の全体的なメチル化密度の差、および（３）両症例で８０％超の領域の全体的なメチル化密度に対応する。

他の実施形態では、２人のＮＰＣ患者間のメチル化割合の差が、２つのＮＰＣ症例間で２％、３％、４％、５％、６％、７％、８％、９％、または１０％未満、かつメチル化割合が、１０％、２０％、３０％、４０％、５０％、６０％、７０％、または９０％を超える場合、「代表的な」メチル化コンセンサス領域を定義し得る。疾患ごとに２人を超える対象を使用して、「代表的な」メチル化コンセンサス領域を定義することができ、例えば、各対象のメチル化割合は特定の類似カットオフ（例えば、１％）内で、メチル化割合の特定の範囲内（例えば、８０％超）にある。

図１４の各データポイントは、ＮＰＣ対象（ｘ軸上）のＥＢＶゲノム全体の５００ｂｐ領域のメチル化割合と、他のＮＰＣ対象（ｙ軸上）の同じ領域のメチル化割合を表す。上で定義した選択基準を使用して、本発明者らは７９の領域を特定した。これらの７９個のＤＭＲは、図１４の領域１４１０に見出され得る。

図１４では、第１のＮＰＣ対象のメチル化割合を縦軸上に示し、第２のＮＰＣ対象のメチル化割合を横軸上に示す。垂直線１４０１は、ＩＭ症例のメチル化割合の８０％のカットオフを示す。水平線１４０２は、ＮＰＣ症例の８０％のカットオフを示す。したがって、右上のセクションの領域（一般に領域１４１０としてマークされている）は、この例のＤＭＲに対応する。

図１５は、本開示の実施形態による、伝染性単核球症（ＩＭ）（ｎ＝２）、ＥＢＶ関連リンパ腫（ｎ＝３）、一時的陽性の血漿ＥＢＶＤＮＡ（ｎ＝３）、持続的陽性の血漿ＥＢＶＤＮＡ（ｎ＝３）、およびＮＰＣ（ｎ＝６）を有する対象の同一群における上述（図１２）の「代表的な」メチル化コンセンサス領域に基づく血漿ＥＢＶＤＮＡのメチル化密度を示す。群間のメチル化割合に統計的に有意な差を観察できた（ｐ値＝０．００３７１、一元分散分析検定）。これらのデータに基づいて、代表的なメチル化コンセンサス領域の血漿ＤＮＡのメチル化密度を分析することにより、検査試料の状態を決定することができる。例えば、９０％のメチル化密度は、試料がＮＰＣ患者から採取されることを示し、８０％のメチル化密度は、試料がＥＢＶ陽性リンパ腫の患者からのものであることを示す。
Ｄ．単一ＣｐＧ部位分析

部位のセットに基づいて集計メチル化レベルを計算することに加えて（例えば、上のセクションで説明したように）、実施形態は、ＥＢＶゲノム内の個々のＣｐＧ部位に基づいてメチル化割合を計算することができる。異なるＥＢＶ関連疾患に特異的なメチル化レベルを有する個々のＣｐＧ部位を特定するために、持続的陽性のＥＢＶＤＮＡを有するがＮＰＣを有さない対象３人の血漿ＤＮＡリードの配列データをプールし、配列深度を７倍にした。次に、持続的陽性のＥＢＶＤＮＡを有する対象３人およびＮＰＣ患者３人（ＡＯ０５０、ＴＢＲ１３９２、およびＴＢＲ１４１６）のプールされた配列データ間で、すべてのＣｐＧ部位のメチル化割合を比較した。配列データをプールすることは、すべての配列リードが同一対象からのものであるようにメチル化割合が決定されたことを意味する。

種々の実施形態では、ＣｐＧ部位のメチル化割合が、疾患の一症例（対象）において１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％または９０％未満、かつ別の疾患の一症例において１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％または９０％超である場合、特異的メチル化レベルを有するこれらの個々のＣｐＧ部位を定義し得る。基準は、疾患ごとに２つ以上の症例に適用して、例えば、領域を使用する例について上で説明したように、異なる病態の異なる範囲で、ならびに異なる（より大きい）病態または同一病態（閾値内）を有する対象間の特定の分離で行い得るようにＤＭＲを定義することができる。

付録Ａは、持続的陽性のＥＢＶＤＮＡを有する対象３人とＮＰＣ患者３人のプールされた配列データ間のこれらのＣｐＧ部位のメチル化割合の差が２０％を超える場合に、特異的メチル化レベルを持つＥＢＶゲノム全体における個々のＣｐＧ部位のリストを示す。＊でマークされた部位は、４０％超、＊＊は６０％超、＊＊＊は８０％超の差を有する。他の実施形態では、特異的メチル化レベルを有するＣｐＧ部位は、２０％、３０％、５０％、７０％、または９０％超のメチル化割合の差で定義され得る。ここで、６０％を超える差があるいくつかの例示的な部位が分析される。

図１６は、本開示の実施形態による、持続的陽性の血漿ＥＢＶＤＮＡを有する３症例のプールされた配列決定データで８０％超の部位、およびＮＰＣを有する３対象で２０％未満の平均値の部位にわたるメチル化割合を有するＣｐＧ部位の例を示す。伝染性単核球症の患者２人のこれらの部位にわたるメチル化割合も含まれていた。メチル化割合を縦軸上に示し、横軸は基準を満たす８個の個別の部位を列挙する。部位には連番が付されている。

図に示すように、すべての部位で、非ＮＰＣ対象者（持続的陽性およびＩＭを含む）とＮＰＣ対象のうちの２人（ＴＢＲ１４１６およびＴＢＲ１３９２）は良好に分離される。ＮＰＣ対象ＡＯ０５０について、部位１～４、７、および８は良好な分離を提供するが、部位５および６は提供しない。したがって、２つの病態を区別するために決定された個々の特異的にメチル化された部位（例えば、単なる領域としてではない）は、１つの病態（ＮＰＣ）と２つ以上の病態を区別するためにも使用されることができる。

図１７は、本開示の実施形態による、持続的に陽性の血漿ＥＢＶＤＮＡを有する３症例のプールされた配列決定データで２０％未満の部位、およびＮＰＣを有する３対象で８０％超の部位にわたるメチル化割合を有するＣｐＧ部位の例を示す。伝染性単核球症の患者２人のこれらの部位にわたるメチル化割合も示す。この基準は、図１６で使用した基準の反対である。メチル化割合を縦軸上に示し、横軸は基準を満たす２２個の個別の部位を列挙する。部位には連番が付されている。

図に示すように、すべての部位で、非ＮＰＣ対象者（持続的陽性およびＩＭを含む）とＮＰＣ対象は良好に分離される。これは、個々の部位を使用して分類を区別することができることを示す。また、特定の長さの同じ連続領域内にあるのとは対照的に、ウイルスゲノム全体から部位を選択することができる。例えば、より多くのＥＢＶＤＮＡ断片を検出することができるように、より多くの部位を選択して統計的精度をより高めることができる。

一実施形態では、特異的メチル化レベルを有する複数のＣｐＧ部位（例えば、付録Ａならびに図１６および１７で明記されるもの）は、互いに指定された距離内にあるように選択される。このようにして、個々のウイルスＤＮＡ断片が複数の部位を各々カバーし得る。例えば、特定の距離は１５０ｂｐになり得、これは血漿ＤＮＡ分子のおよそ代表的なサイズであるためである。そのような状況では、ＰＣＲ増幅による複数の特異的にメチル化されたＣｐＧ部位を有する特定の領域の標的化した増幅が可能であろう。このターゲット分析は、ゲノム全体の分析アプローチを使用するよりも低コストであろう。

したがって、様々な実施形態では、メチル化パターンの分析は、ウイルスゲノム全体のゲノム領域または個々のＣｐＧ部位に基づくことができる。そのような領域分析では、ウイルスゲノムはゲノム座標に基づいて異なる領域に分割することができ、各領域はそのような領域内のすべてのＣｐＧ部位を含む。あるいは、特異的にメチル化されたＣｐＧ部位を最初に選択して、領域内でマージしてＤＭＲを形成することもできる。別の例では、すべてのＣｐＧ部位を、有益な部位を事前に選択することなく、領域のメチル化密度の計算に含めることができる。
Ｅ．階層的クラスタリング分析

いくつかの実施形態は、メチル化レベル超を使用して分類を区別し得る。一例では、クラスタリング技術が使用され得る。このようなクラスタリング技術では、各対象について複数のメチル化レベル、例えば、異なる領域（各々が１つ以上の部位を含む）のメチル化レベル、個々の部位のメチル化レベル、またはそれらの組み合わせを決定することができる。いくつかの実施形態では、クラスタリングは階層的であり得る。

メチル化レベルのセットは、メチル化レベルの数に等しい長さを有する多次元データポイントを表すベクトルを形成することができる。本明細書で説明するように、領域（ビン）は様々なサイズのものであり得る。また、クラスタリング分析は、異なるサイズの非重複連続ビンに基づくことができる。例えば、ビンのサイズは、５０ｂｐ、１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、６００ｂｐ、７００ｂｐ、８００ｂｐ、９００ｂｐ、または１０００ｂｐで定義することができる。したがって、クラスタリング分析は、異なる部位／ビンのメチル化レベルと、異なる対象間の対応するメチル化レベルとの比較に基づいて行うことができる。

図１８は、本開示の実施形態による、ＮＰＣ患者６人（本発明のスクリーニングコホートからの初期ステージ疾患の患者４人を含む）、節外性ＮＫ－Ｔ細胞リンパ腫患者２人、および伝染性単核球症患者２人についての血漿ＥＢＶＤＮＡのメチル化パターン分析に基づく階層的クラスタリング分析を使用したクラスター樹状図を示す。この例では、階層的クラスタリング分析は、サイズが５００ｂｐの非重複連続領域内のＣｐＧ部位のメチル化割合の比較に基づいていた。クラスタリングは、異なる領域のメチル化割合の差に基づいて異なる対象をグループ化し、差を組み合わせて距離を提供することができる。

図１８では、距離は上部水平軸に沿って示される。距離は、例えば、異なる遺伝子座のメチル化密度が多次元ポイント（距離が２つの多次元ポイントの間である）を表すベクトルに対応する場合、各メチル化密度（パーセンテージ）の差の合計として決定されることができる。２人の対象は、それらの間の距離に等しいポイントで組み合わせることができる。新しい患者を検査する場合、メチル化割合の新しい多次元ポイント（または他のレベル）を使用して、ノード（例えば、ノード１８０１または１８０２）に示すように、参照対象（例えば、図１８に示すもの）のうちの最も近い１つまたは最も近いサブグループを決定する。最も近い参照対象または参照ノードの特定によって、分類を提供することができる。

クラスター樹状図１８００は、ＮＰＣ対象が増加的に一緒にクラスター化され（ＮＰＣ対象はすべて、ノード１８０３でサブグループにクラスター化されている）、他の病態を有する対象を含まないことを示す。これは、ＩＭ対象およびリンパ腫対象からＮＰＣ対象を区別する能力を示す。同様に、ＩＭ対象を一緒にグループ化する。注目すべきことに、ＮＫ－Ｔ細胞リンパ腫の患者２人は一緒にクラスター化されなかった。患者１６２９はステージＩＶの疾患であり、患者１７１３はステージＩの疾患であった。これは、メチル化パターンが同じ疾患の異なるステージにわたって進行し得ることを示すことができる。このうちの１つの潜在的な用途は、患者の病期分類と予後診断にメチル化プロファイルを使用することであろう。

血漿ＥＢＶＤＮＡのメチル化パターンを介したクラスタリング分析に基づいて、異なるＥＢＶ関連疾患を区別することの実現可能性を実施した。例えば、特定のパターンが特定された後、実施形態は疾患を含むまたは除外することができる。主成分分析、線形判別分析、ロジスティック回帰、機械学習モデル、ｋ平均クラスタリング、ｋ最近傍、およびランダム決定フォレストを含むがこれらに限定されない他の分類アルゴリズムも使用することができる。

図１９は、本開示の実施形態による、ＮＰＣ患者６人（本発明のスクリーニングコホートからの初期ステージＮＰＣ患者４人を含む）、および持続的に陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象３人についての血漿ＥＢＶＤＮＡのメチル化パターン分析に基づく階層的クラスタリング分析を使用したクラスター樹状図を示す。血漿ＤＮＡを動員時に最初の血液試料から抽出した。この例では、階層的クラスタリング分析は、サイズが５００ｂｐの非重複連続ビン内のＣｐＧ部位のメチル化割合の比較に基づいていた。

図１９では、距離も上部水平軸に沿って示される。距離は前述のとおり決定することができる。図１８と同様に、２人の対象は、それらの間の距離に等しいポイントで組み合わせることができる。示されるように、ＮＰＣ対象は、例えば、ノード１９０１および１９０２で、他のＮＰＣ対象とともにクラスター化される。クラスター樹状図１９００は、ＮＰＣ対象が増加的に一緒にクラスター化され（ＮＰＣ対象はすべて、ノード１９０３でサブグループにクラスター化されている）、他の病態（すなわち、この例では持続的陽性）を有する対象を含まないことを示す。同様に、持続的陽性の対象が最初にグループ化される。これは、ＮＰＣ対象を持続的陽性の対象と区別する能力を示す。

したがって、本発明者らは、連続分析の必要性のない、最初の血液試料由来の血漿ＥＢＶＤＮＡのメチル化パターン分析に基づいて、偽陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象から初期ステージＮＰＣ患者を区別する実現可能性を実証した。つまり、異なる時間に複数の測定を必要とするのではなく、単一の測定で正確な分類を行うことができる。これにより、連続血液検査および確認目的のさらなる調査のためのロジスティック配置で医療費を節約することができる可能性がある。

図２０は、鼻咽頭癌、ＮＫ－Ｔ細胞リンパ腫、および伝染性単核球症の患者の全ＥＢＶゲノムにおけるすべての非重複５００ｂｐ領域のメチル化レベルを示すヒートマップ２０００を示す。各ウィンドウのメチル化レベルは、ウィンドウ内のすべてのＣｐＧ部位（選択なし）のメチル化密度の平均値として計算された。ＮＰＣ患者５人、ＮＫ－Ｔ細胞リンパ腫患者３人、伝染性単核球症３人の血漿ＥＢＶＤＮＡのメチル化パターンを分析した。本例では、メチル化パターンは、５００－ｂｐのすべての非重複ウィンドウのメチル化割合によって分析される。カラーキー／ヒストグラム２０５０は、異なるメチル化割合を異なる色で示し、白はゼロに近く、黄色（ライトグレー）は低い（例：約２０％）、オレンジ（ミディアムグレー）は中程度（例：約５０％）、および赤色（ダークグレー）は高い（例：約８０％以上）を示す。カラーキー／ヒストグラム２０５０は、特定のメチル化レベルを持つ領域の数のヒストグラムも示す。

ヒートマップ２０００は、全症例のＥＢＶゲノム上のすべての非重複５００ｂｐウィンドウ全体におけるメチル化レベルを示す。各行は１つの５００ｂｐ領域を表し、色はそのメチル化レベルを表す。各列は１つの症例を表す。クラスター樹状図２０１０は、異なる症例のクラスタリングを示す。同じ診断の異なる症例が一緒にクラスター化された。例えば、ＮＰＣ症例はすべて右側上でクラスター化されており、暗赤色（ダークグレー）で明示されるように、高いメチル化レベルを示す。リンパ腫の対象は中央でクラスター化され、黄色（ライトグレー）（低メチル化レベル）および赤色（ダークグレー）（高メチル化レベル）が混在している。伝染性単核球症試料のクラスターが左側上に示され、明るい黄色（ライトグレー）により明示されるように、比較的低いメチル化レベルを示す。

図２０は、血漿ＥＢＶＤＮＡのメチル化パターンの分析を通してＥＢＶ関連疾患を予測する実現可能性を示す。さらに、ＥＢＶゲノムにわたるすべての領域とは対照的に、ＤＭＲを使用するとより高い精度が見られる。

他の実施形態では、メチル化パターンは、例えば、部位ごとに、（ゲノムワイド分析として）ＥＢＶゲノム全体におけるすべてのＣｐＧ部位にわたるメチル化割合を通じて導き出すことができる。別の実施形態では、ＥＢＶ関連疾患または病態の予測のために、個々のＣｐＧ部位（複数可）および／またはＤＭＲ（複数可）に異なる重み付けを割り当てることができる。このような重み付けは、上記のように様々な方法で実装することができ、例えば、スケーリング係数（重み）を中間のメチル化レベルに適用して、領域またはゲノム全体の加重平均値を得ることができる。ここでは、分析中のすべてのＣｐＧ部位に等しく重みを割り当てた。
Ｖ．数およびサイズの使用

無細胞試料中の無細胞ウイルスＤＮＡ断片のメチル化レベルを使用して、異なる病態および／または病態レベルを有する対象を区別することに加えて、いくつかの実施形態は、無細胞試料中の無細胞ウイルスＤＮＡ断片のサイズを使用することができる。いくつかの実施形態はまた、無細胞試料中の無細胞ウイルスＤＮＡ断片の数（例えば、割合）を使用することができる。様々な実施形態は、例えば、各技術を使用して対象に同じ分類を必要とすることにより、異なる技術の組み合わせを使用することができる。例えば、ａ）ＥＢＶに整列させる血漿ＤＮＡ断片の割合、ｂ）血漿ＥＢＶＤＮＡ断片のサイズプロファイル、およびｃ）血漿ＥＢＶＤＮＡのメチル化プロファイルの任意の組み合わせを分類に使用することができる。目的の診断感度と特異度を達成するために異なる技術を組み合わせる場合、異なる閾値を分類に採用することができる。
Ａ．血漿ＥＢＶＤＮＡ断片のサイズプロファイル分析

血漿ＥＢＶＤＮＡ断片のメチル化分析の実行可能性に加えて、各血漿ＥＢＶＤＮＡ断片のサイズは、ＥＢＶゲノムの両端の最も外側のヌクレオチドの座標に基づいて推定された。無細胞ＥＢＶＤＮＡ断片のサイズ分布は、異なる病態（つまり、異なるパターン）で変わるため、それにより、異なる病態、すなわち病態レベルを有する対象を区別することが可能になる。これらの異なるサイズパターンは、様々なサイズメトリック、例えば、あるサイズ（例えば、第１のサイズ範囲）のウイルスＤＮＡ量と別のサイズ（例えば、第２のサイズ範囲）のウイルスＤＮＡのサイズ比で定量化することができる。例えば、サイズ比を使用して、異なる病態の対象間で同一サイズ範囲内の常染色体ＤＮＡ断片の量に正規化された特定のサイズ範囲（例えば、８０～１１０塩基対）内の血漿ＥＢＶＤＮＡリードの割合を比較することができる。

図２１は、本開示の実施形態による、ＮＰＣ患者２人（ＴＢＲ１３９２とＴＢＲ１４１６）および伝染性単核球症患者２人（ＴＢＲ１６１０とＴＢＲ１６６１）、ならびに連続分析で持続的に陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象３人（ＡＦ０９１、ＨＢ００２、およびＨＦ０２０）においてＥＢＶゲノムおよびヒトゲノムにマッピングされた配列決定された血漿ＤＮＡ断片のサイズ分布のサイズプロファイルを示す。プロットは、水平軸に沿ってサイズ（ｂｐ）、および垂直軸に指定のサイズでＤＮＡの頻度（割合）を示す。ヒトゲノムＤＮＡのサイズ分布を、例えば、サイズ分布２１０４などの青色（灰色）で示す。ＥＢＶサイズ分布は、例えば、サイズ分布２１０３などの赤色（黒）で示す。

ＥＢＶゲノムに整列させた血漿ＥＢＶＤＮＡ断片と常染色体ゲノムに整列させた血漿ＥＢＶＤＮＡ断片のサイズプロファイルパターンの差を観察した。例えば、ＮＰＣ対象は、約１６０ｂｐのピークでより小さな無細胞ＥＢＶＤＮＡ断片にシフトし、下端でヒトＤＮＡと同量の断片を有するが、ＩＭ対象は、１００ｂｐ未満でヒトＤＮＡよりも大量のＥＢＶＤＮＡを有する。持続的陽性の対象は、サイズが大きくなるにつれて上下に顕著な変動があるだけでなく、ＮＰＣ対象に比べてピークがより顕著にシフトする。これらの差は、異なる病態の対象を区別するために使用することができ、例えば、ＮＰＣを有する対象と偽陽性の血漿ＥＢＶＤＮＡ結果を有する対象と区別することができる。

特定のサイズ範囲（例えば、８０～１１０ｂｐ）内の血漿ＥＢＶＤＮＡリードの割合を個体間で比較することは、血漿ＥＢＶＤＮＡ断片の量を同じサイズ範囲内の常染色体ＤＮＡ断片の量に正規化することができる。このメトリックは、サイズ比の例である。サイズ比は、特定のサイズ範囲内の血漿ＥＢＶＤＮＡの割合を、対応するサイズ範囲内の配列の参照セット（例えば、ヒト常染色体由来のＤＮＡ断片）の割合で割った値で定義することができる。様々なサイズ比を使用してもよい。例えば、８０～１１０塩基対間の断片のサイズ比は次のようになる。

図２２は、本開示の実施形態による、ＮＰＣ患者６人および血漿ＥＢＶＤＮＡに対して持続的に陽性である対象３人におけるサイズ比を示す。対象の２群のサイズ比間で統計的に有意な差を観察することができた（ｐ値＝０．０２、マンホイットニー検定）。ＮＰＣ対象と持続的陽性の対象とを区別するための参照サイズ値の例は、この特定のサイズ比で２～４（例えば、３）であり得る。

図２３は、本開示の実施形態による、一時的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象、持続的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象、およびＮＰＣ患者におけるＥＢＶＤＮＡサイズ比を示す。ＮＰＣ群（平均＝１．９）の平均ＥＢＶＤＮＡサイズ比（８０～１１０ｂｐ）は、一時的陽性（平均＝４．３）および持続的陽性（平均＝４．８）の血漿ＥＢＶＤＮＡである他の２つの非ＮＰＣ群のサイズ比の中央値よりも有意に低かった（ｐ＜０．０００１、クラスカル・ワリス検定）。

したがって、ＮＰＣ患者は、例えば、ＥＢＶＤＮＡサイズ比で表される血漿ＥＢＶＤＮＡのサイズプロファイルの差に基づいて、検出可能な血漿ＥＢＶＤＮＡ（一時的陽性または持続的陽性）を有する非ＮＰＣ対象と区別することができた。本例では、９０％の検出感度を達成するために３のカットオフ値を使用した。３つのカットオフ値を使用すると、ＮＰＣ患者３０人中２７人、一時的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象１１７人中２３人、および持続的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象３９人中７人が、カットオフを通過し、それらの血漿ＥＢＶＤＮＡサイズ比はカットオフ値よりも低かった。計算された感度、特異度、および陽性予測値は、それぞれ９０％、８０．８％、および４９．２％であった。

カットオフ（参照）値の選択は、様々な方法で決定することができる。一実施形態では、ＥＢＶＤＮＡサイズ比のカットオフ値は、分析中のＮＰＣ患者（例えば、トレーニングセット内）のＥＢＶＤＮＡサイズ比の最高値を超える任意の値として選択することができる。他の実施形態では、カットオフ値は、例えば、ＮＰＣ患者の平均ＥＢＶＤＮＡサイズ比プラス１標準偏差（ＳＤ）、平均プラス２ＳＤ、平均プラス３ＳＤとして決定することができる。さらに他の実施形態では、カットオフは、例えば、分析中のＮＰＣ患者の１００％、９５％、９０％、８５％、８０％を含むノンパラメトリック法により、受信者動作特性（ＲＯＣ）曲線を使用して決定され得る。

サイズ比の他の定義またはサイズ分布の他の統計値は、対象ごとに異なる値をもたらすため、対象を区別するための異なる参照値を有する。例えば、異なるサイズの範囲を使用するか、常染色体ＤＮＡ断片に染色体のサブセットを使用するか、常染色体ＤＮＡをまったく使用しないことができる。核酸断片のサイズ分布の様々な統計値を決定することができる。例えば、サイズ分布の平均値、最頻値、中央値、または平均値を使用することができる。他の統計値、例えば、所与のサイズの累積頻度、または異なるサイズの核酸断片の量の様々な比率を使用することができる。累積頻度は、所与のサイズ以下、または所与のサイズより大きいＤＮＡ断片の割合（例えば、パーセンテージ）に対応し得る。したがって、分母の任意の正規化係数（使用する場合）は、異なるサイズ範囲のＥＢＶＤＮＡ量に対するものであり得る。統計値は、健康な対照対象または他の病態の１つ以上のサイズ閾値と比較するために、ＤＮＡ断片のサイズの分布に関する情報を提供する。当業者は、本開示に基づいてそのような閾値を決定する方法を知るであろう。サイズ比の他の例は、米国特許公開第２０１１／０２７６２７７号、同第２０１３／０２３７４３１号、および同第２０１６／０２１７２５１号に見出すことができる。
Ｂ．数

血漿ＥＢＶＤＮＡのメチル化割合の分析に加えて、標的化バイサルファイト配列決定からの血漿ＥＢＶＤＮＡリードの割合を分析した。無細胞ＥＢＶＤＭＡリードの割合は、様々な方法、例えば、ヒトゲノムおよびいくつかのウイルスゲノム、または分析中のヒトゲノムおよびウイルスゲノムのみのすべてのＤＮＡリードの割合として決定されることができる。前者の例では、組み合わせた参照配列は、ヒトゲノム全体（ｈｇ１９）、ＥＢＶゲノム全体（ＡＪ５０７７９９．２）、ＨＢＶゲノム全体、およびＨＰＶゲノム全体を含むことができる。種々の例では、割合は、他のすべてのＤＮＡリードまたは整列可能なもののみと比較して、分析中のウイルスゲノムに整列させるリード数に基づいて決定されることができる。（例えば、一意に、または特定のミスマッチ数とともに）ヒトゲノムといくつかのウイルスゲノムの参照ゲノムを使用して、ＮＰＣ患者の３群間で血漿ＥＢＶＤＮＡリードの割合を一時的陽性および持続的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象と比較した。

図２４は、本開示の実施形態による、一時的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象、持続的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象、およびＮＰＣ患者において配列決定されたすべての血漿ＤＮＡリードのうちの血漿ＥＢＶＤＮＡリード（ＥＢＶゲノムにマッピングされた血漿ＤＮＡリード）の割合を示す。ＮＰＣ群の血漿ＥＢＶＤＮＡリードの平均割合（平均＝０．０７５％）は、一時的陽性（平均＝０．００３％）および持続的陽性（平均＝０．０５２％）の血漿ＥＢＶＤＮＡである他の２つの非ＮＰＣ群の平均割合よりも有意に高かった（ｐ＜０．０００１、クラスカル・ワリス検定）。したがって、ＮＰＣ患者は、血漿ＥＢＶＤＮＡの量（すなわち、血漿ＥＢＶＤＮＡの割合）の差に基づいて、検出可能な血漿ＥＢＶＤＮＡ（一時的陽性または持続的陽性）を有する非ＮＰＣ対象と区別することができる。

カットオフ値４．５ｘ１０^－６を使用する本例では、ＮＰＣ患者３０人、一時的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象１１９人のうち７９人、および持続的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象３９人のうち３４人の全員において、標的化バイサルファイト配列決定による血漿ＥＢＶＤＮＡ割合がこのカットオフ値よりも高くなった。計算された感度、特異度、および陽性予測値は、それぞれ１００％、２７．６％、および２２．１％であった。

カットオフ（参照）値の選択は、様々な方法で決定することができる。一実施形態では、血漿ＥＢＶＤＮＡの割合のカットオフ値は、分析中のＮＰＣ患者の割合の最低値未満の任意の値として選択することができる。すべてのＮＰＣ患者を捕捉し、最大感度を達成するようにカットオフを設定することができる。他の実施形態では、カットオフ値は、例えば、ＮＰＣ患者の平均血漿ＥＢＶＤＮＡリード割合マイナス１標準偏差（ＳＤ）、平均マイナス２ＳＤ、平均マイナス３ＳＤとして決定されることができる。本例では、カットオフ値は、すべてのＮＰＣ患者の血漿ＥＢＶＤＮＡリードの割合の平均から３ＳＤを引いたものに設定された。さらに他の実施形態では、カットオフは、ＥＢＶゲノムにマッピングされた血漿ＤＮＡ断片の割合の対数変換後に決定され、次いで同様の様態（例えば、平均などを使用して）で選択され得る。さらに他の実施形態では、カットオフは、例えば、分析中のＮＰＣ患者の１００％、９５％、９０％、８５％、８０％を含むノンパラメトリック法により、受信者動作特性（ＲＯＣ）曲線を使用して決定され得る。
Ｃ．複合分析

これらの３つの技術を組み合わせて、精度を高めることができる。例えば、複数のメトリック、例えば、複数のメチル化レベルを含む可能性のある各技術の各メトリクスは、対象を分類する（例えば、決定木でなされ得る）、あるいはトレーニング値のプロットの特定のセクション（象限）に対応する対象を特定する、参照値のそれぞれと比較し得る。例えば上述のように、クラスタリング技術を使用することもできる。

ＮＰＣ特定のための血漿ＥＢＶＤＮＡ割合（定量化）とサイズ比の分析を組み合わせた値を評価した。また、血漿ＥＢＶＤＮＡ割合（定量化）の分析とＮＰＣ特定のメチル化割合、次いで３つすべてを一緒に組み合わせた値も評価した。

図２５は、本開示の実施形態による、ＮＰＣ患者、一時的陽性、および持続的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象についての血漿ＥＢＶＤＮＡリードの割合および対応するサイズ比値のプロットである。図２３および２４で明記されたＥＢＶＤＮＡサイズ比と血漿ＥＢＶＤＮＡリードの割合における同じカットオフ値を、灰色の点線で示す。楕円形は、複合分析に合格した象限２５１０を強調する。

この複合分析では、血漿ＥＢＶＤＮＡの割合とサイズ比の両方の分析で、その配列データが同時にカットオフを通過した場合、血漿試料は陽性と見なされた。上で定義したカットオフを使用すると、ＮＰＣ検出の感度、特異度、および陽性予測値は、それぞれ９０％、８８．５％、および６１．７％であった。

図２６は、本開示の実施形態による、ＮＰＣ患者、一時的陽性、および持続的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象についての血漿ＥＢＶＤＮＡリードの割合および対応するメチル化割合値のプロットである。図１３および２４にそれぞれ明記したとおり、４６個のＤＭＲ内のＥＢＶＤＮＡメチル化割合および血漿ＥＢＶＤＮＡリードの割合における同じカットオフ値を、灰色の点線で示す。楕円形は、複合分析に合格した象限２６１０を強調する。

この複合分析では、血漿ＥＢＶＤＮＡの割合とメチル化割合の両方の分析において、その配列決定データが同時にカットオフを通過した場合、血漿試料は陽性であると見なされた（図で明記されたＤＭＲに基づく）。上で定義したカットオフを使用すると、ＮＰＣ検出の感度、特異度、および陽性予測値は、それぞれ９６．７％、８９．１％、および６４．６％であった。

図２７Ａおよび２７Ｂは、本開示の実施形態による、ＮＰＣ患者、一時的陽性、および持続的陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象についての血漿ＥＢＶＤＮＡリードの割合および対応するサイズ比およびメチル化割合値の３次元プロットを示す。ＮＰＣ特定のための血漿ＥＢＶＤＮＡ割合（定量化）、サイズ比、およびメチル化割合の３つすべてのパラメーターを組み合わせた値を評価した。割合は、図２４と同じ様態で決定された。サイズ比は、図２３と同じ様態で決定された。そして、メチル化レベルは、図１３に使用される４６個のＤＭＲを使用して決定される。

図２７Ａでは、紫色の表面２７１０は、３次元空間において一時的および持続的に陽性の血漿ＥＢＶＤＮＡを有する非ＮＰＣ対象をＮＰＣ患者と区別する適合３Ｄ表面を示す。フィット面の使用は、対象を区別するための参照値が定数値よりも複雑になり得ることを示す。例えば、図２６では、メチル化割合のカットオフは、配列リードの割合によって異なる可能性がある。分類の決定におけるこのような柔軟性は、より高い精度を提供することができる。フィッティングは、最適化された様々な精度メトリック、例えば、特異度、感度、または両方の平均値に合わせて選択することができる。このようなフィッティングは、サポートベクターマシンを使用して実行されることができる。図２７Ｂは、図２７Ａと同じデータを示すが、表面２７１０がなく、軸がデータの周りのボックスにラベル付けされている。

図２８Ａおよび２８Ｂは、本開示の実施形態による、数ベース、サイズベース、およびメチル化ベースの分析の様々な組み合わせの受信者動作特性曲線（ＲＯＣ）曲線分析を示す。精度は、ＮＰＣ対象と非ＮＰＣ対象を正しく分類するためのものである。パラメーター（すなわち、割合、サイズ比、およびメチル化レベル）は、図２７Ａおよび２７Ｂの場合と同じ様態で決定された。カットオフ値が変化したため、感度と特異度に変化が生じた。図２７Ａは、個々に使用される３つの技術の比較を示す。曲線下面積（ＡＵＣ）の値が表示される。ＡＵＣ値は、カウントのみ、サイズのみ、メチル化のみでそれぞれ０．９０５、０．９４２、０．９７９であった。メチル化は最良の結果をもたらす。図２８Ｂは、３つの複合技術の比較を示す。数およびサイズのＡＵＣ値は０．９７である。数およびメチル化のＡＵＣ値は０．９８５である。３つの技術すべてを使用すると、０．９８９で最良の精度が得られる。
ＶＩ．他のウイルスの例

他のウイルスも癌に関連している。例えば、血漿ヒトパピローマウイルス（ＨＰＶ）は頭頸部扁平上皮癌（ＨＮＳＣＣ）に関連する。また、Ｂ型肝炎ウイルス（ＨＢＶ）は肝細胞癌（ＨＣＣ）と関連している。以下の結果は、実施形態が他の無細胞ウイルスＤＮＡのメチル化レベル（複数可）を使用して、無細胞ＥＢＶＤＮＡにメチル化レベル（複数可）が使用されたのと同様の様態で病態レベルを分類することができることを示す。
Ａ．ＨＰＶ

図２９は、ＨＰＶ陽性の頭頸部扁平上皮癌（ＨＰＶ＋ｖｅＨＮＳＣＣ）の５症例の臨床ステージを示す。症例は、ＡＪＣＣＣａｎｃｅｒＳｔａｇｉｎｇＭａｎｕａｌ第８版に従ってステージ化された。血漿ＤＮＡの標的化バイサルファイト配列により、ＨＰＶ陽性頭頸部扁平上皮癌（ＨＰＶ＋ｖｅＨＮＳＣＣ）の患者５人の血漿ヒトパピローマウイルス（ＨＰＶ）ＤＮＡリードのメチル化プロファイルを分析した。５人の患者全員が初期ステージ（ステージＩまたはＩＩ）の疾患を有していた。患者の全員が、その血漿ＤＮＡ試料中に検出可能なＨＰＶＤＮＡ断片を有していた。

各臨床症例について、ＱＩＡａｍｐＤＳＰＤＮＡ血液ミニキットを使用して、血漿４ｍＬから血漿ＤＮＡを抽出した。いずれの場合も、抽出されたすべてのＤＮＡは、ＴｒｕＳｅｑＤＮＡＰＣＲフリーライブラリー調製キット（Ｉｌｌｕｍｉｎａ）を使用する配列決定ライブラリーの調製に使用された。アダプターに連結されたＤＮＡ産物は、ＥｐｉＴｅｃｔＢｉｓｕｌｆｉｔｅＫｉｔ（Ｑｉａｇｅｎ）を使用して２回バイサルファイト処理にかけた。ＫＡＰＡＨｉＦｉＨｏｔＳｔａｒｔＵｒａｃｉｌ＋ＲｅａｄｙＭｉｘＰＣＲキット（Ｒｏｃｈｅ）を使用して、バイサルファイトに変換した試料に対して１２～１５サイクルのＰＣＲ増幅を実施した。次に、上記のウイルスおよびヒトゲノム領域をカバーするカスタム設計のプローブを使用して、増幅産物をＳｅｑＣａｐ－Ｅｐｉシステム（Ｎｉｍｂｌｅｇｅｎ）で捕捉した（図１）。

ターゲットの捕捉後、捕捉された生成物は、ＤＮＡライブラリーを生成するために１４サイクルのＰＣＲで濃縮された。ＤＮＡライブラリーは、ＮｅｘｔＳｅｑプラットフォーム（Ｉｌｌｕｍｉｎａ）で配列決定された。配列決定の実行ごとに、ペアエンドモードを使用して、一意の試料バーコードを持つ４～６個の試料を配列決定した。各ＤＮＡ断片について、２つの末端の各々から７５ヌクレオチドを配列決定した。配列決定後、配列リードは、メチル化データ解析パイプラインであるＭｅｔｈｙｌ－Ｐｉｐｅ（Ｊｉａｎｇｅｔａｌ．ＰＬｏＳＯｎｅ２０１４；９：ｅ１００３６０）で処理され、ヒトゲノム全体（ｈｇ１９）、ＥＢＶゲノム全体（ＡＪ５０７７９９．２）、ＨＢＶゲノム全体、およびＨＰＶゲノム全体を含む人工的に組み合わせた参照配列にマッピングさせることができる。組み合わせたゲノム配列内の一意の位置（他の実施形態においてミスマッチが許容される場合があるが）にマッピングさせる配列決定されたリードを下流解析に使用した。

図３０は、本開示の実施形態による、ＨＰＶ陽性頭頸部扁平上皮癌（ＨＰＶ＋ｖｅＨＮＳＣＣ）を有する個々の患者における血漿ＨＰＶＤＮＡのメチル化プロファイルを示す。ＨＰＶＤＮＡのメチル化プロファイルは、これらの患者の血漿ＤＮＡの標的化キャプチャーバイサルファイト配列決定により生成された。図３０は、ＨＮＳＣＣ患者の血漿ＨＰＶ１６ＤＮＡ分子においてＨＰＶ１６（ＨＰＶ血清型１６）メチル化を検出することができることを示す。ＨＰＶゲノム全体におけるすべてのＣｐＧ部位のメチル化密度を決定した。

血漿中のウイルスゲノム全体における固有の遺伝子座のメチル化密度ＭＤは、方程式：ＭＤ＝Ｍ／（Ｍ＋Ｕ）を用いて計算することができ、式中、Ｍはメチル化ウイルスリードの数、Ｕはウイルスゲノム全体における遺伝子座位内のＣｐＧ部位での非メチル化ウイルスリードの数である。遺伝子座特異的レベルでは、これらの遺伝子座は、任意のサイズのもの、および少なくとも１つのＣｐＧ部位（１ｂｐ）のものであり得る。遺伝子座位内に２つ以上のＣｐＧ部位がある場合、ＭおよびＵは部位全体の数に対応する。これらの遺伝子座は、注釈付きのウイルス遺伝子と関連付けられ得、かつ関連付けられ得ない。

異なる患者間で血漿ＨＰＶＤＮＡのメチル化プロファイルの類似のパターンを観察することができた。通常、非癌対象にはＨＰＶはない。２つのゲノム領域、すなわち領域３００１および領域３００２を定義した。領域３００１における領域特異的なメチル化密度は、ＨＰＶ＋ｖｅＨＮＳＣＣの５症例すべての領域３００２におけるものよりも一貫して高かった。同一病態の対象間のパターンにおけるこれらの類似性およびメチル化プロファイルの異なる病態の対象間のパターンの差は、全体的または遺伝子座特異的レベルで分析することができる。そのような予め定義された領域のメチル化密度は、例えば、癌のステージ、治療に対する反応、および再発リスクなどの臨床症状を予測することができる。

図３１は、本開示の実施形態による、ＨＰＶ＋ｖｅＨＮＳＣＣを有する患者２人におけるＨＰＶゲノム全体におけるすべてのＣｐＧ部位のメチル化レベルを示す。３１０１に示すように、第１の患者を黒で示し、底部上にある。第２の患者は灰色で、３１０２のように大きく見える場合がある。図に示すように、２人の患者は類似の遺伝子座位で明らかなメチル化レベルを有し、多くの遺伝子座はメチル化レベルの類似した値を有する。症例間の全体的レベルまたは遺伝子座特異的レベルについてメチル化レベルを比較することにより、実施形態は、ＨＮＳＣＣを有する対象を特定することができる。
Ｂ．ＨＢＶ

血漿ＤＮＡの標的化バイサルファイト配列決定は、慢性Ｂ型肝炎ウイルス感染患者９人とＨＣＣ患者１０人に対して実施された。また、慢性Ｂ型肝炎ウイルス感染およびＨＣＣのこれらの患者からの血漿ＨＢＶリードのメチル化プロファイルも分析した。

図３２Ａおよび３２Ｂは、本開示の実施形態による、Ｂ型肝炎ウイルス（ＨＢＶ）ＤＮＡリード（ＨＢＶゲノムにマッピングされた血漿ＤＮＡリード）の割合、ならびに慢性Ｂ型肝炎ウイルス感染（ＨＢＶ）患者９人および肝細胞癌（ＨＣＣ）患者１０人についてのＨＢＶゲノム全体におけるすべてのＣｐＧ部位のメチル化割合を示す。

図３２Ａでは、ヒトゲノムに対してＨＢＶゲノムに整列させたＤＮＡ断片の割合が決定された。この特定の例では、ＨＢＶゲノムに一意に整列する無細胞ＤＮＡ断片の数を、図１に列挙した、ヒト、ＨＢＶ、ＨＰＶ、およびＥＢＶのゲノムを含む組み合わせた参照ゲノムに一意に整列する無細胞ＤＮＡ断片の数で割った。慢性ＨＢＶ感染症患者（平均＝０．０３％）よりもＨＣＣ患者（平均＝０．００６％）では、ＨＢＶＤＮＡリードの高い平均割合が観察されたが、統計的有意性は達成されなかった（ｐ＝０．０７、スチューデントｔ検定）。視覚的にわかるように、ＨＣＣ対象とＨＢＶ対象の平均は同程度である。したがって、数に基づく技術は、比較的低い予測能力を有する。

図３２Ｂでは、ＨＢＶメチル化割合は、ＨＢＶゲノムのすべてのＣｐＧ部位全体における全体的メチル化レベルとして決定された。ＨＣＣ患者の血漿ＨＢＶＤＮＡのメチル化割合は、慢性Ｂ型肝炎ウイルス感染患者（平均＝２３％）よりもＨＣＣ患者（平均＝１．７％）で有意に高いことが観察された（ｐ＝０．０３、スチューデントｔ検定）。このような分離は、ＨＢＶを有するがＨＣＣを有さない対象と、ＨＣＣを有する対象とを区別する能力の向上を示す。したがって、実施形態は、ＨＣＣ病態のレベルを分類することができる（例えば、ＨＣＣまたは非ＨＣＣ）。したがって、実施形態は、試料中の血漿ＨＢＶＤＮＡのゲノム全体のメチル化レベルに基づいてＨＣＣのリスクを予測することができた。

他の実施形態は、例えば、本明細書に記載されるように、他のタイプのメチル化レベルを実施することができる。例えば、分類は、予め定義された基準を持つ差別化されたメチル化領域内のメチル化レベルに基づくことができる。
ＶＩＩ．無細胞ウイルスＤＮＡのメチル化を使用する方法

上述のように、実施形態は、無細胞ウイルスＤＮＡおよび無細胞ゲノムヒトＤＮＡを含む無細胞ＤＮＡの試料中の１つ以上のメチル化レベルを測定することができる。メチル化レベルは、病態に関連する特定のウイルス由来のＤＮＡのメチル化レベル（複数可）を分析することにより、病態のレベルを分類することができる。数ベースおよびサイズベースの技術を使用して、メチル化技術を補完することもできる。

例として、病態のレベルは、病態が存在するかどうか、病態の重症度、病態のステージ、病態の見通し、治療に対する病態の反応、または病態の重症度もしくは進行の別の尺度であり得る。癌の例として、癌のレベルとは、癌が存在するかどうか、癌のステージ（例えば、初期および後期）、腫瘍のサイズ、治療に対する癌の反応、または癌の重症度もしくは進行の別の尺度であり得る。

ＥＢＶの場合、病態の例には、伝染性単核球症（ＩＭ）、鼻咽頭癌（ＮＰＣ）、ナチュラルキラー（ＮＫ）－Ｔ細胞リンパ腫、およびこれらの病態を有さないが試料中にかなりの数の無細胞ＥＢＶＤＮＡ断片を示し得る対象を含むことができる。ＨＰＶの場合、病態の例には、頭頸部扁平上皮癌（ＨＮＳＣＣ）と、かなりの量の無細胞ＨＰＶＤＮＡ断片を有するが、ＨＮＳＣＣを有さない対象を含むことができる。ＨＢＶの場合、病態の例には、肝細胞癌（ＨＣＣ）と、かなりの量の無細胞ＨＢＶＤＮＡ断片を有するが、ＨＣＣを有さない対象を含むことができる。
Ａ．病態を分類するためのメチル化レベルの使用

図３３は、本開示の実施形態による、第１の病態の分類を決定するための動物である対象の生体試料を分析する方法３３００を示すフローチャートである。試料には、対象のＤＮＡ分子、場合によってはウイルスのＤＮＡ分子の混合物を含めることができる。方法３３００には、臨床、実験室、およびインシリコ（コンピューター）ステップを含めることができる。方法３３００は、対象のスクリーニングの一部として、例えば、癌をスクリーニングするために実行することができる。したがって、対象は病態について無症状であり得る。

ブロック３３１０で、生体試料が対象から取得される。例として、生体試料は、血液、血漿、血清、尿、唾液、汗、涙、および痰、ならびに本明細書で提供される他の例であり得る。生体試料は、対象のゲノムおよび１つ以上の他のゲノムからの無細胞ＤＮＡ分子の混合物を含むことができる。例えば、１つ以上の他のゲノムは、ＥＢＶ、ＨＰＶ、および／またはＨＢＶゲノムなどのウイルスゲノムを含むことができる。いくつかの実施形態（例えば、血液用）では、無細胞ＤＮＡ分子の混合物、例えば、血漿を得るための血液の遠心分離のために、生体試料を精製することができる。

ブロック３３２０で、複数の複数の無細胞ＤＮＡ分子が、生体試料から分析される。無細胞ＤＮＡ分子の分析には、特定のウイルスゲノム内の無細胞ＤＮＡ分子の位置を特定し、特定のウイルスゲノムの１つ以上の部位で無細胞ＤＮＡ分子がメチル化されているかどうかを決定することが含まれ得る。様々な数の無細胞ＤＮＡ分子（ヒトおよびウイルス）は、特定のウイルスゲノムからとして特定されている様々な数（例えば、１０、２０、３０、５０、１００、２００、５００、または１，０００以上）例えば、少なくとも１，０００で分析することができる。

配列読み取りの部位のメチル化状態は、本明細書に記載されるように得ることができる。例えば、ＤＮＡ分子は、ＤＮＡ分子の配列リードを使用して分析することができ、この場合、配列決定はメチル化認識である。他のメチル化認識アッセイも使用することができる。配列リードはそれぞれ、生体試料の無細胞ＤＮＡ分子のメチル化状態を含むことができる。メチル化状態は、特定のシトシン残基が、５－メチルシトシンまたは５－ヒドロキシメチルシトシンであるかどうかを含み得る。配列リードは、様々な方法、様々な配列決定技術、ＰＣＲ技術（例えば、リアルタイムまたはデジタル）、アレイ、および断片の配列を特定するためのその他の好適な技術で得ることができる。リアルタイムＰＣＲは、例えば、部位でメチル化されたＤＮＡの数に比例する強度シグナルとして、ＤＮＡ群を集合的に分析する例である。配列リードは、２つの部位の相互の近接度と配列リードの長さに応じて、２つ以上の部位をカバーすることができる。

分析は、メチル化認識配列決定から配列読み取り値を受信することによって行うことができ、したがって、分析は、ＤＮＡから以前に得られたデータにのみ分析を行うことができる。他の実施形態では、分析は、実際の配列決定、またはＤＮＡ分子の特性の測定を実行する他の能動的ステップを含み得る。配列決定は、例えば、超並列配列決定または次世代配列決定を使用して、単一分子配列決定を使用して、および／または二本鎖もしくは一本鎖ＤＮＡ配列決定ライブラリー調製プロトコル、ならびに本明細書に記載の他の技術を使用して、様々な方法で実行することができる。配列決定の一部として、配列リードの一部が細胞核酸に対応し得ることが可能である。

配列決定は、例えば本明細書に記載されるような標的化配列決定であり得る。例えば、ウイルスからの核酸分子に対して生体試料を濃縮することができる。ウイルス由来の核酸分子の生体試料の濃縮には、ウイルスの一部またはウイルスのゲノム全体に結合する捕捉プローブの使用を含むことができる。他の実施形態は、ウイルスの特定の遺伝子座に特異的なプライマーを使用することができる。生体試料は、ヒトゲノムの一部、例えば常染色体の領域由来の核酸分子について濃縮され得る。図１は、そのような捕獲プローブの例を示す。他の実施形態では、配列決定はランダム配列決定を含むことができる。

配列決定装置による配列決定後、配列リードは、例えば、有線または無線通信または取り外し可能な記憶装置を介して配列決定を実行する配列決定装置に通信可能に結合され得るコンピューターシステムによって受信され得る。いくつかの実施形態では、核酸断片の両端を含む１つ以上の配列リードが受信され得る。ＤＮＡ分子の位置は、ＤＮＡ分子の１つ以上の配列リードをヒトゲノムのそれぞれの部分、例えば、特異的メチル化領域（ＤＭＲ）などの特定の領域にマッピング（整列）することにより決定することができる。一実施態様では、リードが目的の領域にマップされない場合、リードを無視することができる。他の実施形態では、特定のプローブ（例えば、ＰＣＲまたは他の増幅後）は、特定の蛍光色などを介して位置を示すことができる。特定は、無細胞ＤＮＡ分子が１つ以上の部位のセットのうちの１つに対応するものであり得、すなわち、１つ以上の部位でメチル化されたＤＮＡの量が必要とされるすべてであるため、特定の部位が不明となり得る。

ブロック３３３０で、１つ以上の混合物メチル化レベルが、特定のウイルスゲノムの１つ以上の部位のセットでメチル化された複数の無細胞ＤＮＡ分子のうちの１つ以上の量に基づいて測定される。混合物メチル化レベルは、部位（複数可）のセットまたは部位（複数可）のサブセットの無細胞ＤＮＡ分子のメチル化密度または割合（例えば、本明細書に記載される）であってもよい。例えば、メチル化レベルは、部位のセットに対応するＤＮＡ分子の数およびメチル化された数に基づいて決定されるメチル化密度に対応し得る。数は、１つ以上の部位での所定の配列リードのメチル化状態と組み合わせて、ウイルスゲノムへの配列リードのアライメントに基づいて決定され得る。

部位でメチル化されるＤＮＡ分子の各々の数は、部位のセットごとに決定されることができる。一実施形態では、部位はＣｐＧ部位であり、本明細書で言及される１つ以上の基準を使用して選択される特定のＣｐＧ部位のみであり得る。メチル化されたＤＮＡ分子の数は、特定の部位で分析されたＤＮＡ分子の総数、例えば、配列リードの総数を使用して正規化が実行されると、メチル化されない数を決定することと同等である。例えば、ある領域のＣｐＧメチル化密度の増加は、同じ領域の非メチル化ＣｐＧの密度の減少と同等である。

１つ以上の部位のセットに少なくとも２つの部位が含まれる場合、少なくとも２つ部位で１つの混合物メチル化レベルを決定することができる。例えば、メチル化レベルは、第１のセットのすべての無細胞ＤＮＡ分子の合計メチル化密度として計算することができる。別の例では、各部位または１つ以上の部位の領域（複数可）について個別のメチル化密度を計算することができ、それにより、例えば、セクションＩＶ．Ｂ～ＩＶ．Ｅで説明したように、Ｎ個（例えば、２以上の整数）の混合物メチル化レベルを多次元ポイントとして提供することができる。個別のメチル化密度を組み合わせて、混合物メチル化レベル、例えば、個別のメチル化密度の平均値を取得することができる。

他の実施形態では、例えば、本明細書に記載のクラスタリングおよび他の技術を使用して、後の分析のために別個のメチル化レベルを保持することができる。例えば、多次元ポイント（Ｎ個の混合物メチル化レベル）をＮ参照メチル化レベルと比較してＮ差を得ることができ、これを使用して、対象が少なくとも２つのコホートのうちの１つに属するかどうかを判断することができる。図１８～２０は、このような階層的クラスタリング分析のための例を示す。領域は、例えば、５０塩基～１，０００塩基のサイズを有する所定の領域について上で説明したように、事前に決定されてもよく、サイズは領域間で同じかまたは異なる。

２つ以上の混合メチル化レベルが決定される場合、異なるレベルが部位のセットの異なるサブセットに対応し得る。例えば、メチル化レベルは、各々が１つ以上の部位を含み得る、異なる領域に対して決定することができる。領域は、例えば特定の領域が選択されるときに行われ得るように、ウイルスゲノム全体に広がるか、部分のみに対応することができる。このような領域は、例えば本明細書に記載されているように、１つ以上の基準に従って特異的にメチル化されるように選択することができる。このような基準は、特定の範囲内にある同一病態を有し、他の対象のコホートの閾値内の差を潜在的に有する対象のコホートメにおけるチル化レベルに対応することができる。したがって、領域または各部位の基準には、（１）同じコホートの複数の対象間のメチル化レベルの差、および／または（２）あるコホートの対象と別のコホートの対象との間のメチル化レベルの差を含んでもよい。

ブロック３３４０で、１つ以上の混合物メチル化レベルは、少なくとも２つのコホートの他の対象から決定される１つ以上の参照メチル化レベルと比較される。少なくとも２つのコホートは、特定のウイルスゲノムに関連した異なる分類を有することができ、異なる分類には第１の病態が含まれる。そのような病態の例、例えば、ＮＰＣ、ＩＭ、リンパ腫、およびＥＢＶＤＮＡ分子の数に対して一時的陽性または持続的陽性に関連する非ＮＰＣ状態を、上に示す。コホートおよび参照メチル化レベルの例は、図８、１１、１３、１５、および１８～２０に示す。

比較には様々な形式があり得る。例えば、混合物メチル化レベルと参照メチル化レベルとの比率や差など、分離値を決定することができる。様々な分離値を定義することができ、比率と差、および両方の関数を含む定義を含めることができる。比較は、分離値とカットオフ値の比較をさらに含み、統計学的有意差を決定することができる。例えば、参照メチル化レベルはコホートの平均値であり、試料の混合物メチル化レベルとコホートの平均値との差はカットオフ値と比較することができ、カットオフ値は、コホートで使用された参照試料について測定されたメチル化レベルの標準偏差に基づいて決定し得る。

複数のメチル化レベルおよび複数の参照レベルを含むいくつかの実施形態では、複数のメチル化レベルは、試料の多次元ポイント（例えば、ベクトルを形成するＮ個のレベル）に対応すると同時に、複数の参照レベルはＮ－１次元の表面（例えば、超平面）に対応することができ、表面は、閉じた表面、例えば、データポイントが同一病態に対応している球のような表面であり得る。別の例として、複数のメチル化レベルと参照レベルとの比較は、試料の多次元ポイントから参照対象の代表的な（参照）多次元ポイントまでの距離を決定することにより実装することができる。参照多次元ポイントは、単一の参照対象、たとえば患者ＡＬ０３８に対応し得る。別の例として、代表的な（参照）多次元ポイントは、同一病態の対象からの参照多次元ポイントのクラスターの重心であり得る。

別の例として、混合メチル化レベル（複数可）と参照メチル化レベル（複数可）の比較には、１つ以上の混合物メチル化レベルを、他の対象の少なくとも２つのコホートから決定された１つ以上の参照メチル化レベルを使用してトレーニングした機械学習モデルに入力することを含み得る。例えば、参照レベルは他の対象に対して測定されたメチル化レベルであり、クラスタリングモデルはその参照レベルを使用してトレーニングすることができる。例えば、特定のコホートに対応する対象のクラスターに対して重心を選択することができる。

ブロック３３５０で、対象が第１の病態を有するかどうかの第１の分類が、この比較に基づいて決定される。第１の分類は、様々な形式、たとえば二項結果または確率値をとることができる。いくつかの実施形態では、第１の分類は、第１の病態のレベル、例えば、腫瘍の大きさ、重症度、または癌のステージを提供することができる。

少なくとも２つのコホートの異なる分類には、１つ以上の参照レベルとの比較により、対象が第２の病態を有するかどうかの第２の分類を決定することができる、第２の病態も含まれ得る。例えば、単一の参照レベルは、ＩＭとリンパ腫、またはＮＰＣと持続的陽性の対象を区別することができる。

１つ以上の混合物メチル化レベルは、複数の参照メチル化レベルと比較することができる。１つのメチル化レベルだが複数の参照メチル化レベルを使用する例として、異なる参照レベルは異なる病態を区別することができる。例えば、第１の参照メチル化レベルは、対象が第１の病態を有するかどうかの第１の分類を決定することができ（例えば、ＩＭありとＩＭなしの区別）、第２の参照メチル化レベルは、対象が第２の病態を有するかどうかの第２の分類を決定することができる（例えば、図８、図１１、および図１５に示すように、ＮＰＣありとＮＰＣなしの区別）。したがって、実施形態は、異なる参照レベルを使用して、この比較に基づいて対象が第２の病態を有するかどうかの第２の分類を決定することができる。

この方法はさらに、対象が病態を有するという分類に応じて、病態について対象を治療することを含み、それにより病態を改善する（例えば、病態を除去するか、重症度を低減する）。病態が癌の場合、治療には、手術、放射線療法、化学療法、免疫療法、標的療法、ホルモン療法、幹細胞移植、または精密医療が含まれ得る。決定された病態のレベルに基づいて、対象への危害リスクを減らすための治療計画を立てることができる。方法は、治療計画に従って対象を治療することをさらに含み得る。

様々な時点で生体試料を取得し、それらの時点で独立して、または他の時点での測定および分類と合わせて分析することができる。そのような時点の例には、癌の治療の前後（標的療法、免疫療法、化学療法、手術など）、癌の診断後の異なる時点、癌の進行の前後、転移の発生の前後、疾患の重症度の増加の前後、または合併症の発症前後が挙げられる。
Ｂ．サイズ／数と組み合わせてのメチル化レベルの使用

セクションＶで説明したように、数ベースおよび／またはサイズベースの技術は、メチル化技術と組み合わせて使用することができる。そのような技術は、例えば、それぞれが別々の分類を提供するなど、独立して実装することができる。このような独立した分類の各々は、その結果の最終的な分類を提供するために同じ結果を提供することを要求され得る。他の実施形態では、異なる技術の参照値は、別の技術からのメトリックに依存し得る。例えば、サイズ参照値は、図２７について上で説明したように、所与の試料について測定されたメチル化レベルに依存し得る。いくつかの実施形態では、各メトリック（例えば、メチル化レベル）は、ベクトル内の異なる要素になり得、それにより、所与の試料のメトリックから多次元データポイントを作成する。メトリックの各々は、例えば、ほぼ同時に対象から取得し得る、同じ試料または別々の試料から決定することができる。

いくつかの実施形態では、サイズベースの技術は、対象の生体試料を分析するために以下のように実装され得る。試料は、メチル化分析に使用したものと同じ試料でも異なる試料でもよい。生体試料は、対象のゲノムおよび１つ以上の他のゲノム（例えば、ウイルスゲノム）からの無細胞ＤＮＡ分子の混合物を含むことができる。生体試料中の複数の無細胞ＤＮＡ分子の各々について、例えば本明細書に記載のように、サイズおよび位置を決定することができる。例えば、ＤＮＡ分子の両端を配列決定して（例えば、ＤＮＡ分子全体の１つの配列リードまたは両端の配列リードペアを提供するために）、配列リード（複数可）を参照ゲノムに整列させてサイズを決定することができる。したがって、実施形態は、ＤＮＡ分子のサイズを測定し、特定のウイルスゲノム内のＤＮＡ分子の位置を特定することができる。これらの無細胞ＤＮＡ分子は、例えば、メチル化認識配列決定が使用される、メチル化分析に使用されたものと同じであり得る。複数のＤＮＡ分子のサイズは、サイズ分布を形成することができる。

サイズ分布の統計値（サイズ比など）を決定することができる。統計値は、少なくとも２つのコホートの他の対象から決定された参照サイズ値と比較でき、これは、メチル化分析に使用された同じ２つのコホートであり得る。少なくとも２つのコホートは、特定のウイルスゲノムに関連した異なる分類（第１の病態を含む）を持つことができる。対象が第１の病態を有するかどうかのサイズベースの分類は、この比較に基づいて決定することができる。サイズベースの分類およびメチル化ベースの分類を一緒に使用して、最終的な分類を提供することができる。参照サイズ値の例を図２２、２３、２５、および２７に示す。

いくつかの実施形態では、数ベースの技術は、対象の生体試料を分析するために以下のように実装され得る。試料は、メチル化分析に使用した試料と同じでも異なっていてもよい。生体試料は、対象のゲノムおよび１つ以上の他のゲノム（例えば、ウイルスゲノム）からの無細胞ＤＮＡ分子の混合物を含むことができる。

試料中の特定のウイルスゲノムに由来する無細胞ＤＮＡ分子の量を決定することができる。いくつかの実施形態では、生体試料中の複数の無細胞ＤＮＡ分子の各々について、分子が特定のウイルスゲノムに由来するかどうかを、例えば、場合によってはＰＣＲなどの増幅とともに、配列決定またはプローブを使用して決定する。例えば、位置は、例えば、ヒトゲノムからか、または特定のウイルスゲノムからかを決定することができる。その位置は、無細胞ＤＮＡの混合物の配列決定から得た複数の配列リードを使用して決定することができる。特定のウイルスゲノムに整列させる複数の配列リードの量を決定することができる。例えば、配列リードの総数に対するウイルスゲノムに整列させた配列リードの割合を決定することができる。配列リードの総数は、ウイルスに対応する参照ゲノムに整列させた配列リードと、ヒトゲノムに整列させた配列リードの合計であり得る。本明細書に記載される他の比率、例えば、特定のウイルスゲノムからのリード量をヒトのリード量で割ったものも使用することができる。

参照ゲノムに整列させる配列リードの量は、メチル化および／またはサイズ分析に使用される同じ２つのコホートであり得る、少なくとも２つのコホートの他の対象から決定された参照値と比較することができる。少なくとも２つのコホートは、特定のウイルスゲノムに関連した異なる分類（第１の病態を含む）を有することができる。対象が第１の病態を有するかどうかの数ベースの分類は、この比較に基づいて決定されることができる。数ベースの分類およびメチル化ベースの分類を一緒に使用して、最終的な分類を提供することができる。参照カウント値の例は、図２４～２７および３２Ａに示す。
ＶＩＩＩ．例示的なシステム

図３４は、本発明の一実施形態によるシステム３４００を示す。示されたシステムは、試料ホルダー３４１０内の無細胞ＤＮＡ分子などの試料３４０５を含み、試料３４０５は、アッセイ３４０８と接触して、物理的特徴３４１５の信号を提供することができる。試料ホルダーの例は、アッセイのプローブおよび／もしくはプライマー、または液滴が（アッセイを含む液滴とともに）移動するチューブを含む、フローセルであり得る。試料からの蛍光強度値などの物理的特徴３４１５は、検出器３４２０によって検出される。検出器３４２０は、データ信号を構成するデータポイントを得るために、間隔（例えば、周期的な間隔）を空けて測定を行うことができる。一実施形態において、アナログデジタル変換器は、検出器からのアナログ信号をデジタル形態へと複数回変換する。試料ホルダー３４１０および検出器３４２０は、アッセイデバイス、例えば、本明細書に記載の実施形態に従って配列決定を実施する配列決定装置を形成することができる。データ信号３４２５は、検出器３４２０から論理システム３４３０へ送信される。データ信号３４２５は、ローカルメモリ３４３５、外部メモリ３４４０、または記憶デバイス３４４５に保存され得る。

論理システム３４３０は、コンピューターシステム、ＡＳＩＣ、マイクロプロセッサなどであってもよいか、またはそれらを含んでもよい。それはまた、ディスプレイ（例えば、モニタ、ＬＥＤディスプレイなど）、およびユーザ入力デバイス（例えば、マウス、キーボード、ボタンなど）を含み得るか、またはこれらに連結され得る。論理システム３４３０および他の構成要素は、スタンドアロンもしくはネットワーク接続されたコンピューターシステムの一部であってもよく、またはサーマルサイクラデバイスに直接取り付けられてもよいか、もしくは組み込まれてもよい。論理システム３４３０はまた、プロセッサ３４５０において実行する最適化ソフトウェアを含み得る。論理システム３４３０は、本明細書に説明される方法のうちのいずれかを実行するようにシステム３４００を制御するための命令を記憶する、コンピューター可読媒体を含み得る。

本明細書で言及されるコンピューターシステムのうちのいずれも、任意の好適な数のサブシステムを利用してもよい。このようなサブシステムの例をコンピューターシステム１０の図３５に示す。いくつかの実施形態において、コンピューターシステムは、単一のコンピューター装置を含み、サブシステムは、コンピューター装置の構成要素であり得る。他の実施形態において、コンピューターシステムは、各々がサブシステムであり、内部構成要素を備える、複数のコンピューター装置を含むことができる。コンピューターシステムは、デスクトップコンピューターおよびラップトップコンピューター、タブレット、携帯電話、ならびに他の携帯デバイスを含み得る。

図３５に示されるサブシステムは、システムバス７５を介して相互接続される。プリンタ７４、キーボード７８、記憶デバイス（複数可）７９、ディスプレイアダプタ８２へ連結されているモニタ７６、および他のものなどの追加のサブシステムが示されている。Ｉ／Ｏコントローラ７１に結合する周辺機器および入力／出力（Ｉ／Ｏ）デバイスは、入力／出力（Ｉ／Ｏ）ポート７７（例えば、ＵＳＢ、ＦｉｒｅＷｉｒｅ（登録商標））等の当技術分野において既知である任意の数の手段によって、コンピューターシステムに接続され得る。例えば、Ｉ／Ｏポート７７または外部インターフェース８１（例えば、Ｅｔｈｅｒｎｅｔ、Ｗｉ－Ｆｉなど）を使用して、Ｉｎｔｅｒｎｅｔなどの広域ネットワーク、マウス入力デバイス、またはスキャナに、コンピューターシステム１０を接続することができる。システムバス７５を介した相互接続は、中央プロセッサ７３が、各サブシステムと通信し、システムメモリ７２または記憶デバイス（複数可）７９（例えば、ハードドライブまたは光ディスクなどの固定ディスク）からの複数の命令の実行、およびサブシステム間の情報交換を制御することを可能にする。システムメモリ７２および／または記憶デバイス（複数可）７９は、コンピューター可読媒体を具体化してもよい。別のサブシステムは、カメラ、マイクロホン、および加速度計等のデータ収集デバイス８５である。本明細書に言及されるデータのうちのいずれも、１つの構成要素から別の構成要素に出力されてもよく、ユーザに対して出力されてもよい。

コンピューターシステムは、例えば、外部インターフェース８１によって、内部インターフェースによって、または１つの構成要素から別の構成要素に接続され得る、もしくは取り外され得る記憶装置を介して、ともに接続された、複数の同じ構成要素またはサブシステムを含むことができる。いくつかの実施形態において、コンピューターシステム、サブシステム、またはデバイスは、ネットワーク上で通信することができる。かかる例において、１つのコンピューターをクライアント、別のコンピューターをサーバと見なすことができ、各々が、同じコンピューターシステムの一部であり得る。クライアントおよびサーバは各々、複数のシステム、サブシステム、または構成要素を含み得る。

実施形態の態様は、制御ロジックの形態で、ハードウェア回路（例えば、特定用途向け集積回路もしくはフィールドプログラマブルゲートアレイ）を使用して、および／またはモジュール式もしくは集積様態で汎用プログラマブルプロセッサを有するコンピューターソフトウェアを使用して、実装することができる。本明細書で使用される場合、プロセッサは、シングルコアプロセッサ、同じ集積チップ上のマルチコアプロセッサ、または単一の回路基板もしくはネットワーク化された上の複数の処理ユニット、ならびに専用のハードウェアを含むことができる。本開示および本明細書に提供される教示に基づいて、当業者は、ハードウェア、およびハードウェアとソフトウェアとの組み合わせを使用して、本発明の実施形態を実装するための他の方法および／または方法を認識および理解するであろう。

本出願で説明されるソフトウェア構成要素または関数のうちのいずれも、例えば、Ｊａｖａ、Ｃ、Ｃ＋＋、Ｃ＃、Ｏｂｊｅｃｔｉｖｅ－Ｃ、Ｓｗｉｆｔなどの任意の好適なコンピューター言語、または、例えば、従来の技術もしくはオブジェクト指向の技術を使用するＰｅｒｌもしくはＰｙｔｈｏｎなどのスクリプト言語を使用する、処理デバイスによって実行されるソフトウェアコードとして実装されてもよい。ソフトウェアコードは、保存および／または伝送のためのコンピューター可読媒体上に一連の命令またはコマンドとして記憶され得る。好適な非一過性コンピューター可読媒体は、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、磁気媒体（ハードドライブもしくはフロッピーディスクなど）、または光学媒体（コンパクトディスク（ＣＤ）もしくはＤＶＤ（デジタル多用途ディスク）など）、およびフラッシュメモリなどを含むことができる。コンピューター可読媒体は、かかる記憶または送信デバイスの任意の組み合わせであってもよい。

かかるプログラムはまた、コード化され、インターネットを含む様々なプロトコルに従う有線ネットワーク、光ネットワーク、および／または無線ネットワークを介した送信に適合した搬送波信号を使用して送信されてもよい。したがって、コンピューター可読媒体は、かかるプログラムでコード化されたデータ信号を使用して作成されてもよい。プログラムコードでコード化されたコンピューター可読媒体は、互換性のあるデバイスでパッケージ化されていてもよく、または（例えば、インターネットダウンロードを介して）他のデバイスとは別個に提供されてもよい。任意のかかるコンピューター可読媒体は、単一のコンピューター製品（例えば、ハードドライブ、ＣＤ、もしくはコンピューターシステム全体）上もしくはその内部に存在してもよく、システムまたはネットワーク内の異なるコンピューター製品上もしくはその内部に存在してもよい。コンピューターシステムは、モニタ、プリンタ、または本明細書に記載の結果のうちのいずれかをユーザへ提供するための他の好適なディスプレイを含み得る。

本明細書記載の方法のうちのいずれも、ステップを実行するように構成することができる１つ以上のプロセッサを含むコンピューターシステムを用いて全体的または部分的に実施することができる。したがって、実施形態は、本明細書に説明される方法のうちのいずれかのステップを実行するように構成されたコンピューターシステムを対象とし得、潜在的には異なる構成要素がそれぞれのステップまたはそれぞれのステップのグループを実行する。番号付けされたステップとして提示されるが、本明細書の方法のステップは、同時にもしくは異なる時間に、または異なる順序で実行することができる。加えて、これらのステップの部分は、他の方法からの他のステップの部分と併用することができる。また、あるステップのすべてまたは部分は、任意選択的であってもよい。加えて、本方法のうちのいずれかのステップのうちのいずれかを、これらのステップを実行するためのシステムのモジュール、ユニット、回路、または他の手段を用いて実行することができる。

特定の実施形態の具体的な詳細は、本発明の実施形態の趣旨および範囲から逸脱することなく、任意の好適な様態で組み合わせることができる。しかしながら、本発明の他の実施形態は、各個々の態様、またはこれらの個々の態様の具体的な組み合わせに関する具体的な実施形態を対象とし得る。

本発明の例示的実施形態の上の説明は、例解および説明目的で提示されている。包括的であること、または本発明を説明された正確な形態に限定することは意図されず、多くの修正および変更が、先の教示に鑑みて可能である。

本明細書において言及されるすべての特許、特許出願、刊行物、および明細書は、すべての目的に対して参照によりそれらの全体が組み込まれる。いかなるものも、先行技術であるとは認められていない。

付録Ａ

Claims

動物である対象の生体試料を分析する方法であって、前記生体試料が、前記対象のゲノムおよび１つ以上の他のゲノムからの無細胞ＤＮＡ分子の混合物を含み、前記方法は、
前記生体試料からの複数の無細胞ＤＮＡ分子を分析することであって、前記複数の無細胞ＤＮＡ分子のうちの１つを分析することが、
特定のウイルスゲノムにおける前記無細胞ＤＮＡ分子の位置を特定することと、
前記無細胞ＤＮＡ分子が、前記特定のウイルスゲノムの１つ以上の部位においてメチル化されているかどうかを決定することと、を含む、分析することと、
前記特定のウイルスゲノムの１つ以上の部位のセットにおいてメチル化された前記複数の無細胞ＤＮＡ分子のうちの１つ以上の量に基づいて１つ以上の混合物メチル化レベルを測定することと、
前記１つ以上の混合物メチル化レベルを、他の対象の少なくとも２つのコホートから決定された１つ以上の参照メチル化レベルと比較することであって、前記少なくとも２つのコホートが、前記特定のウイルスゲノムに関連した異なる分類を有し、前記異なる分類が第１の病態を含む、比較することと、
前記比較に基づいて、前記対象が前記第１の病態を有するかどうかの第１の分類を決定することと、を含む、方法。
前記少なくとも２つのコホートの前記異なる分類が第２の病態をさらに含み、前記方法が、
前記比較に基づいて、前記対象が前記第２の病態を有するかどうかの第２の分類を決定することをさらに含む、請求項１に記載の方法。
前記１つ以上の混合物メチル化レベルが、第１の参照メチル化レベルおよび第２の参照メチル化レベルを含む複数の参照メチル化レベルと比較され、前記第１の参照メチル化レベルは、前記対象が前記第１の病態を有するかどうかの前記第１の分類を決定するために使用され、前記第２の参照メチル化レベルは、前記対象が前記第２の病態を有するかどうかの前記第２の分類を決定するために使用される、請求項２に記載の方法。
前記特定のウイルスゲノムがエプスタイン・バーウイルスのものであり、前記対象がヒトであり、前記第１の病態が鼻咽頭癌であり、前記第２の病態が伝染性単核球症である、請求項３に記載の方法。
前記第１の分類は、前記対象が前記第１の病態を有していないことである、請求項１に記載の方法。
前記第１の分類を決定することは、前記第１の病態のレベルを決定することを含む、請求項１に記載の方法。
前記特定のウイルスゲノムが、エプスタイン・バーウイルスのものであり、前記対象がヒトであり、前記第１の病態が鼻咽頭癌である、請求項１に記載の方法。
前記１つ以上の部位のセットが、少なくとも２つの部位を含み、前記１つ以上の混合物メチル化レベルが、前記少なくとも２つの部位にわたって決定される１つの混合物メチル化レベルである、請求項１に記載の方法。
前記１つ以上の混合物メチル化レベルが、Ｎ個の混合物メチル化レベルを含み、Ｎは１より大きい整数であり、前記１つ以上の部位のセットが、少なくとも２つの部位を含み、前記比較が、
前記Ｎ個の混合物メチル化レベルとＮ個の参照メチル化レベルとの差を測定することと、
前記差を使用して、前記対象が、前記少なくとも２つのコホートのうちの１つに属するかどうかを決定することと、を含む、請求項１に記載の方法。
前記差を使用して、前記対象が、前記少なくとも２つのコホートのうちの１つに属するかどうかを決定することが、階層的クラスタリング分析を実行することを含む、請求項９に記載の方法。
前記Ｎ個の混合物メチル化レベルの各々が、複数の所定の領域のうちの１つについて測定される、請求項９に記載の方法。
前記複数の所定の領域が同じサイズのものであり、前記特定のウイルスゲノムにまたがり、前記同じサイズが５０塩基～１，０００塩基である、請求項１１に記載の方法。
前記複数の所定の領域の各々が、（１）同じコホートの複数の対象間のメチル化レベルの差、および／または（２）あるコホートの対象と別のコホートの対象との間のメチル化レベルの差を含む１つ以上の基準を満たす、請求項１１に記載の方法。
前記１つ以上の部位のセットが、（１）同じコホートの複数の対象間のメチル化レベルの差、および／または（２）あるコホートの対象と別のコホートの対象との間のメチル化レベルの差を含む１つ以上の基準をそれぞれ満たす複数の領域に存在する、請求項１に記載の方法。
前記１つ以上の部位のセットが、（１）同じコホートの複数の対象間のメチル化レベルの差、および／または（２）あるコホートの対象と別のコホートの対象との間のメチル化レベルの差を含む１つ以上の基準を満たす、請求項１に記載の方法。
前記１つ以上の混合物メチル化レベルを、他の対象の少なくとも２つのコホートから決定された前記１つ以上の参照メチル化レベルと比較することが、
他の対象の前記少なくとも２つのコホートから決定された前記１つ以上の参照メチル化レベルを使用してトレーニングされた機械学習モデルに、前記１つ以上の混合物メチル化レベルを入力することを含む、請求項１に記載の方法。
前記１つ以上の部位のセットの各部位について、
前記部位においてメチル化されるそれぞれのＤＮＡ分子の数を決定し、それにより前記特定のウイルスゲノムの前記１つ以上の部位のセットにおいてメチル化された前記複数の無細胞ＤＮＡ分子のうちの前記１つ以上の量を決定することをさらに含む、請求項１に記載の方法。
前記複数の無細胞ＤＮＡ分子のメチル化認識配列決定を実行して、配列リードを取得することと、
前記配列リードを前記特定のウイルスゲノムに整列させ、前記１つ以上の部位のセットの各部位においてメチル化される前記それぞれのＤＮＡ分子の数を決定することと、をさらに含む、請求項１７に記載の方法。
前記複数の無細胞ＤＮＡ分子の位置、および前記複数の無細胞ＤＮＡ分子が前記１つ以上の部位のセットにおいてメチル化されているかどうかを決定する一環として、前記複数の無細胞ＤＮＡ分子のメチル化認識アッセイを実行することをさらに含む、請求項１に記載の方法。
前記無細胞ＤＮＡ分子の前記位置を特定することが、前記位置が前記１つ以上の部位のセットのうちの１つに対応することを決定することを含む、請求項１に記載の方法。
前記複数の無細胞ＤＮＡ分子のグループを集合的に分析して、前記特定のウイルスゲノムの前記１つ以上の部位のセットにおいてメチル化された前記複数の無細胞ＤＮＡ分子のうちの前記１つ以上の量を決定する、請求項１に記載の方法。
前記複数の無細胞ＤＮＡ分子が、前記特定のウイルスゲノムに位置する少なくとも１０個の無細胞ＤＮＡ分子を含む、請求項１に記載の方法。
前記特定のウイルスゲノムが、エプスタイン・バーウイルス、ヒトパピローマウイルス、またはＢ型肝炎ウイルスに対応する、請求項１に記載の方法。
試料中の無細胞ＤＮＡ分子のセットの各々について、
前記無細胞ＤＮＡ分子のサイズを測定して、
前記特定のウイルスゲノムにおける前記無細胞ＤＮＡ分子の位置を特定することであって、前記無細胞ＤＮＡ分子のセットの前記サイズがサイズ分布を形成し、前記試料が前記生体試料であるか、または前記対象のゲノムおよび前記１つ以上の他のゲノムから無細胞ＤＮＡ分子の混合物を含む異なる試料である、特定することと、
前記サイズ分布の統計値を決定することと、
前記統計値を、他の対象の前記少なくとも２つのコホートから決定された参照サイズ値と比較することと、
前記統計値と前記参照サイズ値との前記比較に基づいて、前記対象が前記第１の病態を有するかどうかの第２の分類を決定することと、
前記第１の分類および前記第２の分類を使用して最終分類を決定することと、をさらに含む、請求項１に記載の方法。
試料中の前記特定のウイルスゲノムに由来する無細胞ＤＮＡ分子の量を決定することであって、前記試料が前記生体試料であるか、または前記対象の前記ゲノムおよび前記１つ以上の他のゲノムからの無細胞ＤＮＡ分子の混合物を含む異なる試料である、決定することと、
前記量を、他の対象の前記少なくとも２つのコホートから決定された参照値と比較することと、
前記量と前記参照値との前記比較に基づいて、前記対象が前記第１の病態を有するかどうかの第２の分類を決定することと、
前記第１の分類および前記第２の分類を使用して最終分類を決定することと、をさらに含む、請求項１に記載の方法。
前記対象が前記第１の病態を有する前記第１の分類に応じて、前記対象が前記第１の病態を改善する治療を提供することをさらに含む、請求項１に記載の方法。
上述の方法のうちのいずれかの動作を実行するようにコンピューターシステムを制御するための複数の命令を記憶するコンピューター可読媒体を備える、コンピューター製品。
システムであって、
請求項２７に記載のコンピューター製品と、
前記コンピューター可読媒体上に記憶された命令を実行するための１つ以上のプロセッサと、を備える、システム。
前記上述の方法のうちのいずれかを実行するための手段を備えるシステム。
前記上述の方法のうちのいずれかを実行するように構成されたシステム。
前記上述の方法のうちのいずれかのステップをそれぞれ実行するモジュールを備えるシステム。