CN111051536A

CN111051536A - 利用不含细胞的病毒核酸改善癌症筛选

Info

Publication number: CN111051536A
Application number: CN201880055081.1A
Authority: CN
Inventors: 卢煜明; 赵慧君; 陈君赐; 江培勇; 林伟棋
Original assignee: Chinese University of Hong Kong CUHK
Current assignee: Chinese University of Hong Kong CUHK
Priority date: 2017-07-26
Filing date: 2018-07-25
Publication date: 2020-04-21
Also published as: IL272030A; EP4234723A3; PH12020500156A1; ES2959360T3; AU2018305609B2; EP3658684B1; SG11202000609SA; US20190032145A1; EP3658684A1; TW201920683A; EP4234723A2; US10731224B2; JP2023145696A; AU2018305609A1; CA3070898A1; EP3658684A4; US20200325546A1; JP2020527958A; KR20200035427A; AU2023202318A1

Abstract

可分析生物样本混合物中不含细胞的DNA分子以检测病毒DNA。可测定病毒基因组中一个或多个位点处病毒DNA分子的甲基化。可依据在特定病毒基因组的一组位点处甲基化的多个不含细胞的DNA分子的一个或多个量来测量混合物甲基化程度。可依各种方式测定混合物甲基化程度，例如：依在一个位点处或跨越多个位点或区域甲基化的不含细胞的DNA分子的密度形式测定。可比较混合物甲基化程度与参考甲基化程度，例如由至少两个其它个体群组测定。群组可具有与特定病毒基因组相关联的不同类别(包括第一病状)。第一分类可依据比较来测定个体是否是具有第一病状。

Description

利用不含细胞的病毒核酸改善癌症筛选

相关申请案的交叉引用

本申请案要求2017年7月26日提交的题为“利用不含细胞的病毒核酸改善癌症筛选(Enhancement Of Cancer Screening Using Cell-Free Viral Nucleic Acids)”的美国临时申请案第62/537,328号的优先权且为其非临时版本，其全部内容以引用的方式并入本文中以用于所有目的。

背景技术

肿瘤细胞释放肿瘤衍生的DNA进入血流的发现已激发能够使用不含细胞的样本(例如血浆)测定个体的肿瘤的存在、位置和/或类型的非侵袭性方法的开发。许多肿瘤如果在出现早期检测到，则为可治愈的。然而，当前方法可能缺乏在早期检测肿瘤的灵敏度和/或特异性，且可能产生许多假阳性或假阴性结果。举例来说，某些病毒与癌症相关联，但可在没有患有癌症的个体中检测到病毒DNA，由此产生假阳性结果。

测试的灵敏度可指病状呈阳性的个体针对所述病状测试呈阳性的可能性。测试的特异性可指病状呈阴性的个体针对所述病状测试呈阴性的可能性。灵敏度和特异性问题可能在用于肿瘤早期检测的分析法中被放大，例如因为进行此类肿瘤检测方法的样本可能具有相对较少量的肿瘤衍生的DNA，且因为病状本身在早期测试的个体当中可能具有相对较低的流行率。因此，对肿瘤检测具有较高灵敏度和/或特异性的方法存在临床需求。

发明内容

实施例提供用于分析个体的生物样本的系统、设备和方法，例如在动物界(如人类)中。可分析生物样本混合物中不含细胞的DNA分子以检测病毒DNA，例如通过测定特定病毒基因组中的位置。可测定病毒基因组中的一个或多个位点处病毒DNA的甲基化状态。可依据特定病毒基因组在一组一个或多个位点甲基化的多个不含细胞的DNA分子的一个或多个量来测量混合物甲基化程度。可以各种方式测定混合物甲基化程度，例如以特定位点处或跨越多个位点和潜在地跨越多个区域(各自包括一个或多个位点)甲基化的不含细胞的DNA分子的百分比/密度形式。

可比较混合物甲基化程度与参考甲基化程度，例如由至少两个其它个体群组测定。群组可具有与特定病毒基因组相关联的不同类别(包括第一病状)。其它群组可对应于其它病状。比较可以多种方式进行，例如通过形成N个甲基化含量的多维点和测定与N个参考甲基化程度的差异。可依据比较来测定个体是否是具有第一病状的第一类别。

本发明的这些和其它实施例详细描述于下文中。举例来说，其它实施例是针对与本文中所描述的方法相关联的系统、装置和计算机可读介质。

可参考以下具体实施方式和随附图式来获得对本发明的实施例的性质和优点的更好理解。

附图说明

图1展示根据本发明的实施例的用于靶向亚硫酸氢盐测序的捕捉探针的设计。

图2展示根据本发明的实施例的患有传染性单核细胞增多症、鼻咽癌(NPC)和自然杀手(NK)-T细胞淋巴瘤的患者中跨越EB病毒(Epstein-Barr virus；EBV)基因组的CpG位点的甲基化概况。

图3展示根据本发明的实施例的一名来自筛选群组的患有早期NPC(第I阶段)的患者(AL038)中血浆EBV DNA的甲基化概况。

图4展示根据本发明的实施例的患有不同病状的两名患者之间的跨越EBV基因组的CpG位点的甲基化密度的差异。

图5展示根据本发明的实施例的患有NPC的两名患者(TBR1392和TBR1416)之间的跨越EBV基因组的CpG位点的甲基化密度的差异。

图6展示根据本发明的实施例的患有早期NPC的患者(AO050)与具有血浆EBV DNA假阳性结果的个体(HB002)之间的血浆EBV DNA的甲基化模式的差异。

图7A-7C为点状图，其展示根据本发明的实施例的一位患者中跨越EBV基因组的CpG位点的甲基化密度(x轴上)和另一名患者中相同CpG位点的相应甲基化密度(y轴上)。

图8展示根据本发明的实施例的患有传染性单核细胞增多症(IM)(n＝2)、EBV相关淋巴瘤(n＝3)、暂时性阳性血浆EBV DNA(n＝3)、持续性阳性血浆EBV DNA(n＝3)和NPC(n＝6)的个体中，基于EBV基因组中的CpG位点的血浆EBV DNA的甲基化百分比。

图9说明根据本发明的实施例的满足第一选择准则的差异甲基化区域(DMR)的挖掘。

图10为列举满足图9中描述的准则的差异甲基化区域的基因组座标的表格。

图11展示根据本发明的实施例的患有传染性单核细胞增多症(IM)(n＝2)、EBV相关淋巴瘤(n＝3)、暂时性阳性血浆EBV DNA(n＝3)、持续性阳性血浆EBV DNA(n＝3)和NPC(n＝6)的个体中，图10中描述的39个DMR内基于821个CpG位点的血浆EBV DNA的甲基化百分比。

图12说明根据本发明的实施例的满足第二选择准则的差异甲基化区域(DMR)的挖掘。

图13展示根据本发明的实施例的具有暂时性阳性血浆EBV DNA的非NPC个体、具有持续性阳性血浆EBV DNA的非NPC个体和NPC患者中基于图12中定义的46个DMR的血浆EBVDNA的甲基化百分比。

图14说明根据本发明的实施例的满足第三选择准则的代表性甲基化保守区域的挖掘。

图15展示根据本发明的实施例的相同的患有传染性单核细胞增多症(IM)(n＝2)、EBV相关淋巴瘤(n＝3)、暂时性阳性血浆EBV DNA(n＝3)、持续性阳性血浆EBV DNA(n＝3)和NPC(n＝6)的个体组中，基于图12中描述的‘代表性’CpG位点的血浆EBV DNA的甲基化百分比。

图16展示根据本发明的实施例的CpG位点的实例，其中在具有持续性阳性血浆EBVDNA的3个病例的汇集测序数据中，各位点处的甲基化百分比超过80％，且在3名NPC个体中的平均值小于20％。

图17展示根据本发明的实施例的CpG位点的实例，其中在具有持续性阳性血浆EBVDNA的3个病例的汇集测序数据中，各位点处的甲基化百分比小于20％，且在3名NPC个体中超过80％。

图18展示根据本发明的实施例的6名NPC患者(包括来自我们的筛选群组的4名患有早期疾病的患者)、2名患有结外NK-T细胞淋巴瘤的患者和2名患有传染性单核细胞增多症的患者中，基于血浆EBV DNA的甲基化模式分析的具有层次聚类分析的聚类树状图。

图19展示根据本发明的实施例的6名NPC患者(包括来自我们的筛选群组的4名早期NPC患者)和3名具有持续性阳性血浆EBV DNA的非NPC个体中，基于血浆EBV DNA的甲基化模式分析的具有层次聚类分析的聚类树状图。

图20展示热图2000，其说明在患有鼻咽癌、NK-T细胞淋巴瘤和传染性单核细胞增多症的患者中，完全EBV基因组中的所有非重叠500-bp区域的甲基化程度。

图21展示根据本发明的实施例的2名NPC患者(TBR1392和TBR1416)和2名传染性单核细胞增多症患者(TBR1610和TBR1661)以及连续分析中的3名具有持续性阳性血浆EBVDNA的非NPC个体(AF091、HB002和HF020)中，映射到EBV基因组和人类基因组的经测序的血浆DNA片段的尺寸分布的尺寸概况。

图22展示根据本发明的实施例的6名NPC患者和3名血浆EBV DNA呈持续性阳性的个体中的尺寸比率。

图23展示根据本发明的实施例的具有暂时性阳性血浆EBV DNA的非NPC个体、具有持续性阳性血浆EBV DNA的非NPC个体和NPC患者中的EBV DNA尺寸比率。

图24展示根据本发明的实施例，在具有暂时性阳性血浆EBV DNA的非NPC个体、具有持续性阳性血浆EBV DNA的非NPC个体和NPC患者中的所有经测序的血浆DNA读段中，血浆EBV DNA读段(映射到EBV基因组的血浆DNA读段)的比例。

图25为根据本发明的实施例，NPC患者、具有暂时性阳性和持续性阳性血浆EBVDNA的非NPC个体的血浆EBV DNA读段的比例和相应尺寸比率值的曲线。

图26为根据本发明的实施例，NPC患者、具有暂时性阳性和持续性阳性血浆EBVDNA的非NPC个体的血浆EBV DNA读段的比例和相应甲基化百分比值的曲线。

图27A和27B展示根据本发明的实施例，NPC患者、具有暂时性阳性和持续性阳性血浆EBV DNA的非NPC个体的血浆EBV DNA读段的比例和相应尺寸比率和甲基化百分比值的3维曲线。

图28A和28B展示根据本发明的实施例，依据计数、依据尺寸和依据甲基化的分析的各种组合的接受者操作特征(ROC)曲线分析。

图29展示5名HPV阳性头部和颈部鳞状细胞癌(HPV+ve HNSCC)病例的临床阶段。

图30展示根据本发明的实施例，患有HPV阳性头部和颈部鳞状细胞癌(HPV+veHNSCC)的个别患者中血浆HPV DNA的甲基化概况。

图31展示根据本发明的实施例，患有HPV+ve HNSCC的两名患者中跨越HPV基因组的所有CpG位点的甲基化程度。

图32A和32B展示根据本发明的实施例，9名慢性乙型肝炎感染(HBV)患者和10名肝细胞癌(HCC)患者中，乙型肝炎病毒(HBV)DNA读段(映射到HBV基因组的血浆DNA读段)的比例和跨越HBV基因组的所有CpG位点的甲基化百分比。

图33为流程图，其说明根据本发明的实施例，用于测定第一病状的类别的分析动物个体的生物样本的方法。

图34说明根据本发明的实施例的系统。

图35展示可与根据本发明的实施例的系统和方法一起使用的实例计算机系统的方块图。

具体实施方式

附录A展示当具有持续性阳性EBV DNA的3名个体和3名NPC患者的汇集测序数据之间的这些CpG位点的甲基化百分比差异超过20％时，具有不同甲基化程度的跨越EBV基因组的个别CpG位点的列表。这些用*标记的位点的甲基化百分比差异超过40％，**的差异超过60％且***的差异超过80％。

术语

术语“样本”、“生物样本”或“患者样本”打算包括来源于活个体或死个体的任何组织或材料。生物样本可为不含细胞的样本，其可包括来自个体的核酸分子和来自病原体(例如病毒)的潜在核酸分子的混合物。生物样本通常包含核酸(例如DNA或RNA)或其片段。术语“核酸”通常可指脱氧核糖核酸(DNA)、核糖核酸(RNA)或其任何杂交物或片段。样本中的核酸可为不含细胞的核酸。样本可为液体样本或固体样本(例如细胞或组织样本)。生物样本可为体液，如血液、血浆、血清、尿液、阴道液、来自鞘膜积液(例如睾丸鞘膜积液)的液体、阴道冲洗液、胸膜液、腹水、脑脊髓液、唾液、汗液、泪液、痰液、支气管肺泡灌洗液、乳头排出液、来自身体不同部位(例如甲状腺、乳房)的抽吸液等。也可使用粪便样本。在各种实施例中，已富集不含细胞的DNA的生物样本(例如经由离心方案获得的血浆样本)中的大部分DNA可不含细胞(例如超过50％、60％、70％、80％、90％、95％或99％的DNA可不含细胞)。离心方案可包括例如3,000g×10分钟，获得流体部分，和在例如30,000g下再离心另外10分钟以移除残余细胞。

如本文中所使用，术语“片段”(例如DNA片段)可指聚核苷酸或多肽序列中包含至少3个连续核苷酸的部分。核酸片段可保留亲本多肽的生物活性和/或一些特征。核酸片段可为双链或单链、甲基化或未甲基化、完整或带切口、与其它大分子(例如脂质颗粒、蛋白质)复合或未复合的。在一个实例中，鼻咽癌细胞可将EB病毒(EBV)DNA的片段释放到个体(例如患者)的血流中。这些片段可包含一个或多个BamHI-W序列片段，其可用于检测血浆中肿瘤衍生的DNA的含量。BamHI-W序列片段对应于可使用Bam-HI限制酶识别和/或消化的序列。BamHI-W序列可指序列5'-GGATCC-3'。

肿瘤衍生的核酸可指从肿瘤细胞释放的任何核酸，包括来自肿瘤细胞中的病原体的病原体核酸。举例来说，EB病毒(EBV)DNA可从患有鼻咽癌(NPC)的个体的癌细胞释放。

术语“分析法”一般是指用于测定核酸特性的技术。分析法(例如第一分析法或第二分析法)一般是指用于测定样本中核酸的量、样本中核酸的基因组一致性、样本中核酸的拷贝数变化、样本中核酸的甲基化状态、样本中核酸的片段尺寸分布、样本中核酸的突变状态或样本中核酸的片段化模式的技术。所属领域的一般技术人员已知的任何分析法皆可用于检测本文中提及的核酸的任何特性。核酸的特性包括序列、数量、基因组一致性、拷贝数、一个或多个核苷酸位置处的甲基化状态、核酸的尺寸、一个或多个核苷酸位置处核酸的突变和核酸的片段化模式(例如核酸片段所处的核苷酸位置)。术语“分析法”可与术语“方法”互换使用。分析法或方法可具有特定灵敏度和/或特异性，且其作为诊断工具的相对有效性可使用ROC-AUC统计学来测量。

如本文中所使用，术语“随机测序”一般是指在测序程序之前尚未具体鉴定或预先测定所测序的核酸片段的测序。不需要靶向特异性基因座的序列特异性引物。在一些实施例中，将衔接子添加到片段的末端中，且将用于测序的引物连接到衔接子。因此，任何片段皆可使用连接到相同通用衔接子的相同引物测序，且因此测序可为随机的。可使用随机测序进行大规模平行测序。

“序列读段”一般是指在核酸分子的任何部分或全部中所测序的核苷酸串。举例来说，序列读段可为从核酸片段测序的短核苷酸串(例如20-150个碱基)、在核酸片段的一端或两端的短核苷酸串或存在于生物样本中的整个核酸片段的测序。可以多种方式获得序列读段，例如使用测序技术或使用探针，例如在杂交阵列或捕捉探针中，或扩增技术，如聚合酶链反应(PCR)或使用单一引物的线性扩增或等温扩增，或依据生物物理学测量，如质谱。

“甲基化组”提供基因组(例如人类或其它动物基因组或病毒基因组)中的多个位点或基因座处DNA甲基化的量的量度。甲基化组可对应于所有基因组、基因组的大部分或基因组的相对较小部分。相关甲基化组的实例为肿瘤细胞(例如鼻咽癌、肝细胞癌、子宫颈癌)的甲基化组、病毒甲基化组(例如驻留于个体的健康或肿瘤细胞内的EBV的甲基化组)；细菌甲基化组，和可促进DNA进入体液(例如血浆、血清、汗液、唾液、尿液、生殖器分泌物、精液、粪便液、腹泻液、脑脊髓液、胃肠道的分泌物、腹水、胸膜液、眼内液体、来自鞘膜积液(例如睾丸鞘膜积液)的液体、来自包囊的液体、胰腺分泌物、肠道分泌物、痰液、泪液、来自乳房和甲状腺的抽吸液等)的器官(例如脑细胞、骨骼、肺、心脏、肌肉和肾等的甲基化组)。器官可为移植器官。胎儿的甲基化组为另一实例。

“血浆甲基化组”为从动物(例如人类)的血浆或血清测定的甲基化组。血浆甲基化组为不含细胞的甲基化组的一个实例，因为血浆和血清包括不含细胞的DNA。血浆甲基化组也为混合甲基化组的实例，因为其为胚胎/母体甲基化组、肿瘤/患者甲基化组、来源于不同组织或器官的DNA、供体/受体甲基化组的混合物(在上下文或器官移植中)，和/或来自不同基因组(例如动物基因组和细菌/病毒基因组)的DNA的混合物。

“位点”(也称为“基因组位点”)对应于单一位点，其可为单一碱基位置或相关碱基位置群，例如CpG位点或相关碱基位置的较大群。“基因座”可对应于包括多个位点的区域。基因座可仅包括一个位点，此将使得基因座在所述情形下等效于一个位点。

各基因组位点(例如CpG位点)的“甲基化指数”可指在所述位点展示甲基化的DNA片段(例如由序列读段或探针测定)相对于覆盖所述位点的读段总数的比例。“读段”可对应于从DNA片段获得的信息(例如位点处的甲基化状态)。读段可使用优先杂交到特定甲基化状态的DNA片段的试剂(例如引物或探针)获得。典型地，此类试剂在用视DNA分子的甲基化状态(例如亚硫酸氢盐转化，或甲基化敏感性限制酶，或甲基化结合蛋白质，或抗甲基胞嘧啶抗体)而差异调节或差异识别DNA分子的方法处理后施用。在另一实施例中，识别甲基胞嘧啶和羟甲基胞嘧啶的单分子测序技术可用于阐明甲基化状态和用于测定甲基化指数。

区域的“甲基化密度”可指展示甲基化的区域内的位点处的读段数目除以覆盖区域中的位点的读段总数。位点可具有特异性特征，例如为CpG位点。因此，区域的“CpG甲基化密度”可指展示CpG甲基化的读段数目除以覆盖区域中的CpG位点(例如特定CpG位点、CpG岛或较大区域内的CpG位点)的读段总数。举例来说，人类基因组中每100kb分组的甲基化密度可从亚硫酸氢盐处理之后在CpG位点处未转化的胞嘧啶(其对应于甲基化胞嘧啶)的总数测定为映射到100kb区域的序列读段所覆盖的所有CpG位点的比例。也可对其它分组大小进行此分析，例如500bp、5kb、10kb、50-kb或1-Mb等。区域可为整个基因组或染色体或染色体的一部分(例如染色体臂)。当区域仅包括CpG位点时，CpG位点的甲基化指数与区域的甲基化密度相同。“甲基化胞嘧啶的比例”可指相比于所分析的胞嘧啶残基总数展示为甲基化(例如在亚硫酸氢盐转化之后未经转化)的胞嘧啶位点“C”的数目，即包括区域中除CpG情形以外的胞嘧啶。甲基化指数、甲基化密度和甲基化胞嘧啶的比例为“甲基化程度”的实例，其可包括其它涉及位点处甲基化读段的计数的比率。除亚硫酸氢盐转化以外，所属领域技术人员已知的其它方法可用于查询DNA分子的甲基化状态，包括(但不限于)对甲基化状态敏感的酶(例如甲基化敏感性限制酶)、甲基化结合蛋白、使用对甲基化状态敏感的平台的单分子测序(例如纳米孔测序(Schreiber等人《美国国家科学院院刊(Proc Natl Acad Sci)》2013；110:18910-18915)和通过太平洋生物科学公司(Pacific Biosciences)单分子实时分析(Flusberg等人《自然：方法(Nat Methods)》2010；7:461-465))。

“甲基化概况”(也称为甲基化状态)包括与区域的DNA甲基化相关的信息。与DNA甲基化相关的信息可包括(但不限于)CpG位点的甲基化指数、区域中CpG位点的甲基化密度、相邻区域上CpG位点的分布、含有超过一个CpG位点的区域内每个个别CpG位点的甲基化模式或程度以及非CpG甲基化。基因组的大部分(例如覆盖超过10％、20％、30％、40％、50％、60％、70％、80％或90％)的甲基化概况可视为等效于甲基化组。哺乳动物基因组中的“DNA甲基化”通常指添加甲基到CpG二核苷酸中的胞嘧啶残基的5'碳(即5-甲基胞嘧啶)。DNA甲基化可在例如CHG和CHH的其它情形下发生于胞嘧啶中，其中H为腺嘌呤、胞嘧啶或胸腺嘧啶。胞嘧啶甲基化也可呈5-羟甲基胞嘧啶形式。也报道非胞嘧啶甲基化，如N⁶-甲基腺嘌呤。

“甲基化检测测序法”是指允许在测序方法期间确定DNA分子的甲基化状态的任何测序方法，包括(但不限于)亚硫酸氢盐测序、或前面为甲基化敏感性限制酶消化的测序、使用抗甲基胞嘧啶抗体或甲基化结合蛋白的免疫沉淀或允许阐明甲基化状态的单分子测序。“甲基化检测分析法”或“甲基化敏感性分析法”可包括依据测序和非测序的方法，如MSP、依据探针的查询、杂交、限制酶消化接着进行密度测量、抗甲基胞嘧啶免疫分析法、甲基化胞嘧啶或羟甲基胞嘧啶的比例的质谱查询、免疫沉淀接着不进行测序等。

“组织”对应于一组细胞，其共同归类为一个功能单元。可在单一组织中发现超过一种类型的细胞。不同类型的组织可由不同类型的细胞(例如肝细胞、肺泡细胞或血细胞)组成，但也可对应于来自不同生物体(宿主与病毒)的组织或对应于健康细胞与肿瘤细胞。术语“组织”通常可指人体中发现的任何细胞群(例如心脏组织、肺组织、肾脏组织、鼻咽组织、口咽组织)。在一些方面中，术语“组织”或“组织类型”可用于指来源于不含细胞的核酸的组织。在一个实例中，病毒核酸片段可来源于血液组织，例如对于EB病毒(EBV)。在另一实例中，病毒核酸片段可来源于肿瘤组织，例如EBV或人类乳头状瘤病毒感染(HPV)。

“分离值”(或相对丰度)对应于涉及两个值的差异值或比率，例如DNA分子的两个量、两个分数贡献或两种甲基化程度，如样本(混合物)甲基化程度和参考甲基化程度。分离值可为简单的差异值或比率。作为实例，直接比率x/y以及x/(x+y)为分离值。分离值可包括其它因子，例如倍增因子。作为其它实例，可使用所述值的函数的差异值或比率，例如两个值的自然对数(ln)的差异值或比率。分离值可包括差异值和/或比率。甲基化程度为相对丰度的实例，例如在甲基化DNA分子(例如在特定位点处)与其它DNA分子(例如特定位点处的所有其它DNA分子或仅未甲基化的DNA分子)之间。其它DNA分子的量可充当标准化因子。作为另一实例，可测定相对于所有或未甲基化的DNA分子的强度的甲基化DNA分子的强度(例如荧光或电强度)。相对丰度也可包括每单位体积的强度。

如本文中所使用，术语“类别”是指与样本的特定特性相关联的任何数字或其它字符。举例来说，“+”符号(或词语“阳性”)可表示样本类别为具有特定病状程度(例如癌症)。类别可为二元(例如阳性或阴性)或具有更高类别程度(例如从1到10或0到1的标度)。

术语“截止值”、“阈值”或参考程度可指操作中使用的预定数字。阈值或参考值可为在高于或低于其时应用特定类别的值，例如病状的类别，如个体是否患有病状或病状的严重度。截止值可参考或不参考样本或个体的特征预定。举例来说，可依据测试个体的年龄或性别选择截止值。可在测试数据输出后和依据测试数据输出来选择截止值。举例来说，当样本的测序达到某一深度时可使用某些截止值。作为另一实例，具有一种或多种病状的已知类别和所测量的特征值(例如甲基化程度)的参考个体可用于测定参考程度，以区分不同病状和/或病状类别(例如个体是否患有病状)。这些术语中的任一者可用于这些情形中的任一者中。

术语“对照”、“对照样本”、“参考”、“参考样本”、“正常”和“正常样本”可互换使用，以大体上描述不具有特定病状或在其它方面健康的样本。在一个实例中，可对患有肿瘤的个体进行如本文中所公开的方法，其中参考样本为取自于个体的健康组织的样本。在另一实例中，参考样本为取自于患有疾病(例如癌症或癌症的特定阶段)的个体的样本。参考样本可获自个体或数据库。参考物一般是指用于定位由对来自个体的样本进行测序所获得的序列读段的参考基因组。参考基因组一般是指可比对和比较来自生物样本和组成样本的序列读段的单倍体或二倍体基因组。对于单倍体基因组，各基因座仅存在一个核苷酸。对于二倍体基因组，可鉴别杂合基因座，此类基因座具有两个等位基因，其中任一等位基因可允许匹配以与基因座比对。参考基因组可对应于病毒，例如通过包括一个或多个病毒基因组。

如本文中所使用，“健康”一词一般是指个体具有良好的健康状况。此类个体证实没有任何恶性或非恶性疾病。“健康个体”可能患有与所分析的病状无关的其它疾病或病状，通常可能不视为“健康的”。

术语“癌症”或“肿瘤”可互换使用，且通常是指组织的异常肿块，其中肿块生长超越正常组织生长且与正常组织生长不协调。癌症或肿瘤可定义为“良性”或“恶性”，其视以下特征而定：细胞分化程度(包括形态和功能)、生长速率、局部侵袭和转移。“良性”肿瘤通常分化良好，生长特征性地比恶性肿瘤更慢，且保持局限于原发部位。此外，良性肿瘤不具有浸润、侵袭或转移到远端部位的能力。“恶性”肿瘤通常分化不良(间变)，特征性地快速生长伴随有进行性渗透、侵袭和破坏周围组织。此外，恶性肿瘤具有转移到远端部位的能力。“阶段”可用于描述恶性肿瘤如何发展。与晚期恶性病相比，早期癌症或恶性病与体内肿瘤负荷较少相关联，一般症状较轻，预后更好且治疗结果更好。晚期癌症或恶性病通常与远端转移和/或淋巴扩散相关联。

术语“癌症等级”(或更一般地说，“疾病等级”或“病状等级”)可指是否存在癌症(即存在或不存在)、癌症状态、肿瘤尺寸、是否存在转移、身体的总肿瘤负荷、癌症对治疗的反应和/或癌症严重度的其它量度(例如癌症复发)。癌症等级可为数字或其它标志，如符号、字母和颜色。等级可为零。癌症等级也可包括恶化前或癌变前病状(状态)。可以各种方式使用癌症等级。举例来说，筛选可检验先前未知患癌的某人是否存在癌症。评估可调查已诊断患有癌症的某人以随时间推移监测癌症的进程，研究疗法有效性或确定预后。在一个实施例中，预后可用患者死于癌症的机率或特定期限或时间之后癌症进展的机率或癌症转移的机率表示。检测可意指‘筛选’或可意指检验暗示有癌症特征(例如症状或其它阳性测试)的某人是否患有癌症。“病理等级”可指与病原体相关联的病理等级，其中等级可如上文针对癌症所述。疾病/病状的等级也可如上文关于癌症所描述。当癌症与病原体相关联时，癌症等级可为一种类型的病理等级。

术语“尺寸概况”和“尺寸分布”一般是关于生物样本中DNA片段的尺寸。尺寸概况可为提供各种尺寸的DNA片段的量分布的直方图。各种统计参数(也称为尺寸参数或仅参数)可区分一个尺寸概况与另一个尺寸概况。一个参数为相对于所有DNA片段或相对于另一尺寸或范围的DNA片段的特定尺寸或尺寸范围的DNA片段的百分比。

术语“假阳性”(FP)可指个体未患有病状。假阳性一般是指个体未患有肿瘤、癌症、癌变前病状(例如癌变前病灶)、局部或转移癌症、非恶性疾病，或在其它方面健康。术语假阳性一般是指个体未患有病状，但通过本发明的分析法或方法鉴定为患有病状。

术语“灵敏度”或“真阳性率”(TPR)可指真阳性的数目除以真阳性和假阴性的数目的总和。灵敏度可表征分析法或方法正确鉴定真正患有病状的群体的比例的能力。举例来说，灵敏度可表征方法正确鉴定患有癌症的群体内的个体数目的能力。在另一个实例中，灵敏度可表征方法正确鉴定指示癌症的一个或多个标记的能力。

术语“特异性”或“真阴性率”(TNR)可指真阴性的数目除以真阴性和假阳性的数目的总和。特异性可表征分析法或方法正确鉴定真正未患有病状的群体的比例的能力。举例来说，特异性可表征方法正确鉴定未患有癌症的群体内的个体数目的能力。在另一个实例中，特异性可表征方法正确鉴定指示癌症的一个或多个标记的能力。

术语“ROC”或“ROC曲线”可指接受者操作特征曲线。ROC曲线可为二元分类器系统性能的图形表示。对于任何既定方法，ROC曲线可通过在各种阈值设定下将灵敏度对特异性绘图来生成。用于检测个体存在肿瘤的方法的灵敏度和特异性可在个体的血浆样本中肿瘤衍生的核酸的各种浓度下确定。此外，提供三个参数(例如灵敏度、特异性和阈值设定)中的至少一者，ROC曲线可确定任何未知参数的值或期望值。未知参数可使用拟合成ROC曲线的曲线来确定。术语“AUC”或“ROC-AUC”一般是指接受者操作特征曲线下的面积。此度量可提供方法的诊断效用的量度，同时考虑方法的灵敏度和特异性。一般地说，ROC-AUC范围介于0.5到1.0，其中更接近0.5的值表明所述方法具有有限的诊断效用(例如较低灵敏度和/或特异性)且更接近1.0的值表明所述方法具有较大的诊断效用(例如较高灵敏度和/或特异性)。参见例如Pepe等人,“衡量诊断、预后或筛选标记性能时比值比的局限性(Limitationsof the Odds Ratio in Gauging the Performance of a Diagnostic,Prognostic,orScreening Marker)”《美国流行病学杂志(Am.J.Epidemiol)》2004,159(9):882-890，其以全文引用的方式并入本文中。使用似然函数、比值比、信息理论、预测值、校准(包括拟合优度)和重新分类测量以表征诊断效用的额外方法根据Cook,“在风险预测中使用和滥用接受者操作特征曲线(Use and Misuse of the ReceiverOperating Characteristic Curvein Risk Prediction)”《循环(Circulation)》2007,115:928-935加以汇总，其以全文引用的方式并入本文中。

术语“约”或“大致”可意指在特定值的可接受误差范围内，如由所属领域的一般技术人员所测定，所述可接受误差范围将部分取决于如何测量或测定值，即测量系统的局限性。举例来说，根据所属领域中的实践，“约”可意指在1或大于1个标准差内。或者，“约”可意指既定值的至多20％、至多10％、至多5％或至多1％的范围。或者，尤其关于生物系统或方法，术语“约”或“大致”可意指在数值的一定数量级内、在5倍内且更优选在2倍内。如果特定值描述于本申请案和权利要求书中，除非另有说明，否则应假定术语“约”意指在特定值的可接受误差范围内。术语“约”可具有如所属领域的一般技术人员通常所理解的含义。术语“约”可指±10％。术语“约”可指±5％。

本文中所使用的术语仅用于描述特定情况的目的且并不打算为限制性的。如本文中所使用，单数形式“一”和“所述”打算也包括复数形式，除非上下文另有明确指示。除非有相反的特定说明，否则“或”的使用意指“包括性的或”，而非“互斥性的或”。术语“基于”打算意指“至少部分地基于”。此外，就具体实施方式和/或权利要求书中使用术语“包括(including)”、“包括(includes)”、“具有(having)”、“具有(has)”、“具有(with)”或其变化形式的程度来说，此类术语打算以类似于术语“包含”的方式为包括性的。

在本发明中，我们描述用于依据血液中循环EBV DNA片段的甲基化模式的分析来区分不同EBV相关疾病、恶性病、状态或完全健康个体的方法。存在许多用于不含细胞的EBVDNA分子的甲基化模式分析的应用或效用。在筛选、预测药品、风险分级、监控和预测的情形下，非侵入性方式中不含细胞的病毒分子的甲基化分析的可行性将增强临床应用。

实施例甚至可在单时间点分析(例如来自单次抽血)下区分患有不同病毒相关病状的个体(例如NPC患者)与具有可检测的血浆EBV DNA的表面上健康个体。实施例也可用于筛选或检测个体是否患有疾病或癌症、用于癌症患者中的疾病监测、用于预测和用于疾病或癌症风险预测(即用于预测个体未来是否可能发展疾病或癌症)。此方法也可一般化到除EBV以外的病毒。因此，此方法为用于鉴别基于病毒DNA的生物标记的一般方法。

I.癌症和病毒

已证实DNA和RNA病毒能够在人类中引起癌症。在一些实施例中，个体可能患有由病毒(例如肿瘤病毒)引起的癌症。在一些实施例中，个体可能患有癌症，且所述癌症可使用病毒DNA检测。对于RNA的分析，核酸将以互补DNA(cDNA)的形式存在，其从RNA拷贝且为用于宿主细胞中的复制的媒介。这些cDNA可具有甲基化且用于实施例中。

各种病毒感染与各种癌症或其它病理学病状相关联。举例来说，EBV感染与NPC和自然杀手(NK)T细胞淋巴瘤、霍奇金氏淋巴瘤(Hodgkin lymphoma)、胃癌和传染性单核细胞增多症紧密相关。乙型肝炎病毒(HBV)感染和丙型肝炎病毒(HCV)感染与产生肝细胞癌(HCC)的风险增加相关。人类乳头状瘤病毒感染(HPV)与产生子宫颈癌(CC)和头颈部鳞状细胞癌(HNSCC)的风险增加相关。尽管实例更多关注于EBV，但技术同样适用于癌症和其它与HPV、HBV和其它病毒相关的病状，尤其与癌症相关联的病状。

A.EBV

据估计，全世界有95％的人群具有无症状终身EB病毒(EBV)感染，由此病毒保持潜伏在健康个体的记忆B细胞中且存留在体内(Young等人《自然评论：癌症(Nat RevCancer)》2016 16(12):789-802)。小部分个体发展症状性感染，呈现为具有病毒感染的传染性单核细胞增多症。EBV也由于其与上皮和血液来源的许多恶性病或癌症样综合征的关联性而被视为致癌病毒，包括鼻咽癌(NPC)、胃癌、伯基特氏淋巴瘤(Burkitt's lymphoma)、霍奇金氏淋巴瘤、自然杀手-T细胞(NK-T细胞)淋巴瘤和移植后淋巴增生病症(PTLD)。

已研究循环EBV DNA在EBV相关恶性病患者中的诊断和预后作用。在此方面，已确认血浆EBV DNA为NPC的生物标记(Lo等人《癌症研究(Cancer Res)》1999；59:1188-91)。建议将用血浆EBV DNA进行的常规监控用于具有确定的NPC诊断的患者，以用于检测残留疾病和复发(Lo等人《癌症研究》1999；59:5452-5，Chan等人《美国国立癌症研究所杂志(J NatlCancer Inst)》2002；94:1614-9，Leung等人《癌症(Cancer)》2003,98(2),288-91和Leung等人《肿瘤学年刊(Ann Oncol)》2014；25(6):1204-8)。还证实血浆EBV DNA在其它EBV相关恶性病中具有预后重要性，包括霍奇金氏淋巴瘤(Kanakry等人《血液(Blood)》2013；121(18):3547-3553)、结外NK-T细胞淋巴瘤(Wang等人《肿瘤靶点(Oncotarget)》2015；6(30):30317-26，Kwong等人《白血病(Leukemia)》2014；28(4):865-870)和PTLD(Gulley和Tang.《临床微生物学杂志(Clin Microbiol Rev)》2010；23(2):350-66)。

然而，并非所有具有此类感染的个体皆会罹患相关癌症。无NPC人员的血浆EBVDNA的来源肯定不同。与EBV DNA从NPC细胞持续释放到循环中不同，无NPC人员的EBV DNA的来源仅短暂释放此类DNA。

B.假阳性

在癌症筛选的情形下，我们最近通过定量PCR(qPCR)，使用血浆EBV DNA分析对NPC筛选进行大规模前瞻性研究(Chan等人《新英格兰医学杂志(N Engl J Med)》2017；377:513-522)。我们分析在入组时无NPC症状的所有募集个体(筛选群组)的血浆EBV DNA含量。在初始测试之后第4周，针对EBV DNA再次测试具有可检测量的血浆EBV DNA的个体。在所募集的20,174名个体中，1,112名在其第一次测试中具有可检测的血浆EBV DNA。基于血浆EBVDNA的量的量度，存在309名在随访测试中呈持续性阳性的个体。接着，通过内窥镜检查和磁共振成像(MRI)，确认34名具有持续性阳性血浆EBV DNA结果的个体具有NPC。如所提及，可在无NPC或其它EBV相关恶性病的表面上健康个体中检测到血浆EBV DNA。

在20,174名经历NPC筛选的个体中，基于单一时间点分析，假血浆EBV DNA阳性率约5％((1112-34)/(20174-34)＝5.3％)。在对两种情况的连续EBV DNA分析中，假阳性率降低到1.5％。然而，血浆EBV DNA的连续测试需要从具有初始阳性结果的个体收集额外血液样本，其可能带来后勤挑战。此外，显著比例的具有阳性血浆EBV DNA结果的个体不具有NPC(96％的在单一时间点分析中展示阳性结果的个体不具有NPC，测定为(1112-34)/1112)。具有假阳性结果的个体将需要连续评估和非必要研究，包括用于决定性诊断的内窥镜检查和MRI。所有这些手续将引起患者焦虑和更高的随访成本。因此，我们旨在通过单一时间点血液分析区分具有NPC的患者与具有假阳性血浆EBV DNA结果的个体。在此实例中，假血浆EBVDNA阳性率可视为非NPC阳性率或也称为单次阳性率。

C.甲基化的用途

先前研究已描述不同类型的病毒潜伏态(类型0、I、II和III)，其由在不同的EBV相关恶性病中发现的潜伏态相关病毒基因转录模式定义(Young等人《自然评论：癌症》2016；16(12):789-802)。病毒潜伏态是由潜伏态相关基因转录模式定义。因此，不同类型的病毒潜伏态中的病毒具有不同的病毒基因转录模式。具有相同类型的病毒潜伏态的不同EBV相关疾病或病状可具有类似的病毒基因转录模式。

在不同类型的潜伏态中，存在不同病毒基因表达概况和不同病毒基因启动子的不同甲基化状态，包括复制起点、C-启动子、W-启动子、Q-启动子和LMP1/2启动子(Woeller等人《现代病毒学观点(Curr Opin Virol)》2013；3(3):260-5)。已提出DNA甲基化有助于调节基因表达且存在潜伏态特异性甲基化模式(Lieberman.《自然综述微生物(Nat RevMicrobiol)》2013；11(12):863-75)。在一个实例中，先前研究使用甲基化特异性PCR，在来自NPC患者的鼻毛细胞学样本的EBV DNA中，发现C启动子的甲基化状态，其与潜伏态II型特异性甲基化模式相容(Ramayanti等人《国际癌症杂志(Int J Cancer)》140,149-162)。然而，不同EBV相关疾病或病状可具有相同类型的病毒潜伏态且因此将具有类似病毒基因转录模式(下一个段落中描述的实例)。因此，病毒潜伏态与疾病或癌症的阶段无关。

预期具有相同类型的病毒潜伏态的不同EBV相关疾病将具有类似的甲基化模式(Tempera等人《癌症生物学研讨会(Semin Cancer Biol)》2014；26:22-9，Fejer等人《普通病毒学杂志(J Gen Virol)》2008；89:1364-70)。在一个实例中，先前研究使用甲基化特异性PCR展示出，在来自健康EBV血清反应呈阳性个体和来自EBV阳性淋巴瘤的肿瘤组织的B细胞中，跨越EBV的病毒启动子区域的类似甲基化模式，其皆呈现I型潜伏态(Paulson等人《病毒学杂志(J Virol)》1999；73:9959-68)。

先前研究也尝试通过来自细胞株的经亚硫酸氢盐转化的DNA和不同EBV相关疾病的组织样本的扩增子测序来研究EBV的甲基化概况(Fernandex等人《基因组研究(GenomeRes)》2009；19(3):438-51)。77个扩增子经设计以覆盖94种不同EBV潜在和裂解基因的转录起始位点以及和两个结构RNA，EBER1和EBER2。评估跨越EBV基因组的转录起始位点的甲基化状态(甲基化或未甲基化)。这些结果仅表明相对于定量，游离病毒DNA不含DNA甲基化，且来自EBV相关恶性病的细胞株或组织样本的病毒DNA具有许多甲基化EBV转录起始位点。重要的是，具有不同恶性病状(即NPC和不同淋巴瘤)的样本就转录起始位点的甲基化模式的聚类分析一起聚类，且未鉴别暂时性阳性或持续性阳性个体。基于其甲基化模式，不同恶性病状可无差别。

大部分先前研究集中于肿瘤和细胞株样本中病毒甲基化概况的分析。这些肿瘤样本需要经由侵袭性程序(例如手术活检)获得。此可限制诊断应用，例如对于筛选和连续监测。并且，先前研究已集中于定性方面而非定量结果。

与以上报道的数据无关，我们研究呈现相同类型的病毒潜伏态的不同EBV相关疾病中的区分可行性。与以上报道的数据相比，我们描述基于血浆EBV DNA序列的甲基化概况的分析的方法，其可区分不同EBV相关疾病或疾病阶段。举例来说，代替仅分析病毒基因启动子的甲基化状态(甲基化或未甲基化)，我们以基因组谱方式在更高分辨率下研究不含细胞的EBV DNA分子的各CpG位点的甲基化程度。显然，我们的数据揭露我们可依据不含细胞的EBV DNA分子的甲基化分析来区分具有相同潜伏态类型的不同EBV相关病状和恶性病。因此，我们的数据提供除潜伏态类型特异性可变性以外，关于不含细胞的EBV DNA甲基化模式的新信息。

实施例可分析血液中(例如血浆或血清中)不含细胞的EBV DNA分子的甲基化模式。本发明的实施例也可用于其它含有不含细胞的EBV DNA分子的体液，例如尿液(Chan等人《临床癌症研究(Clin Cancer Res)》2008；14(15):4809-13)、血清、阴道液、子宫或阴道冲洗液、胸膜液、腹水、脑脊髓液、唾液、汗液、泪液、痰液、支气管肺泡灌洗液等。也可使用粪便样本。技术挑战为在与组织样本中肿瘤DNA的分析相比时，病毒分子的低丰度和分段性质。我们的本发明证明以非侵入性方式进行不含细胞的病毒分子的甲基化分析的可行性。

II.测量不含细胞的EBV DNA分子的甲基化

可在基因组中各种位点处测量甲基化程度，例如动物(如人类)、病毒或其它基因组。可在一个或多个位点(例如CpG位点)处使用甲基化信息测定甲基化程度。甲基化信息可包括既定位点处甲基化的DNA分子的计数，或对应于甲基化/未甲基化的DNA分子的量的强度信号。甲基化程度可提供甲基化DNA分子与未甲基化DNA分子之间的相对丰度，例如其中位点处所有或未甲基化DNA分子的量可充当标准化因子。

对于病毒基因组，可使用以下方程式计算血浆中跨越病毒基因组的特异性基因座的平均甲基化CpG密度(也称为甲基化密度，MD)：

其中M为跨越病毒基因组的遗传基因座内CpG位点处甲基化病毒读段的计数且U为未甲基化病毒读段的计数。如果基因座内存在超过一个CpG位点，则M和U分别对应于跨越位点的甲基化和未甲基化读段的计数。作为实例，可使用测序或数字PCR测定甲基化或未甲基化的个别DNA片段的此类计数。作为另一实例，相对于读段的计数特异性数字，也可使用实时PCR测定甲基化密度，以获得信号的强度比率(例如甲基化强度与未甲基化强度的比率)。因此，可共同进行核酸的分析，其中强度信号对应于多重核酸。甲基化程度的特定形式可变化，例如如上所述的比例或M与U之间的比率。

A.用于评估甲基化程度的各种技术

不同方法可用于测定甲基化程度，例如测定跨越所有或大部分基因组(例如人类基因组或病毒基因组)的甲基化概况。为了全面查询甲基化概况，示例实施例可使用经亚硫酸氢盐转化的DNA的大规模平行测序(MPS)，以提供基因组谱信息，和基于每个核苷酸和每个等位基因的甲基化程度的定量评估。可使用任何甲基化敏感性分析法测定所选择的CpG位点的甲基化程度。其它实例技术包括单分子测序(例如纳米孔测序(Simpson等人《自然：方法》2017；14(4):407-410))、甲基化特异性PCR(Herman等人《美国国家科学院院刊(ProcNatl Acad Sci U S A)》1996；93(18):9821-9826)、用基于DNA分子的甲基化状态而以不同方式修饰DNA分子的酶(例如甲基化敏感性限制酶)进行的处理、甲基化结合蛋白(例如抗体)或基于质谱的方法(例如Lin等人《分析化学(Anal Chem)》2016；88(2):1083-7)。

可分析各种类型的甲基化。在一些实施例中，我们使用胞嘧啶残基的5-甲基化作为实例。也可使用其它类型的DNA甲基化变化，例如腺嘌呤的羟甲基化或甲基化。因此，也可使用用于检测羟甲基化的技术，例如氧化亚硫酸氢盐测序(Booth等人《科学(Science)》2012；336(6083):934-7)和Tet辅助的亚硫酸氢盐测序(《自然：实验室指南(Nat Protoc)》2012；7(12):2159-70)。关于甲基化概况的测定和使用的其它细节可见于美国专利公开案2015/0011403和2016/0017419以及2017/0029900中，其以全文引用的方式并入本文中。

在亚硫酸氢盐修饰期间，未甲基化的胞嘧啶转化成尿嘧啶且接着在PCR扩增之后转化成胸嘧啶，而甲基化胞嘧啶将保持完整(Frommer M等人,《美国国家科学院院刊》1992；89:1827-31)。在测序和比对之后，由此可从CpG位点的胞嘧啶残基处甲基化序列读段的计数‘M’(甲基化)和未甲基化序列读段的计数‘U’(未甲基化)推断个别CpG位点的甲基化。使用亚硫酸氢盐测序数据，可构建来自患有不同病毒相关病状的个体的血浆的病毒甲基化组。

如上文所描述，可使用经亚硫酸氢盐转化的DNA的大规模平行测序(MPS)进行甲基化概况分析。可依随机或鸟枪方式或以靶向方式进行经亚硫酸氢盐转化的DNA的MPS。举例来说，可使用基于溶液相或固相杂交的过程，接着进行MPS来捕捉经亚硫酸氢盐转化的DNA中的相关区域。

可使用以下方法进行MPS：边合成边测序平台(例如Illumina HiSeq或NextSeq或NovaSeq平台)、边接合边测序平台(例如来自Life Technologies的SOLiD平台)、基于半导体的测序系统(例如来自Life Technologies的Ion Torrent或Ion Proton平台)、GenapSysGene Electronic Nano-Integrated Ultra-Sensitive(GENIUS)技术、单分子测序系统(例如Helicos系统或Pacific Biosciences系统)或基于纳米孔的测序系统(例如来自OxfordNanopore Technologies或来自罗氏(Roche)(sequencing.roche.com/research---development/nanopore-sequencing.html)的Genia平台)。基于纳米孔的测序包括使用脂质双层构建的纳米孔和蛋白质纳米孔，以及固态纳米孔(如基于石墨烯的纳米孔)。由于所选择的单分子测序平台将允许在无亚硫酸氢盐转化情况下直接阐明DNA分子(包括N6-甲基腺嘌呤、5-甲基胞嘧啶和5-羟甲基胞嘧啶)的甲基化状态(B.A.Flusberg等人2010《自然：方法》；7:461-465；J.Shim等人2013《科学报告(Sci Rep)》:3:1389.doi:10.1038/srep01389)，因此可以使用此类平台分析未经亚硫酸氢盐转化的样本DNA(例如血浆或血清DNA)的甲基化状态。序列可包括配对端测序或提供整个DNA分子的单一序列读段。

除测序以外，可使用其它技术，例如上文所提及的技术。在一个实施例中，可通过以下方式进行甲基化概况分析：进行甲基化特异性PCR或甲基化敏感性限制酶消化，接着进行PCR；或进行连接酶链反应，接着进行PCR。在其它实施例中，PCR为单分子或数字PCR形式(B.Vogelstein等人1999《美国国家科学院院刊》；96:9236-9241)。在其它实施例中，PCR可为实时PCR(Lo等人《癌症研究》1999；59(16):3899-903和Eads等人《核酸研究(NucleicAcids Res)》2000；28(8):E32)。在其它实施例中，PCR可为多重PCR。在一个实施例中，可使用基于微阵列的技术分析甲基化概况。

在测序之后，可在甲基管道(Methyl-Pipe，一种甲基化数据分析管道)中处理序列读段(Jiang等人《公共科学图书馆：综合(PLoS One)》2014；9:e100360)且映射到人工组合参考序列，其由完全人类基因组(hg19)、完全EBV基因组(AJ507799.2)、完全HBV基因组和完全HPV基因组组成。相对于组合成一个参考序列，可使用不同参考序列，且可分别对基因组中的每一者进行映射。映射到组合基因组序列中的独特位置的测序读段可用于下游分析。

B.使用捕捉探针的靶向亚硫酸氢盐测序

某些实施例可查询血浆EBV DNA分子的甲基化模式的特异性区域。在一个实施例中，通过捕捉富集物进行的靶向亚硫酸氢盐测序可用于分析患有不同EBV相关疾病或病状的个体的循环中的不含细胞的病毒DNA分子。举例来说，捕捉探针可经设计以覆盖EBV基因组的所有或一些CpG位点。此方法也可用于其它病毒。因此，捕捉探针也可经设计以覆盖乙型肝炎病毒(HBV)基因组、人类乳头状瘤病毒(HPV)基因组和其它病毒/细菌基因组的所有或一些CpG位点。在相同分析中，也可包括捕捉探针以靶向人类基因组中的基因组区域。

在一些实施例中，为了考虑病毒基因组与人类基因组之间的尺寸差异，与相关人类基因组区域可能使用的探针相比，更多的探针可经设计以与病毒基因组序列杂交。在另一实施例中，可靶向完全病毒基因组，例如设计在约200bp尺寸下覆盖各病毒基因组区域的平均200个杂交探针(例如200X平铺捕捉探针)。在一个实施例中且作为实例，对于人类基因组中的相关区域，我们设计在约200bp尺寸下覆盖各区域的平均5个杂交探针(例如5X平铺捕捉探针)。作为说明，可根据图1设计捕捉探针。

图1展示根据本发明的实施例的用于靶向亚硫酸氢盐测序的捕捉探针的设计。图1提供关于捕捉探针的信息，例如捕捉区域的尺寸和由探针覆盖的平铺量。捕捉探针可为各种长度且彼此重叠。此类捕捉探针可使用SeqCap-Epi系统(Nimblegen)。其它实施例可能不使用此类捕捉探针。

第101栏鉴别序列类型，即人类或病毒目标的常染色体。第102栏鉴别特定序列(例如染色体或特定病毒基因组的序列)。第103栏提供由捕捉探针覆盖的碱基对(bp)的总长度。捕捉探针可能不覆盖整个序列(例如关于常染色体所展示)，但可覆盖整个序列，例如对于病毒基因组。第104栏提供捕捉探针深度，也称为探针填充折叠。这些数字表示覆盖任何既定位置的探针数目。对于常染色体，捕捉探针提供平均5x平铺。对于病毒目标，捕捉探针提供平均200x平铺。因此，与常染色体相比，每个单元长度用于病毒的探针数目为较高百分比/比例。这类较高程度的用于病毒目标的捕捉探针浓度可帮助最大化捕捉病毒DNA的机率。

III.各种病状的血浆EBV DNA的甲基化程度

我们分析各种EBV相关疾病/病状(例如NPC、传染性单核细胞增多症、霍奇金氏淋巴瘤、NK-T细胞淋巴瘤)患者和具有可检测的血浆EBV DNA的表面上健康个体中血浆EBVDNA分子的甲基化模式。从关于NPC筛选而募集的个体群组检索具有可检测的血浆EBV DNA的这些表面上健康个体且分为2个组。第一组包括在初始测试中具有可检测的血浆EBV DNA含量，但在后续测试中具有不可检测的含量的个体，且表示为‘暂时性阳性’。第二组包括在初始和后续测试中皆具有可检测的血浆EBV DNA含量的个体且表示为‘持续性阳性’。

使用通过特定设计的捕捉探针，用捕捉富集物进行的靶向亚硫酸氢盐测序。对于所分析的每个血浆样本，使用QIAamp DSP DNA血液微型试剂盒从4mL血浆提取DNA。对于每个样品，所有提取的DNA用于使用KAPA文库制备试剂盒(罗氏)或TruSeq DNA无PCR文库制备试剂盒(Illumina)制备测序文库。衔接子接合DNA产物经历两轮使用EpiTect亚硫酸氢盐试剂盒(Qiagen)进行的亚硫酸氢盐处理。使用KAPA HiFi HotStartUracil+ReadyMix PCR试剂盒(罗氏)对经亚硫酸氢盐转化的样本进行十二到十五个PCR扩增循环。第一PCR扩增可增加用于目标捕捉的DNA的数量。可建议用于目标捕捉反应的DNA的输入量。来自血浆(未扩增)的DNA输入量可能不足以用于目标捕捉。

接着，使用覆盖上述病毒和人类基因组区域的经定制设计的探针，用SeqCap-Epi系统(Nimblegen)捕捉扩增产物(图1)。捕捉步骤中可存在显著‘DNA损失’。在目标捕捉反应之后的DNA的量可能小于测序所需的量。因此，第二扩增阶段(例如使用PCR)可扩增DNA量以用于后续测序步骤。因此，在一些实施例中，在目标捕捉之后，通过14个PCR循环富集捕捉产物以产生DNA文库。用NextSeq平台(Illumina)对DNA文库进行测序。对于每次测序操作，使用双端模式对具有独特样本条形码的四到六个样本进行测序。由各DNA片段，从两个端中的每一者对75个核苷酸进行测序，但可对其它数目的核苷酸进行测序。

A.不同EBV相关病状中血浆EBV DNA的甲基化概况

图2展示根据本发明的实施例，传染性单核细胞增多症、NPC和NK-T细胞淋巴瘤患者中跨越EBV基因组的CpG位点的甲基化密度。经由血浆EBV DNA片段的靶向捕捉亚硫酸氢盐测序来产生EBV DNA的甲基化概况。横轴提供EBV参考基因组中的基因组座标。纵轴提供单一CpG位点分辨处的甲基化密度。

由上文所描述的方程式获得跨越EBV基因组的CpG位点的甲基化密度：

我们可观测不同个体中血浆EBV DNA的甲基化密度的不同模式。可在整体或基因座特异性层面上分析DNA甲基化概况的这些差异。举例来说，在整体层面上，我们在传染性单核细胞增多症患者(TBR1610)(甲基化密度为57.3％)中观测到与两名NPC患者(TBR1392和TBR1416)(甲基化密度为83.8％和81.3％)相比整体更低的甲基化程度。整体甲基化程度使用跨越基因组的位点的甲基化测量以测定单一值。

此外，在相对宏观层面上，与两名NPC患者(TBR1392和TBR1416)相比，具有NK-T细胞淋巴瘤的患者(TBR1629)在跨越EBV基因组的甲基化程度上呈现更大的非均质性，例如在基因组座标50000到100000之间。非均质性在甲基化密度曲线中展示为突降。NPC患者具有相对均匀密度。而淋巴瘤患者展示许多微小谷线，其中密度显著降低，由此产生梳状结构。

也可在基因座特异性或区域特异性层面上分析DNA甲基化的模式。这些基因座可具有任何尺寸和至少1个CpG位点。这些基因座可与或可不与任何标注的病毒基因相关联。跨越患有相同病状的不同个体，此类区域特异性甲基化程度可具有类似值，但相对于患有不同病状的其它个体具有不同值。

在图2中，我们定义4个基因组区域，即区域201(7,000-13,000)、区域202(138,000-139,000)、区域203(143,000-145,000)和区域204(169,000-170,000)。与传染性单核细胞增多症(TBR 1610)的情况相比，两个NPC病例(TBR 1392和TBR 1416)中的区域201和204中的区域特异性甲基化密度较高。相反，与传染性单核细胞增多症的情况相比，两个NPC病例中的区域203中的区域特异性甲基化密度降低。与其它NPC病例和传染性单核细胞增多症相比，区域203中的区域特异性DNA甲基化密度在NK-T细胞淋巴瘤(TBR 1629)的情况下最高。此类结果说明在患有不同EBV相关病状的患者中，在整体和基因座特异性层面上，存在血浆EBV DNA片段的甲基化概况的不同模式。

因此，区域201中的低甲基化程度可指示个体患有传染性单核细胞增多症。区域204中的高甲基化程度可指示个体具有NPC。并且，区域203中的高甲基化程度可指示个体具有NK-T细胞淋巴瘤。可基于图2中展示的类型的测量值测定各区域的定义高或低(或中间范围)的阈值的特异性值。可通过分析患有不同病状的个体的甲基化概况和选择对不同病状具有不同甲基化密度的区域来选择此类区域。此外，可组合来自多个区域的测量值，例如经由聚类技术或决策树。

B.早期NPC

图3展示来自我们的筛选群组的具有早期NPC(I期)患者(AL 038)而低血浆EBVDNA浓度(8个拷贝/毫升血浆，如通过定量PCR所测量)的血浆EBV DNA的甲基化概况。从初始血液样本提取血浆DNA。在4周后再测试具有阳性初始(基线)测试的个体，且视为后续测试。此患者在血液取样时不具有NPC症状且在两阶段分析下，经由使用血浆EBV DNA的实时PCR分析的筛选检测到癌症。使用鼻内窥镜检查和MRI进一步确认通过实时PCR发现具有持续性阳性血浆EBV DNA的个体。

图3展示信号的噪声更多，例如一些位点具有100％甲基化密度且一些位点具有极低甲基化密度，如零。为了移除此类噪声性质，实施例可使用区域甲基化程度，其是在窗口内的位点处使用所有序列读段的组合甲基化密度测量。举例来说，可使用200bp窗口，其可降低噪声且提供更光滑的数据。因此，甚至在样本中的低EBV DNA序列浓度下，可测量甲基化程度且用于区分不同病状。展示此类区分病状能力的更多数据提供于下文中。

在此患者中，与具有晚期NPC和高血浆EBV DNA血浆浓度的其它两名患者(TBR1392和TBR1416)相比，所捕捉的血浆EBV DNA片段的量相对较低。如上文所提及，此说明其中甲基化程度仍可用于鉴别特定病状(在此情况下，NPC)的情况，即使EPV浓度较低。此外，可使用血浆EBV的量作为测定疾病程度(例如癌症程度)的一部分。

C.患者中甲基化概况的差异值

甲基化概况的差异可提供具有NPC和传染性单核细胞增多症的患者之间的比较。如早先图2中所示，在具有不同EBV相关病状的患者中存在血浆EBV DNA的不同甲基化模式。我们通过比较跨越这些不同患者之间的EBV基因组的CpG位点的甲基化密度来分析甲基化模式中的差异。

1.不同病状

图4展示根据本发明的实施例的患有不同病状的两位患者之间跨越EBV基因组的CpG位点的甲基化密度的差异。横轴为EBV基因组中的基因组座标。纵轴展示两个患者之间的甲基化的每个位点的差异。NPC(TBR1392)与传染性单核细胞增多症(TBR1610)之间的中值甲基化差异为23.9％(IQR(四分位数范围)：14.8-39.3％)，表明与传染性单核细胞增多症相比，在NPC中跨越EBV基因组中的CpG位点的NPC甲基化程度较高。在NPC(TBR1416)与传染性单核细胞增多症(TBR1610)之间的另一比较中观测到类似模式的甲基化差异(中值：22.9％；IQR：13.3-37.8％)。

上部图式展示NPC患者(TBR1392)与传染性单核细胞增多症患者(TBR1610)之间的甲基化密度差异。一个CpG位点处的正值指示在所述特定位点处，与病例TBR1610相比，病例TBR1392中的甲基化密度较高。负值指示在所述CpG位点处，与病例TBR1610相比，病例TBR1392中的甲基化密度较低。

下部图式展示另一名NPC患者(TBR1416)与同一名传染性单核细胞增多症患者(TBR1610)之间的甲基化密度差异。此图式说明不同EBV相关病状中血浆EBV DNA的甲基化模式的分析和比较的一个实例。

一般地说，NPC患者具有较高甲基化，且甲基化差异具有显著值。此类差异值可以各种方式定量，例如通过求和以获得整体差异值。此整体差异值可充当两名个体之间的距离，如可用于聚类中，其中各甲基化值(例如作为每个位点的指数或每个区域的程度)为多维数据点中的一个数据点。

2.相同病状

图5展示根据本发明的实施例，具有相同NPC诊断的两名患者(TBR1392和TBR1416)之间的跨越EBV基因组的CpG位点的甲基化密度差异。一般地说，与患有两种不同疾病的患者之前述分析(图4)相比，跨越EBV基因组的甲基化密度中存在较小差异。两名NPC个体(TBR1392对TBR1416)之间的中值甲基化差异为0.3％(IQR：-1.2-2.5％)。此表明具有相同EBV相关疾病诊断的患者将具有类似的血浆EBV DNA的甲基化模式。甲基化密度差异对一些对特定病例具有特异性的疾病特征可能有意义，且提供额外的诊断或预后信息。

3.NPC和假阳性

图6展示根据本发明的实施例的患有早期NPC的患者(AO050)与具有血浆EBV DNA假阳性结果的个体(HB002)之间的血浆EBV DNA的甲基化模式的差异。此比较展示早期NPC患者与未患有NPC，但在连续测试中血浆EBV DNA呈持续性阳性的个体之间的血浆EBV DNA的甲基化模式。其皆来自我们的筛选群组。在募集时从其初始血液样本提取血浆DNA。

如图6中所示，早期NPC患者(AO050)与具有血浆EBV DNA的假阳性结果的个体(HB002)之间存在血浆EBV DNA的甲基化模式差异。然而，在NPC个体与IM个体之间，差异的数目和大小小于图4的曲线。因此，NPC个体与假阳性个体之间的差异的事实表明提高癌症筛选的精确性的能力。并且，与IM个体相比，差异具有不同等级的事实表明任何区分患有三种病状中的任一者的个体的能力。依据此观测结果，我们研究诊断效用以使用血浆EBV DNA甲基化模式区分两个组(具有早期NPC和假阳性结果的个体)，其数据提供于后续章节中。

D.类似和不同患者的甲基化密度之间的相关性

除分析不同位点处甲基化密度之间的差异值以外，可共同标绘甲基化密度以鉴别相关性或不存在相关性。举例来说，二维图中的各数据点可包括同一位点处来自两名个体的两个甲基化密度。如果甲基化密度相关(例如两名个体具有相同病状)，则曲线将呈现线性性质。如果甲基化密度不相关(例如两名个体具有相同病状)，则曲线将不呈现线性性质。

图7A-7C说明两个临床病例之间的血浆EBV DNA的甲基化概况的差异。在图7A-7C中，三个图中的各数据点表示一名患者中跨越EBV基因组的CpG位点的甲基化密度(x轴上)和其它患者中相同CpG位点的相应甲基化密度(y轴上)。

图7A和7B展示患有不同疾病的两名患者(一名NPC和一名传染性单核细胞增多症)之间的甲基化密度。如可发现，甲基化密度不相关。NPC个体持续具有无法由IM个体匹配的高甲基化密度(例如超过80％)，由此引起沿顶部的水平带。此类性质指示两名个体不同，例如不同病状。不同病状可包括一名患有疾病且另一名无疾病。

图7C展示两名不同的NPC患者之间的甲基化密度。在图7C中，我们可观测对角线趋势线(斜率约等于1)，表明在两名不同的NPC患者之间，各CpG位点的甲基化密度类似。未在图7A和7B中观测到此图形模式。这些结果再次表明患有不同EBV相关疾病的患者具有不同的血浆EBV DNA片段的甲基化概况。实施例可使用位点(或位点的区域)的此类不同甲基化特性以鉴别在不同病状之间具有不同甲基化密度的位点/区域，和使用这些位点/区域测定甲基化程度以用于区分病状。

IV.使用血浆EBV DNA的甲基化模式区分EBV相关病状

对于不同EBV相关病状中血浆EBV DNA的甲基化概况的系统比较，在各情况下，我们使用‘甲基化百分比’(一种类型的‘甲基化密度’的一个实例)。可使用以下方程式获得血浆EBV DNA片段的甲基化百分比：

其中M'为一个或多个CpG位点处甲基化读段的计数且U'为未甲基化的读段的计数，其可经预先选择。可基于由我们的捕捉探针覆盖的EBV基因组内的所有CpG位点或一些CpG位点计算甲基化百分比。也可使用甲基化程度的其它实例。

A.基因组谱聚集的甲基化程度

作为一个实例，可测定跨越EBV基因组的单一甲基化程度。特异性CpG位点集合处的甲基化EBV DNA分子的聚集物数目可用于测定甲基化百分比作为基因组谱甲基化程度，其中通过所测量的量(包括其它DNA分子，例如体积的测量、对应于其它DNA分子的强度或其它DNA分子的计数)进行标准化。在一个实施例中，我们基于由我们的捕捉探针覆盖的EBV基因组内的CpG位点计算血浆EBV DNA分子的甲基化百分比。

图8展示根据本发明的实施例，基于患有传染性单核细胞增多症(IM)(患者数目n＝2)、EBV相关淋巴瘤(n＝3)、暂时性阳性血浆EBV DNA(n＝3)、持续性阳性血浆EBV DNA(n＝3)和NPC(n＝6)的个体中覆盖的所有CpG位点的血浆EBV DNA的甲基化百分比。图8展示五种不同病状的箱线图(box and whisker plot)。如可发现，所有中值充分分离得以区分不同病状。举例来说，可在对EBV呈持续性阳性的患者与患有NPC的患者之间鉴别约79％的参考程度。

总体来说，我们可经由血浆EBV DNA的基因组谱聚集甲基化百分比的分析(p值＝8.52e-05，单向ANOVA检验)区分不同EBV相关疾病/病状。六名NPC患者中的四名是来自筛选群组且患有早期NPC(I或II期)。因此，甚至可从未患有病状的个体(例如甚至持续性阳性个体)辨别出病状的早期阶段。可使用不同参考程度来区分不同病状，例如低于约57％可用于鉴别IM且在57％与63％之间可用于鉴别暂时性阳性个体。在一些实施例中，对于既定甲基化程度，可鉴别较大病状集合中的超过一种病状(例如可在57％到63％范围内鉴别淋巴瘤和暂时性阳性)。在此类情形中，可对病状中的每一者指定机率。举例来说，可比较所测试的个体的甲基化与两组参考个体，一组患有病状A(例如淋巴瘤)且另一组患有病状B(例如传染性单核细胞增多症)。可测定来自两组参考个体的平均值的标准差的数值。依据标准差的数值，可计算患有两种病状的机率。这些机率可用于测定患有这些两种病状的相对可能性。

所选择的特定参考值可取决于用于测定甲基化程度的指定方式。举例来说，如果甲基化DNA分子的数目M(例如使用许多读段或强度测定)除以未甲基化的DNA分子的数目U(例如使用许多读段或强度测定)，例如M/U，则甲基化百分比将具有不同参考水准。其它比例因子或累加因子将改变特定参考值。只要以与参考样本的甲基化程度相同的方式测定当前样本的甲基化程度，则所选择的参考水准将为适用的。参考程度也可取决于所选择的用于测量甲基化程度的位点，如后续结果中所示。

使用甲基化程度区分不同病状的能力可取决于在位点处检测的DNA分子的数目，但本文中呈现的结果表明DNA分子的数目可相对较低。举例来说，在图8中，在不同个体中分析的血浆EBV DNA分子的第5个百分点为44，其中最小值为26。在各种实施例中，不含细胞的病毒DNA分子的数目可包括至少10个不含细胞的DNA分子，例如20、30、40、50、100或500个。在其它实施例中，关于个体和特定病毒基因组所分析的不含细胞的DNA分子的总数目可为至少1,000个不含细胞的DNA分子或更多(例如至少10,000个、至少100,000个或至少1,000,000个)。

B.差异甲基化区域(DMR)

除了使用由捕捉探针覆盖的所有位点，可仅使用某些位点。这些位点可通过分析所有位点且接着选择一个具有某一特性(例如在某些病状中具有不同甲基化程度)的位点来测定。可通过区域个别地或共同地分析位点，例如可将超过一个位点分配到一个区域且测定所述区域的甲基化程度。通过跨越病毒基因组，位点和区域可为基因组谱，例如不限于仅一个位点/区域。举例来说，每1kb、2kb、5kb或10kb可使用至少一个位点/区域。

因此，一些实施例可基于差异甲基化区域(DMR)内的CpG位点计算甲基化百分比。我们早先已证实不同EBV相关疾病中的血浆EBV DNA的甲基化模式不同。因此，应存在其中不同疾病/病状之间的甲基化含量不同的DMR。除使用个别位点以外，可使用不同尺寸的非重叠窗口。举例来说，非重叠区域的尺寸可设定为(但不限于)50bp、100bp、200bp、300bp、400bp、500bp、600bp、800bp和1000bp。在另一实例中，可分别分析各CpG位点，例如不使用区域组合位点。

可选择DMR以在患有不同病状的个体中具有特定甲基化程度。举例来说，如果区域内CpG位点的甲基化百分比在疾病/病状的一个或多个病例中小于10％、20％、30％、40％、50％、60％、70％、80％或90％且在另一种疾病/病状的一种情况下超过10％、20％、30％、40％、50％、60％、70％、80％或90％，则可定义DMR。在另一实施例中，每种疾病可使用超过一个病例定义DMR。并且，可使用超过两种疾病/病状的截止准则，例如每种病状的甲基化程度的不同范围。

1.使用IM<50％和NPC>80％的DMR

为了说明此类DMR的研究，我们随机选择一名患有传染性单核细胞增多症的患者(TBR1610)和一名NPC患者(TBR1392)。此处，我们首先设定跨越EBV基因组的尺寸为500个碱基对(bp)的非重叠窗口，例如位置1-500、501-1000等的分组。在500-bp区域内，我们计算IM(TBR1610)和NPC(TBR1392)患者中的区域内所有CpG位点的平均甲基化百分比。在此实例中，如果区域内所有CpG位点的平均甲基化百分比在传染性单核细胞增多症(TBR1610)的情况下小于50％且在NPC(TBR1392)的情况下超过80％，则500-bp区域将满足DMR的第一选择准则。

图9说明根据本发明的实施例的满足第一选择标准的差异甲基化区域(DMR)的研究。图9对应于图7A中展示的两个病例。图9中的各数据点表示IM个体中跨越EBV基因组的500-bp区域的甲基化百分比(x轴上)和NPC个体中相同500-bp区域的相应甲基化百分比(y轴上)。通过上文所定义的此第一选择准则，我们鉴别总共39例DMR，其包含821个CpG位点(占EBV基因组内约10％的全部CpG位点由我们的探针捕捉)。这些39例DMR为图9的左上角内的DMR。

在图9中，NPC个体的甲基化百分比展示于纵轴上，且IM个体的甲基化百分比展示于横轴上。垂直线901展示在IM的情况下，甲基化百分比的50％的截止值。水平线902展示在NPC的情况下的80％的截止值。因此，对于此实例，左上部分的区域(通常标记为910)对应于DMR。

图10为列举满足图9中描述的准则的39个差异甲基化区域的基因组座标的表格。第1001栏列举病毒基因组，在此实例中其为EBV。第1002栏提供参考EBV基因组中的起始基因组座标。第1003栏提供参考EBV基因组中的末端基因组座标。第1004栏为IM个体和NPC个体中的甲基化密度。

接着，这些DMR可用于测定其它个体中的甲基化程度。在一个实施例中，使用覆盖此DMR集合中的一者中的位点的各序列读段的甲基化状态测定对应于所述DMR集合的甲基化百分比。可以与图8类似的方式测定此甲基化百分比，但使用序列读段的子集，即对应于DMR集合中的位点的序列读段。在其它实施例中，可测定DMR中的每一者的个别甲基化程度。个体的甲基化程度可形成多维数据点，例如其中聚类技术或参考平面(多维空间中的超平面)可分离具有不同病状或病状的不同类别/程度的个体。可使用用于区分这些病状的其它分析方法，例如(但不限于)朴素贝叶斯(

Bayes)、随机森林(randomforest)、决策树、支持向量机、k最近相邻法、K均值聚类、高斯混合模型(Gaussian mixture model；GMM)、基于密度的空间聚类、层次聚类、逻辑回归分类器(logistic regression classifiers)和其它受监督和不受监督的分类或回归方法。

图11展示根据本发明的实施例，患有传染性单核细胞增多症(IM)(n＝2)、EBV相关淋巴瘤(n＝3)、暂时性阳性血浆EBV DNA(n＝3)、持续性阳性血浆EBV DNA(n＝3)和NPC(n＝6)的相同个体组中，如上文(图8)所定义的39个DMR内基于821个CpG位点的血浆EBV DNA的甲基化百分比。这些为图8中使用的相同个体。使用对应(例如比对)于39个DMR的集合中的821个位点的序列读段，以单一值形式测定甲基化百分比。

图11展示五种不同病状的箱线图。如可发现，可在不同病状之间鉴别中值。举例来说，以约75％的参考程度可鉴别在对EBV呈持续性阳性的患者与患有NPC的患者。我们可观测到不同组中甲基化百分比的统计显著差异(p值＝1.83e-05，单向ANOVA检验)，其优于图8。

图11与图8具有一些差异。举例来说，IM和NPC的值的散布度较小，其由在这些个体的特定范围中特异性选择的DMR引起。此类结果表明，指示不同病状的不同甲基化程度范围的准则可提供选择性更高的用于区分个体的不同类别的技术。此外，NPC个体与持续性阳性个体之间的差异大于图8。

2.使用IM<80％和NPC>90％的DMR

如同前述章节，我们进行关于使用基于有差别的甲基化区域的甲基化百分比区分患有早期NPC的患者与具有可检测的血浆EBV DNA的非NPC个体的分析。所分析的所有NPC患者和非NPC个体是经由前瞻性筛选群组(Chan等人《新英格兰医学杂志》2017；377:513-522)鉴别。为了研究DMR，我们随机选择两名NPC患者(TBR1416和FD089)和一名传染性单核细胞增多症患者(TBR1748)。在另一实施例中，其它EBV相关疾病或病状，包括具有可检测的血浆EBV DNA的非EBV个体，可用于DMR的研究。我们设定跨越EBV基因组的尺寸为500个碱基对(bp)的非重叠窗口。

图12说明根据本发明的实施例的满足第二选择准则的差异甲基化区域(DMR)的研究。与前述章节相比，每种疾病(此分析中，NPC)包括超过一个病例以用于DMR的研究。第二选择准则对应于：(1)尺寸为500bp的非重叠、相邻窗口和(2)区域内CpG位点的甲基化百分比在所选择的传染性单核细胞增多症病例(TBR1748)中小于80％且在鼻咽癌的两个病例(TBR1416和FD089)中超过90％。图12中的各数据点表示IM个体中跨越EBV基因组的500-bp区域内所有CpG位点的平均甲基化百分比(x轴上)和两名NPC个体中相同区域的相应平均甲基化百分比(y轴上)。

在图12中，NPC个体的甲基化百分比展示于纵轴上，且IM个体的甲基化百分比展示于横轴上。垂直线1201展示在IM的情况下，甲基化百分比的80％的截止值。水平线902展示在NPC的情况下的90％的截止值。通过上文所定义的此第二选择准则，我们鉴别总共46例DMR，其包含1,520个CpG位点(EBV基因组内约20％的全部CpG位点由我们的探针捕捉)。左上部分(通常标记为区域1210)中展示46例DMR。

图13展示根据本发明的实施例的具有暂时性阳性血浆EBV DNA的非NPC个体、具有持续性阳性血浆EBV DNA的非NPC个体和NPC患者中基于图12中定义的46个DMR的血浆EBVDNA的甲基化百分比。各数据点对应于不同个体。如上文所描述测定暂时性阳性和持续性阳性的类别，即基于两次从样本获得的EBV DNA读段的数值。

我们靶向亚硫酸氢盐测序来分析117名具有暂时性阳性血浆EBV DNA的非NPC个体、39名具有持续性阳性血浆EBV DNA的非NPC个体和30名NPC患者。所有非NPC个体和NPC患者是从前瞻性筛选群组募集。我们依据如上文(图12)所定义的DMR在三个组中比较血浆EBVDNA的甲基化百分比。使用对应(例如比对)于46例DMR的集合中的1,520个位点的序列读段，以单一值形式测定甲基化百分比。

在一个实施例中，可针对各种DMR指定不同权重以用于计算累计甲基化百分比。此类加权可以各种方式实施，例如位点处各甲基化序列读段的比例因子(例如当区域具有较高权重时，乘以超过1的因子)，或比例因子可应用于区域甲基化百分比，由此提供区域甲基化百分比的加权平均值。在此实例中，我们对所有所定义的DMR应用相同权重。

NPC组的基于46例DMR的血浆EBV DNA的平均甲基化百分比(平均值＝88.3％)显著高于具有暂时性阳性(平均值＝65.3％)和持续性阳性(平均值＝71.1％)血浆EBV DNA的另外两个非NPC组的平均甲基化百分比(p<0.0001，克拉斯卡-瓦立斯检验(Kruskal-Wallistest))。因此，基于血浆EBV DNA的甲基化概况的差异(例如由基于DMR的血浆EBV DNA的甲基化百分比表示)，可区分NPC患者与具有可检测的血浆EBV DNA(暂时性或持续性阳性)的非NPC个体。

在此实例中且在本文中所描述的其它实施例中，可以各种方式测定用于区分类别的参考程度。在一个实施例中，用于区分患有NPC与未患有NPC的个体的截止值(参考程度)可为所分析的NPC患者(训练集合)中的EBV DNA甲基化百分比的最低值。在其它实施例中，可测定截止值，例如以NPC患者的平均EBV DNA甲基化百分比减一个标准差(SD)、平均值减两个SD、平均值减三个SD形式。在其它实施例中，截止值可使用接受者操作特征(ROC)曲线或通过非参数方法来确定，例如(但不限于)包括100％、95％、90％、85％、80％的所分析的NPC患者。

在当前实例中，对于NPC检测，可设定甲基化百分比的80％的截止值以获得超过95％的灵敏度。使用此80％的截止值，30名NPC患者中的29名、119名具有暂时性阳性血浆EBV DNA的非NPC个体中的16名和39名具有持续性阳性血浆EBV DNA的非NPC个体中的6名的血浆EBV DNA的甲基化百分比(通过靶向亚硫酸氢盐测序在46例既定DMR内测定)高于截止值(80％)。所计算的灵敏度、特异性和阳性预测值分别为96.7％、85.9％和58.5％。

C.相同病状的代表性甲基化保守区域

在以下实例中，我们旨在鉴别跨越具有相同病状的个体具有类似甲基化密度的区域。我们将此类区域定义为病状的代表性甲基化保守区域。在一些实施中，此类准则也可与病状中不同甲基化的准则组合。

为了说明‘代表性’甲基化保守区域的鉴别，我们随机选择两名NPC患者(TBR1392和TBR1416)。此处，我们将EBV基因组划分为500bp的非重叠区域。在其它实施例中，可设定重叠区域的不同尺寸。举例来说，重叠区域的尺寸可设定为50bp、100bp、200bp、300bp、400bp、600bp、800bp和1000bp。在500-bp区域内，我们计算两名NPC患者(TBR1392和TBR1416)中的区域内所有CpG位点的平均甲基化百分比。

图14说明根据本发明的实施例的满足第三选择准则的代表性甲基化保守区域的研究。第三选择准则对应于：(1)尺寸为500bp的非重叠、相邻窗口，(2)两个NPC病例之间的区域的整体甲基化密度的差异小于1％，和(3)两个病例的区域的整体甲基化密度超过80％。

在其它实施例中，如果在两个NPC病例之间，两名NPC患者之间的甲基化百分比的差异小于2％、3％、4％、5％、6％、7％、8％、9％或10％且甲基化百分比超过10％、20％、30％、40％、50％、60％、70％或90％，则可定义‘代表性’甲基化保守区域。每种疾病可使用超过两名个体定义‘代表性’甲基化保守区域，例如每名个体的甲基化百分比在指定相似性截止值(例如1％)内且在指定甲基化百分比范围(例如超过80％)内。

图14中的各数据点表示NPC个体中跨越EBV基因组的500-bp区域的甲基化百分比(x轴上)和其它NPC个体中相同区域的相应甲基化百分比(y轴上)。通过如上文所定义的选择准则，我们鉴别79个区域。这些79个DMR可见于图14中的区域1410中。

在图14中，第一NPC个体的甲基化百分比展示于纵轴上，且第二NPC个体的甲基化百分比展示于横轴上。垂直线1401展示在IM的情况下，甲基化百分比的80％的截止值。水平线1402展示在NPC的情况下的80％的截止值。因此，对于此实例，右上部分的区域(通常标记为1410)对应于DMR。

图15展示根据本发明的实施例，患有传染性单核细胞增多症(IM)(n＝2)、EBV相关淋巴瘤(n＝3)、暂时性阳性血浆EBV DNA(n＝3)、持续性阳性血浆EBV DNA(n＝3)和NPC(n＝6)的相同个体组中，基于如上文(图12)所定义的‘代表性’甲基化保守区域的血浆EBV DNA的甲基化密度。我们可观测各组中的甲基化百分比的统计显著差异(p值＝0.00371，单向ANOVA检验)。依据这些数据，我们可通过分析代表性甲基化保守区域的血浆DNA的甲基化密度来测定测试样本的状态。举例来说，90％的甲基化密度将指示样本是从NPC患者收集，而80％的甲基化密度表明样本是来自具有EBV阳性淋巴瘤的患者。

D.单一CpG位点分析

除基于一组位点(例如以上章节中所描述)计算聚集物甲基化程度以外，实施例可基于EBV基因组内的个别CpG位点计算甲基化百分比。为了鉴别在不同EBV相关疾病中具有不同甲基化程度的个别CpG位点，我们集合具有持续性阳性EBV DNA，但无NPC的3名个体的血浆DNA读段的测序数据，得到7x的测序深度。接着，我们比较3名具有持续性阳性EBV DNA的个体的所集合的测序数据与3名NPC患者(AO050、TBR1392和TBR1416)的测序数据之间的所有CpG位点的甲基化百分比。测序数据的集合意指如同所有序列读段是来自同一名个体测定甲基化百分比。

在各种实施例中，如果CpG位点的甲基化百分比在疾病的一个病例(个体)中小于10％、20％、30％、40％、50％、60％、70％、80％或90％且在另一种疾病的一个病例中超过10％、20％、30％、40％、50％、60％、70％、80％或90％，则可定义具有不同甲基化程度的这些个别CpG位点。对于每种疾病，准则可应用于超过一个病例以定义DMR，例如上文关于使用区域的实例所描述，如可在不同病状的不同范围内进行以及具有不同(超过)或相同病状(阈值内)的个体之间的特异性分离。

附录A展示当具有持续性阳性EBV DNA的3名个体和3名NPC患者的汇集测序数据之间的这些CpG位点的甲基化百分比差异超过20％时，具有不同甲基化程度的跨越EBV基因组的个别CpG位点的列表。这些用*标记的位点具有超过40％的差异，**具有超过60％的差异且***具有超过80％的差异。在其它实施例中，可通过大于20％、30％、50％、70％或90％的甲基化百分比差异定义具有不同甲基化程度的CpG位点。现分析具有超过60％的差异的一些实例位点。

图16展示根据本发明的实施例的CpG位点的实例，其中在所集合的具有持续性阳性血浆EBV DNA的3种情况的测序数据中，各位点处的甲基化百分比超过80％，且在3名NPC个体中的平均值小于20％。也包括两名传染性单核细胞增多症患者的这些位点处的甲基化百分比。甲基化百分比提供于纵轴上，且横轴列举满足准则的8个单独位点。位点用连续编号标记。

如可发现，所有位点提供非NPC个体(包括持续性阳性和IM)和两名NPC个体(TBR1416和TBR1392)之间的良好分离。对于NPC个体AO050，位点1-4、7和8提供良好分离，但位点5和6未提供良好分离。因此，经测定区分两种病状的个别差异甲基化位点(例如不仅作为区域)也可用于区分一种病状(NPC)与两种或更多种病状。

图17展示根据本发明的实施例的CpG位点的实例，其中在所集合的具有持续性阳性血浆EBV DNA的3个个体的测序数据中，各位点处的甲基化百分比小于20％，且在3名NPC个体中超过80％。还展示两名传染性单核细胞增多症患者的这些位点处的甲基化百分比。此准则与用于图16的准则相反。甲基化百分比提供于纵轴上，且横轴列举满足准则的22个单独位点。位点用连续编号标记。

如可发现，所有位点提供非NPC个体(包括持续性阳性和IM)与NPC个体之间的良好分离。此证实个别位点可用于区分类别。并且，与在指定长度的同一个相邻区域内不同，位点可选自整个病毒基因组。可选择更多的位点以提供更大的统计精确性，例如使得可检测更多的EBV DNA片段。

在一个实施例中，在指定的彼此距离内选择具有不同甲基化程度(例如附录A以及图16和17中定义)的多个CpG位点。以此方式，个别病毒DNA片段可各自覆盖多个位点。举例来说，指定距离可为150bp，因为此约为血浆DNA分子的代表性尺寸。在此类情形中，通过PCR扩增进行具有多个不同甲基化CpG位点的特定区域的靶向扩增将为可能的。与使用全基因组分析方法相比，此靶向分析将具有较低成本。

因此，在各种实施例中，甲基化模式的分析可基于完全病毒基因组的基因组区域或个别CpG位点。在此类区域分析中，病毒基因组可基于基因组座标分成不同区域，其中各区域包括此类区域内的所有CpG位点。或者，可首先选择不同甲基化CpG位点且接着在区域内合并以形成DMR。在另一实例中，在无信息性位点的先前选择情况下，区域的甲基化密度的计算中可包括所有CpG位点。

E.层次聚类分析

一些实施例可使用除甲基化程度以外的方法区分类别。在一个实例中，可使用聚类技术。在此类聚类技术中，可测定各个体的多个甲基化程度，例如不同区域(各自包括一个或多个位点)的甲基化程度、个别位点的甲基化程度或其组合。在一些实施例中，聚类为层次性。

甲基化程度的集合可形成向量，其表示具有等同于甲基化程度的数值的长度的多维数据点。如本文中所描述，区域(分组)可具有各种尺寸。并且，聚类分析可基于不同尺寸的非重叠相邻分组。举例来说，分组的尺寸可定义为50bp、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp或1000bp。因此，聚类分析可基于不同个体中不同位点/分组的甲基化程度与相应甲基化程度的比较。

图18展示根据本发明的实施例的6名NPC患者(包括来自我们的筛选群组的4名患有早期疾病的患者)、2名患有结外NK-T细胞淋巴瘤的患者和2名患有传染性单核细胞增多症的患者中，基于血浆EBV DNA的甲基化模式分析的具有层次聚类分析的聚类树状图。在此实例中，层次聚类分析是基于尺寸为500bp的非重叠相邻区域内CpG位点的甲基化百分比的比较。聚类基于不同区域的甲基化百分比的差异将不同个体分组，其中可组合差异以提供距离。

在图18中，沿顶部横轴展示间距。可以各甲基化密度(百分比)之间的差异总和形式测定间距，例如当不同基因座处的甲基化密度对应于表示多维点的向量时，其中间距在两个多维点之间。两名个体在等于其之间的间距的点处组合。当测试新患者时，使用新的甲基化百分比(或其它程度)的多维点以测定最接近的一名参考个体(例如图18中所展示)或最接近的子组，如节点(例如节点1801或1802)处所描绘。最接近的参考个体或参考节点的鉴别可提供类别。

聚类树状图1800展示NPC个体共同递增聚类，其中所有NPC个体在节点1803处聚类成子组，其不包括患有其它病状的个体。此展示区分NPC个体与IM个体和淋巴瘤个体的能力。类似地，将IM个体分组在一起。值得注意的是，两名NK-T细胞淋巴瘤患者未聚类在一起。患者1629具有第IV阶段疾病且患者1713具有第I阶段疾病。此可指示甲基化模式将跨越相同疾病的不同阶段发展。此发现结果的一个潜在应用将为使用甲基化概况进行患者的分级和预测。

我们依据经由血浆EBV DNA的甲基化模式进行的聚类分析证明不同EBV相关疾病的区分的可行性。举例来说，在鉴别某一模式之后，实施例可加入或排除一种疾病。也可使用其它分类演算法，包括(但不限于)主组分分析、线性判别分析、逻辑回归(logisticregression)、机器学习模式、k均值聚类、k最近相邻法和随机决策森林。

图19展示根据本发明的实施例的6名NPC患者(包括来自我们的筛选群组的4名早期NPC患者)和3名具有持续性阳性血浆EBV DNA的非NPC个体中，基于血浆EBV DNA的甲基化模式分析的具有层次聚类分析的聚类树状图。在募集时从其第一血液样本提取血浆DNA。在此实例中，层次聚类分析是基于尺寸为500bp的非重叠相邻分组内CpG位点的甲基化百分比的比较。

在图19中，还沿顶部横轴展示间距。可如上文所描述测定间距。与图18类似，可在等同于其之间的间距的点处组合两名个体。如所示，NPC个体与其它NPC个体聚类在一起，例如节点1901和1902处。聚类树状图1900展示NPC个体递增聚类在一起，其中所有NPC个体在节点1903处聚类成子组，其不包括具有其它病状(即，针对此实例是持续性阳性)的个体。类似地，首先将持续性阳性个体分组在一起。此证实区分NPC个体与持续性阳性个体的能力。

因此，我们证明可在无需连续分析情况下，依据来自第一血液样本的血浆EBV DNA的甲基化模式分析来区分早期NPC患者与具有假阳性血浆EBVDNA结果的非NPC个体的可行性。即，与需要在不同时间进行多次测量不同，通过单一测量即可精确分类。此举在确认目的的连续血液测试和其它研究之后勤配置上将有节省医学成本的潜力。

图20展示热图2000，其说明在患有鼻咽癌、NK-T细胞淋巴瘤和传染性单核细胞增多症的患者中，完整EBV基因组中的所有非重叠500-bp区域的甲基化程度。以所述窗口内所有CpG位点(未选择)的甲基化密度的平均值计算为各窗口的甲基化程度。我们分析5名NPC患者、3名NK-T细胞淋巴瘤患者和3名传染性单核细胞增多症患者的血浆EBV DNA的甲基化模式。在当前实例中，在所有500-bp非重叠窗口内经由甲基化百分比分析甲基化模式。彩色基调/直方图2050展示不同甲基化百分比的不同颜色，其中白色为约零，黄色(浅灰色)为低(例如约20％)，橙色(中等灰色)为中等(例如约50％)且红色(深灰色)为高(例如约80％和更高)。彩色基调/直方图2050也展示具有特定甲基化程度的区域数目的直方图。

热图2000展示所有病例中，EBV基因组上跨越所有非重叠500-bp窗口的甲基化程度。每一列表示一个500-bp区域且颜色表示其甲基化程度。每一栏表示一个病例。聚类树状图2010展示不同病例的聚类。具有相同诊断的不同病例聚类在一起。举例来说，NPC病例皆聚类在右侧且呈现高甲基化程度，如由深红色(深灰色)证明。淋巴瘤个体在中间聚类且具有黄色(浅灰色)(低甲基化程度)与红(深灰色)(高甲基化程度)之间的混合色。传染性单核细胞增多症样本的聚类展示在左侧且呈现相对低甲基化程度，如由浅黄色(浅灰色)证明。

图20证明经由血浆EBV DNA的甲基化模式分析预测EBV相关疾病的可行性。此外，与跨越EBV基因组的所有区域相反，使用DMR发现更大的精确性。

在其它实施例中，可经由跨越EBV基因组的所有CpG位点的甲基化百分比获得甲基化模式(如基因组谱分析)，例如在每个位点碱基上。在另一实施例中，可针对任何个别CpG位点和/或DMR指定不同权重以用于预测EBV相关疾病或病状。此类加权可以各种方式实施，如上文所描述，例如向中间甲基化程度施用比例因子(权重)以获得区域或基因组谱的加权平均值。此处，我们对所分析的所有CpG位点指定相同称重。

V.计数和尺寸的使用

除在不含细胞的样本中使用不含细胞的病毒DNA片段的甲基化程度区分具有不同病状和/或病状程度的个体以外，一些实施例可使用不含细胞的样本中不含细胞的病毒DNA片段的尺寸。一些实施例也可使用不含细胞的样本中不含细胞的病毒DNA片段的数目(例如比例)。各种实施例可使用不同技术的组合，例如通过使用每一种技术需要相同个体类别。举例来说，以下的任何组合可用于分类：a)与EBV比对的血浆DNA片段的比例，b)血浆EBVDNA片段的尺寸概况，和c)血浆EBV DNA的甲基化概况。当组合不同技术以获得所需诊断灵敏度和特异性时，不同阈值可用于分类。

A.血浆EBV DNA片段的尺寸概况分析

除血浆EBV DNA片段的甲基化分析的可行性以外，基于EBV基因组中两个末端处最外侧核苷酸的座标推论各血浆EBV DNA片段的尺寸。不含细胞的EBV DNA片段的尺寸分布视不同病状(即不同模式)而变化，由此允许区分患有不同病状的个体且因此区分病状程度。这些不同尺寸模式可以各种尺寸度量值定量，例如一个尺寸(例如第一尺寸范围)处病毒DNA的量与另一尺寸(例如第二尺寸范围)处病毒DNA的量的尺寸比率。举例来说，尺寸比率可用于比较某一尺寸范围(例如在80与110个碱基对之间)内血浆EBV DNA读段的比例，所述尺寸范围针对患有不同病状的个体中相同尺寸范围内常染色体DNA片段的量标准化。

图21展示根据本发明的实施例的2名NPC患者(TBR1392和TBR1416)和2名传染性单核细胞增多症患者(TBR1610和TBR1661)以及连续分析中的3名具有持续性阳性血浆EBVDNA的非NPC个体(AF091、HB002和HF020)中，映射到EBV基因组和人类基因组的经测序的血浆DNA片段的尺寸分布的尺寸概况。曲线展示沿横轴的尺寸(bp)和纵轴中既定尺寸处DNA的频率(比例)。人类基因组DNA的尺寸分布以蓝色(灰色)展示，例如在尺寸分布2104中。EBV尺寸分布以红色(黑色)展示，例如尺寸分布2103。

观测到与EBV基因组比对和与常染色体基因组比对的血浆EBV DNA片段的尺寸概况模式的差异。举例来说，NPC个体具有在约160bp峰值处对较小不含细胞的EBV DNA片段的偏移，其中下部末端处类似量的片段作为人类DNA，而IM个体与低于100bp的人类DNA相比具有较大量的EBV DNA。持续性阳性个体随尺寸增加而具有显著向上和向下波动，以及相对于NPC个体的峰值的更显著偏移。这些差异可用于区分患有不同病状的个体，例如区分患有NPC的个体与具有假阳性血浆EBV DNA结果的个体。

为了比较个体中某一尺寸范围(例如在80与110bp之间)内血浆EBV DNA读段的比例，可针对相同尺寸范围内常染色体DNA片段的量标准化血浆EBV DNA片段的量。此度量为尺寸比率的实例。尺寸比率可由某一尺寸范围内血浆EBV DNA片段的比例除以相应尺寸范围内序列(例如来自人类常染色体的DNA片段)的参考集合的比例定义。可使用各种尺寸比率。举例来说，在80与110个碱基对之间的片段的尺寸比将为：

图22展示根据本发明的实施例的6名NPC患者和3名血浆EBV DNA呈持续性阳性的个体中的尺寸比率。我们可观测两组个体的尺寸比率之间的统计显著差异(p值＝0.02，曼恩-惠特尼检验(Mann-Whitney test))。对于此特定尺寸比率，用于区分NPC个体与持续性阳性个体的实例参考尺寸值可在2-4之间(例如3)。

图23展示根据本发明的实施例的具有暂时性阳性血浆EBV DNA的非NPC个体、具有持续性阳性血浆EBV DNA的非NPC个体和NPC患者中的EBV DNA尺寸比率。NPC组的平均EBVDNA尺寸比率(80-110bp)(平均值＝1.9)显著低于其它两个具有暂时性阳性(平均值＝4.3)和持续性阳性(平均值＝4.8)血浆EBV DNA的非NPC组的中值尺寸比率(p<0.0001，克拉斯卡-瓦立斯检验)。

因此，可依据血浆EBV DNA的尺寸概况的差异(例如如由EBV DNA尺寸比率表示)区分NPC患者与具有可检测的血浆EBV DNA(暂时性或持续性阳性)的非NPC个体。在当前实例中，使用3作为截止值以获得90％的检测灵敏度。使用3作为截止值，30名NPC患者中的27名、117名具有暂时性阳性血浆EBV DNA的非NPC个体中的23名和39名具有持续性阳性血浆EBVDNA的非NPC个体中的7名通过截止值且其血浆EBV DNA的尺寸比率低于截止值。所计算的灵敏度、特异性和阳性预测值分别为90％、80.8％和49.2％。

可以各种方式测定截止(参考)值的选择。在一个实施例中，在所分析的NPC患者(例如训练集合)中，可选择任何高于EBV DNA尺寸比率中的最高值的值作为EBV DNA尺寸比率的截止值。在其它实施例中，可测定截止值，举例来说，如NPC患者的平均EBV DNA尺寸比率加一个标准差(SD)、平均值加两个SD、平均值加三个SD。在其它实施例中，截止值可使用接受者操作特征(ROC)曲线或通过非参数方法来确定，例如包括100％、95％、90％、85％、80％的所分析的NPC患者。

尺寸比率或尺寸分布的其它统计值的其它定义将产生每个个体的不同值，且因此具有用于区分个体的不同参考值。举例来说，可使用不同尺寸范围，或染色体的子集可用于常染色体DNA片段，或完全不使用常染色体DNA。可确定核酸片段尺寸分布的各种统计值。举例来说，可使用尺寸分布的平均值(average)、众数、中值或平均值(mean)。可使用其它统计值，例如既定尺寸的累积频率或不同尺寸的核酸片段的量的各种比率。累积频率可对应于具有既定尺寸或小于或大于给既定寸的DNA片段的比例(例如百分比)。因此，分母中的任何标准化因子(如果使用一个)可用于不同尺寸范围的EBV DNA的量。统计值提供关于DNA片段的尺寸的分布的信息，以用于针对健康对照个体或其它病状的一个或多个尺寸阈值的比较。所属领域技术人员将已知如何依据本发明测定此类阈值。尺寸比率的其它实例可见于美国专利公开案2011/0276277、2013/0237431和2016/0217251中。

B.计数

除血浆EBV DNA的甲基化百分比的分析以外，我们分析来自靶向亚硫酸氢盐测序的血浆EBV DNA读段的比例。可以各种方式测定不含细胞的EBV DMA读段的比例，例如以人类基因组和若干病毒基因组中所有DNA读段的比例，或仅所分析的人类基因组和病毒基因组的所有DNA读段的比例。在先前实例中，组合参考序列可包含完全人类基因组(hg19)、完全EBV基因组(AJ507799.2)、完全HBV基因组和完全HPV基因组。在各种实例中，比例可基于相对于所有其它DNA读段与所分析的病毒基因组比对或仅可比对(例如独特或具有指定失配数)的读段的计数来测定。使用人类基因组和若干病毒基因组的参考基因组，我们比较三组NPC患者、具有暂时性阳性的非NPC个体和具有持续性阳性血浆EBV DNA的非NPC个体中血浆EBV DNA读段的比例。

图24展示根据本发明的实施例，在具有暂时性阳性血浆EBV DNA的非NPC个体、具有持续性阳性血浆EBV DNA的非NPC个体和NPC患者中的所有经测序的血浆DNA读段中，血浆EBV DNA读段映射到EBV基因组的血浆DNA读段)的比例。NPC组的血浆EBV DNA读段的平均比例(平均值＝0.075％)显著高于其它两个具有暂时性阳性(平均值＝0.003％)和持续性阳性(平均值＝0.052％)血浆EBV DNA的非NPC组的平均比例(p<0.0001，克拉斯卡-瓦立斯检验)。因此，可依据血浆EBV DNA的数量的差异(即血浆EBV DNA的比例)区分NPC患者与具有可检测的血浆EBV DNA(暂时性或持续性阳性)的非NPC个体。

在当前实例中，使用4.5×10^-6作为截止值，通过靶向亚硫酸氢盐测序，所有30名NPC患者、119名具有暂时性阳性血浆EBV DNA的非NPC个体中的79名和39名具有持续性阳性血浆EBV DNA的非NPC个体中的34名的血浆EBV DNA的比例高于此截止值。所计算的灵敏度、特异性和阳性预测值分别为100％、27.6％和22.1％。

可以各种方式测定截止(参考)值的选择。在一个实施例中，在所分析的NPC患者中，可选择任何低于比例中的最低值的值作为血浆EBV DNA的比例的截止值。可设定截止值以捕捉所有NPC患者和实现最大灵敏度。在其它实施例中，可测定截止值，例如以NPC患者的血浆EBV DNA读段的平均比例减一个标准差(SD)、平均值减两个SD、平均值减三个SD形式。在当前实例中，截止值设定为所有NPC患者中血浆EBV DNA读段的比例的平均值减三个SD。在其它实施例中，可在血浆DNA片段的比例的对数转换映射到EBV基因组且接着以类似方式选择(例如使用平均值等)之后测定截止值。在其它实施例中，截止值可使用接受者操作特征(ROC)曲线或通过非参数方法来确定，例如包括100％、95％、90％、85％、80％的所分析的NPC患者。

C.组合分析

可组合这些三种技术以提供增加的精确性。举例来说，可比较每种技术的度量值(每种技术潜在地包括多个度量值，例如多重甲基化程度)与各别参考值以对个体进行分类，例如可以决策树形式进行，或鉴别个体对应于训练值的曲线的特定部分(象限)。也可使用聚类技术，例如上文所描述。

我们评估组合血浆EBV DNA比例的分析(定量)和NPC鉴别的尺寸比率的值。我们也评估组合血浆EBV DNA比例的分析(定量)和NPC鉴别的甲基化百分比的值，且接着共同评估全部三个值。

图25为根据本发明的实施例，NPC患者、具有暂时性阳性和持续性阳性血浆EBVDNA的非NPC个体的血浆EBV DNA读段的比例和相应尺寸比率值的曲线。图23和24中定义的EBV DNA尺寸比率中的相同截止值和血浆EBV DNA读段的比例由灰色点线表示。椭圆形突出显示通过组合分析的象限2510。

在此组合分析中，如果血浆样本的测序数据同时通过比例分析和血浆EBV DNA的尺寸比率的截止值，则认为其是阳性。使用如上文所定义的截止值，NPC检测的灵敏度、特异性和阳性预测值分别为90％、88.5％和61.7％。

图26为根据本发明的实施例，NPC患者、具有暂时性阳性和持续性阳性血浆EBVDNA的非NPC个体的血浆EBV DNA读段的比例和相应甲基化百分比值的曲线。如图13和24中分别定义的46例DMR内EBV DNA甲基化百分比中的相同截止值和血浆EBV DNA读段的比例由灰色点线表示。椭圆形突出显示通过组合分析的象限2610。

在此组合分析中，如果血浆样本的测序数据同时通过比例分析和血浆EBV DNA的甲基化百分比的截止值，则认为其是阳性(基于图中定义的DMR)。使用如上文所定义的截止值，NPC检测的灵敏度、特异性和阳性预测值分别为96.7％、89.1％和64.6％。

图27A和27B展示根据本发明的实施例，NPC患者、具有暂时性阳性和持续性阳性血浆EBV DNA的非NPC个体的血浆EBV DNA读段的比例和相应尺寸比率和甲基化百分比值的3维曲线。我们评估组合所有三个参数(血浆EBV DNA比例(定量)、尺寸比率和用于NPC鉴别的甲基化百分比)的值。以与图24相同的方式测定比例。以与图23相同的方式测定尺寸比率。并且，使用用于图13的46例DMR测定甲基化程度。

在图27A中，紫色表面2710表示3维空间中经拟合的3-D表面，其区分NPC患者与具有暂时性和持续性阳性血浆EBV DNA的非NPC个体。使用经拟合的表面说明用于区分个体的参考值可比恒定值更复杂。举例来说，在图26中，甲基化百分比的截止值可随序列读段的比例而变化。此类测定类别的灵活性可提供更大的精确性。可选择拟合以最优化各种精确性度量值，例如特异性、灵敏度或其两者的某一平均值。可使用支持向量机进行此类拟合。图27B展示与图27A中相同的数据，但无表面2710，且在围绕数据的框中标记轴。

图28A和28B展示根据本发明的实施例，基于计数、基于尺寸和基于甲基化的分析的各种组合的接受者操作特征(ROC)曲线分析。精确性是用于NPC个体和非NPC个体的正确类别。以与图27A和27B相同的方式测定参数(即比例、尺寸比率和甲基化程度)。截止值变化，由此引起灵敏度和特异性变化。图27A展示个别地使用三种技术的比较。展示曲线下面积(AUC)值。对于仅计数、仅尺寸和仅甲基化，AUC值分别为0.905、0.942和0.979。甲基化提供最佳结果。图28B展示三种组合技术的比较。计数和尺寸的AUC值为0.97。计数和甲基化的AUC值为0.985。使用全部三种技术提供最佳精确性，其为0.989。

VI.其它病毒实例

其它病毒也与癌症相关联。举例来说，血浆人类乳头状瘤病毒(HPV)与头部和颈部鳞状细胞癌(HNSCC)相关联。并且，乙型肝炎病毒(HBV)与肝细胞癌(HCC)相关联。以下结果展示实施例可使用其它不含细胞的病毒DNA的甲基化程度，以与甲基化程度用于不含细胞的EBV DNA类似的方式对病状的程度进行分类。

A.HPV

图29展示5名HPV阳性头部和颈部鳞状细胞癌(HPV+ve HNSCC)病例的临床阶段。根据AJCC癌症分期手册(AJCC Cancer Staging Manual)第8版进行病例分期。我们通过血浆DNA的目标亚硫酸氢盐测序来分析来自这些5名HPV阳性头部和颈部鳞状细胞癌(HPV+veHNSCC)患者的血浆人类乳头状瘤病毒(HPV)DNA读段的甲基化概况。所有5名患者皆患有早期(I或II期)疾病。其在其血浆DNA样本中皆具有可检测的HPV DNA片段。

对于各临床情况，使用QIAamp DSP DNA血液微型试剂盒从4mL血浆提取血浆DNA。对于各情况，所有提取的DNA用于使用TruSeq DNA无PCR文库制备试剂盒(Illumina)制备测序文库。衔接子接合DNA产物经历两轮使用EpiTect亚硫酸氢盐试剂盒(Qiagen)进行的亚硫酸氢盐处理。使用KAPAHiFi HotStartUracil+ReadyMix PCR试剂盒(罗氏)对经亚硫酸氢盐转化的样本进行十二到十五个PCR扩增循环。接着，使用覆盖上述病毒和人类基因组区域的经定制设计的探针，用SeqCap-Epi系统(Nimblegen)捕捉扩增产物(图1)。

在目标捕捉之后，通过14个PCR循环富集所捕捉的产物以产生DNA文库。用NextSeq平台(Illumina)对DNA文库进行测序。对于每次测序操作，使用双端模式对具有独特样本条形码的四到六个样本进行测序。对于各DNA片段，从两个端中的每一者对75个核苷酸进行测序。在测序之后，可在甲基管道(一种甲基化数据分析管道)中处理序列读段(Jiang等人《公共科学图书馆：综合》2014；9:e100360)且映射到人工组合参考序列，其包含完全人类基因组(hg19)、完全EBV基因组(AJ507799.2)、完全HBV基因组和完全HPV基因组。映射到组合基因组序列中的独特位置的测序读段(尽管在其它实施例中可允许失配)用于下游分析。

图30展示根据本发明的实施例，患有HPV阳性头部和颈部鳞状细胞癌(HPV+veHNSCC)的个别患者中血浆HPV DNA的甲基化概况。经由来自这些患者的血浆DNA的靶向捕捉物亚硫酸氢盐测序来产生HPV DNA的甲基化概况。图30展示可在HNSCC患者的血浆HPV16DNA分子中检测到HPV16(HPV血清型16)甲基化。测定跨越HPV基因组的所有CpG位点的甲基化密度。

可使用以下方程式计算血浆中跨越病毒基因组的特异性基因座的甲基化密度MD：MD＝M/(M+U)，其中M为甲基化病毒读段的计数且U为跨越病毒基因组的遗传基因座内CpG位点处未甲基化的病毒读段的计数。在基因座特异性层面上，这些基因座可具有任何尺寸且具有至少1个CpG位点(1bp)。如果基因座内存在超过一个CpG位点，则M和U对应于跨越位点的计数。这些基因座可与且可不与任何标注的病毒基因相关联。

我们可观测不同患者中血浆HPV DNA的甲基化概况的类似模式。通常非癌症个体中不存在HPV。我们定义两个基因组区域，即区域3001和区域3002。对于HPV+ve HNSCC的所有5个病例，区域3001中的区域特异性甲基化密度始终高于区域3002。可在整体或基因座特异性层面上分析患有相同病状的个体的模式的这些类似性，和具有甲基化概况的不同病状的个体的模式的差异。此类预定义区域的甲基化密度可预测临床呈现，例如关于癌症阶段、对治疗的反应和复发风险。

图31展示根据本发明的实施例，患有HPV+ve HNSCC的两名患者中跨越HPV基因组的所有CpG位点的甲基化程度。第一患者以黑色且在底部上展示，如3101处所描绘。第二患者以灰色展示，且在可发现更大结果时，如3102中。如可发现，两名患者在类似基因座处具有显著甲基化程度，且许多基因座具有类似的甲基化程度值。通过在整体或基因座特异性层面上比较病例中的甲基化程度，实施例可鉴别个体具有HNSCC。

B.HBV

对9名慢性乙型肝炎感染患者和10名HCC患者进行血浆DNA的靶向亚硫酸氢盐测序。我们也分析来自这些慢性乙型肝炎感染和HCC患者的血浆HBV读段的甲基化概况。

图32A和32B展示根据本发明的实施例，9名慢性乙型肝炎感染(HBV)患者和10名肝细胞癌(HCC)患者中，跨越HBV基因组的所有CpG位点的乙型肝炎病毒(HBV)DNA读段(映射到HBV基因组的血浆DNA读段)的比例和甲基化百分比。

在图32A中，测定相对于人类基因组与HBV基因组比对的DNA片段的百分比。在此特定实例中，独特地比对HBV基因组的不含细胞的DNA片段的数目除以独特地比对到包含如图1中列举的人类、HBV、HPV和EBV的基因组的组合参考基因组的不含细胞的DNA片段的数目。与慢性HBV感染患者(平均值＝0.03％)相比，在HCC患者(平均值＝0.006％)中观测到较高的HBV DNA读段的平均比例，但未获得统计显著性(p＝0.07，学生t检验(Student's t-test))。如可目测发现，HCC个体和HBV个体的平均值类似。因此，基于计数的技术具有相对低预测能力。

在图32B中，以跨越HBV基因组中所有CpG位点的整体甲基化程度形式测定HBV甲基化百分比。与慢性乙型肝炎感染患者(平均值＝23％)相比，我们观测到HCC患者(平均值＝1.7％)的血浆HBV DNA的显著更高的甲基化百分比(p＝0.03，学生t检验)。此类分离指示增加的区分具有HBV但无HCC的个体与具有HCC的个体的能力。因此，实施例可对HCC病状程度(例如HCC或无HCC)进行分类。因此，实施例可依据样本中血浆HBV DNA的基因组谱甲基化程度预测HCC的风险。

其它实施例可实施其它类型的甲基化程度，例如本文中所描述。举例来说，可依据具有预定义准则的经区分的甲基化区域内的甲基化程度分类。

VII.使用不含细胞的病毒DNA的甲基化的方法

如上文所描述，实施例可测量不含细胞的DNA样本(包括不含细胞的病毒DNA和不含细胞的基因组人类DNA)中的一种或多种甲基化程度。甲基化程度可通过分析来自与病状相关联的特定病毒的DNA的甲基化程度对病状程度进行分类。基于计数和基于尺寸的技术也可用于补充甲基化技术。

作为实例，病状程度可为病状是否存在、病状的严重程度、病状阶段、病状展望、病状对治疗的反应或病状的严重程度或进程的另一测量。作为癌症的实例，癌症程度可为癌症是否存在、癌症阶段(例如早期和晚期)、肿瘤尺寸、癌症对治疗的反应或癌症的严重程度或进程的另一测量。

对于EBV，实例病状可包括传染性单核细胞增多症(IM)、鼻咽癌(NPC)、自然杀手(NK)-T细胞淋巴瘤，和无这些病状，但可在样本中展示显著数目的不含细胞的EBV DNA片段的个体。对于HPV，实例病状可包括头部和颈部鳞状细胞癌(HNSCC)和具有显著量的不含细胞的HPV DNA片段，但不具有HNSCC的个体。对于HBV，实例病状可包括肝细胞癌(HCC)和具有显著量的不含细胞的HBV DNA片段，但不具有HCC的个体。

A.使用甲基化程度对病状进行分类

图33为流程图，其说明根据本发明的实施例，用于测定第一病状的类别的分析动物个体的生物样本的方法3300。样本可包括来自个体的DNA分子与来自病毒的潜在DNA分子的混合物。方法3300可包括临床、实验室和电子杂交(计算机)步骤。可进行方法3300作为个体筛选(例如筛选癌症)的一部分。因此，个体可无病状的症状。

在区块3310处，从个体获得生物样本。作为实例，生物样本可为血液、血浆、血清、尿液、唾液、汗液、泪液和痰液，以及本文所提供的其它实例。生物样本可包括来自个体的基因组和来自一种或多种其它基因组的不含细胞的DNA分子的混合物。举例来说，一种或多种其它基因组可包括病毒基因组，如EBV、HPV和/或HBV基因组。在一些实施例(例如关于血液)中，可纯化不含细胞的DNA分子的混合物的生物样本，例如离心血液以获得血浆。

在区块3320处，由生物样本分析多个不含细胞的DNA分子。不含细胞的DNA分子的分析可包括鉴别特定病毒基因组中不含细胞的DNA分子的位置，和测定不含细胞的DNA分子是否在特定病毒基因组的一个或多个位点处甲基化。可分析各种数目的不含细胞的DNA分子(人类和病毒)，例如至少1,000个，其中各种数目鉴别为来自特定病毒基因组(例如10、20、30、50、100、200、500或1,000或更多)。

可如本文中所描述获得序列读段的位点的甲基化状态。举例来说，可使用DNA分子的序列读段分析DNA分子，其中所述测序法为甲基化检测法。也可使用其它甲基化检测分析法。序列读段可各自包括来自生物样本的不含细胞的DNA分子的甲基化状态。甲基化状态可包括特定胞嘧啶残余物是否为5-甲基胞嘧啶或5-羟甲基胞嘧啶。可以各种方式获得序列读段，各自如各种测序技术、PCR技术(例如实时或数字)、阵列和其它适合的用于鉴别片段的序列的技术。实时PCR为共同分析DNA组的实例，例如与位点处甲基化的DNA数目成比例的强度信号。取决于两个位点的彼此接近性和序列读段的长度，序列读段可覆盖超过一个位点。

可通过从甲基化检测测序法接收序列读段来进行分析，且因此可仅对先前从DNA获得的数据进行分析。在其它实施例中，分析可包括实际测序或其它用于进行DNA分子特性的测量的有效步骤。可以多种方式进行测序，例如使用大规模平行测序或下一代测序，使用单分子测序，和/或使用双链或单链DNA测序文库制备方案，和本文中所描述的其它技术。作为测序的一部分，有可能一些序列读段可对应于细胞核酸。

测序可为靶向测序，例如本文中所描述。举例来说，生物样本可富集来自病毒的核酸分子。富集生物样本的来自病毒的核酸分子可包括使用结合病毒的一部分或整个基因组的捕捉探针。其它实施例可使用对病毒的特定基因座具有特异性的引物。生物样本可富集来自人类基因组的一部分的核酸分子，例如常染色体区。图1提供此类捕捉探针的实例。在其它实施例中，测序可包括随机测序。

在通过测序装置测序之后，可通过计算机系统接收序列读段，所述计算机系统可通信地与进行测序的测序装置耦接，例如经由有线或无线通信或经由可拆卸存储器装置。在一些实施例中，可接收包括核酸片段的两个末端的一个或多个序列读段。可通过将DNA分子的一个或多个序列读段映射(比对)到人类基因组的各别部分(例如特异性区域，如差异甲基化区域(DMR))来测定DNA分子的位置。在一个实施方案中，如果读取未映射到相关区域，则可忽略读取。在其它实施例中，特定探针(例如在PCR或其它扩增之后)可指示位置，如经由特定荧光颜色。鉴别可为对应于一组一个或多个位点中的一者的不含细胞的DNA分子，即特定位点可能不为已知的，因为一个或多个位点处甲基化的DNA的量为所有必需的。

在区块3330处，依据特定病毒基因组的一组一个或多个位点甲基化的多个不含细胞的DNA分子的一个或多个量来测量一个或多个混合物甲基化程度。混合物甲基化程度可为位点集合或位点的子集的不含细胞的DNA分子的甲基化密度或百分比(例如本文中所描述)。举例来说，甲基化程度可对应于甲基化密度，其是依据对应于位点集合的DNA分子的数目和甲基化数目而测定。可基于序列读段与病毒基因组的比对以及一个或多个位点处既定序列读段的甲基化状态来测定数目。

对于位点集合中的每一者，可测定位点处甲基化的DNA分子的各别数目。在一个实施例中，位点为CpG位点，且可仅为某些CpG位点，如使用本文中提及的一个或多个准则选择。在使用特定位点处所分析的DNA分子的总数(例如序列读段的总数)进行标准化后，甲基化的DNA分子的数目等效于测定未甲基化的数目。举例来说，区域的CpG甲基化密度增加等效于相同区域的未甲基化的CpG的密度降低。

当一组一个或多个位点包括至少两个位点时，可跨越至少两个位点测定一个混合物甲基化程度。举例来说，甲基化程度可计算为第一组的所有不含细胞的DNA分子的总甲基化密度。在另一实例中，可计算一个或多个位点中的各位点或区域的单独的甲基化密度，由此提供N(例如2或更大的整数)个混合物甲基化程度作为多维点，例如章节IV.B-IV.E中所描述。可组合单独的甲基化密度以获得混合物甲基化程度，例如单独的甲基化密度的平均值。

在其它实施例中，可保持单独的甲基化程度以用于随后分析，例如使用聚类和本文中所描述的其它技术。举例来说，可比较多维点(N个混合物甲基化程度)与N个参考甲基化程度以获得N个差异，其可用于测定个体是否属于至少两个群组中的一者。图18-20提供层次聚类分析的此类实例。可预先测定区域，例如上文关于具有50个碱基与1,000个碱基之间的尺寸的预先测定的区域所描述，其中区域的尺寸相同或不同。

如果测定超过一个混合物甲基化程度，则不同程度可对应于位点集合的不同子集。举例来说，可测定不同区域的甲基化程度，所述区域可各自包括一个或多个位点。区域可跨越整个病毒基因组或仅对应于部分病毒基因组，例如可在选择特定区域时进行。可根据一个或多个准则针对差异甲基化来选择此类区域，例如本文中所描述。此类准则可对应于特异性范围内具有相同病状的个体群组中的甲基化程度，且潜在地具有来自群组中的其它个体的阈值内的差异。因此，区域或位点中的每一者的准则可包括(1)相同群组中的多个个体中的甲基化程度差异和/或(2)一个群组中的个体与另一群组中的个体之间的甲基化程度差异。

在区块3340处，比较一个或多个混合物甲基化程度与由其它个体的至少两个群组测定的一个或多个参考甲基化程度。至少两个群组可具有与特定病毒基因组相关联的不同类别，其中不同类别包括第一病状。对于EBV DNA分子的数目，上文提供此类病状的实例，例如NPC、IM、淋巴瘤和与暂时性或持续性阳性相关的非NPC状态。群组和参考甲基化程度的实例提供于图8、11、13、15和18-20。

比较可采取各种形式。举例来说，可测定分离值，如混合物甲基化程度与参考甲基化程度之间的比率或差异。可定义各种分离值，包括有包括比率和差异的定义和其两者的函数。比较可进一步包括分离值与截止值的比较，以测定统计显著差异。举例来说，参考甲基化程度可为群组的平均值，可比较样本的混合物甲基化程度与群组的平均值之间的差异与截止值，所述截止值可依据群组中使用的参考样本的所测量的甲基化程度的标准差来测定。

在一些涉及多重甲基化程度和多重参考程度的实施例中，多重甲基化程度可对应于样本多维点(例如形成向量的N个程度)，其中多重参考程度对应于N-1维度的表面(例如超平面)，其中表面可为封闭表面，例如其中数据点对应于相同病状的球形。作为另一实例，多重甲基化程度与参考程度的比较可通过测定样本多维点与参考个体的代表性(参考)多维点之间的间距来实施。参考多维点可对应于单一参考个体，例如患者AL038。作为另一实例，代表性(参考)多维点可为来自具有相同病状的个体的参考多维点的聚类的心形曲线。

作为另一实例，比较混合物甲基化程度与参考甲基化程度可包括将一个或多个混合物甲基化程度输入机器学习模式，所述机器学习模式使用由其它个体的至少两个群组测定的一个或多个参考甲基化程度训练。举例来说，参考程度可为其它个体的所测量的甲基化程度，和聚类模式可使用这些参考程度训练。举例来说，可针对对应于特定群组的个体聚类选择心形曲线。

在区块3350处，依据所述比较来测定个体是否是具有第一病状的第一类别。第一类别可采取各种形式，例如二元结果或机率值。在一些实施例中，第一类别可提供第一病状的程度，例如肿瘤尺寸、严重度或癌症阶段。

至少两个群组的不同类别也可包括第二病状，其中与一个或多个参考程度的比较可测定个体是否是具有第二病状的第二类别。举例来说，单一参考含量可区分IM与淋巴瘤，或区分NPC与持续性阳性个体。

可比较一个或多个混合物甲基化程度与多个参考甲基化程度。作为使用一个甲基化程度但多个参考甲基化程度的实例，不同参考程度可区分不同病状。举例来说，第一参考甲基化程度可决定个体是否是具有第一病状的第一类别(例如区分IM与不具有IM)，且第二参考甲基化程度可决定个体是否是具有第二病状的第二类别(例如区分NPC与不具有NPC)，例如图8、11和15中所描绘。因此，实施例可使用不同的参考层度以依据所述比较测定个体是否是具有第二病状的第二类别。

所述方法可进一步包括回应于个体具有病状的类别而治疗个体的病状，由此改善病状(例如移除病状或降低严重度)。如果病状为癌症，则治疗可包括手术、辐射疗法、化学疗法、免疫疗法、靶向疗法、激素疗法、干细胞移植或精确医学。依据所判定的病状程度，可研发治疗计划以降低对个体的伤害风险。方法可进一步包括根据治疗计划治疗个体。

可在各种时间点获得生物样本且在这些时间点独立地分析，或在其它时间点与测量和分类一起进行。此类时间点的实例包括癌症治疗前和治疗后(例如靶向疗法、免疫疗法、化学疗法、手术)、癌症诊断之后的不同时间点、癌症进程之前和之后、转移发生之前和之后、疾病严重度增加之前和之后或并发症发生之前和之后。

B.使用甲基化程度与尺寸/计数的组合

如章节V中所描述，基于计数和/或基于尺寸的技术可与甲基化技术组合使用。可独立地实施此类技术，例如各自提供单独的类别。可能需要此类独立类别中的每一者以提供相同结果，以提供所述结果的最终类别。在其它实施例中，不同技术的参考值可取决于来自另一技术的度量值，例如尺寸参考值可取决于既定样本的所测量的甲基化程度，如上文关于图27所描述。在一些实施方案中，各度量值(例如甲基化程度)可为向量中的不同分量，由此产生既定样本的度量值的多维数据点。可由相同样本或单独样本测定度量值中的每一者，例如其可在约相同时间从个体获得。

在一些实施例中，可如下实施基于尺寸的技术以分析个体的生物样本。样本可与用于甲基化分析的样本为相同或不同样本。生物样本可包括来自个体的基因组和来自一种或多种其它基因组(例如病毒基因组)的不含细胞的DNA分子的混合物。对于生物样本中的多个不含细胞的DNA分子中的每一者，可测定尺寸和位置，例如本文中所描述。举例来说，可将DNA分子的两端测序(例如以提供整个DNA分子的一个序列读段或两个末端的一对序列读段)且将序列读段与参考基因组比对以测定尺寸。因此，实施例可测量DNA分子的尺寸和鉴别特定病毒基因组中DNA分子的位置。这些不含细胞的DNA分子可与用于甲基化分析的分子相同，例如其中使用甲基化检测测序法。多个DNA分子的尺寸可形成尺寸分布。

可测定尺寸分布的统计值(例如尺寸比率)。可比较统计值与由其它个体的至少两个群组测定的参考尺寸值，所述其它个体的至少两个群组可为用于甲基化分析的相同两个群组。所述至少两个群组可具有与特定病毒基因组相关联的不同类别，包括第一病状。可依据比较来测定个体是否是具有第一病状的基于尺寸的类别。可共同使用基于尺寸的类别和基于甲基化的类别以提供最终类别。实例参考尺寸值提供于图22、23、25和27中。

在一些实施例中，可如下实施基于计数的技术以分析个体的生物样本。样本可与用于甲基化分析的样本相同或不同。生物样本可包括来自个体的基因组和来自一种或多种其它基因组(例如病毒基因组)的不含细胞的DNA分子的混合物。

可测定来源于样本中的特定病毒基因组的不含细胞的DNA分子的量。在一些实施例中，对于生物样本中多个不含细胞的DNA分子中的每一者，测定所述分子是否来源于特定病毒基因组，例如使用测序或探针(可能与扩增(如PCR)一起)。举例来说，可测定位置，例如是否来自人类基因组或来自特定病毒基因组。可使用从不含细胞的DNA的混合物的测序获得的多个序列读段测定位置。可测定与特定病毒基因组比对的多个序列读段的量。举例来说，可测定与病毒基因组比对的序列读段相对于序列读段的总数的比例。序列读段的总数可为与对应于病毒的参考基因组比对的序列读段和与人类基因组比对的序列读段的总和。也可使用本文中所描述的其它比率，例如来自特定病毒基因组的读段量除以人类读段量。

可比较与参考基因组比对的序列读段的量与由其它个体的至少两个群组测定的参考值，所述至少两个群组可为用于甲基化和/或尺寸分析的相同两个群组。所述至少两个群组可具有与特定病毒基因组相关联的不同类别，包括第一病状。可依据比较来测定个体是否是具有第一病状的基于计数的类别。可共同使用基于计数的类别和基于甲基化的类别以提供最终类别。实例参考计数值提供于图24-27和32A中。

VIII.实例系统

图34说明根据本发明的实施例的系统3400。如所示，系统在样本固持器3410内包括样本3405，如不含细胞的DNA分子，其中样本3405可与分析3408接触以提供物理特征3415的信号。样本固持器的实例可为包括分析的探针和/或引物的流槽或液滴借以移动的管(在包括微滴的分析的情况下)。样本的物理特征3415(如荧光强度值)是通过检测器3420检测。检测器3420可按时间间隔(例如，周期性时间间隔)进行测量，以获得构成数据信号的数据点。在一个实施例中，模拟到数字转换器多次将来自检测器的模拟信号转换成数字形式。样本固持器3410和检测器3420可形成分析装置，例如根据本文所述的实施例进行测序的测序装置。数据信号3425从检测器3420发送到逻辑系统3430。数据信号3425可存储于局部存储器3435、外部存储器3440或存储装置3445中。

逻辑系统3430可为或可包括计算机系统、ASIC、微处理器等。其也可包括显示器(例如监视器、LED显示器等)和使用者输入装置(例如鼠标、键盘、按钮等)或与其耦接。逻辑系统3430和其它组件可为独立或网络连接计算机系统的一部分，或其可直接附接到或并入于热循环装置中。逻辑系统3430也可包括在处理器3450中执行的最优化软件。逻辑系统3430可包括计算机可读介质，其存储用于控制系统3400进行本文所描述的方法中的任一者的指令。

本文中提及的任何计算机系统可利用任何适合数目的子系统。所述子系统的实例展示于图35中的计算机系统10中。在一些实施例中，计算机系统包括单一计算机设备，其中子系统可为计算机设备的组件。在其它实施例中，计算机系统可包括具有内部组件的多个计算机设备，其各自为子系统。计算机系统可包括桌上型和膝上型计算机、平板计算机、移动电话和其它移动装置。

图35中所示的子系统经由系统总线75互连。展示其它子系统，如打印机74、键盘78、存储装置79、与显示器适配器82耦接的监视器76等。周边设备和输入/输出(I/O)装置(其与I/O控制器71耦接)可通过所属领域中已知的任何数目的构件(如输入/输出(I/O)端口77(例如USB、

))连接到计算机系统。举例来说，I/O端口77或外部接口81(例如以太网、Wi-Fi等)可用于将计算机系统10连接到广域网(如互联网)、鼠标输入装置或扫描仪。经由系统总线75进行的互连实现中央处理器73与各子系统通信以及控制来自系统存储器72或存储装置79(例如固定磁盘，如硬盘驱动器，或光盘)的多个指令的执行，以及子系统之间信息的交换。系统存储器72和/或存储装置79可体现为计算机可读介质。另一子系统为数据收集装置85，如摄影机、麦克风、加速计等。本文中所提及的任何数据可从一个组件向另一个组件输出且可向使用者输出。

计算机系统可包括多个相同组件或子系统，例如通过外部接口81、内部接口或经由可从一个组件连接到另一组件和移除的可移除存储装置连接在一起。在一些实施例中，计算机系统、子系统或设备可经网络通信。在这些情况下，可将一台计算机视为客户机且另一台计算机视为服务器，其中每一者可为同一计算机系统的一部分。客户机和服务器可各自包括多个系统、子系统或组件。

可以模块化或集成化方式，使用硬件电路(例如专用集成电路或现场可编程门阵列)和/或使用计算机软件与一般可编程处理器，以控制逻辑形式实施实施例的方面。如本文中所使用，处理器可包括单核处理器、同一个集成芯片上的多核处理器或单一电路板或网络硬件以及专用硬件上的多个处理单元。依据本文中提供的公开内容和教示，所属领域的一般技术人员将知道和了解使用硬件和硬件与软件的组合来实施本发明的实施例的其它方式和/或方法。

本申请案中所述的任何软件组件或功能可使用例如常规或面向对象技术，以软件代码形式实施，软件代码是由使用任何适合计算机语言(如Java、C、C++、C#、Objective-C、Swift)或脚本处理语言(如Perl或Python)的处理器执行。软件代码可以一系列指令或命令形式存储于计算机可读取介质上以用于存储和/或传输。适合的非暂时性计算机可读介质可包括随机存取存储器(RAM)、只读存储器(ROM)、磁性介质(如硬盘驱动器或软盘)或光学介质，如光盘(CD)或DVD(数字化通用光盘)、闪速存储器等。计算机可读介质可为此类存储或传输装置的任何组合。

此类程序也可使用适用于经由有线、光学和/或符合多种协议的无线网络(包括互联网)传输的载波信号来编码和传输。因此，计算机可读介质可使用由此类程序编码的数据信号建立。由代码编码的计算机可读介质可与相容装置一起封装或与其它装置分开提供(例如经由互联网下载)。任何此类计算机可读介质可驻存在单一计算机产品(例如硬盘驱动器、CD或整个计算机系统)上或其内，且可存在于系统或网络内的不同计算机产品上或其内。计算机系统可包括用于向使用者提供本文中所提及的任何结果的监视器、打印机或其它适合的显示器。

本文所描述的任何方法可完全或部分地使用计算机系统来进行，所述计算机系统包括一个或多个处理器，所述处理器可经配置以执行所述步骤。因此，实施例可针对经配置以执行本文所描述的任何方法的步骤的计算机系统，潜在地使用不同组件执行各别步骤或各别步骤组。尽管以带编号的步骤形式呈现，但本文中的方法的步骤可同时或在不同时间或以不同顺序执行。此外，这些步骤的一部分可与其它方法的其它步骤的一部分一起使用。此外，所有或部分步骤可为任选的。此外，任何方法的任何步骤可使用用于执行这些步骤的系统的模组、单元、电路或其它构件来执行。

可在不偏离本发明的实施例的精神和范围的情况下以任何适合的方式组合特定实施例的特定细节。然而，本发明的其它实施例可针对与各个别方面或这些个别方面的特定组合相关的特定实施例。

已出于说明和描述的目的呈现本发明的实例实施例的上述描述。其并不打算为穷尽性的或将本发明限制于所描述的精确形式，且根据以上教示，诸多修改和变化为可能的。

本文所提及的所有专利、专利申请案、公开案和描述皆以全文引用的方式并入以用于所有目的。不承认任一者为现有技术。

Claims

1.一种分析动物个体的生物样本的方法，所述生物样本包括来自所述个体的基因组和来自一种或多种其它基因组的不含细胞的DNA分子的混合物，所述方法包括：

分析来自所述生物样本的多个不含细胞的DNA分子，其中所述多个不含细胞的DNA分子中的一者的分析包括：

鉴别所述不含细胞的DNA分子于特定病毒基因组中的位置；和

在所述特定病毒基因组的一个或多个位点处测定所述不含细胞的DNA分子是否甲基化；

依据所述特定病毒基因组在一组一个或多个位点甲基化的多个不含细胞的DNA分子的一个或多个量来测量一个或多个混合物甲基化程度；

比较所述一个或多个混合物甲基化程度与由其它个体的至少两个群组测定的一个或多个参考甲基化程度，其中所述至少两个群组具有与所述特定病毒基因组相关联的不同类别，所述不同类别包括第一病状；和

依据所述比较，测定所述个体是否是具有所述第一病状的第一类别。

2.根据权利要求1所述的方法，其中所述至少两个群组的不同类别进一步包括第二病状，所述方法进一步包括：

依据所述比较测定所述个体是否是具有所述第二病状的第二类别。

3.根据权利要求2所述的方法，其中比较所述一个或多个混合物甲基化程度与多个参考甲基化程度，其包括第一参考甲基化程度和第二参考甲基化程度，其中所述第一参考甲基化程度用于测定所述个体是否是具有所述第一病状的第一类别，且其中所述第二参考甲基化程度用于测定所述个体是否是具有所述第二病状的第二类别。

4.根据权利要求3所述的方法，其中所述特定病毒基因组具有EB病毒且所述个体为人类，其中所述第一病状为鼻咽癌，且其中所述第二病状为传染性单核细胞增多症。

5.根据权利要求1所述的方法，其中所述第一类别为所述个体不具有所述第一病状。

6.根据权利要求1所述的方法，其中所述第一类别的测定包括测定所述第一病状的程度。

7.根据权利要求1所述的方法，其中所述特定病毒基因组为EB病毒且所述个体为人类，且其中所述第一病状为鼻咽癌。

8.根据权利要求1所述的方法，其中所述成组的一个或多个位点包括至少两个位点，且其中所述一个或多个混合物甲基化程度为跨越至少两个位点测定的一个混合物甲基化程度。

9.根据权利要求1所述的方法，其中所述一个或多个混合物甲基化程度包括N个混合物甲基化程度，N为大于一的整数，其中所述成组的一个或多个位点包括至少两个位点，且其中所述比较包括：

测量所述N个混合物甲基化程度与N个参考甲基化程度之间的差异；和

使用所述差异测定所述个体是否属于所述至少两个群组中的一者。

10.根据权利要求9所述的方法，其中使用所述差异测定所述个体是否属于所述至少两个群组中的一者包括进行层次聚类分析。

11.根据权利要求9所述的方法，其中针对多个预定区域中的一者测量所述N个混合物甲基化程度中的每一者。

12.根据权利要求11所述的方法，其中所述多个预定区域具有相同尺寸且跨越所述特定病毒基因组，且其中所述相同尺寸在50个碱基与1,000个碱基之间。

13.根据权利要求11所述的方法，其中所述多个预定区域中的每一者满足一个或多个准则，包括(1)相同群组中的多名个体的甲基化程度的差异和/或(2)一个群组中的个体与另一个群组中的个体之间的甲基化程度的差异。

14.根据权利要求1所述的方法，其中所述成组的一个或多个位点驻留在多个区域中，所述多个区域各自满足一个或多个准则，包括(1)相同群组中的多名个体的甲基化程度的差异和/或(2)一个群组中的个体与另一个群组中的个体之间的甲基化程度的差异。

15.根据权利要求1所述的方法，其中所述成组的一个或多个位点满足一个或多个准则，包括(1)相同群组中的多名个体的甲基化程度的差异和/或(2)一个群组中的个体与另一个群组中的个体之间的甲基化程度的差异。

16.根据权利要求1所述的方法，其中所述一个或多个混合物甲基化程度与由至少两个群组的其它个体测定的所述一个或多个参考甲基化程度的比较包括：

将所述一个或多个混合物甲基化程度输入机器学习模式中，所述机器学习模式使用由其它个体的至少两个群组测定的所述一个或多个参考甲基化程度训练。

17.根据权利要求1所述的方法，其进一步包括：

对于所述成组的一个或多个位点中的各位点：

测定在所述位点处甲基化的DNA分子的各别数目，由此测定在所述特定病毒基因组的所述成组的一个或多个位点甲基化的多个不含细胞的DNA分子的一个或多个量。

18.根据权利要求17所述的方法，其进一步包括：

进行所述多个不含细胞的DNA分子的甲基化检测测序法以获得序列读段；和

比对所述序列读段与所述特定病毒基因组以测定在所述成组的一个或多个位点中的各位点处甲基化的DNA分子的各别数目。

19.根据权利要求1所述的方法，其进一步包括：

进行所述多个不含细胞的DNA分子的甲基化检测分析法，作为测定所述多个不含细胞的DNA分子的位置和所述多个不含细胞的DNA分子是否在所述成组的一个或多个位点甲基化的一部分。

20.根据权利要求1所述的方法，其中所述不含细胞的DNA分子的位置的鉴别包括测定所述位置对应于所述成组的一个或多个位点中一个位点。

21.根据权利要求1所述的方法，其中共同分析一组多个不含细胞的DNA分子以测定在所述特定病毒基因组的所述成组的一个或多个位点甲基化的所述多个不含细胞的DNA分子的一个或多个量。

22.根据权利要求1所述的方法，其中所述多个不含细胞的DNA分子包括位于所述特定病毒基因组中的至少10个不含细胞的DNA分子。

23.根据权利要求1所述的方法，其中所述特定病毒基因组对应于EB病毒、人类乳头状瘤病毒或乙型肝炎病毒。

24.根据权利要求1所述的方法，其进一步包括：

对于样本中一组不含细胞的DNA分子中的每一者：

测量所述不含细胞的DNA分子的尺寸；和

鉴别所述特定病毒基因组中所述不含细胞的DNA分子的位置，所述成组的不含细胞的DNA分子的尺寸形成尺寸分布，所述样本为生物样本或包括来自个体的基因组和来自一种或多种其它基因组的不含细胞的DNA分子的混合物的不同样本；

测定所述尺寸分布的统计值；

比较所述统计值与由至少两个群组的其它个体测定的参考尺寸值；

依据所述统计值与所述参考尺寸值的比较来测定所述个体是否是具有所述第一病状的第二类别；和

使用所述第一类别和所述第二类别测定最终类别。

25.根据权利要求1所述的方法，其进一步包括：

测定样本中来源于所述特定病毒基因组的不含细胞的DNA分子的量，所述样本为生物样本或包括来自所述个体的基因组和来自所述一种或多种其它基因组的不含细胞的DNA分子的混合物的不同样本；

比较所述量与由所述至少两个群组的其它个体测定的参考值；

依据所述量与所述参考值的比较来测定所述个体是否是具有所述第一病状的第二类别；和

使用所述第一类别和所述第二类别测定最终类别。

26.根据权利要求1所述的方法，其进一步包括：

回应于所述第一类别为所述个体具有所述第一病状，向所述个体提供治疗以改善所述第一病状。

27.一种计算机产品，其包含存储多个指令的计算机可读介质，所述多个指令用于控制计算机系统执行根据权利要求1到26中任一项所述的方法的操作。

28.一种系统，其包含：

根据权利要求27的计算机产品；和

一个或多个处理器，其用于执行存储于所述计算机可读介质上的指令。

29.一种系统，其包含用于执行根据权利要求1到26中任一项所述的方法的构件。

30.一种系统，其经配置以执行根据权利要求1到26中任一项所述的方法。

31.一种系统，其包含分别执行根据权利要求1到26中任一项所述的方法的步骤的模组。