CN113227468A

CN113227468A - 感染性疾病的检测和预测

Info

Publication number: CN113227468A
Application number: CN201980083444.7A
Authority: CN
Inventors: S·贝尔科维奇; L·布莱尔; T·A·布劳坎普; P·J·尤格斯特; D·霍利蒙; D·K·洪; T·卡利; M·A·科瓦斯基; M·M·S·林德纳; M·J·罗森; D·斯派克; I·D·维尔凡
Original assignee: Karius Inc
Current assignee: Karius Inc
Priority date: 2018-11-21
Filing date: 2019-11-21
Publication date: 2021-08-06
Also published as: IL283247A; EP3884087A1; CA3118742A1; US20210403986A1; EP3884087A4; WO2020106987A1; BR112021009706A2

Abstract

本文提供了核酸文库的片段长度谱、生成核酸文库的片段长度谱的方法以及使用片段长度谱进行诊断和/或预后的方法。本申请进一步提供了用于确定受试者的感染阶段或定位位点的方法、组合物和试剂盒。

Description

感染性疾病的检测和预测

相关申请的交叉引用

本申请要求于2018年11月21日提交的题为“感染性疾病的检测和预测(Detectionand Prediction of Infectious Disease)”的美国临时申请第62/770,182号、于2018年11月21日提交的标题为“直接到文库的方法、系统和组合物(Direct-to-Library Methods,Systems and Compositions)”的美国临时申请第62/770,181号以及于2019年5月17日提交的题为“片段长度分布和使用此类片段的方法(Fragment Length Distributions andMethods of Using Such)”的美国临时申请第62/849,618号的优先权和利益，所述美国临时申请的全部内容出于所有目的通过引用并入本文。

技术领域

本发明涉及使用核酸文库中的片段长度分布来鉴定微生物、鉴定宿主-微生物生物学相互作用的类型、鉴定感染位点或定位位点、选择疗法或治疗、监测治疗、监测细胞毒性、检测移植排斥、监测免疫系统反应或活性、鉴定感染阶段、监测移植排斥，以及用于癌症诊断。

背景技术

对于许多微生物感染，第一阶段是定殖。在一些情况下，微生物感染可能进展为持续感染并且可能发展为侵入性疾病阶段。可能发展为侵入性疾病的微生物的实例包含巨细胞病毒(cytomegalovirus)、爱泼斯坦-巴尔二氏病毒(Epstein-Barr virus)、幽门螺杆菌(heliobacter pylori)，艰难梭菌(clostridium difficile)、某些性传播感染等。对于感染了这些类型的微生物的患者，鉴定矫正阶段、定殖阶段或侵入性阶段的感染可能是做出有效治疗决策的重要因素。定位位点也可能影响显著性和可用治疗选项。一些微生物相关的疾病会在被视为典型定殖的定殖不存在下发生。例如：肉毒杆菌(C.botulinum)摄入可能足以导致症状。

此外，无形阶段的感染通常在无症状或可能类似于多种其它疾病的非特异性症状的情况下存在。因此，此类感染通常诊断不出、误诊或症状性地治疗，从而允许微生物存留并且增加患者的感染将进展为侵入性疾病的风险。

幽门螺杆菌(Helicobacter pylori)(H.pylori)是人体中最常见的慢性细菌感染。据估计，世界上有50％的人口受到感染。在美国，大约30％成年人到50岁之前受到感染，而大多数个体在童年时期就受到感染。Chen,Y.和M.J.Blaser,《传染病杂志(J InfectDis)》,2008.198(4):p.553-60。幽门螺杆菌与包含慢性胃炎、消化性溃疡疾病、胃腺癌和淋巴瘤的胃肠(GI)病状之间存在强相关性。消化性溃疡疾病(PUD)是幽门螺杆菌感染的最常见的表现并且医师诊断的PUD的年发病率为0.1-0.19％。Sung,J.J.、E.J.Kuipers和H.B.El-Serag,《消化道药理学与治疗学(Aliment Pharmacol Ther)》,2009.29(9):p.938-46。据估计，被感染的个体终身发展消化性溃疡疾病的风险为10％-20％。Kuipers,E.J.等人,《消化道药理学与治疗学》,1995.9增刊2:p.59-69。

负责引起这些疾病表现的主要现象是响应于幽门螺杆菌的存在的粘膜炎症。然而，患有幽门螺杆菌的仅小比例的个体会具有与侵入性幽门螺杆菌相关的炎症。

当前，在患有幽门螺杆菌无形感染阶段的患者与具有有症状阶段或有进展为有症状阶段的风险的患者之间进行区分是有挑战性的。尽管幽门螺杆菌的大多数感染是无症状的，但具有侵入性疾病的患者可能开始经历持续性消化不良的症状，如腹痛、恶心或呕吐和缺乏食欲。然而，这些非特定症状也可能是由其它病状引起的，并且是健康人所经历的。一些医师会测试具有不可解释的持续性消化不良的所有患者。其它医生遵循当前指南，所述当前指南推荐对患有活跃PUD、文档化消化性溃疡历史或胃MALT淋巴瘤的幽门螺杆菌个体进行测试。Chey,W.D.等人,《美国胃肠病学杂志(Am J Gastroenterol)》,2007.102(8):p.1808-25。因此，遵循指南的医师将仅对有概率有幽门螺杆菌相关的疾病的患者进行测试，这可能会导致治疗不足。

当前存在几种用于测试幽门螺杆菌的方法。用于幽门螺杆菌的现有非侵入性测试方法包含粪便抗原测试、尿素呼吸测试和幽门螺杆菌血清学。然而，这些方法可能仅确定幽门螺杆菌是否存在，而不能确定幽门螺杆菌入侵或相关的炎症是否存在。一些从业者会基于来自非侵入性测试之一的阳性结果发起针对根除的主要治疗，这可能会导致过度治疗。

用于诊断幽门螺杆菌疾病的当前金标准是执行用于文档化(通过活检)由于幽门螺杆菌入侵引起的特定病理改变，如炎症、萎缩和肠化生的上内窥镜检查结合对活检样品中的幽门螺杆菌的检测。Dixon,M.F.等人,《幽门螺杆菌(Helicobacter)》,1997.2增刊1:p.S17-24。然而，存在来自此程序的严重风险和潜在并发症，包含有时可能需要输血的流血、感染和GI道撕裂。

总体而言，遵从幽门螺杆菌感染的主要治疗的约75％患者在首次治疗之后，基于对活跃感染的阴性幽门螺杆菌诊断测定而被视为是治愈的，所述活跃感染先前在发起治疗之前是阳性的。如果在一线疗法完成之后，对活跃胃肠幽门螺杆菌感染的诊断测试仍为阳性，则存在抗生素耐药性的幽门螺杆菌的可能性，并且在获得阴性诊断测试结果之前将需要另外的治疗。

可以使用下一代测序(NGS)来聚集关于样品的核酸含量的大量数据。所述数据可特别用于分析复杂样品，如临床样品中的核酸。然而，在使用NGS方法之前，通常必须对起始样品进行处理，所述起始样品会降低核酸恢复率、延迟测序、延迟临床调用的报告、引入误差、引入偏差并且通常会导致需要受控处置的化学废物。在许多情况下错误和偏差可能影响结果，如当在患者样品中存在低丰度核酸或靶核酸时。当前NGS方法关注特定读段或序列的丰度或相对丰度。进一步地许多测序文库制备方法和一些下一代测序系统产生了实验观察到的偏离内源性片段长度和片段长度分布的靶核酸片段长度和片段长度分布，特别是如利用可变polyA尾部标签、未说明的polyA尾部标签、酶的热失活、使用偏差提取方法或使用在靶核酸长度和GC含量的整个范围或部分范围内引入核酸长度、次级结构和/或GC偏差的其它量度的那些方法和系统。一些此类方法和系统即使在过程控制分子存在的情况下也防止对偏差的成功校正，条件是偏差很大，使得在相关长度和GC含量的整个或某些区段内恢复了不充足的靶核酸和/或过程控制分子，以用于最终分析。

已经使用了包含NGS的各种方法来鉴定宿主中存在的微生物，但是这些方法中的大多数方法都集中于微生物读段的丰度，而不是被读取的分子的物理性质。例如，许多提取方案、文库生成方案和测序方案都包含被设计成去除短核酸片段长度的步骤或过程。通常还牺牲短核酸片段长度，以最小化提取、文库生成或扩增的不期望的或不完全的副产物，如引物二聚体或衔接子二聚体。微生物的游离核酸是靶核酸的由于其片段长度在约100bp以下而特别容易受到短核酸的偏差和耗竭的影响的实例。

用于在无形或潜伏阶段感染与鉴定潜在病原体之后的其它阶段的感染之间进行分区分的当前方法有时可能需要侵入性活检程序。非侵入性测试，如血清学可以检测暴露于微生物的标志物，但不能指示感染是活跃的或有进展为侵入性疾病的风险。因此，需要用于确定患者的器官是否已被感染并且区分哪些患者将停留在定殖阶段，以及哪些患者有发展继发性侵入性疾病的风险的精确非侵入性方法。本公开提供了用于检测受试者的感染并且确定感染是否处于定殖或侵入性疾病阶段的非侵入性方法、组合物和试剂盒。本公开还提供了用于确定在受试者体内的定位位点和/或受试者的感染阶段的非侵入性方法。

发明内容

本申请的实施例提供了一种来自核酸文库的片段长度谱，其中通过无偏差方法、使得能够进行偏差校正的方法或具有可再现偏差的方法从样品中获得了用于制备所述核酸文库的核酸。在各个方面，所述核酸文库由初始样品生成，并且在制备所述核酸文库之前或在发起文库生成过程之前，不从初始样品中提取用于生成所述核酸文库的核酸。所述方法的各方面可以包括核酸测序，作为在核酸制备之后并且在确定靶核酸、多个靶核酸或核酸的子集在核酸文库内的片段长度谱之前的步骤。在实施例的各方面，片段长度谱包括一个或多个选自包括以下的组的特性：分布的形状、分段幅度、分段分数、峰形状、峰的数量、峰中的最大峰的位置、两个或更多个分段的片段计数比率、螺旋定相峰的高度、两个不同片段长度处的片段计数比率、两个不同片段长度范围内的片段计数的比率、分段内的片段的量、分段内的片段长度范围、两个或更多个分段的最大幅度的比率、以及读段的子集内的片段长度分布、分段内的斜率、峰宽度、分段内的计数衰减或增加的速率、峰的数量、分段内的计数衰减或增加的缩放比例。

提供了生成核酸文库的片段长度谱的方法。各个方法包括以下步骤：使用偏差校正的恢复方法或具有可再现偏差的方法由初始样品制备核酸文库，确定核酸文库内的多个片段长度的读段数量或归一化计数，确定核酸文库的一个或多个片段长度特性，以及使用一个或多个片段长度特性生成核酸文库的片段长度谱。在实施例的各方面，所述片段长度谱包括一个或多个选自包括以下的组片段长度特性：分布的形状、分段幅度、峰形状、两个或更多个分段的片段计数比率、螺旋定相峰的高度、两个不同片段长度处的片段计数比率、两个不同片段长度范围内的片段计数的比率、分段内的片段长度范围、两个或更多个分段的最大幅度的比率、峰中的最大峰的位置、峰的数量以及读段的子集内的片段长度分布。提供了生成核酸文库的片段长度谱的方法。各个方法包括由初始样品制备核酸文库的步骤，所述步骤包括以下步骤：任选地向所述初始样品中添加一种或多种过程控制分子以提供加标的初始样品，以及从所述加标的初始样品生成核酸文库，其中任选地在制备所述核酸文库之前不从所述初始样品中提取用于生成所述核酸文库的核酸。所述方法的各方面可以包括核酸测序，作为在核酸制备之后和确定片段长度谱之前的步骤。在所述核酸文库内生成靶核酸的片段长度谱的所述方法进一步包括以下步骤：确定所述核酸文库内的多个片段长度的读段数量，确定所述核酸文库的一个或多个片段长度特性，以及使用一个或多个片段长度特性生成所述核酸文库的片段长度谱。在实施例的各方面，所述片段长度谱包括一个或多个选自包括以下的组的片段长度特性：分布的形状、分段幅度、峰形状、峰的数量、峰中的最大峰的位置、两个或更多个分段的片段计数比率、螺旋定相峰的高度、两个不同片段长度处的片段计数比率、两个不同片段长度范围内的片段计数的比率、分段内的片段长度范围、两个或更多个分段的最大幅度的比率以及读段的子集内的片段长度分布。在某些方面，从所述初始样品生成所述核酸文库的所述步骤进一步包括以下步骤、由以下步骤组成或基本上由以下组成：使来自所述初始样品的核酸去磷酸化以产生一组去磷酸化的核酸，使所述去磷酸化的核酸变性以产生经变性的核酸，将3'端衔接子与所述经变性的核酸连接以产生经衔接的核酸，分离经衔接的核酸，将引物粘接到所述经衔接的核酸，以及用聚合酶扩展引物以生成互补链，连接5'端衔接子，洗脱所述链以及扩增所述互补链。所述方法的各方面可以包括核酸测序，作为在核酸制备之后和确定片段长度谱之前的步骤。在各个实施例中，读段数量是归一化的读段数量。在一些实施例中，片段长度谱是针对所述核酸文库中的读段的至少一个子集。在此类实施例中，所述方法进一步包括以下步骤：鉴定所述核酸文库内的读段的至少一个子集，以及确定读段的每个所选子集内的片段长度分布。在一些实施例中，生成所述片段长度谱的步骤进一步包括使用两个或更多个片段长度特性。

提供了鉴定样品中存在的微生物的方法。鉴定或表征样品中存在的微生物的方法包括以下步骤：从生成于所述样品并且与微生物参考序列比对的核酸文库生成用于测序读段的片段长度谱，将所述片段长度谱与一个或多个微生物的参考片段长度谱进行比较，以及如果来自所述样品的所述片段长度谱与微生物的参考片段长度谱相似，则将所述微生物鉴定为存在于所述样品中。所述方法的各方面包括比较来自核酸文库的靶序列的片段长度谱。在各个实施例中，片段长度谱可以指示所述微生物是以病原体或共生微生物的形式存在。在所述方法的各方面，生成所述核酸文库的片段长度谱包括以下步骤：由初始样品制备核酸文库，对所述核酸文库内的多个片段长度的读段数量进行定量；确定所述核酸文库的或读取所述核酸文库的至少一个子集的一个或多个片段长度特性，以及使用一个或多个片段长度特性生成所述核酸文库或读段的至少一个子集的片段长度谱。由初始样品制备核酸文库的所述步骤进一步包括以下步骤：向所述初始样品中添加一种或多种过程控制分子以提供加标的初始样品，以及从所述加标的初始样品生成核酸文库，其中在制备所述核酸文库之前不从所述初始样品中提取用于生成所述核酸文库的核酸。所述方法的各方面可以包括核酸测序，作为在核酸制备之后和确定片段长度谱之前的步骤。在实施例的各方面，所述片段长度谱包括一个或多个选自包括以下的组的片段长度特性：分布的形状、分段幅度、峰形状、峰的数量、所述峰中的所述最大峰的位置、两个或更多个分段的片段计数比率、螺旋定相峰的高度、两个不同片段长度处的片段计数比率、两个不同片段长度范围内的片段计数的比率、分段内的片段长度范围、两个或更多个分段的最大幅度的比率以及读段的子集内的片段长度分布。在所述方法的各个方面中，所述片段长度谱包括至少一个选自包括以下的组的片段长度特性：两个或更多个分段的片段计数比率、峰形状、峰宽度、分段内的计数衰减或增加的速率、峰的数量、分段内的计数衰减或增加的缩放比例、峰中的最大峰的位置。

提供了确定受试者体内的定位位点的方法。所述方法包括以下步骤：生成由所述样品生成的核酸文库或整个核酸文库中的靶核酸的片段长度谱，将所述片段长度谱与一个或多个源位点的参考片段长度谱进行比较，以及如果所述样品中的所述片段长度谱与第一源位点的片段长度谱相似，则预测所述第一位点为定位位点，如果所述样品中的所述片段长度谱与来自第二源位点的片段长度图谱相似，则预测所述第二位点为定位位点。在所述方法的实施例中，生成所述核酸文库的一个或多个片段长度谱包括以下步骤：由初始样品制备核酸文库，对所述核酸文库内的多个片段长度的读段数量进行定量，使用一个或多个片段长度特性生成核酸文库或整个核酸文库中的靶核酸的片段长度谱。在所述方法的实施例中，由初始样品制备核酸文库进一步包括以下步骤：向所述初始样品中添加一种或多种过程控制分子以提供加标的初始样品，以及由所述加标的初始样品生成核酸文库，其中在制备所述核酸文库之前不从所述初始样品中提取用于生成所述核酸文库的核酸。所述方法的各方面可以包括核酸测序，作为在核酸制备之后和确定片段长度谱之前的步骤。在实施例的各方面，所述片段长度谱包括一个或多个选自包括以下的组的片段长度特性，所述一种或多种片段长度特性：分布的形状、分段幅度、峰形状、峰的数量、所述峰中的所述最大峰的位置、两个或更多个分段的片段计数比率、螺旋定相峰的高度、两个不同片段长度处的片段计数比率、两个不同片段长度范围内的片段计数的比率、分段内的片段长度范围、两个或更多个分段的最大幅度的比率、峰宽度、分段内的计数衰减或增加的速率、峰的数量、分段内的计数衰减或增加的缩放比例以及读段的子集内的片段长度分布。在所述方法的各方面中，所述定位位点选自包括以下、由以下组成或基本上由以下组成的源位点的组：深部组织、肺部、肝脏、骨骼、肾脏、脑、心脏、窦、GI道、脾脏、皮肤、关节、耳朵、鼻子、口、血流和血液。

提供了监测受试者体内的移植物状态的方法。所述监测移植物状态的方法包括以下步骤：从获得自所述受试者的样品生成来自核酸文库的基线片段长度谱；生成从获得自所述受试者的第二样品生成的核酸文库的第二片段长度谱；以及将所述第二片段长度谱与所述基线片段长度谱进行比较。如果所述第二片段长度谱与所述基线片段长度谱不同，则对所述受试者内部施用增加量的抗排斥疗法，其中在施用所述抗排斥疗法之后，具有移植物的受试者体内排斥的风险降低。如果所述第二片段长度谱与所述基线片段长度谱相似，则维持或减少抗排斥疗法，其中所述抗排斥疗法在所述受试者体内的副作用风险低于所述受试者接受增加量的所述抗排斥疗法的副作用风险。所述方法的各方面包括以下步骤：将来自获得自具有移植物的受试者的样品的核酸文库或整个文库中的靶核酸的片段长度谱进行比较，以及将所述谱与参考片段长度谱进行比较。

提供了监测施用于受试者的化合物的毒性的方法。所述方法包括以下步骤：生成由获得自所述受试者的样品制备的所述核酸文库中的核酸文库或靶核酸的片段长度谱，以及将所述片段长度谱与一个或多个参考片段长度谱进行比较。在所述方法的各方面，所述受试者患有癌症、有患癌症的风险或表现出癌症相关的症状。在所述方法的各方面，所述一个或多个参考片段长度谱是从获得自暴露于所述化合物的受试者或细胞的核酸文库生成的。在所述方法的各方面，所述一个或多个参考片段长度谱包括基线片段长度谱。在所述方法的各方面，所述化合物是化学治疗剂。在所述方法的实施例中，所述生成核酸文库的片段长度谱的步骤包括以下步骤：使用偏差校正的恢复方法由初始样品制备核酸文库；确定所述核酸文库内的多个片段长度的读段的数量；确定所述核酸文库的一个或多个片段长度特性；以及使用一个或多个片段长度特性生成所述核酸文库的片段长度谱。所述方法的各方面可以包括核酸测序，作为在核酸制备之后和确定片段长度谱之前的步骤。在实施例的各方面，所述片段长度谱包括一个或多个选自包括以下的组的片段长度特性：分布的形状、分段幅度、峰形状、两个或更多个分段的片段计数比率、螺旋定相峰的高度、两个不同片段长度处的片段计数比率、两个不同片段长度范围内的片段计数的比率、分段内的片段长度范围、两个或更多个分段的最大幅度的比率以及读段的子集内的片段长度分布。在所述方法的实施例中，生成所述核酸文库的片段长度谱包括由初始样品制备核酸文库的步骤，所述步骤进一步包括：向所述初始样品中添加一种或多种过程控制分子以提供加标的初始样品，以及从所述加标的初始样品生成核酸文库，其中在制备所述核酸文库之前不从所述初始样品中提取用于生成所述核酸文库的核酸；对核酸文库内的多个片段长度的读段数量进行定量；确定所述核酸文库的一个或多个片段长度特性；以及使用一个或多个片段长度特性生成所述核酸文库的片段长度谱。在实施例的各方面，所述片段长度谱包括一个或多个选自包括以下的组的片段长度特性：分布的形状、分段幅度、峰形状、两个或更多个分段的片段计数比率、螺旋定相峰的高度、两个不同片段长度处的片段计数比率、两个不同片段长度范围内的片段计数的比率、分段内的片段长度范围、两个或更多个分段的最大幅度的比率以及读段的子集内的片段长度分布。

本发明涉及预测存在于宿主体内的生物(或多种生物)产生局部或全身性环境改变或侵入器官或解剖系统，对健康具有实质负面结果的风险的方法。如果生物穿过屏障或从一个器官或解剖结构易位到另一个，侵入超出其在定殖状态下占据的组织层的结构以产生局部侵入，则所述生物是侵入性的，其会改变结构的环境使得其对结构产生显著负面影响或导致DNA突变或发炎，或者其另外压垮宿主的免疫系统。

在某些实施例中，风险水平基于宿主体内的生物相比于无症状对照或感染对照的丰度。在其它实施例中，丰度是阈值或范围。在又其它实施例中，基于以下中的一个或多个将风险水平计算为临床决策评分：生物的丰度、患者的临床历史、疾病的慢性化、基因生物标志物因素和患者特性(如年龄、性别等)、片段长度分布谱以及片段长度分布谱特性。

在一方面，提供了一种确定疑似患有微生物感染的受试者的感染阶段的方法，所述方法包括：

(a)对来自所述生物样品的核酸执行高通量测序；

(b)执行生物信息学分析以鉴定存在于所述生物样品中的微生物核酸序列；以及

(c)计算所述核酸的测量结果并且将所述测量结果与对照进行比较，由此确定在所述生物样品中鉴定的任何微生物的感染阶段。

在一些实施例中，所述方法进一步包括选自由以下组成的组的一个或多个步骤：(a)从获得自所述受试者的生物样品的一部分提取核酸，以及(b)添加合成核酸加标物(spike-in)。

在一个实施例中，步骤(c)的测量结果选自游离微生物核酸序列的绝对丰度、核酸序列的片段长度的分布、核酸片段长度分布谱的特性或其组合。在另一个实施例中，步骤(c)的测量即如果是靶病原体的绝对丰度和片段长度的分布。

在第二实施例中，所述受试者具有感染症状或有感染风险。

在第三实施例中，感染阶段是无形期、有症状感染期、治疗期或根除阶段。在第四实施例中，所述方法进一步包括随时间推移重复所述方法以监测感染、感染阶段、对感染进行的治疗的功效或检测感染的发作。在各方面，所述方法可以进一步包括改变治疗方案。

在第五实施例中，所述方法进一步包括基于确定的感染阶段向所述受试者施用治疗方案。

在第六实施例中，高通量测序测定是下一代测序、大规模平行测序、焦磷酸测序、逐次合成测序、单分子实时测序、聚合酶克隆测序、DNA纳米球测序、直升机单分子测序、纳米孔测序、桑格测序(Sanger sequencing)、鸟枪测序或Gilbert测序。

在第七实施例中，所述样品是血液、血浆、血清、脑脊液、滑液、支气管-肺泡灌洗液、痰、尿液、粪便、唾液或鼻样品。

在第八实施例中，方法进一步包括鉴定靶病原体的一个或多个抗生素耐药性基因。

在第九实施例中，方法进一步包括鉴定受试者的基因组DNA中的至少一种风险因素。

在第十实施例中，核酸是游离DNA和/或游离RNA。核酸可以包括游离病原体DNA。核酸可以包括游离病原体RNA。核酸可以包括游离微生物DNA。核酸可以包括游离微生物RNA。

在第十一实施例中，靶病原体是幽门螺杆菌、艰难梭菌、流感嗜血杆菌(haemophilus influenza)、沙门氏菌(salmonella)、肺炎链球菌(streptococcuspneumoniae)、巨细胞病毒(cytomegalovirus)、肝炎病毒B、肝炎病毒C、人乳头瘤病毒、爱泼斯坦-巴尔二氏病毒、人T细胞淋巴瘤病毒1、梅克尔细胞多瘤病毒(Merkel cellpolyomavirus)、卡波氏肉瘤病毒(Kaposi's sarcoma virus)、人疱疹病毒(humanHerpesvirus)8、衣原体病毒(chlamydia)、淋病(gonorrhea)、梅毒(Syphilis)或毛滴虫病。

在第十二实施例中，受试者先前进行了另一测试或其它临床测试。在一个实施例中，其它临床测试是粪便抗原测试、尿素呼吸测试、血清学、脲酶测试、组织学、细菌培养和敏感性测试、活检或内窥镜检查。

在第十三实施例中，靶病原体核酸是DNA和/或RNA。病原体核酸包括游离DNA。核酸包括病原体游离RNA。

在第十四实施例中，合成核酸加标物包括样品的至少1000个独特合成核酸，其中所述1000个独特合成核酸中的每一个包括(i)识别标签；以及(ii)包含至少5个退化碱基的可变区。在另外的实施例中，所述方法进一步包括

(a)任选地从所述加标的样品中提取核酸；

(b)生成加标的样品文库；

(c)任选地富集所述加标的样品文库；

(d)执行高通量测序测定，以从所述加标的样品文库获得序列读段；

(e)计算1,000个独特合成核酸的多样性损失值；以及

(f)计算所述核酸的测量结果并且将所述测量结果与对照进行比较，由此确定所述受试者的感染阶段。

在又另外的实施例中，所述至少1,000个独特合成核酸是如U.S.9,976,181中所述的合成核酸。

在另一方面，存在一种确定受试者的幽门螺杆菌的感染阶段的方法，所述方法包括：

a)任选地，从获得自所述受试者的生物样品中提取游离核酸；

b)向所述样品中添加合成核酸加标物；

c)对来自所述生物样品的核酸执行高通量测序；

d)执行生物信息学分析以鉴定存在于所述生物样品中的幽门螺杆菌核酸序列；以及

e)计算所述幽门螺杆菌核酸的测量结果并且将所述测量结果与对照进行比较，由此确定所述受试者的幽门螺杆菌的感染阶段。

在第一实施例中，所述测量结果是幽门螺杆菌的绝对丰度或片段长度的分布或其组合。

在一个实施例中，所述测量结果是幽门螺杆菌的绝对丰度。在另一实施例中，所述测量结果是幽门螺杆菌的片段长度的分布。在又另一实施例中，所述测量结果是幽门螺杆菌的绝对丰度和片段长度的分布。在各个实施例中，所述方法的步骤可以以变化的顺序执行。

在第二实施例中，所述受试者具有幽门螺杆菌感染的症状或有幽门螺杆菌感染的风险。

在一个实施例中，感染阶段是无形期、有症状感染期、治疗期或根除阶段。

在第三实施例中，所述方法进一步包括随时间推移重复所述方法以监测感染、对感染进行的治疗的功效。

在一个方面，存在一种确定受试者的幽门螺杆菌的感染阶段的方法，所述方法包括：

(a)通过从受试者获得包括游离核酸的样品并且添加一种或多种过程控制分子来制成加标的样品；

(b)任选地，从所述加标的样品中提取所述核酸；

(c)生成加标的样品文库，其中所述生成包括(i)将衔接子与核酸连接；以及(ii)扩增；

(d)任选地，富集所述加标的样品文库；

(e)执行高通量测序测定，以从所述加标的样品文库获得序列读段；

(f)计算1,000个独特合成核酸的多样性损失值；以及

(g)计算所述游离核酸的测量结果并且将所述测量结果与对照进行比较，由此确定所述受试者的幽门螺杆菌的感染阶段。

在第二实施例中，高通量测序测定是下一代测序、大规模平行测序、焦磷酸测序、逐次合成测序、单分子实时测序、聚合酶克隆测序、DNA纳米球测序、直升机单分子测序、纳米孔测序、桑格测序、鸟枪测序或Gilbert测序。

在第三实施例中，样品是血液、血浆、血清、脑脊液、滑液、支气管-肺泡灌洗液、尿液、粪便、唾液或鼻样品。

在第四实施例中，方法进一步包括向所述受试者施用治疗方案，其中所述治疗可以在感染周期的任何阶段施用。

在第五实施例中，方法进一步包括鉴定靶病原体的一个或多个抗生素耐药性基因。

在第六实施例中，游离核酸是DNA和/或RNA。核酸包括游离病原体DNA。核酸包括游离病原体RNA。

在第十二实施例中，受试者先前进行了另一种其它临床测试。在一个实施例中，其它临床测试是粪便抗原测试、尿素呼吸测试、血清学、脲酶测试、组织学、细菌培养和敏感性测试、活检或内窥镜检查。

在第八实施例中，靶病原体核酸是DNA和/或RNA。病原体核酸包括游离DNA。核酸包括病原体游离RNA。靶病原体核酸包括游离DNA和游离RNA的混合物。

另一方面提供了一种确定被病原体感染的受试者体内的定位位点的方法，所述方法包括：

(a)获得来自受试者的包括核酸的样品，以及添加一种或多种过程控制分子，从而生成加标的样品；

(b)任选地，从所述加标的样品中提取所述核酸；

(c)从所述加标的样品生成文库，其中生成包括将衔接子与核酸连接并且扩增；

(d)任选地，富集所述加标的样品；

(e)通过比较参考基因组来执行高通量测序测定，以从所述加标的样品获得序列读段；

(f)任选地，计算多样性损失值；以及

(g)计算所述核酸的测量结果并且将所述测量结果与对照进行比较，由此确定所述受试者的定位位点。

在第一实施例中，所述测量结果是靶病原体的绝对丰度或片段长度的分布或其组合。在一个实施例中，所述测量结果是靶病原体的绝对丰度。在另一实施例中，所述测量结果是靶病原体的片段长度的分布。在又另一实施例中，所述测量结果是靶病原体的绝对丰度和片段长度的分布。

在第二实施例中，所述定位位点是组织。在另外的实施例中，所述定位位点是组织类型。在又另外的实施例中，所述定位位点是器官。在另一另外的实施例中，所述定位位点是包括器官的组织类型。

在第三实施例中，所述受试者具有感染的症状或有感染的风险。在另外的实施例中，所述受试者先前被鉴定为感染了幽门螺杆菌、艰难梭菌、流感嗜血杆菌、沙门氏菌、肺炎链球菌、巨细胞病毒、肝炎病毒B、肝炎病毒C、人乳头瘤病毒、爱泼斯坦-巴尔二氏病毒、人T细胞淋巴瘤病毒1、梅克尔细胞多瘤病毒、卡波氏肉瘤病毒、人疱疹病毒8、衣原体病毒、单纯疱疹病毒、奈瑟氏菌属、密螺旋体属或毛滴虫属。

在第四实施例中，随时间推移重复所述方法以监测感染、对感染进行的治疗的功效。

在第六实施例中，所述至少1,000个独特合成核酸是如U.S.9,976,181中所述的合成核酸。

在第七实施例中，高通量测序测定是下一代测序、大规模平行测序、焦磷酸测序、逐次合成测序、单分子实时测序、聚合酶克隆测序、DNA纳米球测序、直升机单分子测序、纳米孔测序、桑格测序、鸟枪测序或Gilbert测序。

在第八实施例中，样品是血液、血浆、血清、脑脊液、滑液、支气管-肺泡灌洗液、尿液、粪便、唾液、鼻或组织样品。

在第九实施例中，方法进一步包括鉴定病原体的一个或多个抗生素耐药性基因。

在第十实施例中，方法进一步包括鉴定受试者的基因组DNA中的风险因素。

在第十一实施例中，靶病原体核酸是DNA和/或RNA。病原体核酸包括游离DNA。核酸包括病原体游离RNA。靶病原体核酸包括游离DNA和游离RNA的混合物。

在第十二实施例中，游离核酸是DNA和/或RNA。核酸包括游离病原体DNA。核酸包括游离RNA。核酸包括游离病原体RNA。核酸包括游离受试者RNA。核酸包括病原体和受试者游离RNA。

(a)提供来自所述受试者的包括核酸的样品；

(b)向所述样品中添加至少1000个独特合成核酸，从而生成加标的样品；

(c)从所述加标的样品生成文库；

(d)执行高通量测序测定，以从所述加标的样品获得序列读段；

(e)基于所述序列读段确定所述受试者的所述感染阶段。

在一个实施例中，所述样品选自血液、血浆、血清、脑髓液、滑液、支气管-肺泡灌洗液、尿液、粪便、唾液、鼻和组织样品。所述样品是血液、血浆、血清、脑髓液或滑液。

在另外的实施例中，高通量测序测定是下一代测序、大规模平行测序、焦磷酸测序、逐次合成测序、单分子实时测序、聚合酶克隆测序、DNA纳米球测序、直升机单分子测序、纳米孔测序、桑格测序、鸟枪测序或Gilbert测序。

在另一另外的实施例中，感染阶段的确定基于靶病原体的绝对丰度或片段长度分布谱或其组合。在一个实施例中，所述确定基于靶病原体的绝对丰度。在另一实施例中，所述确定基于靶病原体的片段长度的分布。在又另一实施例中，所述确定基于靶病原体的绝对丰度和片段长度的分布。

本申请的一个方面提供了一种确定受试者的感染阶段的方法。所述方法包括以下步骤：生成从获得自所述受试者的样品生成的核酸文库的片段长度谱；将所述片段长度谱与参考片段长度谱进行比较；以及如果来自所述样品的所述片段长度谱与来自有症状受试者的片段长度谱相似，则确定感染阶段指示所述受试者表现出微生物相关的症状的风险增加，并且如果来自所述样品的所述片段长度谱与来自无症状受试者的片段长度谱相似，则确定感染处于无形阶段。在一方面，所述片段长度谱是非微生物宿主核酸文库片段长度谱。在各个方面，所述方法进一步包括以下步骤：确定来自所述受试者的样品中的至少一种显著微生物的丰度；将丰度与阈值进行比较；以及将所述片段长度谱与参考片段长度谱进行比较。如果来自所述样品的所述片段长度谱与来自有症状受试者的片段长度谱相似，并且所述丰度相当于或高于阈值，则确定感染阶段指示所述受试者表现出微生物相关的症状的风险增加。如果来自所述样品的片段长度谱与无症状受试者的片段长度谱相似，则确定感染处于无形阶段。在一方面，所述方法进一步包括向确定了表现出微生物相关的症状的风险增加的受试者施用抗微生物剂的步骤。

一种确定疑似患有微生物感染的受试者的感染阶段的方法，所述方法包括对来自生物样品的核酸执行高通量测序，执行生物信息学分析以鉴定存在于所述生物样品中的核酸序列，以及计算所述核酸的测量结果，以及将所述测量结果与对照进行比较，从而确定在所述生物样品中鉴定的微生物的感染阶段。所述方法可以进一步包括选自由以下组成的组的一个或多个步骤：(i)从获得自所述受试者的生物样品中提取核酸，以及(ii)向获得自所述受试者的生物样品中添加合成核酸加标物。在一方面，所述核酸包括微生物核酸、宿主核酸或微生物核酸和宿主核酸两者。在一方面，所述核酸包括游离微生物核酸、宿主核酸或微生物和宿主核酸两者。在一方面，所述测量结果选自由核酸的绝对丰度、核酸的片段长度分布谱以及绝对丰度和片段长度分布谱两者组成的测量结果的组。在一方面，感染阶段选自感染的无形阶段、定殖阶段、有症状阶段、活跃阶段、侵入性疾病阶段、消退阶段、治疗期或根除阶段。在一方面，所述方法进一步包括基于确定的感染阶段向受试者施用治疗方案。所述方法可以进一步包括随时间推移重复所述方法以监测感染或对感染进行的治疗的功效。在一些实施例中，所述微生物选自包括以下的组：幽门螺杆菌、艰难梭菌、流感嗜血杆菌、沙门氏菌、肺炎链球菌、巨细胞病毒、肝炎病毒B、肝炎病毒C、人乳头瘤病毒、爱泼斯坦-巴尔二氏病毒、人T细胞淋巴瘤病毒1、梅克尔细胞多瘤病毒、卡波氏肉瘤病毒、人疱疹病毒8、衣原体病毒、单纯疱疹病毒、奈瑟氏菌属、密螺旋体属或毛滴虫属。在各方面，添加合成核酸加标物进一步包括通过从受试者获得包括游离核酸的样品并且添加一种或多种过程控制分子来制成加标的样品；从所述加标的样品中提取核酸；生成加标的样品文库；富集所述加标的样品文库；执行高通量测序测定，以从所述加标的样品文库获得序列读段；计算1,000个独特合成核酸的多样性损失值；以及计算所述游离核酸的测量结果并且将所述测量结果与对照进行比较，由此确定所述受试者的感染阶段。

在一个实施例中，本应用提供了一种确定受试者的幽门螺杆菌的感染阶段的方法，所述方法包括从获得自所述受试者的生物样品中提取核酸，向所述样品中添加合成核酸加标物，对来自所述生物样品的核酸执行高通量测序，执行生物信息学分析以鉴定存在于生物样品中的游离幽门螺杆菌核酸序列，以及计算所述游离幽门螺杆菌核酸的测量结果，以及将所述测量结果与对照进行比较，由此确定所述受试者的幽门螺杆菌的感染阶段。

在一个实施例中，本应用提供了一种确定受试者的幽门螺杆菌的感染阶段的方法，所述方法包括：通过从受试者获得包括游离核酸的样品并且添加一种或多种过程控制分子来制成加标的样品；从所述加标的样品中提取核酸；生成加标的样品文库，其中所述生成包括(i)将衔接子与核酸连接；以及(ii)扩增；任选地，富集所述加标的样品文库；执行高通量测序测定，以从所述加标的样品文库获得序列读段；计算1,000个独特合成核酸的多样性损失值；以及计算所述游离核酸的测量结果并且将所述测量结果与对照进行比较，由此确定所述受试者的幽门螺杆菌的感染阶段。

一个实施例提供了确定受病原体感染的受试者体内的定位位点的方法，所述方法包括从受试者获得包括核酸的样品，向初始样品中添加一种或多种过程控制分子以提供加标的样品，任选地从所述加标的样品中提取所述核酸，从所述加标的样品生成文库，其中生成包括将衔接子与所述核酸连接并且扩增；任选地，富集所述加标的样品，通过比较参考基因组来执行高通量测序测定，以从所述加标的样品获得序列读段；确定所述核酸文库的一个或多个片段长度特性，生成由所述样品生成的核酸文库的片段长度谱，将所述片段长度谱与一个或多个源位点的参考片段长度谱进行比较，以及如果来自所述样品的所述片段长度谱与来自第一源位点的片段长度谱相似，则将所述第一位点鉴定为定位位点；如果来自所述样品的所述片段长度谱与来自第二源位点的片段长度谱相似，则将所述第二位点鉴定为定位位点。

一方面提供了一种确定受病原体感染的受试者体内的定位位点的方法，所述方法包括从受试者获得包括游离核酸的样品，以及添加一种或多种过程控制分子，由此生成加标的样品；任选地从所述加标的样品中提取核酸；从所述加标的样品生成文库，其中生成包括将衔接子与所述核酸连接并且扩增；任选地，富集所述加标的样品；通过比较参考基因组来执行高通量测序测定，以从所述加标的样品获得测序读段；计算1000个独特合成核酸的多样性损失值；以及计算所述游离核酸的测量结果并且将所述测量结果与对照进行比较，由此确定所述受试者的定位位点。

通过引用并入

本说明书中所提到的所有出版物、专利和专利申请均通过引用以其整体在此并入，其程度就如同明确且单独地指明了每个单独出版物、专利或专利申请通过引用并入。

附图说明

本发明的新颖特征在所附权利要求书中具体地阐述。通过参考阐述了说明性实施例的以下详细说明，将获得对本发明的特征和优点的更好理解，在所述实施例中利用了本发明的原理，并且在其附图中：

图1描绘了本公开的方法。

图2描绘了本公开的无细胞方法。

图3示出了示例性感染的示意图。

图4描绘了本公开的感染位点检测方法之一。

图5描绘了用于确定多样性损失值的方法的基本方案。

图6示出了终止于针对幽门螺杆菌的阳性诊断的治疗的诊断性工作流。

图7描绘了被编程或另外被配置为实施本文提供的方法的计算机控制系统。

图8描绘了来自在核酸文库所生成的三种不同人类血浆样品中检测到的三种微生物的读段的片段长度的分布。附图中的关注的片段长度特性是分布形状。每个图提供了不同分布形状的实例。在每个图中，y轴线上示出了归一化的读段数量，并且x轴线指示片段长度。左图提供了“50碱基对峰”分布形状的实例。中间图提供了短类指数分布形状的实例。右图提供了复杂分布形状的实例，其中此特定复杂分布形状包括指数衰减状分布形状和单个峰50个碱基对分布的各方面。公认的是，所描绘的每种分布形状反映了各自由不同人类血浆样品生成的核酸文库中的片段长度的分布并且提供了所指示的分布形状类型的一个实例。在本文其它地方描述了其它分布形状。其它分布形状也是可能的。

图9提供了涉及分布分段幅度和分段幅度比率的片段长度特性的实例。图描绘了来自三种不同临床样品的相同病原体(热带假丝酵母(Candida tropicalis))的读段的片段长度的分布。在每个图中，y轴线上示出了归一化的读段数量，并且x轴线指示片段长度。出于此图的目的，将临床样品编号为1到3。与临床样品3中的热带假丝酵母相比，临床样品1和2中的热带假丝酵母示出了相对于50bp峰具有更高长分数(>65bp)的分布，而所有片段长度谱具有大约45-50bp的清晰峰。短读段(<40bp)相对于50bp峰的比率在三个样品之间也有所变化。分布分段振幅和分段幅度比率(<40bp到50bp峰和并且>65bp到50bp峰)反映了从一个实验获得的结果。

图10描绘了来自两种临床样品的WU多瘤病毒的片段长度分布。左图示出了单个峰为50个左右碱基对(bp)片段长度的分布。右图示出了包括指数分布形状贡献、峰和长分数贡献的组合模式。不受机制限制，短指数状分数可能表明通过与生成“50bp峰”内的片段的过程不同的过程而在人类基因组中掺入了病毒或使微生物核酸降解。

图11提供了涉及呈不同分布的片段计数比率的片段长度特性的实例。图描绘了“50bp峰”分数中的片段计数与短类指数分数(读段密度为40-55bp/读段密度为23-35bp，x轴线)相对于归一化计数(y轴线)的比率。添加了相同的人类和人类线粒体分数，以供参考。比率在王国类型之间变化。细菌读段的比率变化很大，而真菌读段的比率示出双峰模式。还示出了病毒读段的比率。

图12提供了母体(虚线)和胎儿(实线)游离核酸的片段长度分布的汇总。“50bp峰”在胎儿分布中显得较窄，这指示在来自胎儿核酸的峰内片段长度范围较小。另外，与核小体长度片段(例如150-200bp区)相比，“50bp峰”区中的胎儿与母体读段的比率更高。

图13提供了以病原体形式或以共生微生物形式存在的微生物的片段长度分布的汇总。在基于端部可修复双链DNA的测定中，病原体的片段长度趋向于比共生微生物更长。

图14提供了病原体在从通过尿液或血液培养确认感染的样品生成的核酸文库中的片段长度分布的汇总。相比于在来自利用正交尿液培养物的样品的核酸文库中检测到的病原体，在来自利用正交血液培养测试的样品的核酸文库中检测到的病原体示出更高的长读率。读段长度在x轴线上示出；读段的分数在y轴线上示出。在图中示出了尿液培养物样品的平均值(浅实线)和血液培养样品的平均值(浅虚线)，以及尿液与血液之间的差异(粗虚线)。

图15汇总了从无症状样品(AP)、诊断阳性样品(DP)、利用正交方法确认的诊断阳性样品(DP_c)和利用正交NGS方法确认的诊断阳性样品(DP_NGS)以及利用正交非NGS微生物方法确认的诊断阳性样品(DP_micro)的数据，如所指示的。图15A提供了在所指示的样品类型中以显著水平存在的微生物的以分子每微升(MPM)为单位的丰度的绘图。图15B提供了在无症状样品(AP)和诊断阳性样品(DP)中，存在于两种类型的样品中的相同物种的微生物的MPM丰度的绘图。图15C提供了从此研究中包含的诊断阳性样品获得的文库的代表性TapeStation电泳图的实例。数据是使用HS TapeStation磁带D1000的TapeStation上，利用装载缓冲液和DNA梯根据制造商的说明获得的。图中指出了较高、较低DNA标志物。在绘图中指出了所关注的区在片段长度范围内的子集的朝向(注意，文库的电泳图中的片段长度反映了完全经衔接的核酸分子的长度，而不是内源原始序列的实际长度)。文库片段长度示出在x轴线上；归一化强度(FU)示出在y轴线上。图15D提供了在此研究中包含的无症状样品(AP)和诊断阳性样品(DP)的衔接子序列修整步骤之后，映射到人类参考物并且长于64bp(即这些读段中的大多数具有核小体长度)的测序读段的摩尔分数的绘图。图15E提供了在此研究中的每个无症状(AP)和诊断阳性(DP)样品中以显著水平存在的微生物的最大MPM丰度与如图15D的标题中所定义的并且存在于相同样品中的长人类读段的分数的汇总比较。在此分析中包含了仅测定检测出显著水平的微生物的AP和DP样品。箭头指示了示出分别高于3000和0.4的最大MPM和长人类读段分数的AP样品。图15F提供了无症状样品(AP)和诊断阴性样品(DN)样品中以显著水平存在的微生物的最大MPM丰度与如图15D中所定义的并且存在于相同样品中的长人类读段的分数的汇总比较。在此分析中包含了仅测定检测出显著水平的微生物的AP和DN样品。

图16A描绘了基于从无症状和有症状患者恢复以用于测序的人类片段对感染状态的预测因子进行训练的结果。左图示出了基于人类训练模型的无症状的样品的概率。右图描绘了与人类训练模型所使用的每种感染状态相关的片段长度的区。图16B描绘了基于从无症状和有症状患者恢复以用于测序的人类线粒体片段对感染状态的预测因子进行训练的结果。左图示出了基于人类线粒体训练模型的无症状的样品的概率。右图描绘了与人类线粒体训练模型所使用的每种感染状态相关的片段长度的区。图16C描绘了基于从无症状和有症状患者恢复以用于测序的所有病原体片段对感染状态的预测因子进行训练的结果。左图示出了基于所有病原体片段训练模型的无症状的样品的概率。右图描绘了所有病原体片段训练模型所使用的每种感染状态相关的片段长度的区。图16D描绘了基于从无症状和有症状患者恢复以用于测序的显著病原体片段对感染状态的预测因子进行训练的结果。左图示出了基于仅对衍生自显著病原体的读段进行训练的模型的无症状的样品的概率。右图描绘了与通过对显著病原体进行训练的模型识别的每个感染状态相关的片段长度的区。图16E描绘了基于从无症状和有症状患者恢复以用于测序的细菌片段对感染状态的预测因子进行训练的结果。左图示出了基于细菌训练模型的无症状的样品的概率。右图描绘了与通过细菌训练模型识别的每种感染状态相关的片段长度的区。图16F描绘了基于从无症状和有症状患者恢复以用于测序的真核微生物片段对感染状态的预测因子进行训练的结果。左图示出了基于真核生物训练模型的无症状的样品的概率。右图描绘了与通过真核细胞训练模型识别的每种感染状态相关的片段长度的区。图16G描绘了基于从无症状和有症状患者恢复以用于测序的病毒片段对感染状态的预测因子进行训练的结果。左图示出了基于病毒训练模型的无症状的样品的概率。右图描绘了与通过病毒训练模型识别的每种感染状态相关的片段长度的区。图16H描绘了基于从无症状和有症状患者恢复以用于测序的古细菌片段对感染状态的预测因子进行训练的结果。左图示出了基于古细菌训练模型的无症状的样品的概率。右图描绘了与通过古细菌训练模型识别的每种感染状态相关的片段长度的区。

图17A示出了疑似感染了肺部的微生物的归一化片段长度分布，其中每个图示出了所指示物种的微生物的一个分布，并且样品ID在每个图的顶部指示。频率被定义为与特定读段(片段)长度的所指示微生物的参考比对的读段计数，所述计数是由与所指示微生物的参考比对的读段的总计数归一化的。图17B示出了疑似感染了血流的微生物的归一化片段长度分布，其中每个图示出了所指示物种的微生物的一个分布，并且样品ID在每个图的顶部指示。频率被定义为与特定读段(片段)长度的所指示微生物的参考比对的读段计数，所述计数是由与所指示微生物的参考比对的读段的总计数归一化的。

图18A描绘了在两个不同供体的静脉抽取中检测到的两种微生物的代表性归一化片段长度分布。左图中示出了映射到流感嗜血杆菌(haemophilus influenzae)——在获得自供体1的静脉抽取的血浆中检测到的微生物的读段的归一化片段长度分布。右图中示出了映射到嗜热链球菌(streptococcus thermophilus)——在从供体2的静脉血液抽取获得的血浆中检测到的微生物的读段的归一化片段长度分布。图18B描绘了在从相同两个供体进行的毛细抽取收集过程期间获得并且在与图18A中的静脉抽取相同的采样时间时抽取的生物样品中检测到的微生物的归一化片段长度分布。上部左图示出了如在从供体1进行的毛细抽取收集过程期间获得的生物样品中检测到的流感嗜血杆菌的归一化片段长度分布。下部左图示出了在从供体1进行的毛细抽取收集过程期间获得的生物样品中检测到的另外的微生物的归一化片段长度分布。其平均分布模式以粗黑线示出。上部右图示出了如在从供体2进行的毛细抽取收集过程期间获得的生物样品中检测到的嗜热链球菌的归一化片段长度分布。下部右图示出了在从供体2进行的毛细抽取收集过程期间获得的生物样品中检测到的另外的微生物的归一化片段长度分布。其平均分布模式以粗黑线示出。图18C将供体1(左图)和供体2(右图)的在毛细抽取收集过程期间获得的生物样品的两种复制品中的共存在的微生物的丰度进行了比较。图18D描绘了在用毛细血液抽取程序获得的生物样品中检测到的微生物的微生物丰度(x轴线)与阴性Microvette样品中的微生物丰度的比较。左图和右图中分别示出了获得的供体1和供体2的结果。

图19A正交地确认了受试者RD-02的血流受到肠杆菌物种(enterobacterspecies)的感染。图描绘了与在由在以上每个图指出的不同收集时间收集的血浆样品生成的核酸文库中的阴沟肠杆菌(enterobacter cloacae)比对的序列的归一化片段长度分布。图19B正交地确认了受试者RD-11患有由金黄色葡萄球菌感染(staphylococcus aureusinfection)引起的心内膜炎。图描绘了与在由在以上每个图指出的不同收集时间收集的血浆样品生成的核酸文库中的金黄色葡萄球菌比对的序列的归一化片段长度分布。图19C正交地确认了受试者RD-13患有由大肠杆菌感染(Escherichia coli infection)引起的发热性嗜中性球减少症。图描绘了与在由在以上每个图指出的不同收集时间收集的血浆样品生成的核酸文库中的大肠杆菌比对的序列的归一化片段长度分布。

图20A描绘了所有正交确认的微生物的片段长度分布的“50bp峰”区之外(<30bp，并且>60bp)的读段的分数随着入院之后的时间的变化。示出了仅正交确认的微生物的时间迹线，其中检测到多于50个与微生物的参考比对的独特序列。图20B描绘了通过方法检测到的正交确认的微生物的以MPM为单位的丰度随着入院之后的时间的变化。

图21A示出了在两个受试者RD-06和RD-13的入院时间点(t＝0)时收集的血浆样品中的成对正交确认的和正交未确认的微生物。上部左图中示出了RD-06体内的正交确认的微生物(金黄色葡萄球菌)。下部左图中示出了RD-06体内的未确认的微生物(流感嗜血杆菌)。上部右图中示出了RD-13体内的正交确认的微生物(大肠杆菌)。下部右图中示出了RD-13体内的未确认的微生物(产黑普雷沃氏菌(prevotella melaninogenica))。图21B鹑鸡肠球菌——在几个入院后时间点在从受试者RD-15收集的血浆样品中检测到的正交未确认的微生物的归一化片段长度分布。时间点在图上方指出。

图22描绘了在对所感染受试者进行治疗期间人片段长度分布的三种主要应答模式。左图示出了其中在治疗期间长人分数(>60bp)降低的实例。中图示出了其中在治疗期间长人分数(>60bp)浮动的实例。右图示出了其中在治疗期间长人分数(>60bp)增加的实例。

图23提供了来自巴氏链球菌(pasteuranius)的样品的片段长度信息和GC含量的汇总。相对频率在y轴线上示出；GC含量在x轴线上示出。示出了少于45个碱基对、45-54个碱基对、55-64个碱基对、65-74个碱基对以及长于74个碱基对的片段长度范围。片段长度分布与GC含量信息的组合表明过程诱导此微生物的温度偏差。

具体实施方式

可以使用下一代测序(NGS)来聚集关于样品的核酸含量的大量数据。所述数据可特别用于分析复杂样品，如临床样品中的核酸。迄今为止，这些NGS系统集中于确定单个读段的丰度。在进行此工作之前，所关注的主要性质是每个读段的序列以及与特定来源相关的读段的丰度。对于微生物核酸和游离微生物核酸尤其如此。这部分是由于许多NGS系统所需的先前样品处理通常会导致误差和偏差的事实，这对于低丰度核酸尤其如此。Karius开发了由初始样品制备核酸文库的方法，所述方法可减少从初始样品恢复核酸文库的偏差，或者允许校正偏差。从初始样品获得的核酸文库的减少的偏差允许开发片段长度谱和生成核酸文库或核酸文库内的靶核酸的片段长度谱的方法。需要用于生成核酸文库的片段长度谱的有效且准确的方法。例如，此需求可见于在密切相关的微生物之间进行区分、确定微生物是以病原体或共生微生物形式存在、确定微生物与宿主的生物学关系、预测受试者的感染或定殖位点、监测移植物状态、监测胎儿发育和状态、监测肿瘤、监测免疫系统的状态和反应以及监测施用于受试者的化合物的毒性。

片段长度谱包括核酸文库或来自核酸文库内的读段的子集的一个或多个片段长度特性。片段长度谱可以包括1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个或更多个片段长度特性。可以向片段长度谱中的一个或多个片段长度特性分配加权值，使得一个或多个片段长度特性在片段长度谱内可以具有相等或不同的权重或值。片段长度特性包含但不限于分布的形状、分段幅度、峰形状、两个或更多个分段的片段计数比率、螺旋定相峰的高度、两个不同片段长度处的片段计数比率、两个不同片段长度范围内的片段计数的比率、分段内的片段长度范围、两个或更多个分段的最大幅度的比率、一个或多个峰的位置以及读段的子集内的片段长度分布。意图是“2个或更多个分段之间”的比率涵盖但不限于来自一个核酸文库的两个或更多个分段、来自两个或更多个核酸文库的两个或更多个分段、相同峰形状的两个或更多个分段、不同峰形状的两个或更多个分段、来自相似或不同核酸文库类型的两个或更多个分段以及来自出自核酸文库的读段的相似或不同子集的两个或更多个分段。

分布类型包含但不限于单个峰形状、多个峰形状、指数或类指数分布、长或短片段的膨胀的分布、平坦或均匀分布、复杂分布形状和其组合。复杂分布可以包含至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个或更多个峰形状的方面。单个峰形状可以存在于任何片段长度左右，包含但不限于50个左右碱基对片段长度。长片段可以包含以下片段长度：大于约60个碱基对、约65个碱基对、约70个碱基对、约75个碱基对、约80个碱基对、约85个碱基对、约90个碱基对、约95个碱基对、约100个碱基对、约150个碱基对、约175个碱基对、约200个碱基对、约250个碱基对、约300个碱基对、约350个碱基对和约400个碱基对。短片段可以包含以下片段长度：短于约500bp、约400bp、约300bp、约200bp、约100bp、约50bp、约40bp、约35bp、约30bp、约25bp、约20bp。峰形状的各方面包含但不限于分段范围、分段幅度和分段内的读段的总数、峰宽度、峰的斜率、峰的导数；峰形状的各方面可以变化。

单个峰形状分布可以涵盖一定范围的片段长度，包含但不限于在分段内至少约5个碱基对、至少约10个碱基对、至少约15个碱基对、至少约20个碱基对、至少约30个碱基对、至少约35个碱基对、至少约40个碱基对或大于至少约45个碱基对片段长度范围。分段内的片段长度范围可以变化。例如，50个左右碱基对单峰分布的片段长度的范围包含但不限于30个到60个碱基对、35个到60个碱基对、40个到60个碱基对以及45个到55个碱基对的片段长度。

分段幅度涵盖在定义的分段内片段长度的读段的丰度或相对丰度。在一些方面，分布幅度可以是定义的片段长度范围内的最高丰度或相对丰度；分布幅度还可以涵盖定义的片段长度范围内的平均最高丰度或相对丰度。在本申请的一些方面，获得了来自核酸文库的读段的子集的片段长度分布或片段长度分布谱。来自核酸文库的读段的子集旨在涵盖少于来自核酸文库的读段的完整集合。子集可以反映确定为以下的读段：来自特定微生物类型、来自特定微生物物种、宿主读段、母体读段、胎儿读段、器官供体读段、非宿主读段、微生物游离核酸读段、游离核酸读段、微生物读段或任何其它组；可替代地，读段的子集可以反映读段的完整集合减除来自特定微生物类型、母体读段、胎儿读段或任何其它组的那些。在本申请的一些方面，获得靶核酸的片段长度分布。“靶核酸”可以是衍生自以下的核酸片段：微生物、移植的器官、肿瘤细胞、癌细胞、宿主或非宿主线粒体DNA、抗生素抗性基因序列、宿主基因组DNA、整合到宿主基因组中的微生物序列或核酸文库中的所关注的一个或多个任何其它序列。靶序列可以从另一个位点，如感染位点或捐赠的器官迁移。

在一些情况下，靶核酸可以仅构成整个样品的非常小的部分，例如样品中的总核酸的小于0.1％、小于0.01％、小于0.001％、小于0.0001％、小于0.00001％、小于0.000001％、小于0.0000001％。通常，原始样品中的总核酸可以变化。例如，总游离核酸(例如，DNA、mRNA、RNA)可以在0.01-10,000ng/ml的范围内(例如，约0.01、0.1、1、5、10、20、30、40、50、80、100、1000、5000、10000ng/ml)。在一些情况下，样品中的游离核酸的总浓度在此范围之外(例如，小于0.01ng/ml；换言之，总浓度大于10,000ng/ml)。主要由人DNA和/或RNA构成的游离核酸(例如，DNA)样品也是如此。在此类样品中，病原体靶标核酸的存在可以比人或宿主核酸少。

靶核酸的长度可以变化。在一些特定实施例中，靶核酸相对短；在其它实施例中，靶标相对长。在一些特定实施例中，靶核酸短于110bp。

如本文所用，“核酸”是指核苷酸的聚合物或寡聚物，并且通常与术语“多核苷酸”或“寡核苷酸”同义。核酸可以包括以下、由以下组成或基本上由以下组成：脱氧核糖核苷酸、核糖核苷酸、脱氧核糖核苷酸类似物、经化学修饰的典型脱氧核糖核苷酸、核糖核苷酸和/或核糖核苷酸类似物、具有经修饰的骨架的核酸或其任何组合。

核酸可以是任何类型的核酸，包含但不限于：双链(ds)核酸、单链(ss)核酸、DNA、RNA、cDNA、mRNA、cRNA、tRNA、核糖体RNA、dsDNA、ssDNA、miRNA、siRNA、短发夹RNA、循环核酸、循环游离核酸、循环DNA、循环RNA、游离核酸、游离DNA、游离RNA、循环游离DNA、游离dsDNA、游离ssDNA、循环游离RNA、基因组DNA、外泌体、游离病原体核酸、循环微生物或病原体核酸、线粒体核酸、非线粒体核酸、核DNA、核RNA、染色体DNA、循环肿瘤DNA、循环肿瘤RNA、环状核酸、环状DNA、环状RNA、环状单链DNA、环状双链DNA、质粒、细菌核酸、真菌核酸、寄生虫核酸、病毒核酸、游离细菌核酸、游离真菌核酸、游离寄生虫核酸、病毒颗粒相关核酸、线粒体DNA、宿主核酸、宿主游离核酸、细胞间信号核酸、外源性核酸、DNA酶、RNA酶、治疗性核酸或其任何组合。核酸可以是衍生自微生物或病原体的核酸，包含但不限于病毒、细菌、真菌、寄生虫和任何其它微生物，特别是感染性微生物或潜在感染性微生物。核酸可以衍生自古细菌、细菌、真菌、霉菌、真核生物和/或病毒。在一些实施例中，与微生物或病原体相反，核酸可以直接衍生自受试者或宿主。

如本文所用，“核酸文库”是指核酸片段的集合。核酸片段的集合可以用于例如测序。可以使用生成测序文库的偏差校正的恢复方法或使用生成实现偏差校正的测序文库的偏差的恢复方法由初始样品制备核酸文库。如本文所用，“偏差校正的恢复”方法是：利用一致片段长度产生的方法，所述方法通常在没有可感知的长度和GC偏差的情况下恢复靶向的长度和GC范围内的样品核酸片段；实现偏差校正的方法；能够解决与样品的偏差的方法；以及能够解决通过生成核酸文库的方法的过程引入的偏差的方法。偏差校正的恢复方法可以包含但不限于添加过程控制分子、提取、生成文库、测序、扩增和其任何组合。无偏差恢复方法包含但不限于美国临时第62/770,181号和第62/644,357中描述的那些。提供了在开始核酸文库生成过程之前不从初始样品中提取核酸的情况下由初始样品生成核酸文库的方法。在一些实施例中，可以提取或除去本身可能降低产率或抑制核酸文库的生成的物质，但是在核酸文库生成之前不从初始样品中提取核酸。方法包括以下，由以下组成或基本由以下组成：向初始样品中添加一种或多种过程控制分子，以及由加标的初始样品生成核酸文库。方法包括以下，由以下组成或基本由以下组成：由加标的初始样品生成核酸文库。核酸文库可以利用单链和/或双链核酸。

也涵盖用提取由样品生成核酸文库的方法。

过程控制分子可以是一个或多个ID加标物、SPANK、Spark或GC加标物小组、去磷酸化控制分子、变性控制分子和/或连接控制分子中的一种或多种。参见例如发表的美国专利申请第2015-0133391号和发表的美国专利申请第2017-0016048号，所述美国专利申请中的每一个的完整公开内容出于所有目的通过引用以其整体并入本文。在一些实施例中，初始样品包括循环供体核酸、由循环供体核酸组成或基本上由循环供体核酸组成(参见例如US20150211070，其通过引用以其整体并入本文，包含任何附图)。

如本文所用，“变性”是指其中如蛋白质或核酸等生物分子失去其天然或更高阶结构的过程。天然和更高阶结构可以包含，例如但不限于，四级结构、三级结构或二级结构。例如，双链核酸分子可以变性为两个单链分子。

如本文所用，术语“去磷酸化(dephosphorylation)”或“去磷酸化(dephosphorylating)”是指从核酸，如DNA中去除磷酸盐，如5'和/或3'端磷酸盐。

如本文所用，“检测”是指定量或定性检测，包含但不限于通过鉴定分析物的存在、不存在、数量、频率、浓度、序列、形式、结构、来源或量进行的检测。

在一些实施例中，将3'端衔接子与核酸，例如经变性的或去磷酸化的核酸连接，和/或连接5'端衔接子包括与酶连接、由与酶连接组成或基本上由与酶连接组成，所述酶包括连接酶，例如T4 DNA连接酶、CircLigase II，由连接酶组成或基本上由连接酶组成。在一些实施例中，连接酶是单链连接酶。在一些实施例中，将3'端衔接子与核酸，例如经变性的或去磷酸化的核酸连接，和/或连接5'端衔接子包括利用模板切换反应、由利用模板切换反应组成或基本上由利用模板切换反应组成。在一些实施例中，将3'端衔接子与核酸，例如经变性的或去磷酸化的核酸连接包括利用酶延伸、由利用酶扩展组成或基本上由利用酶延伸组成，所述酶包括聚合酶，例如TdT聚合酶，由聚合酶组成或基本上由聚合酶组成。在一些实施例中，方法进一步包括以下、由以下组成或基本上由以下组成：利用DNA聚合酶，例如Klenow片段、SuperScript IV逆转录酶、SMART MMLV逆转录酶等，以扩展与核酸或经衔接的核酸杂交的引物并且生成互补链。在一些实施例中，靶核酸可以与一个或多个衔接子连接。在一些实施例中，靶核酸在两个端部处与同一衔接子或不同衔接子连接。

如本文所用，“GC偏差”是指不同GC含量但具有相同长度的核酸的差别性能、处理或恢复。

如本文所用，“GC含量”或“鸟嘌呤-胞嘧啶含量”是指核酸，如DNA或RNA分子中的含氮碱基的百分比，所述含氮碱基为鸟嘌呤或胞嘧啶或其化学修饰。

如本文所用，“宿主”是指具有另一种生物的生物。后者被定义为“非宿主”生物。例如，人可以是具有微生物、病原体或胎儿的宿主，所述微生物、病原体或胎儿是非宿主。宿主核酸或材料衍生自宿主。非宿主核酸或材料可以衍生自非宿主生物、衍生自移植的材料或衍生自宿主体内的胎儿或胎儿材料。

如本文所用，“微生物(microbe)”、“微生物(microbial)”或“微生物(microorganism)”是指可以以单个细胞或以细胞、衣壳、孢子、丝或多细胞生物的菌落的形式存在的生物，例如微观或宏观生物。微生物包含所有单细胞生物和一些多细胞生物，例如来自古细菌、细菌、原生动物、线虫、病毒和真核生物的那些。微生物通常是负责疾病的病原体，但是也可以与宿主，如人以非病原、共栖关系存在。“共生微生物”旨在包含与宿主以非病原、共栖关系存在的微生物。宿主生物可以同时具有多种类型的非宿主生物。在共感染中，宿主生物具有多种类型的非宿主生物。多种类型的非宿主生物可以包含一种或多种病原体、一种或多种共生微生物或至少一种病原体和至少一种共生微生物。可以使用当前申请的方法来在密切相关的微生物之间进行区分，在以病原体、共生微生物形式或以偶然但临床上不重要的微生物形式存在的微生物之间进行区分。

微生物或病原体可以包含古细菌、细菌、酵母、真菌、霉菌、原生动物、线虫、真核生物和/或病毒。微生物或病原体还可以包含DNA病毒、RNA病毒、可培养细菌、另外的难养且不可培养的细菌、分枝杆菌和真核病原体(参见Bennett J.E.、D.,R.、Blaser,M.J.Mandell、Douglas和Bennett的《感染性疾病的准则和实践(Principles and Practice ofInfectious Diseases)》；宾西法尼亚州费城桑德斯公司(Saunders,Philadelphia,PA),2014；以及《Netter的感染性疾病(Netter's Infectious Disease)》,第1版,由ElaineC.Jong,MD和Dennis L.Stevens医学博士、科学博士编辑,(2015))。微生物或病原体还可以包含以下中所示的微生物中的任何微生物：https://www.ncbi.nlm.nih.gov/genome/microbes/或https://www.ncbi.nlm.nih.gov/biosample/。

微生物的实例是来自以下属中的一种或多种的物种或菌株中的一种或多种：梨孢霉属(coniosporium)、汉坦病毒属(Hantavirus)、篮状菌属(Talaromyces)、玉米褪绿斑驳病毒属(Machlomovirus)、β四病毒属(Betatetravirus)、植生拉乌尔菌种属(Raoultella)、气单胞菌属(Aeromonas)、暂时热病毒属(Ephemerovirus)、稳杆菌属(Ephemerovirus)、罗阿属(Loa)、柘橙病毒属(Macluravirus)、寡养单胞菌属(Stenotrophomonas)、苜蓿花叶病毒属(Alfamovirus)、罗莎病毒属(Rosavirus)、伊蒙菌属(Emmonsia)、杆菌属(Aggregatibacter)、正肺病毒属(Orthopneumovirus)、威克斯氏菌属(Weeksella)、内罗病毒属(Nairovirus)、萨利病毒属(Salivirus)、魏斯氏菌属(Weissella)、莫萨病毒属(Mosavirus)、丙型双分病毒属(Gammapartitivirus)、粪类圆线虫属(Strongyloides)、燕雀病毒属(Passerivirus)、丹毒杆菌属(Erysipelatoclostridium)、巴希拉纳病毒属(Bacillarnavirus)、壬型细环病毒属(Iotatorquevirus)、绦虫属(Taenia)、锥体虫属(Trypanosoma)、欧陆森氏菌属(Olsenella)、枝孢霉属(Cladosporium)、根瘤菌属(Rhizobium)、普雷沃菌属(Prevotella)、勒克氏菌属(Leclercia)、副球菌属(Paracoccus)、等轴不稳环斑病毒属(Ilarvirus)、兔病毒属(Lagovirus)、罗萨氏菌属(Rasamsonia)、疟原虫属(Plasmodium)、枝顶孢属(Acremonium)、衣原体属(Chlamydia)、支睾属(Clonorchis)、弧菌属(Vibrio)、巴尔通氏体属(Bartonella)、那卡杂威属(Nakazawaea)、佛朗哥氏菌(Franconibacter)、异尖线虫属(Anisakis)、诺如病毒属(Norovirus)、诺卡氏菌属(Nocardia)、索罗巴克特斯菌属(Solobacterium)、副肠孤病毒属(Parechovirus)、燕麦属病毒属(Avenavirus)、正戊肝病毒属(Orthohepevirus)、口蹄疫病毒属(Aphthovirus)、赫潘浓核病毒(Hepandensovirus)、微杆菌属(Microbacterium)、横梗霉属(Lichtheimia)、多育孢子虫属(Lomentospora)、无色菌属(Achromobacter)、番薯属病毒属(Ipomovirus)、冢村氏菌属(Tsukamurella)、伊丽莎白金菌(Elizabethkingia)、戊型肝炎病毒属(Hepevirus)、东南亚十二节段RNA病毒属(Seadornavirus)、链格孢属(Alternaria)、隐秘杆菌属(Trueperella)、丙型细环病毒属(Gammatorquevirus)、双歧杆菌属(Bifidobacterium)、金孢子菌属(Chrysosporium)、托高土病毒属(Thogotovirus)、曲顶病毒属(Curtovirus)、丁型细环病毒属(Deltatorquevirus)、巴拉姆希属(Balamuthia)、玉米线条病毒属(Mastrevirus)、蛭弧菌微小病毒属(Bdellomicrovirus)、Mu乳头状瘤病毒属(Mupapillomavirus)、拟酵母属(Pseudozyma)、拟魏克酵母属(Wickerhamiella)、阿夸玛病毒属(Aquamavirus)、阿洛斯卡多维亚属(Alloscardovia)、梭孢壳属(Thielavia)、悬钩子病毒属(Idaeovirus)、亨尼巴病毒属(Henipavirus)、考克斯氏体属(Coxiella)、嗜血杆菌属(Haemophilus)、丙型冠状病毒属(Gammacoronavirus)、耐戈病毒(Negevirus)、短杆菌属(Brevibacterium)、嗜胨菌属(Peptoniphilus)、甲型卡莫特拉病毒属(Alphacarmotetravirus)、龙船草属(Nosema)、发状病毒属(Trichovirus)、沙粒病毒属(Arenavirus)、嗜热真菌属(Thermomyces)、板口线虫属(Necator)、水稻矮化病毒属(Waikavirus)、黑鱼斑点病毒属(Blosnavirus)、琼斯氏菌属(Jonesia)、四细小病毒属(Tetraparvovirus)、欧洲山棒环斑病毒属(Emaravirus)、短杆噬菌体属(Plectrovirus)、核盘菌减毒RNA病毒属(Sclerodarnavirus)、弓蛔虫属(Toxocara)、幽影病毒属(Umbravirus)、伯克霍尔德菌属(Burkholderia)、色杆菌属(Chromobacterium)、副球孢子菌属(Paracoccidioides)、布鲁格丝虫属(Brugia)、画眉草病毒属(Eragrovirus)、巨型球菌属(Macrococcus)、犁头霉属(Absidia)、炭疽菌属(Colletotrichum)、丝状病毒(Inovirus)、须霉属(Phycomyces)、威克汉姆酵母属(Wickerhamomyces)、氨基酸球菌属(Acidaminococcus)、莫拉氏菌属(Moraxella)、罗斯氏菌属(Rothia)、白蛉病毒属(Phlebovirus)、史雷克氏菌属(Slackia)、淡紫字胞菌属(Purpureocillium)、乙型乳头瘤病毒(Betapapillomavirus)、山梗菜亚属病毒属(Tupavirus)、隐孢子病毒属(Cryspovirus)、瓶霉属(Saksenaea)、丹毒丝菌属(Erysipelothrix)、嵴病毒属(Kobuvirus)、米莫呼肠孤病毒(Mimoreovirus)、棘球绦虫属(Echinococcus)、曼海姆氏菌属(Mannheimia)、伯杰菌属(Bergeyella)、环孢子虫属(Cyclospora)、木聚糖单胞菌(Xylanimonas)、钩端螺旋体(Leptospira)、芬戈尔德菌(Finegoldia)、弯孢属(Curvularia)、隐孢子虫(Cryptosporidium)、香蕉顶束病毒属(Babuvirus)、花生丛簇病毒属(Pecluvirus)、丁型细环病毒属(Lambdatorquevirus)、腐霉菌属(Pythium)、香石竹潜病毒属(Carlavirus)、昆虫双RNA病毒属(Entomobirnavirus)、考克氏菌属(Kocuria)、微粒孢子虫属(Anaplasma)、蛇葡萄病毒属(Ampelovirus)、禽肝病毒属(Avihepatovirus)、线虫传多面体病毒属(Nepovirus)、红球菌属(Rhodococcus)、包特菌属(Bordetella)、迷士弛病毒(Mischivirus)、丝孢菌属(Scedosporium)、加德纳菌属(Gardnerella)、葡萄斑点病毒属(Maculavirus)、木霉属(Trichoderma)、阿维细小病毒属(Aveparvovirus)、沙门氏菌属(Salmonella)、禽星状病毒属(Avastrovirus)、科皮细小病毒(Copiparvovirus)、气管普孢虫(Trachipleistophora)、梭菌(Clostridioides)、矮缩病毒属(Nanovirus)、西科西菌属(Siccibacter)、纤毛菌属(Leptotrichia)、柑橘病毒属(Citrivirus)、臭味菌属(Odoribacter)、血杆菌属(Sanguibacter)、弹状病毒属(Novirhabdovirus)、支顶孢属(Acremonium)、哈夫尼菌属(Hafnia)、毛壳菌属(Chaetomium)、纤细病毒属(Tenuivirus)、预研菌属(Yokenella)、腮腺炎病毒属(Rubulavirus)、水疱病毒属(Varicellovirus)、甲型阿门索尼病毒属(Alphamesonivirus)、西西尼病毒属(Sicinivirus)、明串珠菌(Leuconostoc)、微小病毒(Microvirus)、嘎兰提病毒属(Gallantivirus)、麻疹病毒属(Morbillivirus)、黑麦草慢病毒属(Lolavirus)、泛菌属(Pantoea)、肝病毒属(Hepatovirus)、Nu乳头瘤病毒属(Nupapillomavirus)、梅奇酵母属(Metschnikowia)、双RNA病毒属(Barnavirus)、盖球菌属(Kytococcus)、花叶病毒属(Tritimovirus)、坦纳菌属(Tannerella)、呼吸道病毒属(Respirovirus)、肺孢子虫(Pneumocystis)、恶丝虫属(Dirofilaria)、片球菌属(Pediococcus)、乳球菌属(Lactococcus)、芽生菌属(Blastomyces)、香石竹病毒属(Dianthovirus)、放线杆菌属(Actinobacillus)、捷申病毒属(Teschovirus)、颤藻病毒属(Oscivirus)、菜豆金色花叶病毒属(egomovirus)、马铃薯Y病毒属(Potyvirus)、丝衣霉属(Byssochlamys)、甲型冠状病毒属(lphacoronavirus)、软疣病毒属(Molluscipoxvirus)、淋巴隐病毒属(Lymphocryptovirus)、人禽猪类肠病毒(Sapelovirus)、副拟杆菌属(Parabacteroides)、棘壳孢属(Pyrenochaeta)、李斯特菌属(Listeria)、塞内卡病毒属(Senecavirus)、短浓核病毒属(Brevidensovirus)、马铃薯X病毒属(Potexvirus)、微单胞菌(Parvimonas)、黄病毒属(Flavivirus)、瑞科病毒属(Recovirus)、弓形体属(Toxoplasma)、塔痘病毒属(Yatapoxvirus)、后睾吸虫属(Opisthorchis)、鞭虫属(richuris)、杯梗孢属真菌(Cyphellophora)、摩根菌属(Morganella)、泼罕伯豆病毒(Perhabdovirus)、微球菌属(Micrococcus)、皮喹诺病毒属(Pequenovirus)、哺乳动物腺病毒属(Mastadenovirus)、阿纳罗格洛布斯属(Anaeroglobus)、养障体(Tropheryma)、狡诈菌属(Dolosigranulum)、沃尔巴克氏体(Wolbachia)、莱略特氏菌(Lelliottia)、支原体属(Mycoplasma)、烟草脆裂病毒属(Tobravirus)、希瓦氏菌属(Shewanella)、潘尼梭菌(Paeniclostridium)、红系细小病毒属(Erythroparvovirus)、萨特氏菌属(Sutterella)、原孢酵母属(Sporopachydermia)、裸露核糖核酸病毒属(Narnavirus)、纳雅病毒(Nyavirus)、弗朗西斯氏菌属(Francisella)、节皮菌属(Arthroderma)、戊型细环病毒属(Epsilontorquevirus)、西格玛病毒(Sigmavirus)、阿留申细小病毒属(Amdoparvovirus)、放线菌属(Actinomyces)、甲型利穆托特拉病毒属(Alphapermutotetravirus)、心杆菌属(Cardiobacterium)、丙型流行性感冒病毒(Influenzavirus C)、正痘病毒属(Orthopoxvirus)、泼阿克病毒属(Poacevirus)、瓶霉菌属(Phialophora)、乳杆菌属(Lactobacillus)、多瘤病毒属(Polyomavirus)、德巴利氏酵母属(Debaryomyces)、凹陷病毒属(Foveavirus)、大麦黄花叶病毒属(Bymovirus)、米科弗西病毒(Mycoflexivirus)、格里蒙菌属(Grimontia)、毛霉属(Mucor)、皱裂菌属(Rhytidhysteron)、四病毒(Quadrivirus)、热子囊菌属(Thermoascus)、黄金葛病毒属(Aureusvirus)、丝孢酵母属(Trichosporon)、毁丝霉属(Myceliophthora)、皮肤球菌(Dermacoccus)、异常革那莫纳属(Dysgonomonas)、假分枝杆菌(Pseudoramibacter)、甜菜曲顶病毒属(Becurtovirus)、戈登氏菌(Gordonia)、扎幌病毒(Sapovirus)、正布尼亚病毒属(Orthobunyavirus)、螺旋体微小噬菌体属(Spiromicrovirus)、马铃薯帚顶病毒属(Pomovirus)、外瓶柄霉属(Exophiala)、纤毛菌属(Sneathia)、螺杆菌属(Helicobacter)、光杆状菌属(Photorhabdus)、默吉菌属(Mogibacterium)、乙型双分病毒属(Betapartitivirus)、禽双RNA病毒属(Avibirnavirus)、双义浓核病毒属(Ambidensovirus)、油橄榄病毒属(Oleavirus)、东方体属(Orientia)、丁型冠状病毒(Deltacoronavirus)、同心病毒属(Anulavirus)、毛滴虫病毒属(Trichomonasvirus)、戴约维采菌属(Budvicia)、地丝菌属(Geotrichum)、耳突花叶病毒属(Enamovirus)、毛螺梭菌(Lachnoclostridium)、裂体吸虫属(Schistosoma)、拟青霉属(Paecilomyces)、黍花叶病毒属(Panicovirus)、丝核菌属(Rhizoctonia)、短芽胞杆菌属(Brevibacillus)、白僵菌属(Beauveria)、瘟病毒属(Pestivirus)、番茄丛矮病毒书(Tombusvirus)、柑橘粗糙病毒属(Cilevirus)、科克霉属(Cokeromyces)、消化链球菌属(Peptostreptococcus)、平革菌属(Phanerochaete)、变形杆菌(Proteus)、昆虫非包涵体病毒属(Idnoreovirus)、曲霉菌属(Aspergillus)、巴氏杆菌属(Pasteurella)、马拉色氏霉菌属(Malassezia)、汉逊酵母属(Hanseniaspora)、内生RNA病毒(Endornavirus)、固氮螺菌属(Azospirillum)、维拉瑞病毒属(Velarivirus)、囊状病毒属(Cystovirus)、阿维斯病毒属(Avisivirus)、拟杆菌属(Bacteroides)、皮可比那病毒(Picobirnavirus)、香味菌属(Myroides)、环状病毒(Circovirus)、动脉炎病毒属(Arterivirus)、水生副黏病毒属(Aquaparamyxovirus)、盘尾属(Onchocerca)、科萨病毒属(Cosavirus)、克鲁维酵母菌属(Kluyveromyces)、斐济病毒属(Fijivirus)、假丝酵母属(Candida)、肝炎病毒属(Hepacivirus)、皮杆菌属(Dermabacter)、欧尔密病毒属(Ourmiavirus)、青葱X病毒属(Allexivirus)、肠杆菌属(Enterobacter)、食酸菌属(Acidovorax)、弹状病毒(Bracorhabdovirus)、香石竹斑驳病毒属(Carmovirus)、多源菌属(Pluralibacter)、科尔蒂病毒属(Coltivirus)、着色真菌属(Fonsecaea)、链杆菌属(Streptobacillus)、棒状杆菌属(Corynebacterium)、壳球孢属(Macrophomina)、马尔堡病毒(Marburgvirus)、科莫病毒(Comovirus)、豆科病毒属(Fabavirus)、甲型野田村病毒属(Alphanodavirus)、纤维菌属(Cellulomonas)、蠕形住肠线虫属(Enterobius)、凯特百可特菌属(Catabacter)、米勒氏菌属(Moellerella)、那卡色梅斯属(Nakaseomyces)、黄瓜花叶病毒属(Cucumovirus)、瓦尔撒病毒(Valsa)、丁型双分病毒属(Deltapartitivirus)、邻单胞菌属(Plesiomonas)、假单胞菌(Pseudomonas)、环曲病毒属(Torovirus)、奎瓦病毒属(Cuevavirus)、低毒病毒属(Hypovirus)、毛滴虫属(Trichomonas)、丁型流感病毒属(Influenzavirus D)、贾第虫病毒属(Giardiavirus)、毛形病毒属(Crinivirus)、特波病毒属(Tepovirus)、库布病毒属(Sakobuvirus)、塞伯林德纳氏酵母(Cyberlindnera)、类产碱菌是(Paenalcaligenes)、白鳊鱼病毒属(Bafinivirus)、黑麦草镶嵌病毒属(Rymovirus)、猪病毒属(Pegivirus)、亚罗酵母属(Yarrowia)、密螺旋体属(Treponema)、博睿利拉属(Borreliella)、风疹病毒属(Rubivirus)、出芽短梗霉(Aureobasidium)、住血线虫属(Angiostrongylus)、线黑粉菌属(Filobasidium)、发光杆菌属(Photobacterium)、根霉属(Rhizopus)、正呼肠孤病毒属(Orthoreovirus)、黑粉菌属(Ustilago)、单纯病毒属(Simplexvirus)、水生呼肠孤病毒属(Aquareovirus)、原细小病毒属(Protoparvovirus)、丙酸菌属(Propionibacterium)、西布里病毒属(Sprivivirus)、乎尼病毒属(Hunnivirus)、鳞质霉属(Apophysomyces)、迈耶氏酵母(Meyerozyma)、甲型乳头瘤病毒属(Alphapapillomavirus)、假丝酵母属(Candida)、布鲁氏菌属(Brucella)、嘉利病毒属(Gallivirus)、诺维纳病毒属(Dinovernavirus)、厌氧螺菌属(Anaerobiospirillum)、优杆菌属(Eubacterium)、塔特洛菌属(Tatlockia)、土孢杆菌属(Terrisporobacter)、节肢动物传播病毒属(Quaranjavirus)、南方菜豆花叶病毒属(Sobemovirus)、地西普病毒属(Dicipivirus)、隐秘杆菌属(Arcanobacterium)、马卡那病毒属(Macanavirus)、奇异菌属(Atopobium)、疱疹病毒属(Vesivirus)、娄德酵母属(Lodderomyces)、迪诺RNA病毒(Dinornavirus)、乙型细环病毒属(Betatorquevirus)、科斯特斯菌(Kerstersia)、蜜蜂麻痹病毒属(Aparavirus)、奈瑟氏菌属(Neisseria)、土壤杆菌属(Agrobacterium)、爱德华菌属(Edwardsiella)、拉比纳病毒属(Labyrnavirus)、全病毒属(Totivirus)、马杜拉放线菌属(Actinomadura)、烟草花叶病毒属(Tobamovirus)、乙型流感病毒属(InfluenzavirusB)、印度柑橘病毒属(Mandarivirus)、厌氧球菌属(Anaerococcus)、昆萨吉病毒(Kunsagivirus)、纳氏虫属(Naegleria)、弯曲杆菌属(Campylobacter)、韦荣球菌属(Veillonella)、接合糖酵母属(Yamadazyma)、线黑粉菌属(Filobasidiella)、厄氏菌属(Oerskovia)、青霉菌属(Penicillium)、安卡里属(Anncaliia)、小球腔菌属(Leptosphaeria)、肺炎病毒属(Pneumovirus)、嗜冷杆菌属(Psychrobacter)、艾萨病毒属(Isavirus)、颗粒链菌属、灼烧病毒(Torradovirus)、枝孢霉属(Cladophialophora)、甲型流行性感冒病毒属(Influenzavirus A)、蛇口壳属(Ophiostoma)、气球菌属(Aerococcus)、脲原体属(Ureaplasma)、庚型细环病毒属(Etatorquevirus)、博卡细胞病毒(Bocaparvovirus)、巨球形菌属(Megasphaera)、爬行动物沙粒病毒属(Reptarenavirus)、丛毛单胞菌属(Comamonas)、嗜二氧化碳噬细胞菌属(Capnocytophaga)、甲型细环病毒属(Alphatorquevirus)、共头霉属(Syncephalastrum)、节担菌属(Wallemia)、乙型冠状病毒属(Betacoronavirus)、生丝毕赤酵母属(Hyphopichia)、拟诺卡氏菌属(Nocardiopsis)、军团菌属(Legionella)、旋毛形线虫属(Trichinella)、帕拉布候迪亚属(Paraburkholderia)、哺乳类沙粒病毒属(Mammarenavirus)、棘口属(Echinostoma)、鞘氨醇杆菌属(Sphingobacterium)、肠道病毒属(Enterovirus)、甲烷短杆菌属(Methanobrevibacter)、赭霉属(Ochroconis)、樱桃锉叶病毒属(Cheravirus)、攀西病毒属(Pasivirus)、肠球菌属(Enterococcus)、真菌呼肠孤病毒属(Mycoreovirus)、番茄斑萎病毒属(Tospovirus)、β野田村病毒属(Betanodavirus)、植物呼肠孤病毒属(Phytoreovirus)、孢子虫属(Enterocytozoon)、费尔拉病毒属(Ferlavirus)、匍柄霉属(Stemphylium)、产线菌属(Filifactor)、利什曼原虫病毒属(Leishmaniavirus)、孪生球菌(Gemella)、雀麦花叶病毒属(Bromovirus)、差异球菌属(Alloiococcus)、小克银汉霉菌(Cunninghamella)、阪崎肠杆菌(Cronobacter)、奥立菌属(Oribacterium)、环状病毒属(Orbivirus)、金色病毒属(Chrysovirus)、蟋蟀麻痹病毒属(Cripavirus)、塔特姆菌属(Tatumella)、潘多拉菌属(Pandoraea)、汉逊酵母属(Ogataea)、龙线虫属(Dracunculus)、小包脚菇属(Volvariella)、依芙拉病毒(Iflavirus)、甜菜坏死黄脉病毒属(Benyvirus)、猴病毒属(Rhadinovirus)、组织胞浆菌属(Histoplasma)、拉恩氏菌属(Rahnella)、桑葚状球菌属(Morococcus)、轮枝孢属(Verticillium)、两面神菌属(Janibacter)、环形病毒属(Gyrovirus)、甲型分病毒(Alphapartitivirus)、分枝杆菌属(Mycobacterium)、玫瑰单胞菌(Roseomonas)、叶脉曲张病毒属(Varicosavirus)、金黄杆菌属(Chryseobacterium)、副痘病毒属(Parapoxvirus)、根毛霉属(Rhizomucor)、金色单胞菌(Aureimonas)、微小病毒属(Levivirus)、利什曼原虫属(eishmania)、黄矮病毒属(Luteovirus)、质型多角体病毒属(Cypovirus)、苍白杆菌属(Ochrobactrum)、小孢子菌属(Microsporum)、鱼戊肝病毒属(Piscihepevirus)、长喙壳属(Ceratocystis)、孢子丝菌(Sporothrix)、水泡病毒属(Vesiculovirus)、贪铜菌属(Cupriavidus)、隐球酵母属(Cryptococcus)、变性肺病毒属(Metapneumovirus)、甲型坏死病毒属(Alphanecrovirus)、艾肯菌属(Eikenella)、短波单胞菌属(Brevundimonas)、埃希氏杆菌属(Escherichia)、赖氏细菌属(Leifsonia)、裂褶菌属(Schizophyllum)、颗粒杆菌属(Granulibacter)、戈登氏杆菌属(Gordonibacter)、啦切尼克属(Lachancea)、马杜拉分支菌属(Madurella)、蛇形病毒属(Ophiovirus)、木层孔菌属(Phellinus)、纽布病毒属(Nebovirus)、棘阿米巴属(Acanthamoeba)、梭杆菌属(Fusobacterium)、毕赤酵母属(Pichia)、沃如考尼属(Verruconis)、埃立克体属(Ehrlichia)、替伯病毒属(Tibrovirus)、海戈瑞病毒属(Higrevirus)、沃尔法赫蒂莫纳斯属(Wohlfahrtiimonas)、喙枝孢霉属(Rhinocladiella)、新立克次氏体属(Neorickettsia)、温州蜜柑矮缩病毒属(Sadwavirus)、玫瑰杆菌属(Roseobacter)、随伴病毒科(Sequivirus)、潘隆尼亚碱湖杆菌(Pannonibacter)、轮状病毒(Rotavirus)、苏黎世菌属(Turicella)、心病毒属(Cardiovirus)、产丙酸微球菌属(Propionimicrobium)、真菌传杆状病毒组属(Furovirus)、诺莫夫氏酵母(Naumovozyma)、黄化丝状病毒属(Closterovirus)、荧光杆菌属(Fluoribacter)、泽阿病毒属(Zeavirus)、棒孢酵母属(Clavispora)、梅格里病毒属(Megrivirus)、丙型乳头瘤病毒(Gammapapillomavirus)、立克次体属(Rickettsia)、一品红潜隐病毒属(Polemovirus)、棒孢属(Corynespora)、脑居虫属(Encephalitozoon)、实姆维拉属(Shimwellia)、镰刀菌属(Fusarium)、耶尔森氏鼠疫杆菌属(Yersinia)、卡波尼亚属(Capronia)、代尔夫特菌属(Delftia)、维多利亚病毒属(Victorivirus)、玉米雷亚朵非纳病毒属(Marafivirus)、克吕沃尔氏菌属(Kluyvera)、重复浓核病毒属(Iteradensovirus)、白蚁菌属(Isoptericola)、葡萄病毒属(Vitivirus)、玫瑰疹病毒属(Roseolovirus)、霉属(Conidiobolus)、贫养菌属(Abiotrophia)、巴贝西虫属(Babesia)、茎点霉属(Phoma)、血杆菌属(Sanguibacteroides)、葡萄球菌属(Staphylococcus)、红酵母属(Rhodotorula)、己型细环病毒属(Zetatorquevirus)、膜壳绦虫属(Hymenolepis)、片形属(Fasciola)、细胞质弹状病毒属(Cytorhabdovirus)、卡多呼肠孤病毒(Cardoreovirus)、刺黑乌霉属(Memnoniella)、毛癣菌属(Trichophyton)、线粒体病毒属(Mitovirus)、褐枝顶孢霉(Phaeoacremonium)、普罗威登斯菌属(Providencia)、赖氨酸芽胞杆菌属(Lysinibacillus)、贾第虫属(Giardia)、寡养杆菌属(Oligella)、链霉菌属(Streptomyces)、梭状芽孢杆菌(Paraclostridium)、罗尔斯通菌属(Ralstonia)、球孢子菌属(Coccidioides)、黑莓Y病毒属(Brambyvirus)、双室孢腔菌属(Biatriospora)、噬菌体属(Allolevivirus)、不动杆菌属(Acinetobacter)、斯塔莫酵母(Starmerella)、ω四病毒属(Omegatetravirus)、卟啉单胞菌属(Porphyromonas)、禽腮腺炎病毒属(Avulavirus)、链球菌属(Streptococcus)、弓形杆菌属(Arcobacter)、番茄伪曲顶病毒属(Topocuvirus)、哺乳动物星状病毒属(Mamastrovirus)、钩虫属(Ancylostoma)、博尔纳病毒(Bornavirus)、毛状病毒属(Capillovirus)、甲病毒属(Alphavirus)、芜菁黄花叶病毒属(Tymovirus)、细胞核弹状病毒属(Nucleorhabdovirus)、间座壳属(Diaporthe)、衣原体微小噬菌体属(Chlamydiamicrovirus)、芜菁曲顶病毒属(Turncurtovirus)、酵母属(Saccharomyces)、里氏杆菌属(Riemerella)、乙型坏死病毒属(Betanecrovirus)、梭菌属(Clostridium)、动弯杆菌属(Mobiluncus)、尾孢菌属(Cercospora)、海洋RNA病毒属(Marnavirus)、被孢霉属(Mortierella)、水生双RNA病毒属(Aquabirnavirus)、黄单胞菌属(Xanthomonas)、依赖细小病毒属(Dependoparvovirus)、埃博拉病毒属(Ebolavirus)、新壳梭孢菌属(Neofusicoccum)、疏螺旋体属(Borrelia)、勒米诺菌属(Leminorella)、克雷伯菌属(Klebsiella)、芽囊原虫属(Blastocystis)、产碱杆菌属(Alcaligenes)、柠檬酸杆菌属(Citrobacter)、埃格特菌属(Eggerthella)、西地西菌属(Cedecea)、沙雷氏菌属(Serratia)、无脊椎对虾浓核病毒属(Penstyldensovirus)、芽孢杆菌属(Bacillus)、鸥杆菌属(Laribacter)、吴策线虫属(Wuchereria)、大麦病毒属(Hordeivirus)、巨细胞病毒属(Cytomegalovirus)、放射毛霉属(Actinomucor)、蛔虫属(Ascaris)、志贺氏菌属(Shigella)、维特伏马属(Vittaforma)、孢圆酵母属(Torulaspora)、金氏菌属(Kingella)、水稻病毒属(Oryzavirus)、马铃薯卷叶病毒属(Polerovirus)、震颤病毒属(Tremovirus)、马鼻病毒属(Erbovirus)、内阿米巴属(Entamoeba)、狂犬病病毒属(Lyssavirus)、类芽孢杆菌属(Paenibacillus)、费克蓝姆菌属(Facklamia)、癸型细环病毒属(Kappatorquevirus)、绿僵菌属(Metarhizium)、葡萄穗霉属(Stachybotrys)、头甲病毒属(Okavirus)、灰霉X病毒属(Botrexvirus)、辛型细环病毒属(Thetatorquevirus)和蛙粪霉属(Basidiobolus)。

如本文所用，感染阶段(infection stage)或感染阶段(stage of infection)是指无形感染期、有症状感染期、消退感染期、治疗期、复发期、再发作期、急性期或感染、慢性期或感染、缓慢或潜伏期或感染、持续感染、弥散性感染阶段、初期、第二期或第三期感染。无形感染期发生在症状出现之前或受试者或其它人注意到症状之前。“无形期”的同义词将包含“有症状前感染阶段”、“初期感染阶段”和“早期感染阶段”。共生生物可能会在感染的无形阶段持续。有症状感染期发生在受试者或其它人注意到症状或临床变化，例如发烧、疼痛、皮疹、头痛、痛、呼吸问题等时。消退感染阶段发生在感染通过自身或通过施用治疗消退期间。治疗期可以是施用治疗的消退期的一部分。复发期发生在受试者在以上阶段中的任何阶段中经历了感染复发。再发作期发生在未在第一时间对感染进行适当或充分治疗并且感染重来时。慢性感染是持续感染的一种类型，其最终会被清除。急性期或感染会突然发生，如肝炎。缓慢或潜伏期或感染是在宿主的生命的其余部分持续的感染。持续感染是持续长时间段的感染；持续感染发生在宿主未清除初级感染时。一些微生物使宿主感染第一期、第二期和第三期感染；实例是通过梅毒螺旋体(treponema pallidum)感染。感染可以在以上阶段的任何阶段停留不确定的时间段，不一定会进行到不同期。共生或共栖微生物可能会无限期地保持处于感染的无形阶段，也可能不会感染。

多种宿主-微生物的生物学关系或相互作用是本领域已知的。宿主-微生物的生物学相互作用包含但不限于共生、互利共栖、偏害共栖、寄生、共栖和竞争。公认的是，当微生物位于宿主体内的某些位点时，其可能表现出与宿主的一种类型相互作用，但是当其位于另一位点时，则可能表现出与宿主的另一种类型的相互作用。例如，微生物可以与宿主在宿主的皮肤上以共生性关系存在，但是可以在宿主内部以寄生或竞争关系存在。如本文所用，“病原体”是指引起或可以引起或疑似可引起疾病的微生物。

如本文所用，短语“加标的初始样品”是指在开始生成测序文库之前已经向其添加了过程控制分子的初始样品。

术语“衍生自”涵盖术语“来源于”、“从……获得”、“可从……获得”、和“由……产生”，其通常指示一种指定材料源自另一种指定材料，或具有可以参考另一种指定材料描述的特征。例如，初始样品可以衍生自原始生物样品。

在一些实施例中，初始样品包括以下、由以下组成或基本上由以下组成：固体或体液，如血液、血浆、血清、脑髓液、滑液、支气管肺泡灌洗液、尿液、粪便、唾液、腹腔液、腹液、腹膜灌洗液、胃液、间质液、淋巴液、胆汁、脓肿液、组织、羊膜液、胎便、窦抽出物、淋巴结、骨髓、头发、指甲、脸颊拭子、皮肤拭子、尿道拭子、宫颈拭子、鼻咽拭子、鼻咽抽出物、阴道拭子、上皮细胞、精液、阴道溢液、细胞间液、心包液、直肠拭子、骨骼、皮肤组织、软组织、眼泪和/或鼻样品。在一些实施例中，初始样品包括血浆、由血浆组成或基本上由血浆组成。在一些实施例中，初始样品包括尿液、由尿液组成或基本上由尿液组成。在一些实施例中，初始样品包括脑髓液、由脑髓液组成或基本上由脑髓液组成。在一些实施例中，初始样品来自人类受试者。

在一些实施例中，初始样品可以全部或部分地由细胞和/或组织构成。初始样品可以是游离的或细胞耗竭的。初始游离样品可以包括源自身体中的不同位点，如病原体感染位点的核酸、由所述核酸组成或基本上由所述核酸组成。在血液、血清、淋巴或血浆的情况下，游离样品或细胞耗竭的初始样品可以含有源于除了所讨论的液体的体液收集位点之外的解剖学位置处的“循环”游离核酸。在尿液的情况下，游离核酸可以是源于身体内的不同位点的游离核酸。游离样品或细胞耗竭的初始样品可以借助于通过已知技术，如通过离心或过滤来耗竭或去除细胞、细胞碎片或外来体来获得。

如本文所用，术语“侵入性疾病”是指部分基于与仅以共生或未感染症状或感染轻微症状的形式定殖其它受感染受试者相反，特定病原体严重损害某些受感染受试者的健康的能力的疾病。例如，某些微生物在一些宿主体内可以局部定殖组织而不会引起任何健康问题，而在其它宿主体内，其可能会侵入组织到达其引起严重炎症、组织或器官损伤、败血症、癌症和其它严重健康问题的点。微生物也可能会定殖在某个时间点无症状，但是在稍后的点，在微生物易位和/或变得“活跃”时，发展严重症状的受试者。

如本文所用，术语“游离”是指在即将从身体获得样品之前，核酸在其出现在身体内时处于细胞、病毒颗粒或病毒体之外的状况。例如，样品中的循环游离核酸可能起源于在受试者的血流中循环的游离核酸。相反，从完整微生物，如血源性病原体收集后提取或从血浆样品中的完整病毒体中收集后去除的核酸通常不被视为是“游离的”。

本申请提供了确定受试者的定位位点的方法。来自微生物的核酸或来自受试者体内的不同位点的微生物可以展现出不同的片段长度谱。如果微生物感染是循环的而不是位于一个或多个定位位点，则含有微生物核酸的核酸文库或核酸文库的子集的片段长度谱不同。因此，将片段长度谱与一个或多个源位点的参考片段长度谱进行比较可以预测当来自样品的片段长度谱与来自源位点的参考片段长度谱相似时的定位位点。“定位位点”是指微生物存在、持续、存活或增殖的受试者体内的任何源位点。源位点包含但不限于血流、血液、深部组织，如但不限于肾脏、肝脏、胃、膀胱、消化器官、神经细胞、肺部、骨骼、脑、心脏、心脏衬里、窦、GI道、脾脏、皮肤、关节、耳朵、鼻子和嘴巴。设想了对于特定微生物，受试者可以具有多于一个定位位点。应进一步理解，特定微生物的一些定位位点可能对疾病状态或状况没有贡献。而是，特定微生物的一些定位位点可以指示微生物与宿主之间的共生关系，而特定微生物的其它定位位点可以指示微生物与宿主之间的寄生或偏害共栖关系。进一步认识到，特定微生物的多个定位位点的出现可以指示宿主的全身感染。另外，认识到特定微生物或所关注的病原体的定位位点可能影响治疗或不治疗的决定，并可能影响适当治疗选项的选择。例如且不受机制的限制，与定位到肺部的真菌病原体相比，可以对定位到皮肤的真菌病原体进行不同处理，并且与定位到血液或血流的细菌微生物相比，可以对定位到心脏组织的细菌微生物进行不同处理，所述心脏组织包含但不限于心脏内衬。

在一些实施例中，初始样品包括循环肿瘤或胎儿核酸、由循环肿瘤或胎儿核酸组成或基本上由循环肿瘤或胎儿核酸组成。(参见，例如美国专利第8,877,442号和第9,353,414号中描述的对血清或血源性核酸，如循环肿瘤或胎儿核酸的分析，或在如在发表的美国专利申请第2015-0133391号和发表的美国专利申请第2017-0016048中描述的通过例如分析循环微生物或病毒核酸进行的病原体鉴定，所述美国专利的全部公开内容出于所有目的通过引用以其整体并入本文)。在一些实施例中，初始样品包括循环供体核酸、由循环供体核酸组成或基本上由循环供体核酸组成(参见例如US 20150211070，其通过引用以其整体并入本文，包含任何附图)。

初始样品可以衍生自任何受试者(例如，人类受试者、非人类受试者等)。受试者可以是健康的。在一些实施例中，受试者是有疾病或感染、疑似患有疾病或感染或有疾病或感染的风险的人类患者。在一些实施例中，疾病或感染是病原体相关的。

人类受试者可以是男性或女性。在一些实施例中，样品可以来自人类胚胎或人类胎儿。在一些实施例中，人类可以是婴儿、儿童、青年、成人或老人。在一些实施例中，受试者是怀孕、疑似怀孕或计划怀孕的女性受试者。

在一些实施例中，受试者是已经进行器官移植或计划进行器官移植的人类受试者。

在一些实施例中，受试者是农场动物、实验室动物或家养宠物。在一些实施例中，动物可以是昆虫、狗、猫、马、牛、小鼠、大鼠、猪、鱼、鸟、鸡或猴子。

受试者可以是生物，如单细胞或多细胞生物。在一些实施例中，样品可以从植物、真菌、真细菌、古细菌、原生生物或任何多细胞生物获得。受试者可以是培养的细胞，所述培养的细菌可以是原代细胞或来自已确立的细胞系的细胞。

在一些实施例中，受试者患有遗传性疾病或病症，受遗传性疾病或病症的影响，或有患有遗传性疾病或病症的风险。遗传性疾病或病症可以与遗传变异相关，如突变、插入、添加、缺失、易位、点突变、三核苷酸重复病症、单核苷酸多态性(SNP)或遗传性变异的组合。

在一些方面，受试者是健康的或无症状的，或展现出轻度或非特异性临床症状。在一些情况下，受试者可能受特定病原体感染或疑似受特定病原体感染。在其它情况下，受试者疑似患有未知来源的感染。在一些情况下，受试者已暴露于病原体，或疑似已暴露于病原体，如通过生活条件、通过行进到特定地理区或通过与受感染个体的相互作用或性相互作用。

初始样品可以来自患有特定疾病、病状或感染，或疑似患有特定疾病、病状或感染(或有患特定疾病、病状或感染的风险)的受试者。例如，初始样品可以来自癌症患者，疑似患有癌症的患者或有患癌症的风险的患者。在一些实施例中，初始样品可以来自患有感染的患者、疑似感染的患者或有感染的风险的患者。在一些实施例中，初始样品来自已经进行或将进行器官移植的受试者。

可以用DNA依赖性聚合酶或RNA依赖性聚合酶或逆转录酶或其组合执行引物延伸反应。在一些实施例中，引物延伸反应可以通过具有链置换活性的DNA或RNA聚合酶执行。在一些实施例中，引物延伸反应通过具有非模板化活性的DNA或RNA聚合酶执行。在一些其它实施例中，引物延伸反应可以通过具有链置换活性的DNA或RNA聚合酶和具有非模板化活性的DNA或RNA聚合酶执行。在一些实施例中，引物延伸用Klenow片段执行。

参考片段长度谱通常是预定的。一个或多个合适的参考片段长度谱可以取决于方法、比较的类型或方法的目的而变化。本领域的技术人员将选择一个或多个适当的参考片段长度谱。参考片段长度谱可以获得自暴露于所关注的化合物的受试者或细胞、暴露于相似化合物的受试者或细胞、获得自与所述受试者相似的受试者或细胞、获得自具有已知微生物的受试者或细胞、获得自先前确定为在源位点患有感染的受试者或细胞、或处于如本领域的技术人员所确定的适于使用的所关注的任何其它状况下的受试者或细胞。

具有移植物的受试者有移植排斥的风险，即使在提供有用于降低排斥风险的疗法时也是如此。移植排斥和移植排斥病症对具有移植物的受试者是显著的，通常危及生命的风险。许多抗排斥疗法抑制受试者的免疫系统，由此增加受试者的感染或疾病的风险。因此，需要平衡抗排斥疗法的使用和剂量。本申请提供了监测具有移植物的受试者的移植物状态的方法。方法包括以下步骤：生成由获得自所述受试者或供体的样品生成的核酸文库或整个核酸文库内的靶核酸的基线片段长度谱。在监测移植物状态中特别关注的靶核酸包含但不限于供体和接受者线粒体DNA(mtDNA)。监测移植物状态的方法可以进一步包括评价来自移植物的线粒体DNA的丰度。监测移植物状态涵盖监测与移植物的状态有关的任何事物，包含但不限于移植物的宿主排斥、宿主对移植物的免疫反应、宿主对移植物的反应、移植物恶化、移植物健康、移植物血管化、移植物充氧和移植物故障。基线片段长度谱可以由在移植之前、移植时或移植之后获得的供体和/或接受者样品生成。方法进一步包括以下步骤：由获得获自受试者的样品生成第二片段长度谱，以及将第二片段长度谱与基线片段长度谱进行比较。如果第二片段长度谱与基线片段长度谱不同，则可以向受试者内部施用增加量的抗排斥疗法。

本公开的方法和系统可以通过一种或多种算法来实施。算法可以在由中央处理单元执行时通过软件的方式实施。算法可以例如促进病原体或微生物或其它靶核酸的富集、测序和/或检测，或片段长度谱的生成。

化合物可以包含但不限于化学治疗剂、抗病毒剂、抗生素剂、抗真菌剂、所关注的药剂、小分子、实验药剂、临床试验化合物、药品、药物和活性成分。

毒性包含但不限于细胞毒性。进一步认识到，毒性可以优先发生于特定类别的细胞中，所述特定类别的细胞包含但不限于癌细胞和病原体。

本申请的片段长度谱和方法可以用于非侵入性产前测试(NIPT)。方法允许非侵入性地监测、诊断和跟踪胎儿状况。

在一些实施例中，分离经衔接的核酸包括将经衔接的核酸固定化、由将经衔接的核酸固定化组成或基本上由将经衔接的核酸固定化组成。在一些实施例中，固定化发生在磁珠或功能化磁珠上。在一些实施例中，固定化发生在改性玻璃、改性毛细表面和/或改性柱上。在一些实施例中，分离经衔接的核酸包括纯化经衔接的核酸、由纯化经衔接的核酸组成或基本上由纯化经衔接的核酸组成。在一些实施例中，分离经衔接的核酸包括沉淀经衔接的核酸、由沉淀经衔接的核酸组成或基本上由沉淀经衔接的核酸组成。在一些实施例中，分离经衔接的核酸包括使用3'端保护的3'端衔接子、由使用3'端保护的3'端衔接子组成或基本上由使用3'端保护的3'端衔接子组成。在一些实施例中，分离经衔接的核酸包括以下、由以下组成或基本上由以下组成：通过用3'端外切核酸酶消化未经衔接的核酸来将经衔接的核酸与未经衔接的核酸分离，所述经衔接的核酸包括3'端保护的3'端衔接子、由3'端保护的3'端衔接子组成或基本上由3'端保护的3'端衔接子组成。一些实施例进一步包括富集一定长度的片段的核酸、由富集一定长度的片段的核酸组成或基本上由富集一定长度的片段的核酸组成。在一些实施例中，使用了变性来进一步分离核酸或靶核酸。在一些实施例中，变性包括选择性变性、由选择性变性组成或基本上由选择性变性组成。在一些实施例中，选择性变性包括对于选择一定长度和/或GC含量的片段有效的一个或多个变性步骤，由对于选择一定长度和/或GC含量的片段有效的一个或多个变性步骤组成或基本上由对于选择一定长度和/或GC含量的片段有效的一个或多个变性步骤组成。在一些实施例中，分离一定长度的片段可以通过使用蛋白酶、洗涤剂、肝素、溶血和血浆浓缩发生。

本文提供的方法包含用于受试者遭受感染、有受到感染的风险的受试者和/或经历模仿多种其它疾病的未定义的症状的受试者的各种非侵入性方法。本文提供的方法可以用于多种目的，如诊断或检测感染、确定感染阶段、预测微生物的感染阶段、预测感染是否将进展到侵入性疾病阶段、监测对治疗或程序的功效和/或反应、终止治疗、确定感染位点、确定定殖位点、或修改或优化疗法以获得更好的临床反应。因此，本文提供的方法可以减少由误诊断或由用于确定受试者的器官是否受到感染、受试者的哪些器官受到感染以及受试者的器官如何受到感染的侵入性程序，如活检造成的不利影响。

图1提供了本文提供的方法中的一些方法的总体概述。通常，方法可以包括：从受感染受试者或有感染的风险的受试者获得临床样品；通过添加本公开所提供的合成核酸来制成“加标的样品”；任选地，从所述加标的样品中提取所述核酸；生成加标的样品文库；任选地，富集所关注的靶核酸；进行检测测定，如测序测定，以从所述加标的样品文库获得序列读段；以及根据检测到的核酸确定测量结果，并且将此测量结果与对照或参考进行比较，以确定受试者的感染阶段、微生物与宿主之间的生物学关系或定位位点(例如，器官或组织类型)。在一些情况下，靶核酸与对照或参考的绝对丰度的比较可以指示受试者的感染阶段或定位位点。在一些情况下，靶核酸与对照或参考的片段长度的分布的比较可以指示受试者的感染阶段或定位位点。在一些情况下，靶核酸与对照或参考的片段长度的绝对丰度和分布的比较可以指示受试者的感染阶段或定位位点。

本文提供的方法可以应用于存在于临床样品中的任何类型的核酸。图2提供了无细胞方法的实例的概述。图17提供了受试者的示例性感染的示意图。病原体感染的来源可以例如在肺部或任何其它器官(例如，脑、皮肤、心脏组织、胃、肝脏、肠)中。衍生自病原体的游离核酸，如游离DNA可以行进穿过血流，并可以收集在血浆样品中以用于分析。本文提供的无细胞方法中的一些方法可以包括：从受感染受试者或有感染的风险的受试者获得临床样品；通过添加本公开所提供的合成核酸来制成“加标的样品”；分离所述游离核酸，任选地，从所述加标的样品中提取所述游离核酸；生成加标的样品文库；任选地，富集所关注的靶核酸；进行检测测定，如测序测定，以从所述加标的样品文库获得序列读段；以及根据检测到的游离核酸确定测量结果，并且将此测量结果与对照或参考进行比较，以确定受试者的感染阶段或定位位点。

在一些情况下，可以将方法与测序方法组合，以鉴定可能被感染的器官或组织，或者排除受试者的器官被感染的可能性(参见Koh W.等人,“人类体内的组织特异性全球基因表达的非侵入性体内监测(Noninvasive in vivo monitoring of tissue-specificglobal gene expression in humans)”,《美国科学院院报(PNAS)》2014:111(7361-7366)，所述出版物出于所有目的通过引用以其整体在此并入)。图4提供了使用游离RNA测序的器官位点方法的实例。器官-位点检测测定可以在本公开的方法或另一种临床测试确定了受试者具有处于侵入性疾病阶段的感染的情况下使用。在此情况下，方法可以进一步包括进行本文提供的器官-位点方法之一来检测器官是否已被感染。

本公开还提供了用于个体化治疗受感染受试者或易于感染或有感染的风险(例如，免疫抑制的、免疫受损的、生活条件下的或导致感染的易感性增加的遗传变异)的受试者的方法。本公开提供的个体化治疗包含预测感染是否将进展到侵入性疾病阶段的方法、用于监测受试者的疗法的功效、取决于受试者对疗法的反应来修改治疗方案以及确定病原体对特定治疗剂的耐性或受试者对给定治疗剂的反应的遗传易感性的方法。

可以对根据本发明方法产生的核酸进行分析以获得各种类型的信息，包含基因组、表观遗传(例如，甲基化)和RNA表达。甲基化分析可以通过例如转化甲基化的碱基然后进行DNA测序来执行。RNA表达分析可以例如通过多核苷酸阵列杂交、通过RNA测序技术或通过对由RNA产生的cDNA进行测序来执行。

测序可以通过本领域已知的任何方法。测序方法包含但不限于基于Maxam-Gilbert测序的技术、基于链终止的技术、鸟枪测序、桥PCR测序、单分子实时测序、离子半导体测序(例如，离子激流测序(Ion Torrent sequencing))、纳米孔测序、焦磷酸测序(454)、通过合成的测序、通过连接的测序(SOLiD测序)、通过电子显微术的测序、双脱氧测序反应(桑格方法)、大规模平行测序，聚合酶克隆测序和DNA纳米球测序。术语“下一代测序(NGS)”在本文中是指允许对核酸分子进行大规模平行测序的测序方法，在所述大规模平行测序期间，同时对来自单个样品或来自多个不同样品的多个，例如数百万个核酸片段进行测序。NGS的非限制性实例包含通过合成的测序、通过连接的测序，实时测序和纳米孔测序。在一些实施例中，测序涉及：将引物与模板杂交以形成模板/引物双链体；在可检测地标记的或未标记的核苷酸存在的情况下，在允许聚合酶向引物添加标记的或未标记的核苷酸的条件下，以模板依赖性方式将所述双链体与聚合酶接触；检测来自掺入的标记的核苷酸的信号或检测由掺入标记的或未标记的核苷酸的过程(例如，质子释放)产生的信号；以及至少一次依序地重复接触和/或检测步骤，其中对掺入的标记的或未标记的核苷酸的依序检测确定了核酸的序列。

示例性可检测标记包含放射性标记、荧光标记、蛋白质标记、染料标记、酶标记等。在一些实施例中，可检测标记可以是光学可检测标记，如荧光标记。示例性荧光标记包含花菁、若丹明、荧光素、香豆素、BODIPY、alexa或缀合的多染料。

在一些实施例中，测序包括获得配对的端部读段、由获得配对的端部读段组成或基本上由获得成对的端部读段组成。在一些实施例中，测序包括获得共识读段、由获得共识读段组成或基本上由获得共识读段组成。

序列信息的准确度或平均准确度可以大于约80％、约90％、约95％、约99％、约99.98％或约99.99％。序列准确度或平均准确度可以大于约95％或约99％。序列覆盖率可以大于约0.00001倍、0.0001倍、0.001倍、约0.01倍、约0.1倍、约0.5倍、约0.7倍或约0.9倍。序列覆盖率可以小于约200,000倍、约100,000倍、约10,000倍、约1,000倍或约500倍。

在一些实施例中，每核酸模板获得的序列信息多于约10个碱基对、约15个碱基对、约20个碱基对、约50个碱基对、约100个碱基对或约200个碱基对。序列信息可以在少于1个月、2周、1周、2天、1天、14小时、10小时、3小时、1小时、30分钟、10分钟或5分钟内获得。

尽管实例(以下)对某些测序系统，例如Illumina系统使用了特定序列，但是应当理解，对这些序列的引用仅出于说明目的，并且本文所述的方法可以被配置成用于与掺入了特定发动、连接、索引的其它测序系统以及这些系统，例如可从Ion Torrent公司、牛津纳米孔公司(Oxford Nanopore)、Genia技术公司、太平洋生物科学公司(PacificBiosciences)、Complete Genomics公司等获得的系统中使用其它操作序列一起使用。

本文提供的方法可以包含使用系统，如含有用于生成DNA或RNA序列信息的核酸测序仪(例如，DNA测序仪RNA测序仪)的系统。所述系统可以包含计算机，所述计算机包括对DNA或RNA序列信息执行生物信息学分析的软件。生物信息学分析可以包含但不限于组装序列数据、检测并量化样品中的遗传变体，包含种系变体和体细胞变体(例如，与癌症或癌前病状相关的遗传变异、与感染相关的遗传变异)。

可以使用测序数据来确定遗传序列信息、倍数性状态、一种或多种遗传变体的鉴定以及变体的定量量度，包含相对和完全相对量度。

在一些情况下，基因组的测序涉及整个基因组测序或部分基因组测序。测序可以是无偏差的并且可以涉及对样品中的核酸中的所有或基本上所有核酸(例如，大于70％、80％、90％)进行测序。基因组的测序可以是选择性的，例如指向所关注的基因组的部分。选择基因或基因的部分的测序可以足够进行期望的分析。可以通过例如序列捕获或位点特异性扩增来分离映射到作为所关注的受试者的基因组中的特定基因座的多核苷酸，以用于测序。

比对序列读段

测序之后，可以将序列的数据集上载到数据处理器以用于生物信息学分析，以从分析中减除宿主或宿主相关的序列，例如，人、猫、狗等；并且例如通过将映射到微生物参考序列的序列的覆盖率与宿主参考序列的覆盖率进行比较来确定病原体或污染物序列(例如微生物序列)的存在和患病率。宿主序列的减除可以包含鉴定参考宿主序列，以及掩盖参考宿主基因组中存在的微生物序列或微生物模拟序列的步骤。类似地，通过与微生物参考序列进行比较来确定微生物序列的存在可以包含鉴定参考微生物序列，以及掩盖参考微生物基因组序列中存在的宿主序列或宿主模拟序列的步骤。

可以任选地清洁数据集以检查序列质量，去除测序仪特异性核苷酸(例如衔接子序列)的残余，并且合并重叠的成对的端部读段，以产生具有较小读段误差的更高质量的共有序列。重复值序列可以被鉴定为具有相同起始位点和长度或相同或几乎相同的序列的那些。任选地，可以从分析中去除重复值。

在一些方面，可以从分析中减除宿主或宿主相关的(例如人)序列。在一些方面，将宿主序列保留在分析中。在一些方面，扩增/测序步骤可以是无偏差的，并且样品中序列的优势将是宿主序列。可以以几种方式优化减除步骤，以提高过程的速度和准确度，例如通过在粗过滤器处，例如，利用快速对准器设置初始对准来执行多次减除，并且利用精细过滤器，如敏感对准器或扩展参考数据库执行另外的对准。

初始地可以将读段的数据集与包含但不限于Genbank hg19或Genbank hg38参考序列的宿主参考基因组进行比对，从而以生物信息学方式减除宿主DNA。可以将每个序列与宿主参考序列中的最佳集合序列进行比对。可以从分析中以生物信息学方式去除被鉴定为宿主的序列。

宿主或宿主相关的序列的去除也可以通过添加具有高击中率的重叠群来优化，所述重叠群包含但不限于基因组中存在的在参考数据库中不能很好表示的高度重复性序列。例如，已经观察到，在流水线的后期阶段，当使用包含人序列的大集合的数据库，例如整个NCBI NT数据库时，将读段中与hg19或hg38不可比对的显著量的那些最终鉴定为人。可以通过构建扩大的宿主或宿主相关的参考来执行在分析的早期去除这些读段。此参考可以通过鉴定序列数据库而不是序列，例如NCBI NT数据库中的在初始宿主读段减除之后具有高覆盖率的宿主重叠群来创建。可以将这些重叠群添加到宿主参考以创建更全面的参考集。另外，可以使用来自队列研究的新型组装的宿主相关的重叠群作为用于过滤宿主衍生的读段的另外的参考。

可以掩盖宿主基因组参考序列的含有相关非宿主序列的区，例如，整合到参考样品的基因组的病毒和细菌序列。

任选地，可以通过基于非比对的方法，如通过序列特性识别序列来鉴定并去除宿主或宿主相关的序列，所述序列特性包含某些基序的频率、序列模式、单词频率或核苷酸偏差。

然后可以将鉴定为非人的序列读段与微生物参考序列的核苷酸数据库进行比对。可以针对已知与宿主，例如人共生和病原体微生物的集合相关联的那些微生物序列选择数据集。

可以对微生物数据库进行优化以掩盖或去除污染序列。例如，许多公共数据集条目包含不是衍生自微生物的人工序列，例如，引物序列、宿主序列和其它污染物。可能期望的是对数据库执行初始比对或多个比对。在多个样品进行比对时示出读段覆盖率的不规则性的区可以作为伪影进行掩盖或删除。此不规则覆盖率的检测可以通过各个指标来完成，如特定核苷酸的覆盖率与此核苷酸存在的整个重叠群的平均覆盖率之间的比率。通常，表示为大于其参考序列的平均覆盖率约5X、约10X、约25X、约50X、约100X的序列可能是人为的。可替代地，可以在给定重叠群的总体覆盖率的情况下应用二项式测试来提供每库覆盖率似然。从参考数据库去除污染物序列允许准确地鉴定微生物。

每个高置信度读段都可以与给定微生物数据库中的多种生物比对。为了基于此可能的映射冗余来正确地分配生物体丰度，可以使用算法来计算最可能的生物体(例如，参见Lindner等人,《核酸研究(Nucl.Acids Res.)》(2013)41(1):e10)。例如，可以使用GRAMMy或GASiC算法来计算给定读段所来自的最可能的生物。

与宿主序列或与非宿主(例如，微生物)序列的比对和对其的指定可以根据本领域公认的方法执行。例如，如果读段长度存在不多于1个错配、不多于2个错配、不多于3个错配、不多于4个错配、不多于5个错配等，则可以将读段50nt.指定为匹配给定基因组。可以使用公开可用的算法来进行比对和鉴定。此比对算法的非限制性实例是bowtie2程序(约翰霍普金斯大学(Johns Hopkins University))。

然后在确定样品(例如，游离核酸样品)中的生物体的发病率时，可以将读段到生物(例如，宿主生物、非宿主生物、微生物、病原体等)的这些分配进行汇总，并且将其用于计算分配给给定样品中的每种生物的读段的估计数量。可以使用此信息来确定病原体或污染物的来源。分析可以将微生物基因组的大小的计数归一化，以提供对微生物的覆盖率的计算。可以将每种微生物的归一化覆盖率与同一样品中的宿主序列覆盖率进行比较，以解决样品之间的测序深度的差异。

进一步地，可以任选地聚集并展示样品中的由序列表示的微生物生物的数据集和这些微生物的发病率，以用于即时可视化，例如以报告的形式。

本公开提供了归一化方法。在一些情况下，本公开的方法可以包括一种或多种归一化方法。由本公开提供的归一化方法允许在样品中检测到的疾病特异性、病原体特异性或器官特异性核酸的测量结果或量高效且得到改进。

本公开的归一化方法通常使用加标物合成核酸。加标物合成核酸可以用于以多种不同方式对样品进行归一化。加标物核酸可以跨所有样品和测量疾病特异性核酸、病原体特异性核酸或其它靶核酸的所有方法进行归一化。在一些情况下，使用加标物可以增加样品中的病原体核酸(或疾病特异性核酸或靶标核酸)相比于样品中的其它病原体核酸的相对丰度计算的精度。

通常，可以将合成核酸的一种或多种已知浓度的物种加标到每个样品中。在许多情况下，合成核酸的物种可以以每种物种的等摩尔浓度加标。在一些情况下，合成核酸的物种的浓度可以不同。

核酸物种的丰度可以由于样品处置、制备和测量(例如，检测)的固有偏差而改变。在测量之后，可以通过将每种“物种”的加标核酸的所测量丰度与最初加标的量进行比较，来确定恢复每种长度的核酸的效率。这可以得到“基于长度的恢复谱”。

“基于长度的恢复谱”可以用于通过按照最接近长度的加标的分子或按照与不同长度的加标的分子拟合的函数对疾病特异性核酸丰度(或病原体核酸或其它靶核酸的丰度)进行归一化来对所有(或大多数或一些)疾病特异性核酸、病原体核酸或其它靶核酸进行归一化。

此过程可以应用于靶核酸，如病原体特异性核酸，并且可能导致在对样品加标时对“所有病原体特异性核酸的原始长度分布”的估计。“所有靶核酸的原始长度分布”可以示出在对样品加标时靶核酸(例如，病原体特异性核酸或器官特异性核酸)的长度分布谱。正是此长度分布，加标的核酸才可以寻求概括，以实现完美或接近完美的丰度归一化。正是此长度分布，加标的核酸才可以寻求概括，以实现确定靶核酸的内源性片段长度分布。

由于不可能用已知核酸的精确地概括所述特定样品中的疾病特异性核酸、病原体核酸或其它靶核酸的相对丰度谱的混合物对样品加标，这部分地是因为样品可能已经用完或时间可能已改变了相对丰度谱，因此可以按与其在“所有疾病特异性核酸的原始长度分布”内的相对丰度的比例，对加标物的每种“物种”进行加权。所有“加权因子”的总和可以等于1.0。

归一化可以涉及单个步骤或一系列步骤。在一些情况下，可以使用最接近大小的加标的核酸丰度的原始测量结果对疾病特异性核酸(或病原体核酸或其它靶核酸)的丰度进行归一化，以得到“归一化疾病特异性核酸(或病原体核酸或其它靶核酸)丰度”。然后，可以将“归一化疾病特异性核酸丰度”(或病原体核酸或其它靶核酸丰度)乘以“加权因子”，以调整恢复所述长度的相对重要性，从而得到“加权的归一化疾病特异性(或病原体特异性或其它靶)核酸丰度”。此归一化的方法的一个优点可以是，其允许跨测量疾病特异性核酸丰度的所有(或大多数)方法来可比较地测量靶核酸(例如，疾病特异性核酸、病原体核酸)丰度，不论方法如何都是如此。

此测定可以涉及测量生物样品(例如，血浆)中的靶核酸(例如，疾病特异性核酸)的量，以检测病原体的存在或鉴定疾病状态或确定靶核酸是基于样品的、基于试剂的或基于环境的。本文所述的方法可以使这些测量结果可跨样品、测量时间、核酸提取的方法、核酸操纵的方法、核酸测量的方法和/或各种样品处置条件比较。

本公开提供了多样性损失值测量。在一些情况下，本公开的方法可以包括确定多样性损失值。

特定文库中检测到的去重复值的(例如，去除复制品)SPANK分子的数量是所述文库中可检测到的最小浓度的代替。这可以用于基于所述文库中可检测到的SPANK分子的最小浓度设置阈值。阈值可以用于确保足够的测序深度以用于检测病原体。阈值还可以用于确保病原体信号不是由于来自其它样品的交叉污染。例如，可以在不同样品之间将相对于通过SPANK分子设置的阈值的病原体的富集进行比较。更一般地，其与所述文库将原始样品中的DNA分子转化为DNA测序数据中的读段的效率成正比。

可以使用本公开提供的加标的SPANK分子来计算多样性损失值。多样性损失值可以如图5所示来确定。在一些情况下，如果SPANK序列的多样性足够高，则加标到样品中的SPANK序列可以被假设为基本上都是独特的。因此，测序的任何重复值SPANK序列可能是由于PCR扩增，而不是由于同一SPANK序列的多个副本被添加到样品中，并且其可以从分析中去除。另外，如果每个SPANK序列都是独特的，则最初添加到样品的SPANK序列总数量基于添加到样品的核酸浓度和体积是已知的，并且测序之后独特SPANK测序读段的总数量是已知的，这些值一起可以用于计算多样性损失值。

C：绝对丰度(MPM)

本公开提供了绝对丰度测量(也被称为“每微升分子”(MPM))。

通常，样品中的靶核酸(例如，DNA或RNA)的绝对丰度可以通过利用经验确定的多样性损失值对靶核酸的序列读段的数量进行归一化来确定。

在一些情况下，绝对丰度测量可以包括以各种长度或单个长度的核酸和以已知浓度对样品加标。在一些情况下，可以针对每种加标物长度观察来自样品的在测序数据中实际观察到的信息的分数(例如，通过将观察到的读段与和加标的核酸相关联的读段进行比较，或通过由加标的读段将观察到的读段分开)。也可以反向计算每个长度处的非宿主或病原体分子的原始数量(例如，部分地根据每个长度处的加标物读段的数量推断)。可以将此负载转化为“每微升分子”的测量结果。

在许多情况下，用于检测每微升分子的方法(以及本文提供的其它方法)可以涉及去除或隔离低质量读段。去除低质量读段可以提高本文提供的方法的准确度和可靠性。在一些情况下，方法可以包括去除或隔离以下(以任何组合)：不可映射的读段、由PCR重复值产生的读段、低质量读段、衔接子二聚体读段、测序衔接子读段、非独特映射的读段和/或映射到无信息序列的读段。

在一些情况下，可以将序列读段映射到参考基因组，并且可以将未映射到此类参考基因组的读段映射到一个或多个靶或病原体基因组。在一些情况下，可以将读段映射到人参考基因组(例如，hg19)，同时将其余读段映射到病毒、细菌、真菌和其它真核生物病原体(例如，真菌、原生动物、寄生虫)的精选参考数据库。

本公开提供了可以用于确定本公开提供的测量结果指示受试者有处于某个感染阶段或处于定位位点的感染的各种对照和参考。

通常，方法包括使用本公开的方法处理参考或对照。在一些情况下，可以测量对照或参考值测量作为浓度或测序读段数量。水平可以是定性或定量水平。基于来自对照或参考样品的序列读段，可以确定靶核酸(例如，病原体物种、基因变体、从实验室环境引入或器官衍生的污染物)的基线水平。

在一些情况下，对照或参考值可以是病原体依赖性的。例如，幽门螺杆菌的对照值可以与艰难梭菌的对照值不同。可以基于从一个或多个受试者获得的、一个或多个病原体和/或一个或多个时间点的样品来生成水平或对照值的数据库。此数据库可以是精选的或专有的。

在一些情况下，对照或参考值是预定绝对值，其指示游离病原体核酸或游离器官衍生的核酸存在或不存在。对照或参考值可以是通过分析无感染的受试者的游离核酸水平获得的值。在一些情况下，对照或参考值可以是阳性对照值并且可以通过分析来自有特定已知感染或具体器官有特定已知感染的受试者的游离核酸来获得。

在一些情况下，对照可以包含使用来自健康个体的对照样品鉴定引起感染或不引起感染的一组共生微生物或天然微生物区系。可以基于对照样品中的一组共生微生物来设置阈值。

可以使用泊松模型或其它统计模型来确定临床样品的确定的基线水平是否显著高于参考对照。在来自临床样品的序列读段显著高于参考对照的情况下，这指示读段是信息性的。在一些情况下，可以选择此类信息性读段来确定两个不同临床组的阈值。

取决于靶核酸和跨样品观察到的背景的水平，可能期望的是使用一种或多种参考来减除或过滤出序列读段。过滤可以与选择组合，并且在选择之前或之后完成。在一些实施例中，至少一个参考值基于在一个或多个样品中检测到的病原体核酸的水平，所述一个或多个样品选自由以下组成的组：水样品、血液样品、血浆样品、血清样品、尿液样品、体液样品、试剂样品、来自健康受试者的样品或其任何组合。

对照值可以是在不同时间点从受试者获得的游离病原体或游离器官特异性核酸的水平。

在一些情况下，可以在稍后的测试时间点(例如，在治疗干预之后或在某些时间已经流逝以用于观察等待)之前的时间点提取样品。在此类情况下，对不同时间点的水平的比较可以指示存在感染、特定器官存在感染、感染改善或感染恶化。例如，随着时间的推移病原体或器官特异性游离核酸增加一定量可以指示感染或感染恶化的存在，例如，相比于原始值增加至少5％、10％、20％、25％、30％、50％、75％、100％、200％、300％或400％可以指示感染或感染恶化的存在。在其它实例中，相比于原始值病原体或器官特异性游离核酸减少至少5％、10％、20％、25％、30％、50％、75％、100％、200％、300％或400％可以指示感染或感染提高不存在(例如，感染根除)。

可以在特定时间段内提取样品，如每天、每隔一天、每周、每隔一周、每月或每隔一个月。例如，一周内病原体或器官游离核酸增加至少50％可以指示感染存在。

方法可以包括确定阈值或值的范围。阈值可以用于鉴定某个临床组中的样品(定殖阶段与侵入性疾病阶段或无器官感染与受感染器官)。阈值可以用于鉴定或选择来自临床样品的信息性的序列读段。通常，期望的阈值将是最大化真阳性的数量同时最小化假阳性的数量的阈值。在一些情况下，阈值可以使用ROC曲线分析来选择。在一些情况下，阈值可以基于性能指标来选择。

阈值选择

阈值可以通过使用各种统计方法，如接收器操作特性(ROC)曲线分析基于其性能来选择。在选择截止阈值之前，可以使用ROC分析来评估分类器在其整个操作范围内的性能。为了使用ROC曲线来确定哪些阈值截止值应执行最佳的，可以跨范围(例如，0到1.0)逐步移动阈值以在减少假阳性的数量以及增加真阴性数量时找到截止值的结果。

ROC分析可以通过如下绘制从本公开的方法获得的数据来执行：TP(敏感性)与FP(1-特异性)。使用ROC图，完美或接近完美的分类器通常会沿Y轴线并且然后沿X轴线笔直行进，而没有能力对不同临床组中的样品进行分类的分类器通常会就座于对角线上。大多数分类器将介于这两种极端情况之间的某处，并且用户可以基于其最可能或期望的性能来挑选阈值。

可以使用如准确度、敏感性、特异性、阳性预测值或阴性预测值等性能指标来选择阈值。在一些情况下，可以使用一个性能指标来选择阈值。在一些情况下，可以使用多个性能指标来选择阈值。

应用于数据集的任何阈值(其中PP为正种群，并且NP为负种群)将产生真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)。

在一些情况下，可以使用准确度性能指标来确定正确分类的概率。准确度可以通过应用以下等式来计算：(TP+TN)/(PP+NP)。在一些情况下，准确度使用经训练的算法来计算。

在一些情况下，可以使用敏感性性能指标来确定测试检测患病的个体群体中的疾病的能力。敏感性百分比可以通过应用以下等式来计算：TP/(TP+FN)。

在一些情况下，可以使用特异性性能指标来确定测试正确排除无病群体中的疾病的能力。特异性可以通过应用以下等式来计算：TN/(TN+FP)。

在对样品进行分类以用于感染的诊断时，通常存在四种来自二进制分类器的可能结果。如果来自预测的结果为p，并且实际值也为p，则其被称为真阳性(TP)；然而，如果实际值为n，则其被称为假阳性(FP)。相反，真阴性发生在预测结果和实际值两者均为n时，并且假阴性是当预测结果为n，同时实际值为p时。对于检测如感染等疾病或病症的测试，假阳性在此情况下可以发生在受试者测试为阳性，但实际没有感染时。另一方面，假阴性可以发生在受试者实际上确实有感染但对此感染测试为阴性时。

阳性预测值(PPV)或精度率或疾病的测后概率是被正确诊断的具有阳性测试结果的患者的比例。其可以通过应用以下等式来计算：PPV＝TP/(TP+FP)×100。PPV可以反映阳性测试反映了所测试的潜在病状的概率。然而，其值确实可以取决于疾病的发病率，所述发病率可以变化。

阴性预测值(NPV)可以通过以下等式计算：TN/(TN+FN)×100。阴性预测值可以是正确诊断的具有阴性测试结果的患者的比例。PPV和NPV测量结果可以使用适当的疾病患病率估计得出。

可以基于用户期望的在特异性和敏感性方面的性能来设置阈值，以在两个临床组之间进行区分。在一些情况下，本公开提供的方法的特异性可以大于70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％，并且敏感性可以大于95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或更多。

应用

本公开提供的方法可以用于多种目的，如诊断或检测感染、确定微生物与宿主之间的生物学关系、感染的感染阶段、预测感染是否会进展到侵入性疾病阶段、监测对感染的疗效的功效和反应、修改或优化疗法以用于更好的临床反应、停止治疗或疗法。因此，使用本公开提供的方法，可以根据通过所述方法获得的数据为受试者提供个体化治疗。

预期引起受试者的感染的病原体具有几种特性，如但不限于与无症状参考或对照相比升高的绝对丰度水平、异常的核酸长度分布谱，或者其可以具有两种特性。同样，预期感染受试者的器官的病原体与无症状参考或对照相比具有升高的绝对丰度水平、异常的核酸长度分布谱，或者其可以具有两种特性。引起受试者的感染的病原体可以具有几种特性，如但不限于可与有症状参考或对照相比的核酸长度分布谱。

A：感染阶段

本公开提供的方法可以用于检测、诊断、治疗、监测、预测或预后受试者的感染阶段。引起感染的病原体可以是细菌、病毒、真菌、寄生虫、酵母或其它微生物，尤其是感染性微生物。在一些情况下，可以使用所述方法来确定受试者是否处于定殖或侵入性疾病阶段。在一些情况下，可以使用所述方法来检测受试者是否处于孕育阶段、前驱阶段、疾病阶段、衰退阶段、渐愈阶段、根除阶段、慢性阶段或侵入性阶段。在一些情况下，方法可确定感染处于活跃阶段或潜伏阶段。

本公开的方法可以与其它医学测试结合使用。例如，可以在从受试者进行粪便抗原测试、尿素呼吸测试、血清学、尿素酶测试、组织学、细菌培养和敏感性测试、活检、内窥镜检查之前或之后使用所述方法。在一些情况下，本文所述的方法在不对受试者执行粪便抗原测试、尿素呼吸测试、血清学、尿素酶测试、组织学、细菌培养和敏感性测试、活检或内窥镜检查的情况下执行。

在本文所述方法的一些情况下，所述方法将感染进展到侵入性疾病阶段的风险降低了至少10％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％或至少90％。在本文所述方法的一些情况下，所述方法将侵入性疾病阶段的死亡率和/或与并发症有关的死亡率降低了至少10％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％或至少90％。

本文所述的方法可以进一步包括衍生自受试者的器官的游离核酸的RNA测序(RNA-Seq)。由感染引起的组织损伤可能导致游离核酸从受感染器官或组织释放到血液中。图3描绘了游离DNA的释放的实例。样品中的衍生自器官的例如游离RNA的增加可以指示受试者的器官已受到病原体感染。

例如，一种方法可以包括分析来自与一种或多种临床症状相关的病原体的循环游离病原体核酸。所述方法可以进一步包括执行RNA-Seq以检测受试者的血液中的器官衍生的游离RNA的增加。这些测试结果的组合可以指示病原体已经感染了受试者，以及确定受试者的哪个器官受到感染。

RNA-Seq测试可以与用于检测感染的另一种临床方法同时，在用于检测感染的临床方法之后或在检测和感染临床方法之前执行。在其它情况下，RNA-Seq可以独立用于研究器官健康，或者可以提供对通过本文所述的另一种临床方法检测到的感染是特定器官的感染的增加的置信度。

在一些情况下，RNA-Seq检测可能能够确定感染是否处于侵入性疾病阶段。在一些情况下，可以随时间推移重复RNA测序测试，以确定特定器官或组织的感染在恶化或在改善，或者其是否会扩散到受试者的不同器官或组织。同样，也可以随时间推移重复本文提供的病原体检测测定结合器官感染测定。

RNA-Seq测试(或一系列RNA-Seq测试)有时可以在本文所述的方法产生阳性测试结果(例如，检测到病原体感染)之后执行。RNA-Seq测试尤其可用于确认感染或用于鉴定感染位置。例如，所述方法可以通过分析循环游离核酸来检测受试者体内的病原体的存在，但是感染的位点可能不清楚。在此情况下，所述方法可以进一步包括对来自受试者的游离RNA进行测序以确认感染在器官内。

器官特异性RNA的绝对丰度

在一些情况下，器官特异性RNA序列的绝对丰度水平可以用作指示受试者的器官受到病原体感染的指标。器官感染的检测可以涉及将器官特异性核酸的水平与对照或参考值进行比较，以确定器官核酸的存在或不存在和/或器官特异性核酸的数量。水平可以是定性或定量水平。

在一些情况下，对照或参考值是预定绝对值，其指示游离器官衍生的核酸存在或不存在。例如，检测到游离病原体核酸的水平高于对照值可以指示器官中存在感染，而水平低于对照值可以指示器官中不存在感染。

对照值可以是通过分析无感染的受试者(例如，健康对照)的游离核酸水平获得的值。在一些情况下，对照值可以是通过分析来自有特定感染或具体器官有特定感染的受试者的游离核酸获得的阳性对照值。

可以测量对照或参考值测量作为浓度或测序读段数量。对照或参考值可以是病原体依赖性的、器官依赖性或病原体依赖性的和器官依赖性的两者。可以基于从一个或多个受试者获得的、一个或多个病原体和/或一个或多个时间点的样品来生成水平或对照值的数据库。此数据库可以是精选的或专有的。

在一些实施例中，对照或参考绝对丰度值指示受试者体内存在或不存在定位位点。例如，检测到游离病原体核酸的绝对丰度水平高于对照或参考值可以指示感染在器官中，而绝对丰度值低于对照或参考值可以指示感染不在器官中。在一些情况下，检测到游离病原体核酸的绝对丰度水平高于对照或参考值可以指示感染在器官中，而绝对丰度值低于对照或参考值可以指示感染不在器官中。

器官特异性RNA的片段长度的分布

在一些情况下，器官特异性RNA序列的片段长度的分布指示受试者的器官受到病原体感染。

例如，检测到游离器官特异性核酸的异常分布可以指示器官受到感染，而游离器官特异性核酸的正常分布可以指示器官未受到感染。

对照片段长度分布可以是通过分析器官中无感染的受试者(例如，健康对照)的游离核酸水平预定的。对照片段长度分布可以通过分析患有器官感染的受试者的与感染不相关的游离核酸水平来并行获得。

在一些实施例中，片段长度的对照或参考分布指示定位位点存在或不存在。例如，检测到游离病原体核酸的异常分布可以指示感染在器官中，而游离病原体核酸的正常分布可以指示感染不在器官中。在一些情况下，检测到游离病原体核酸的异常分布可以指示感染在器官中，而游离病原体核酸的正常分布可以指示感染不在器官中。

器官特异性RNA的阈值或值的范围

在一些情况下，可以使用阈值截止值作为受试者的器官受到本文所提供的病原体的感染的指标。阈值截止值可以如本文所提供的通过使用来自受病原体感染的受试者的器官特异性RNA序列，并且将这些与对照或参考进行比较来确定。

在一些情况下，样品被鉴定为受感染器官的准确度大于75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或更多。在一些情况下，样品被鉴定为受感染器官的敏感性大于75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或更多。在一些情况下，样品被鉴定为受感染器官的特异性大于75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或多于95％。

在一些情况下，样品被鉴定为受感染器官的阳性预测值为至少95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或更多。在一些情况下，样品被鉴定为受感染器官的阴性预测值为至少95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％的受感染器官或更多。

在一些情况下，样品被鉴定为受感染器官的敏感性大于75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或更多，并且特异性大于75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或更多95％。

B：个体化治疗和监测

本公开还提供了用于个体化治疗受感染受试者或易于感染或有感染的风险(例如，免疫抑制的、免疫受损的、生活条件下的或导致感染的易感性增加的遗传变异)的受试者的方法。个体化治疗可以包含预测感染是否将进展到侵入性疾病阶段、监测受试者的疗法的功效、取决于受试者对疗法的反应来修改治疗方案以及确定病原体对特定治疗剂的耐性。

在一些情况下，所述方法可以用于检测、诊断、预测或预后病原体对特定治疗剂的耐性。在一些情况下，所述方法可以进一步包括针对与对治疗剂或对特定治疗剂的治疗耐性相关的遗传变异对受试者的DNA进行测序。

在一些情况下，可以在感染过程之前或期间的各个时间连续收集样品，以确定病原体和受试者对治疗的反应，从而提供个体定制的方案。在一些情况下，将连续收集的样品彼此进行比较，以确定受试者的感染在改善或在恶化。

治疗可以涉及施用药物或其它疗法以减少或消除与感染相关的定殖或侵入性疾病。在一些情况下，可以对受试者进行预防性治疗以防止感染发展。可以使用包含药物的施用的任何医疗程序或治疗都来改善或减少感染症状。可以使用的一些非限制性示例性药物为抗生素(如，氨苄西林(ampicillin)、舒巴坦(sulbactam)、盘尼西林(penicillin)、万古霉素(vancomycin)、庆大霉素(gentamycin)、氨基糖苷(aminoglycoside)、克林霉素(clindamycin)、头孢菌素(cephalosporin)、甲硝唑(metronidazole)、特美汀(timentin)、替卡西林(ticarcillin)、克拉维酸(clavulanic acid)、头孢西丁(cefoxitin))、抗逆转录病毒药物(例如，高效抗逆转录病毒疗法(HAART)、逆转录酶抑制剂、核苷/核苷酸逆转录酶抑制剂(NRTI)、非核苷类RT抑制剂和/或蛋白酶抑制剂)或免疫球蛋白。

本公开还提供了调节治疗方案的方法。例如，受试者可以已经施用了用于治疗感染的药物。可以使用本文提供的方法来跟踪或监测药物治疗的功效。在一些情况下，可以取决于感染的上升或下降过程来调整治疗方案。例如，如果本文提供的方法表明感染不能用药物治疗来改善，则可以通过改变药物或治疗的类型、中断药物的使用、继续药物的使用、增加药物的给药或对受试者的治疗方案添加新的药物或疗法来调整治疗方案。

在一些情况下，治疗方案可以涉及特定程序。例如，在一些情况下，所述方法可以指示需要外科手术程序或侵入性诊断程序，如去除肿瘤或执行活检来确定器官是否是受感染的。同样，如果所述方法指示感染通过治疗干预正在改善或已消退，则调整治疗方案可能涉及减少或中断治疗。在其它情况下，可以不给予治疗方案，而是可以使用“观察等待”或“观察和等待”方法来观察在不用任何另外的医疗干预的情况下，感染是否清除。

本公开的方法可以包括检测受试者的病原体。在一些情况下，所述方法可以包括使用样品的全基因组测序。在一些情况下，所述方法可以包括使用样品的靶向测序，其中使用特异性引物来检测所关注的特定病原体。通常，病原体可以具有建议的治疗周期。例如，幽门螺杆菌的治疗周期在图6中示出。本公开提供的方法可以在治疗周期的任何阶段使用。

本公开的方法可以应用于具有各个感染阶段的任何病原体。所述方法可特别用于具有定殖阶段和侵入性疾病阶段的病原体。在一些情况下，侵入性疾病阶段可能是由病原体感染引起的。在一些情况下，侵入性疾病阶段可能与病原体感染相关联。

本公开提供了用于检测、监测、诊断、预后、治疗、监测、预测或预防幽门螺杆菌(幽门螺杆菌)的定殖的方法。幽门螺杆菌定殖可能是无症状的。在一些情况下，定殖可能表现为急性胃炎，伴有腹部疼痛(胃痛)或恶心。本公开提供了用于检测、监测、诊断、预后、治疗或预防侵入性幽门螺杆菌疾病的方法。患有侵入性幽门螺杆菌疾病的受试者可能发展并发症，如慢性胃炎、消化性溃疡疾病、胃腺癌、胃癌和/或淋巴瘤。

本公开提供了用于检测、监测、诊断、预后、治疗、预测或预防艰难梭菌(CDI)的定殖的方法。CDI可能以无症状或有症状形式存在。CDI感染的临床谱的范围可以从轻度到中度、重度或复杂疾病。有轻度到中度CDI的受试者可能出现腹泻、结肠炎，包含发烧、白细胞增多和/或痉挛。CDI腹部和全身症状的严重度可能随感染的严重度而增加。可以使用所述方法来检测、监测、诊断、预后、治疗或预防侵入性CDI疾病。患有复杂或侵入性CDI疾病的受试者可能发展假膜性结肠炎、毒性巨结肠、结肠穿孔和/或败血症。

本公开提供了用于检测、监测、诊断、预后、治疗、预测或预防流感嗜血杆菌的定殖的方法。通常，流感嗜血杆菌定殖受试者的上呼吸道。本公开提供了用于检测、监测、诊断、预后、治疗或预防侵入性流感嗜血杆菌疾病的方法。患有侵入性流感嗜血杆菌疾病的受试者可能发展并发症，如败血症和/或脑膜炎。

本公开提供了用于检测、监测、诊断、预后、治疗或预防沙门氏菌的定殖的方法。本公开还提供了用于检测、监测、诊断、预后、治疗、预测或预防侵入性沙门氏菌疾病的方法。与侵入性疾病相关的沙门氏菌血清型的一些非限制性实例包含但不限于鼠伤寒、伤寒、肠炎、海德堡、都柏林、甲型副伤寒、猪霍乱和史华氏型。患有侵入性沙门氏菌疾病的受试者可能发展菌血症、脑膜炎、肠热和/或侵入性非伤寒沙门氏菌(iNTS)疾病。

本公开提供了用于检测、监测、诊断、预后、治疗、预测或预防肺炎链球菌的定殖的方法。本公开还提供了用于检测、监测、诊断、预后、治疗或预防侵入性肺炎链球菌疾病的方法。患有侵入性肺炎疾病的受试者可能发展菌血症和/或脑膜炎。

本公开提供了用于检测、监测、诊断、预后、治疗或预防巨细胞病毒(CMV)的定殖的方法。感染了CMV的受试者可能没有症状，因为病毒可以循环到休眠期。本公开还提供了用于检测、监测、诊断、预后、治疗、预测或预防侵入性CMV疾病的方法。患有侵入性CMV疾病的受试者可能在其眼睛、肺部和/或消化系统中发展并发症。

本公开提供了用于检测、监测、诊断、预后、治疗、预测或预防人乳头瘤病毒(HPV)的定殖的方法。有HPV定殖的受试者可能表现为非侵入性宫颈上皮内肿瘤和/或生殖器疣。本公开还提供了用于检测、监测、诊断、预后、治疗或预防侵入性HPV疾病的方法。患有侵入性HPV疾病的受试者可能发展宫颈癌、肛门鳞状细胞癌和/或肛门原位癌。

本公开提供了用于检测、监测、诊断、预后、治疗、预测或预防爱泼斯坦-巴尔二氏病毒(EBV)的定殖的方法。定殖有EBV的受试者可能是无症状的或表现为疲劳、发烧、喉咙发炎、颈部淋巴结肿胀、脾脏肿大、肝肿胀和/或红疹。本公开还提供了用于检测、监测、诊断、预后、治疗、预测或预防侵入性EBV疾病的方法。患有侵入性EBV疾病的受试者可能发展感染性单核细胞增多症(例如，腺热)、患有某些自身免疫疾病的风险可能更高、可能发展癌症，如霍奇金淋巴瘤(Hodgkin's lymphoma)、伯基特淋巴瘤(Burkitt's lymphoma)、胃癌、鼻咽癌、毛状白斑和/或中枢神经系统淋巴瘤。

本公开提供了用于检测、监测、诊断、预后、治疗、预测或预防乙型肝炎(HBV)的定殖的方法。HBV感染可以是短暂或慢性的。本公开还提供了用于检测、监测、诊断、预后、治疗、预测或预防与HBV感染相关的侵入性疾病的方法。患有侵入性HBV疾病的受试者可能发展肝硬化、肝细胞癌、肝感染和/或肝衰竭。

本公开提供了用于检测、监测、诊断、预后、治疗、预测或预防丙型肝炎病毒(HCV)的定殖的方法。HCV感染可以是急性的或慢性的。通常，HCV定殖可以是无症状的。当存在病征和症状时，其可以包含黄疸，连同疲劳、恶心、发烧和肌肉痛。一些受试者可能具有自发病毒清除，而其它受试者可能会进展到慢性阶段。然而，在HCV感染变为慢性的情况下，其可能会导致侵入性HCV疾病。本公开还提供了用于检测、监测、诊断、预后、治疗、预测或预防侵入性HCV疾病的方法。患有侵入性HCV疾病的受试者可能发展肝硬化、肝细胞癌、肝感染和/或肝衰竭。

本公开提供了用于检测、监测、诊断、预后、治疗、预测或预防人T细胞淋巴瘤病毒1(HTLV-1)的定殖的方法。HTLV-1感染受试者的T细胞。感染了HTLV-1的受试者可能是多年无症状的。本公开还提供了用于检测、监测、诊断、预后、治疗、预测或预防侵入性HTLV-1疾病的方法。患有侵入性HTLV-1疾病的受试者可能发展T细胞(ATL)白血病、HTLV-1相关脊髓病/热带痉挛性轻截瘫(HAM/TSP)或其它病状的癌症。

本公开提供了用于检测、监测、诊断、预后、治疗或预防淋病的定殖的方法。有定殖感染的受试者可能无症状，而其它受试者可能表现出如排尿灼热、睾丸或骨盆疼痛和/或从生殖器排出等症状。本公开提供了用于检测、监测、诊断、预后、治疗、预测或预防侵入性淋病疾病的方法。患有侵入性淋病疾病的受试者可能发展皮肤病变、关节感染(例如，关节疼痛和肿胀)、心内膜炎和/或脑膜炎。

本公开提供了用于检测、监测、诊断、预后、治疗或预防梅毒的定殖的方法。梅毒感染可以分为第一、第二、潜伏和第三阶段。第一阶段的受试者可能表现为酸痛。第二阶段的受试者可能表现为皮肤红疹、淋巴结肿胀和/或发烧。在梅毒潜伏阶段或无形阶段，受试者通常是无症状的。本公开还提供了用于检测、监测、诊断、预后、治疗、预测或预防侵入性梅毒疾病的方法。患有第三阶段或侵入性疾病的受试者可能在其它器官系统中发展并发症，其它器官系统包含但不限于心脏、血管、脑和/或神经系统。

本公开提供了用于检测、监测、诊断、预后、治疗或预防毛滴虫病的定殖的方法。有定殖感染的受试者可能是无症状的，或者可能在其性区发展炎症。本公开还提供了用于检测、监测、诊断、预后、治疗、预测或预防侵入性毛滴虫病疾病的方法。患有侵入性毛滴虫病疾病的受试者可能发展宫颈癌和/或前列腺癌。

本公开提供了用于检测、监测、诊断、预后、治疗或预防人疱疹病毒8(HHV-8)的定殖的方法，所述HHV-8也被称为卡波氏肉瘤相关的疱疹病毒(Kaposi sarcoma-associatedherpesvirus)或KSHV。患有定殖感染的健康受试者通常是无症状的。然而，免疫系统变弱的受试者可能发展侵入性HHV-8疾病。本公开还提供了用于检测、监测、诊断、预后、治疗、预测或预防侵入性HHV-8疾病的方法。患有侵入性HHV-8疾病的受试者可能会发展卡波氏肉瘤和/或几种淋巴增生性病症，如原发性渗出性淋巴瘤、多中心卡斯特曼病(multicentricCastleman disease)或B细胞淋巴瘤。

本公开提供了用于检测、监测、诊断、预后、治疗或预防梅克尔细胞多瘤病毒的定殖的方法。有定殖感染的受试者可能是无症状的。本公开还提供了用于检测、监测、诊断、预后、治疗、预测或预防侵入性梅克尔细胞多瘤病毒疾病的方法。患有侵入性梅克尔细胞多瘤病毒疾病的受试者可能发展梅克尔细胞癌(MCC)肿瘤——罕见但攻击形式的皮肤癌。

本公开提供了用于检测、监测、诊断、预后、治疗或预防衣原体的定殖的方法。有定殖感染的受试者可能是无症状的，或者在排尿或从生殖器中排出时可能表现出灼热感。本公开还提供了用于检测、监测、诊断、预后、治疗、预测或预防侵入性衣原体疾病的方法。未经治疗的衣原体可以进展到侵入性疾病阶段，扩散到女性受试者的子宫和/或输卵管。患有侵入性衣原体疾病的受试者可能发展盆腔炎性疾病(PID)，这可能导致长期盆腔疼痛、无法怀孕和异位妊娠。

在一些情况下，受试者受到不同感染阶段，如定殖阶段和侵入性疾病阶段的病原体的感染或有衣原体感染的风险。定殖的受试者可能没有临床病征或症状。在其它情况下，定殖的受试者可能具有临床病征或症状。患有侵入性疾病的受试者可能表现出临床病征或症状。在其它情况下，患有侵入性疾病的受试者可能表现出无临床病征或症状。

所述受试者可能患有另一种疾病或病症或有患另一种疾病或病症的风险。例如，受试者可能患有癌症(例如，乳腺癌、肺癌、胃癌、血液学癌症)、有患癌症的风险或疑似患有癌症。

在一些情况下，受试者患有感染性疾病或进展到侵入性疾病阶段的风险因素可能增加。在一些情况下，风险因素与生活条件相关联。与生活条件相关联的风险因素的一些非限制性实例包含但不限于拥挤的生活条件、无可靠的清洁水来源、生活在发展中国家或访问发展中国家和/或与受感染者共同居住。

在一些情况下，感染或进展为侵入性疾病的风险因素是受试者基因组DNA的遗传变体。可能是感染的风险因素的遗传变体包含但不限于单核苷酸多态性、缺失、插入等。在一些其它情况下，受试者可以具有疾病，如胃癌的家族历史、淋巴细胞性胃炎、增生性胃息肉或妊娠呕吐的家族历史。

所述受试者可能患有另一种疾病或受到多于一种病原体的共感染或有患另一种疾病或受到多于一种病原体的共感染的风险。在一些情况下，受试者是免疫抑制的(例如，器官移植患者)。在一些情况下，受试者是免疫受损的(例如，通过化学疗法治疗、由AIDS或一般疾病，如糖尿病或淋巴瘤引起的免疫缺陷)。

在一些情况下，受试者可能表现出一种或多种临床症状。临床症状的非限制性实例可以包含腹部疼痛或灼痛、尾部清空时恶化的腹部疼痛、恶心、缺乏食欲、经常打嗝、胃部区域鼓胀、体重减轻、严重或持续性腹部疼痛、吞咽困难、血色或黑色柏油样便和/或血色或黑色呕吐物。其它临床症状是本领域已知的。

在一些情况下，受试者可能表现出临床病理学，如萎缩性胃炎、急性或慢性胃炎、胃酸过多、抗原刺激、活跃消化性溃疡疾病、PUD的既往历史、低级胃黏膜相关的淋巴样组织淋巴瘤、早期胃癌的内镜切除的历史、消化不良、巴雷特食管(Barrett's esophagus)、功能性消化不良、无法解释的铁缺乏症或特发性血小板减少性紫癜(ITP)。

受试者可能受到任何类型的病原体或微生物的感染，包含细菌、病毒、真菌、寄生、原核生物、真核生物等。在一些情况下，病原体是已知的，而在其它情况下，其可能是已知共生的。

在一些情况下，受试者可能患有活跃或潜伏感染。在一些情况下，受试者是受感染的，但感染低于先前对受试者执行的其它测试的诊断敏感性的水平。在一些情况下，受试者是受感染的但是无症状的，或感染处于亚临床水平。

在一些情况下，受试者可能先前已进行治疗或者可能用如抗微生物、抗细菌、抗病毒和/或抗寄生虫药物等药物或医学程序进行治疗。在一些情况下，在使用本文的方法之前，受试者可能未进行活检、内窥镜检查、结肠镜检查、血液培养或其它此类程序。在一些情况下，在使用本文的方法之前，受试者可能进行过或可能已经进行过粪便抗原测试、尿素呼吸测试、血清学、尿素酶测试、组织学、细菌培养和敏感性测试、活检或内窥镜检查。

本公开提供了用于使用从临床样品(例如，血液、血清、细胞或组织)获得的核酸确定受试者的感染阶段或位点的方法。在一些实施例中，所述方法包括通过添加本公开所提供的合成核酸来制成加标的样品；从所述加标的样品中提取核酸；生成加标的样品文库；富集所关注的靶核酸的加标的样品文库；执行测序测定，以从所述加标的样品文库获得序列读段；以及根据检测到的核酸(例如，DNA、RNA、游离DNA或游离RNA)确定测量结果，并且将此测量结果与对照或参考进行比较，以确定受试者的感染阶段或定位位点(例如，器官或类型组织)。

所述方法的实施例可以包括从样品中提取核酸或靶核酸或从反应混合物中的不希望的组分纯化核酸或靶核酸(例如，连接、扩增、限制酶、端部修复等)。在本申请的方法中可以使用本领域已知的提取核酸的任何装置。

提取可以包括将核酸与样品中可能存在的其它细胞组分和污染物分离。可以使用液体提取(例如，Trizol、DNAzol)技术从样品中提取核酸。在一些情况下，提取借助于通过有机溶剂(例如，乙醇或异丙醇)进行的酚氯仿提取或沉淀执行。在一些情况下，提取使用核酸结合柱执行。

在一些情况下，提取使用可商购的试剂盒执行，如Qiagen Qiamp循环核酸试剂盒、Qiagen Qubit dsDNA HS测定试剂盒、Agilent^TM DNA 1000试剂盒、TruSeq^TM测序文库制备、QIAamp循环核酸试剂盒、Qiagen DNeasy试剂盒、QIAamp试剂盒、Qiagen Midi试剂盒、QIAprep spin试剂盒)或核酸结合spin柱(例如，Qiagen DNA mini-prep试剂盒)。在一些情况下，游离核酸的提取可以涉及过滤或超滤。

可以通过使用磁珠提取或纯化核酸。例如，可以使用具有氧化铁芯并且表面涂覆有含有游离羧酸或合成聚合物的分子的磁珠。可以调节盐浓度或聚亚烷基二醇以控制官能团与核酸之间的键的强度，从而允许受控且可逆的结合。最后，可以用洗脱缓冲液从磁粒中释放核酸。在一些情况下，使用可商购的试剂盒执行提取或纯化，如Omega Biotek

磁珠试剂盒、

和/或XP磁珠。

所述方法可以包括纯化靶核酸。纯化可以在用户期望将靶核酸与反应混合物中的不希望的组分分离的情况下执行。非限制性示例性纯化方法包含乙醇沉淀、异丙醇沉淀、酚氯仿纯化和柱纯化(例如，基于亲和力的柱纯化)、透析、过滤或超滤。

生成核酸文库的方法是本领域已知的。

计算机控制系统

本公开提供了被编程为实施本公开的方法的计算机控制系统。图7示出了被编程或另外被配置为实施本公开的方法的计算机系统201。

计算机系统201包含中央处理单元(CPU，在此也被称为“处理器”和“计算机处理器”)205，所述中央处理单元可以是单核或多核处理器、或用于并行处理的多个处理器。计算机系统201还包含存储器或存储器位置210(例如，随机存取存储器、只读存储器、闪速存储器)、电子存储单元215(例如，硬盘)、用于与一个或多个其它系统通信的通信接口220(例如，网络适配器)以及外围装置225，如高速缓存、其它存储器、数据存储区和/或电子显示适配器。存储器210、存储单元215、接口220和外围装置225通过通信总线(实线)，如母板与CPU205通信。存储单元215可以是用于存储数据的数据存储单元(或数据储存库)。计算机系统201可以借助于通信接口220可操作地耦接到计算机网络(“网络”)230。网络230可以是英特网、互联网和/或外联网、或与互联网通信的内联网和/或外联网。网络230在一些情况下是电信网络和/或数据网络。网络230可以包含可以实现分布式计算，如云计算的一个或多个计算机服务器。网络230在一些情况下借助于计算机系统201可以实施对等网络，所述对等网络可以实现将装置耦接到计算机系统201以充当客户端或服务器。

CPU 205可以执行一系列机器可读指令，所述一系列机器可读指令可以体现在程序或软件中。指令可以存储在存储器位置中，如存储器210。指令可以涉及CPU 205，所述指令可以随后编程或另外配置CPU 205以实施本公开的方法。由CPU 205执行的操作的实例可以包含取得、解码、执行和写回。

CPU 205可以是电路，如集成电路的一部分。系统201的一个或多个其它组件可以包含在电路中。在一些情况下，电路是专用集成电路(ASIC)。

存储单元215可以存储文件，如驱动程序、库和保存的程序。存储单元215可以存储用户数据，例如，用户偏好和用户程序。计算机系统201在一些情况下可以包含一个或多个另外的数据存储单元，所述一个或多个另外的数据存储单元位于计算机系统201外部，如定位在通过内联网或互联网与计算机系统201通信的远程服务器上。

计算机系统201可以通过网络230与一个或多个远程计算机系统通信。例如，计算机系统201可以与用户(例如，医疗保健提供者)的远程计算机系统通信。远程计算机系统的实例包含个人计算机(例如，便携式PC)、平板或平板PC(例如，

iPad、

Galaxy Tab)、电话、智能电话(例如，

iPhone、安卓使能的装置、

)或个人数字助理。用户可以通过网络230访问计算机系统201。

可以通过存储在计算机系统201的电子存储位置上，例如存储器210或电子存储单元215上的机器(例如，计算机处理器)可执行代码实施如本文所描述的方法。机器可执行或机器可读代码可以以软件的形式提供。在使用期间，代码可以由处理器205执行。在一些情况下，代码可以从存储单元215检索并且可以存储在存储器210上以供由处理器205即时访问。在一些情形下，可以排除电子存储单元215，并且机器可执行指令存储在存储器210上。

代码可以被预先编译且被配置成用于与具有被适配成执行所述代码的处理器的机器一起使用或可以在运行期间进行编译。代码可以以编程语言供应，可以选择所述编程语言以实现以预先编译或类编译(as-compiled)的方式执行代码。

本文提供的系统和方法的各方面，如服务器201可以体现在编程中。技术的各个方面可以被视为通常呈机器(或处理器)可执行代码和/或相关联的数据形式的“产品”或“制品”，所述机器可执行代码和/或相关联的数据在一种类型的机器可读介质上执行或在所述一种类型的机器可读介质中实施。机器可执行代码可以存储在电子存储单元，如存储器(例如，只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”类型介质可以包含计算机、处理器等的任何或全部有形存储器或其相关联的模块，如可以在任何时间为软件编程提供非暂时性存储的各种半导体存储器、磁带驱动、硬盘驱动等。软件的全部或部分有时可以通过互联网或各种其它电信网络通信。此类通信例如可以实现将软件从一个计算机或处理器加载到另一个计算机或处理器中，例如从管理服务器或主机计算机加载到应用服务器的计算机平台中。因此，可以承载软件元素的另一种类型的介质包含如通过有线和光学陆地线网络以及在各个空中链路之上跨本地装置之间的物理接口使用的光波、电波和电磁波。承载此类波的物理元素，如有线或无线链路、光学链路等还可以被视为承载软件的介质。如本文所用，除非限制为非暂时性、有形“存储”介质，否则如计算机或机器“可读介质”等术语是指参与向处理器提供指令以供执行的任何介质。

因此，机器可读介质(如计算机可执行代码)可以采取许多形式，包含但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包含例如光盘或磁盘，如一个或多个任何计算机中的存储装置中的任何存储装置等，如可以用于实施附图中示出的数据库等。易失性存储介质包含动态存储器，如此计算机平台的主存储器。有形传输介质包含同轴电缆、铜线和光纤，包含包括计算机系统内的总线的导线。载波传输介质可以采用电信号或电磁信号的形式，或声波或光波的形式，如在射频(RF)和红外(IR)数据通信期间生成的那些。因此计算机可读介质的常见形式包含例如：软盘、软磁盘、硬盘、磁带、任何其它磁性介质、CD-ROM、DVD或DVD-ROM、任何其它光学介质、穿孔卡、纸带、带有孔图案的任何其它物理存储介质、RAM、ROM、PROM和EPROM、闪速-EPROM、任何其它存储器芯片或盒、传输数据或指令的载波、传输此类载波的电缆或链路、或计算机可以从其读取程序代码和/或数据的任何其它介质。计算机可读介质的这些形式中的许多形式可以涉及将一个或多个指令的一个或多个序列承载到处理器以供执行。

计算机系统201可以包含电子显示器235或可以与电子显示器通信，所述电子显示器包括用于提供报告输出的用户界面(UI)240，所述报告输出可以包含对受试者的诊断或对受试者的治疗干预。UI的实例包含但不限于图形用户界面(GUI)和基于Web的用户界面。分析可以以报告形式提供。可以将报告提供给受试者、医疗保健专业人员、实验室工作人员或其它个体。

本公开的方法和系统可以通过一种或多种算法来实施。算法可以在由中央处理单元205执行时通过软件的方式实施。算法可以例如促进病原体核酸的富集、测序和/或检测。

关于a的信息可以输入到计算机系统中，例如患者标识符，如关于感染阶段或感染风险、患者背景、患者医疗历史、先前感染或超声扫描的信息。可以将患者标识符与临床样品分离，以例如通过样品发送者或样品接受者获得去标识的样品。可以用登录号或其它非个人标识码替换患者标识符。可以使用高通量测序仪对临床样品进行测序。可以将由测序仪生成的去标识的样品序列数据上载到服务器，如云服务器。使用本文公开的方法，可以检测去标识的样品内的病原体核酸以获得去标识的结果数据。可以从服务器下载去标识的结果数据。去标识的结果数据可以与患者标识符相关联，例如通过样品发送者或样品接受者。

可以生成电子报告以指示病原体的感染阶段。可以生成电子报告以指示预后。可以生成电子报告以指示诊断。如果电子报告指示存在可治疗的感染，则可以生成电子报告以规定治疗方案或治疗计划。可以使用计算机系统来分析来自本文所述的方法的结果，将结果报告给患者或医生或提出治疗计划。

试剂盒

还提供了用于实施本文所述的方法中的一种或多种方法的试剂和其试剂盒。本发明试剂和其试剂盒可能变化很大。所关注的试剂包含专门设计成用于对获得自受病原体感染或有感染风险的受试者获得的样品中的一种或多种病原体核酸进行鉴定、检测和/或定量的试剂。

试剂盒可以包括使用本文所述的方法，如PCR和测序执行核酸提取和/或核酸检测所必需的试剂。所述试剂盒可以进一步包括用于数据分析的软件包，所述软件包可以包含用于与来自临床样品的测试谱进行比较的参考谱，并且具体地可以包含参考数据库。试剂盒可以包括试剂，如缓冲液和水。

此类试剂盒还可以包含指示或确立组合物的活性和/或优点和/或描述信剂量、施用、副作用、药物相互作用的信息，如科学文献参考、包装插页材料、临床试验结果和/或这些的摘要等或对卫生保健提供体有用的其它信息。此类试剂盒还可以包含用于访问数据库的说明书。此类信息可以基于各种研究的结果，例如，使用涉及体内模型的实验动物的研究和基于人类临床试验的研究。可以向包含医师、护士、药剂师、处方官员等健康提供体提供、销售和/或推广本文所述的试剂盒。在一些实施例中，也可以将试剂盒直接销售给消费者。

将理解的是，对以下实例的引用仅出于说明目的，并且不限制权利要求的范围。

实例

实例1：分布形状和微生物状态

利用在所关注的片段长度的区中缺乏偏差或实现对偏差的校正的方法来处理生物样品允许测量内源片段长度分布，并且产生使用内源片段长度分布谱来告知诊断以及治疗的治疗方面的潜力。因此经过处理的几种不同临床样品示出片段长度分布谱的多样性。应用了在研究的片段长度范围内无可检测长度和GC偏差的直接到文库的方法来获得内源片段长度分布的形状。

临床血浆样品：从36位人类受试者收集了36例诊断阳性的(即用正交测试，例如，血液培养、靶向PCR、Karius测试确认的微生物的存在)。对每个样品执行在样品收集的24小时内从全血进行单离心步骤血浆提取过程，如前所述(参见Fan HC等人,《美国科学院院报》2008；105(42):16266-16271中的第一离心步骤，所述文献通过引用以其整体并入本文，包含任何附图)，并且在使用之前储存在-80℃下。然后将样品解冻，并且向200μL的每种血浆加标2μL的加标物主混合物(参见下文)。

阳性测定对照样品：针对每组18个样品，分别对被称为测定对照样品(AC)的两个阳性对照进行处理。由以纯化形式从ATCC(美国典型培养物保藏中心(American TypeCulture Collection))购买，加标有人病原体的酶剪切的基因组的人无症状血浆制备AC样品。所选人病原体为烟曲霉(Aspergillus fumigatus)、大肠杆菌、铜绿假单胞菌(Pseudomonas aeruginosa)和表皮葡萄球菌。每1mL AC样品中添加10μL加标物主混合物(参见下文)。

阴性对照样品：由水性缓冲液(10mM Tris pH 8、0.1mM EDTA、0.05v/v％Tween-20)与5μL加标物主混合物(参见以下)制成每18种样品四种500μL阴性对照样品(EC)，并且将其用作环境污染的对照(例如，处理期间通过试剂、仪器、消耗品、操作者和/或空气引入的微生物和病原体核酸污染)。使用这些合成核酸以对样品中的信号进行归一化，以解决样品处理中的变化。

加标物主混合物：在单个加标物主混合物中将一组过程控制分子预混合在一起，每种加标物主混合物均含有独特“ID加标”过程控制分子，参见例如美国专利9,976,181。加标物主混合物含有三种类别的分子：ID加标分子、SPANK分子和SPARK分子。后一组分子由两种类别的SPARK构成：GC dSPARK和长SPARK。加标物主混合物中的ID加标、SPANK分子和长SPARK分子的摩尔浓度为每分子500pM，而GC dSPARK分子以每分子50pM存在。

“ID加标”分子：每个样品接受特征为50个碱基对长独特序列的独特ID加标单链DNA分子，所述序列在处理时不存在于可在公共数据库中获得的任何参考基因组中。

SPANK分子：所使用的SPANK分子是单链DNA分子池，每个分子50个碱基对长，具有相同的3'端和5'端序列，所述序列在处理时不存在于可在公共数据库中获得的任何参考基因组中。另外，存在嵌套在恒定的3'端与5'端序列之间的8个碱基对的两个延伸段，并且在池中完全退化。SPANK分子池含有416个独特SPANK分子。由四个非简并碱基的延伸段将两个简并延伸段分开。

SPARK分子：GC加标物小组是32、42、52和75nt长的分子的集合，其中每个长度包含GC含量为20％、30％、40％、50％、60％、70％和80％的7个不同序列。上面提供的其它分子中的一些一样，GC dSPARK序列没有出现在可用参考基因组中。长SPARK序列集合是4个非天然序列的组，每个序列的GC含量为50％并且长度为100nt、125nt、150nt和175nt。SPARK分子的完整集合含有32个不同序列。

文库生成：直接到文库的生成在于2018年11月21日提交的美国临时申请62/770,181中进行了描述，所述美国临时申请的全部内容通过引用以其整体在此并入。在此，利用了用蛋白酶K进行的基于模板切换的方法。简短地，将50.0μL每个加标的样品与20.0μL 10x末端转移酶反应缓冲液(马塞诸塞州伊普斯威奇市的新英格兰生物实验室公司(NEB，Ipswich，MA))、5.0μL蛋白酶K(西格玛公司(Sigma))、2.0μL 10％Tween-20(马萨诸塞州沃尔瑟姆市的赛默飞世尔科技公司(Thermo-Fisher Scientific,Waltham,MA))、2.0μL 10％Triton X100(马萨诸塞州沃尔瑟姆市的赛默飞世尔科技公司)和121.0μL无核酸酶的水混合。将混合物加热到60℃持续20分钟，并且加热到95℃持续10分钟，并且将其放置在冰上直到冷却。添加2.0μL 10mM dATP、2.0μL末端转移酶(20u/μL，马塞诸塞州伊普斯威奇市的新英格兰生物实验室公司)和6.0μL无核酸酶的水以制备A尾部反应，然后在37℃下温育40分钟。向反应添加300.0μL裂解/结合缓冲液(马萨诸塞州沃尔瑟姆市的赛默飞世尔科技公司)。然后将整个体积添加到50.0μL Dynabeads寡核苷酸(dT)25(马萨诸塞州沃尔瑟姆市的赛默飞世尔科技公司)中，然后用裂解/结合缓冲液(马萨诸塞州沃尔瑟姆市的赛默飞世尔科技公司)洗涤一次。在25℃和600RPM下温育混合物。然后将珠用600.0μL洗涤缓冲液A(马萨诸塞州沃尔瑟姆市的赛默飞世尔科技公司)洗涤两次，并且用300.0μL洗涤缓冲液B(马萨诸塞州沃尔瑟姆市的赛默飞世尔科技公司)洗涤两次，然后在24.0pF的洗脱缓冲液中(马萨诸塞州沃尔瑟姆市的赛默飞世尔科技公司)在80℃和600RPM下洗脱，持续3分钟。将整个洗脱液转移到新板。向洗脱液添加2.0μL 1μM Poly dT引物(IDT)和6μL SMARTScribe第1链缓冲液(5x)(日本草津市Takara公司(Takara,Kusatsu,Japan))，并将所产生的混合物在95℃下温育1分钟，然后放置在冰上。通过将4.5μL SMARTScribe第1链缓冲液(5x)(日本草津市Takara公司)、0.5μL dNTP混合物(每核苷酸25mM，马萨诸塞州沃尔瑟姆市的赛默飞世尔科技公司)、2.0μL SMARTScribe逆转录酶(100u/μL，日本草津市Takara公司)、2.0μL 5μM模板切换寡核苷酸(TS寡核苷酸)(IDT)、5.0μL DTT(20M，日本草津市Takara公司)和4μL无核酸酶的水组合来制备延伸和模板切换混合物。将所产生的反应混合物在42℃下温育90分钟，并且在70℃下将反应热变性持续15分钟。接下来，向来自上一步骤的反应添加50.0μLNEBNext Ultra II Q5(马塞诸塞州伊普斯威奇市的新英格兰生物实验室公司)和8.0μL分度引物混合物(马塞诸塞州伊普斯威奇市的新英格兰生物实验室公司)。然后使用以下温度循环程序执行核酸的扩增：98℃持续30秒、98℃8个循环持续10秒、65℃持续75秒以及65℃最终延伸持续5分钟。然后将最终核酸文库池化为四个EC、两个AC和十八个临床样品的组，然后使用RNAclean^TM Ampure珠来纯化如上所述的池。纯化之后，如上所述用TapeStation测量文库池中的核酸的浓度，并且根据制造商的建议将其加载在测序仪上。

测序：使用Illumina公司的NextSeqTM 500测序仪对样品进行测序以获得序列读段。按照制造商的说明使用76个循环执行测序。

测序数据分析：通过bcl2fastq v2.17.1.14(具有默认参数)对一级测序输出进行多路分解，然后使用Cutadapt去除模板切换寡核苷酸。去除poly A尾部，并且对读段进行质量修整，并且随后在短于20个碱基时通过Trimmomatic v 0.32对其进行过滤。使用Bowtiev2.2.4将通过这些过滤器的读段与人和合成(包含过程控制分子和测序衔接子)参考进行比对。将与任一序列比对的读段搁置。还通过基于k-mer的方法过滤了潜在地表示人类卫星DNA的读段。使用BLAST v2.2.30将其余读段与微生物参考数据库进行比对。保留比对展现出高同一性百分数和高查询覆盖率两者的读段，与任何线粒体或质粒参考序列比对的读段除外。基于其比对，将PCR重复值删除。基于测序读段和其比对，将相对丰度分配到样品中的每个分类单元。对于读段和分类单元的每种组合，定义了读段序列概率，所述读段序列概率解决了样品中存在的微生物与数据库中的参考组装之间的分歧。使用混合物模型来为测序读段的完整集合分配似然，所述似然包含读段序列概率和样品中每个分类单元的(未知)丰度。应用了期望最大化算法来计算每个分类单元丰度的最大似然估计。根据这些丰度，将由每个分类单元产生的读段的数量汇总到分类树中。可以从相应阴性对照缓冲液制备一组文库，并且在每批次内对其进行处理和测序。可以将批次的内阴性对照样品的所估计分类单元丰度组合，以参数化由环境引起的其变型是通过计数噪声驱动的读段丰度模型。可以计算每个所估计分类单元丰度的统计显著性值，并且在CRR内处于高显著性水平的那些包括候选调用(即，显著调用)。在应用了另外的过滤之后进行了最终调用(即，可报告的调用)，这解决了读段位置一致性、读段百分比同一性和源自较高丰度调用的交叉反应性。确定了每个经加工核酸文库内的每个可报告微生物的多个片段长度的读段的数量，评价了片段长度分布，并且确定了分布形状的片段长度特性。图8示出了在所测试临床样品内的检测到的微生物中观察到的不同片段长度分布形状中的一些片段长度分布形状的实例。由于最小映射长度和在所描述的测序实验和衔接子修整算法中通过组合最大读段长度所设置的68bp，示出的片段长度的范围在较短端部上被限制为22bp。因此，长于68bp的片段有助于68bp长度仓(bin)中的计数。示出的三个实例中检测到的三种微生物为热带假丝酵母、米曲霉和WU多瘤病毒。片段长度分布形状在这些微生物之间变化很大，并且与如通过数据中的其余部分(未示出)示出的特定物种或超级王国无关。

在此处理的三种不同临床样品中检测到热带假丝酵母。鉴定了来自每个样品的与热带假丝酵母参考基因组比对的读段的子集，并且确定了其片段长度分布。图9中示出了具有来自单独小组中的三个样品中的每个样品的热带假丝酵母片段长度分布的结果。与右图相比，左图和中图示出了相对于50bp峰具有较高短(<40bp)和长(>65bp)分数的分布，而其在大约45-50bp处具有清晰的峰。左2图来自有弥散性热带假丝酵母感染的患者，不受机制的限制，这可以解释相对于峰的增加量的长和短片段。不同的片段长度分布可以指示疾病或病状的不同状态。WU多瘤病毒是在此研究中处理的并且在每个样品中展现出不同片段长度分布的多个临床样品中检测到的微生物的另一个实例(图10)。在一个受试者体内，WU多瘤病毒示出仅“50bp峰”。第二受试者示出短类指数分数以及长于68bp的读段的较高分数的相当大的贡献。虽然不受机制的限制，但是WU多瘤病毒可能已掺入此样品中的人基因组中，或者其基因组被释放到体液中，这导致了不同的片段化模式。在总计36个临床样品中(参见上文)，分别检测到60个、24个和13个细菌、真菌和病毒微生物。这些微生物的片段长度分布变化很大，如通过上述实例所证明的。接下来，确定了在“50bp峰”峰中检测到的读段计数与所有检测到的微生物或病原体的分布的短类指数区的比率。将获得的比率按其超级王国分组，并且生成每个超级王国的比率特性的直方图。图11中呈现了来自一个此分析的结果。针对人DNA(即宿主DNA)和人线粒体DNA(即宿主线粒体DNA)执行相同的分析作为对照(图11)。微生物的行为取决于超级王国，在使用片段长度分布形状和性质以用于诊断目的时必须解决所述方面。

实例2：对来自怀孕受试者的血浆样品的分析

在从宿主获得的样品中可以发现许多类型的非宿主核酸。在母体血液中可以检测到胎儿游离核酸。在此样品中，血浆样品是从15名获得同意的怀孕妇女获得的，并且已去标识。根据在2018年11月21日提交的美国临时申请62/770,181的实例1中所述的基于连接的直接到文库的方法对样品进行处理和测序，所述美国临时申请在此通过引用以其整体并入。在此分析中，考虑了仅来自孕育有男性胎儿的受试者的样品。仅与Y染色体比对的读段被视为是胎儿的。使用bowtie2将读段与人基因组比对。然后使用bowtie2将映射到染色体Y的读段与从除了Y之外的所有人染色体创建的索引进行比对。丢弃与此索引比对的任何读段，使得保留了仅染色体Y特有的读段。

图12中呈现了来自一个个体的母体(虚线)和胎儿(实线)游离核酸的片段长度分布。在此实例中，与核小体片段区(例如150-200bp区)相比，“50bp峰”区中的胎儿与母体读段的比率更高。平均而言，在“50bp峰”区内观察到的胎儿片段的浓度比核小体长度片段区高4倍。这里采用的方法可用于富集胎儿分数。

实例3：使用片段长度谱对微生物的分析

由超过4000个无细胞血浆样品制备核酸文库并且使用经验证的Karius测试对所述核酸文库进行测序，所述经验证的Karius测试是基于提取的方法，其相对于与游离核酸相关的片段长度范围内的其长度和GC含量以无偏差方式恢复双链DNA片段。生成检测到的微生物的片段长度谱，并且评价了33个在所研究样品组内被调用了10次或更多次的分类单元。更具体地，评价了短读段的分数在低概率调用和高概率调用中的比率。图13中呈现了来自一个此实验的结果。在此实验中，图指示与高概率调用相比，低概率调用中更多具有短读段。尽管不受机制限制，但这些结果可以表明，考虑到端部可修复双链游离DNA，临床感染具有与血流中易位的定殖物或非致病生物相比更长的片段长度分布。

实例4：使用片段长度谱对定殖位点的分析

从如通过阳性尿液(n＝19)和/或血液培养测试(n＝11)确定的被确认为正在感染的受试者体内获得十九个临床样品。由这些样品制备核酸文库并且使用经验证的Karius测试对所述核酸文库进行测序，所述经验证的Karius测试是基于提取的方法，其相对于与游离核酸相关的片段长度范围内的其长度和GC含量以无偏差方式恢复双链DNA片段。在所有十九名受试者中，血液和尿液培养物分别被鉴定为19种和11种微生物。评价了通过血液和尿液培养物检测到的微生物的片段长度分布谱形状。结果在表14中示出。尽管不受机制限制，但是来自深部组织感染(肺部、脑等)的病原体DNA可以经历不同的降解机制，从而影响随着来自病原体的DNA感染血液而观察到的片段长度。

实例5：宿主核酸的长度分布谱和感染状态

宿主核酸的片段长度分布可以帮助告知宿主内的非宿主核酸信号，例如微生物核酸信号或宿主的感染阶段(例如无症状的与有症状的)。例如，来自人类宿主的样品内的微生物核酸的丰度可能会在几个量级上变化(Blauwkamp等人,(2016))。尽管从无症状个体获得的样品趋于展现出与受感染个体相比微生物核酸的丰度较低，但在一些无症状样品中测量的丰度可能超过受感染个体中的最低丰度(Blauwkamp等人,(2016))。从样品获得的核酸池的另外的性质可以帮助在微生物与宿主的不同感染阶段或生物学关系(例如，共生与病原体)之间进行区分。在此，测试了宿主核酸的长度分布在预测来自宿主的血浆内的微生物的感染状态时的效用。方法使得能够访问具有先前方法通常不会以无偏差方式访问的片段长度的内源片段长度谱。方法使得能够访问具有先前方法通常丢弃、无视或视为不重要的片段长度的内源片段长度谱。

临床血浆样品：从人类受试者收集了100个无症状(收集标准：无与感染相关的活跃健康组织并且通过正常血液筛选测试)、85个诊断阳性(即存在用正交测试，例如，血液培养、靶向PCR、Karius测试确认的微生物)和45个诊断阴性的血浆样品。对每个样品执行在样品收集的24小时内从全血进行单离心步骤血浆提取过程，如前所述(参见Fan HC等人,《美国科学院院报》2008；105(42):16266-16271，所述文献通过引用以其整体并入本文，包含任何附图)，并且在使用之前储存在-80℃下。然后将样品解冻，并且向500μL的每种血浆加标5μL的加标物主混合物(参见上文)。如果获得的体积较小，则成比例地添加较小体积的加标物主混合物，以维持所有初始样品和对照样品中的过程控制分子的恒定浓度。

如上所述制备阳性和阴性对照样品。

直接来自血浆的核酸文库生成和测序：直接到文库的生成在于2018年11月21日提交的美国临时申请62/770,181中进行了描述，所述美国临时申请在此通过引用以其整体并入。如以上实例1中所述的制备文库并对文库进行测序。

结果：如以上所述确定每个样品中存在的显著微生物的丰度，并且以血浆样品的浓度单位分子每微升(MPM)给出，所述MPM是给出1微升血浆样品中生物的独特核酸片段的估计数量的归一化数量。此计算源自根据在开始过程之前向血浆样品中添加的独特合成加标物的已知数量归一化的每种生物的存在的独特或去重复值的序列的数量(参见美国专利第9,976,181号)。图9A示出了无症状(AP)和诊断阳性(DP)样品类型中的MPM值的分布。DP样品类型中的较低丰度值与AP样品中观察到的MPM的范围重叠，即使包含仅正交确认的微生物也是如此。(DP_NGS包含通过Karius测试确认的微生物，并且DP_micro包含通过培养或基于PCR的方法确认的微生物)。另外，如果分析限于存在于AP样品的集合以及还有DP样品的集合中的微生物物种(在此数据集中，以下物种符合此描述：凝结芽孢杆菌、肠球菌属、粪肠球菌、流感嗜血杆菌、副流感嗜血杆菌、人哺乳动物腺病毒D、粘液奈瑟球菌、乳酸片球菌、中间普雷沃菌、产黑普雷沃氏菌、酿酒酵母、无乳链球菌、唾液链球菌、嗜热链球菌)，则诊断阳性组中的丰度仍不总是更高(图15B)。因此，丰度不足以区分非微生物宿主的感染状态。

然后可以使用几个可测量参数的组合来将无症状/健康患者与经历感染的患者进行区分。为此，作为潜在分类器，研究了MPM微生物丰度和映射到宿主参考(即此样品队列中的人类参考)的核酸片段长度分布的组合。

图15C示出了在文库生成过程完成并且如通过TapeStation仪器测量的核酸片段的典型分布的实例。可以观察到片段长度的两个主要峰：(1)“核小体”峰(在电泳图中300-450bp的范围)以及(2)“亚核小体”峰(在电泳图中180-280bp的范围)。此信号是通过人(即宿主)核酸的性质决定的，因为微生物(即非宿主)核酸占这些样品包含DP样品类型中的总核酸群体的微小分数。贡献于两个峰的人片段的摩尔比和质量比在样品之间有所变化并且在AP样品类型与DP样品类型之间是不同的(图15D)。绝大多数AP样品(92％)示出“核小体”峰摩尔分数低于0.4，而相同的值均等地分布在DP样品的更宽范围内(<0.7)。

MPM微生物丰度以及人片段长度分布的性质示出与AP样品与DP样品之间的值重叠。两个独立测量结果的组合可以帮助在感染阶段未知的未知样品中将无症状调用与感染调用进行区分。图15E示出了如根据测序数据测量的长人读段分数(所有读段映射到在衔接子修整之后长于65bp的人参考)以及在所有AP和DP样品的相同样品中测量的最大MPM值。坐标[(0,3000),(0,0.4)]所涵盖的区排他地由AP样品填充。100个AP样品中的三个落在此空间之外(15E中的箭头)。这三个样品中检测到的微生物为幽门螺杆菌、人哺乳动物腺病毒和淋病奈瑟菌。所有三种微生物都是已知的人病原体，但是不知道其在这些个体体内是否是致病的。

微生物MPM与AP和DN样品类型中的人片段长度分布的性质之间的比较(图15F)揭示了无DN样品落入典型无症状范围内，即使根据正交测试其为阴性的也是如此。

可以利用非微生物信号，如非微生物宿主核酸的片段长度分布的性质来鉴定受试者的无症状或非感染状态。

数据还指示，可以根据如本文呈现的数据通过组合丰度(例如最大MPM)和片段长度分布参数来鉴别无症状个体，即使微生物的MPM值与诊断阳性样品中可以观察到的范围重叠也是如此。这还表明，在标准症状不存在的情况下，早期检测感染是可能的。可以针对例如特定微生物物种的MPM或王国以及微生物片段长度进一步优化此二维平面上的可以帮助在个体的不同感染状态之间进行区分的区，以改善测试的性能。

最后，计算所有样品的与人基因组(核基因组占主导)、人线粒体基因组、所有病原体、显著病原体以及细菌、真核生物、病毒和古细菌比对的片段的归一化大小分布。为了将AP与DP/DN样品区别开，在片段大小分布(特征)上对分类器进行了训练，在此情况下，通过使用具有L2正则化的逻辑回归。逻辑回归是用于分类的线性模型，所述线性模型在用逻辑函数进行转换之前将特征乘以一组权重。使用具有L2正则化的标准数值优化技术确定权重，从而提供另外的约束来最小化权重的平方之和。这具有减少过拟合的作用以及特征中的多重共线性的作用。此模型的准确度通过使用经训练的模型来预测每个样品无症状或有症状的概率来评估。值>0.5指示样品被预测为无症状，值<0.5指示所述样品被预测为有症状。另外，经训练的模型提供权重(系数)。正系数指示与无症状个体相关联，负系数指示与有症状个体相关联。图16示出了使用与以下比对的片段的归一化大小分布预测基于无症状和有症状感染状态的训练的准确度：人基因组(核基因组占主导)、人线粒体基因组、所有病原体、显著病原体；以及细菌、真核生物、病毒和古细菌。来自文库的用于训练模型的核酸亚组影响模型的准确度。另外，来自文库的核酸亚组影响片段长度分布对于无症状或有症状状态具有阳性预测值的区。例如，长人片段(>60bp)的存在预测有症状状态(图16A，右图)，与短(<30bp)病原体片段一样(图16C，右图)。另一方面，50bp左右的片段的高浓度预测无症状状态(图16A，右图)，与长(>65bp)病原体片段一样(图16C，右图)。

实例6：将定殖了幽门螺杆菌的无症状患者与患有活跃幽门螺杆菌相关的炎症的患者进行区分

血浆处理和DNA提取：在样品收集的24小时内从全血样品中提取血浆，如前所述(Fan HC等人,《美国科学院院报》2008；105(42):16266-16271)，并且存储在

当需要分析时，将血浆样品解冻，并且立即从0.5-1ml血浆中提取循环DNA。

测序文库制备和测序：使用针对Illumina设置的具有标准Illumina索引的衔接子(购自IDT)以及端部后修复纯化(例如，MagBind珠、NEBNext端部修复模块)的NEBNext DNA文库制备主混合物或使用基于微流体的自动化文库制备平台(Mondrian ST,Ovation SP超低文库系统)由经纯化的患者血浆DNA制备测序文库。使用Agilent 2100生物分析仪(高敏感性DNA试剂盒)对文库进行表征，并且通过qPCR进行定量。

所选细菌靶标的测序结果的qPCR验证.使用用于所选细菌靶标(例如，幽门螺杆菌)的定量的标准qPCR试剂盒来验证游离DNA样品的子集的测序结果。在从约1ml的血浆提取的并且在100ml Tris缓冲液(50mM[pH 8.1-8.2])中洗脱的cfDNA上运行qPCR测定。在不同设施中执行血浆提取和PCR实验。运行无模板对照以验证每个实验中包含的PCR试剂。

在去除低质量读段之后，将读段映射到人参考基因组。将假定为微生物组衍生的剩余读段映射到目标微生物基因组的参考数据库。使用专有算法计算每种微生物的相对丰度。所述算法报告了与对照相比以统计学显著量存在的生物。具有过表示的序列的生物被报告为阳性。

质量控制(QC)度量包含添加作为对于测序批次中的每个样品独特的一种类型的加标物的ID加标物合成核酸和跨所有文库以恒定浓度加标的其它合成核酸加标物(“SPANK分子”)。因此，在特定文库中检测到的去重复值的SPANK分子的数量是所述文库中可检测到的最小浓度的代替。这可以用于基于所述文库中可检测到的SPANK分子的最小浓度设置阈值。阈值可以用于确保足够的测序深度以用于检测病原体。阈值还可以用于确保病原体信号不是由于来自其它样品的交叉污染。例如，可以在不同样品之间将相对于通过SPANK分子设置的阈值的病原体的富集进行比较。更一般地，其与所述文库将原始样品中的DNA分子转化为DNA测序数据中的读段的效率成正比。SPANK分子的目的是帮助确立样本中表示的混合物内的病原体分子的相对丰度，以“分子每ml”(MPM)报告。使用了MPM数据来构建热图和相关图。样品纯度比(SPR)旨在捕获分类单元相关联的读段的数量如何给出样品中的交叉污染的估计程度。在去重复值的SPANK和/或SPR失效的情况下，将样品重新排队并重新运行一次。如果在同一样品上QC失效两次，则报告为“无结果”。

结果.

方法能够检测从患有幽门螺杆菌相关的消化性溃疡疾病的患者获得的血浆中的幽门螺杆菌游离DNA。方法能够在具有无症状幽门螺杆菌与患有幽门螺杆菌疾病的患者之间进行区分。对于后一种情况，从健康(即，无症状)和受感染受试者获得样品，并且使用无细胞血浆的下一代测序对所述样品进行分析以检测病原体DNA(加利福尼亚州雷德伍德城Karius公司(Karius,Redwood City,CA)的Karius Test^TM)。在健康志愿者中，测试在测定的8/106个样品中检测到幽门螺杆菌。一些患者在数据集中被鉴定为患有幽门螺杆菌无症状定殖(C)(n＝1)或幽门螺杆菌有症状慢性感染(CI)(n＝7)(参见以下表1)。幽门螺杆菌阳性样品与非洲-每周或西班牙种族相关联，这与幽门螺杆菌感染的流行病学一致。

表1：血浆中的幽门螺杆菌的检测.幽门螺杆菌感染为败血症的很可能、可能或不太可能的原因

不受机制的限制，游离核酸可以衍生自死亡和垂死的病原体。因此，本方法独特地适合于检测被免疫系统主动清除的生物。实际上，测定能够在活跃炎症而不是无症状定殖的上下文中在幽门螺杆菌之间进行区分。

实例7：用于检测高风险患者之中的幽门螺杆菌GI道感染的方法

此研究的目标是评估本方法的临床效用(i)以检测与常规诊断测试相比消化性溃疡疾病(幽门螺杆菌PUD)有症状的患者体内的活性幽门螺杆菌感染；(ii)以确认与常规诊断测试相比在一线疗法之后活跃幽门螺杆菌胃肠感染的根除；以及(iii)以评估将具有活跃幽门螺杆菌PUD的患者与没有(无症状)的那些进行区分的最优MPM阈值。使用此非侵入性方法允许医师做出有效治疗决策，而无需诉诸传统侵入性诊断方法。

研究设计.

如在下文中描述的确定在特定测试条件下在两个良好描述的成年研究群体中，本方法相比于非血清学常规幽门螺杆菌诊断测试的阳性一致性百分比(PPA)和阴性一致性百分比(PA)。在进入研究时，具有有症状幽门螺杆菌PUD的患者符合临床标准并且在第一根除治疗的任何施用之前，具有至少一次阳性方案批准的、非血清学常规幽门螺杆菌诊断测试。对所有文档化的有症状幽门螺杆菌PUD患者执行血浆测试。此后，这些PUD患者接受2-4周标准根除方案(根据护理标准)，然后是1个月药物假期。在第一治疗完成之后的30天(+/-3天)内，研究参与结束的所有PUD患者经历重复血浆测试评价和在治疗之前执行的原始非血清学、常规幽门螺杆菌诊断测试中的至少一个。

在进入研究时，基于临床标准和至少一个阴性方案批准的非血清学常规幽门螺杆菌诊断测试，出于任何原因进行结肠镜检查的阴性对照患者在筛选期间无活跃幽门螺杆菌胃肠疾病的迹象。此后，阴性对照结肠镜检查患者进行血浆测试以完成所有方案要求。

来自这些诊断测试比较的数据提供了关于本方法用于检测活性幽门螺杆菌疾病并且确认相比于非血清学常规幽门螺杆菌诊断测试在第一治疗之后根除的效用。

方法和材料

使用定量测试方法以通过分析血浆中的非人DNA来检测微生物。此方法的分析物是微生物游离核酸，所述分析物与人cfDNA相比非常短(平均长度少于100个核苷酸)。

将全血离心两次以呈现游离(cf)血浆。为了解决潜在环境污染物，可以在使用前将非易失性缓冲液加热到超过85℃的温度并冷却。在第一次离心之后，使用PCT-US2017-024176中阐述的方法向每个样品中添加内部对照分子。提取血浆，并且使用经纯化的游离DNA(cfDNA)来使用针对Illumina设置的具有标准Illumina索引的衔接子(购自IDT)以及端部后修复纯化(例如，MagBind珠、NEBNext端部修复模块)的NEBNext DNA文库制备主混合物或使用基于微流体的自动化文库制备平台(Mondrian ST,Ovation SP超低文库系统)制备测序文库。连接衔接子，并且使用AMPure珠在不加热的情况下执行纯化，然后通过qPCR进行扩增。使用Agilent HS TapeStation对文库进行表征，并且测量核酸的总浓度以通过对信号(例如，在50bp与1000bp之间)进行积分来控制加载体积，以用于小选择步骤。

将经测序的cfDNA片段映射到微生物序列的参考数据库，以确定样品中存在的呈显著水平(高于测定背景)的非人、非内部对照材料的同一性。首先将测序数据转换为代表DNA序列的读段，并且然后基于索引序列将其多路分解为从加载到测序仪中的每个文库衍生的读段(读段集)的集合。过滤与人序列比对的读段，并且留出与内部对照分子的序列比对的其余读段以用于另外的分析。接下来，将与人参考或内部对照参考不匹配的读段与已知微生物基因组进行比对。与此数据库具有一个或多个比对的读段(病原体读段)是随后分析的基础。

使用每个病原体读段与微生物基因组数据库的比对来推断与参考序列相关联的每个分类单元的相对丰度。将这些丰度汇总到分类树中，以给出所有分类单元等级的丰度。最后，在同一测序运行上，将临床样品中的丰度与阴性对照文库中的丰度进行比较，以确定其是否由于环境DNA污染而上升到预期的背景水平以上。以分子每毫升(MPM)为单位基于微生物读段与获得的某些内部对照读段的丰度的比率报告符合此标准的分类单元。在得出结果之前，流水线会应用一组过滤器，以将可报告生物限制为大于具有最高数量的读段的微生物的例如3-10％并且大于任何其它分类学家族相关生物的例如25-50％。对所有患者样品和测定对照应用过滤器。

与样品特定或微生物特定的性质的性能偏差的潜在来源包含：微生物特定的性质的类别，包含微生物(例如，细菌、病毒、真核生物、原核生物、真菌等)的类别、GC含量、基因组大小、内源微生物区系的丰度、环境污染(EC)水平以及参考组装的数量和数据的质量。为了解决偏差的这些来源，此方法包含使用10-100个微生物的代表性小组，所述代表性小组捕获沿GC含量、基因组大小和菌株的潜在性能偏差的全部谱。这些代表性生物应跨王国，范围在GC含量内(例如，10％-80％)，并且具有范围为千碱基到百万碱基的基因组。代表性群体应包含类型的混合物，如共生物和非共生物、通常以环境污染物形式存在的微生物以及密切相关的菌株。所述方法另外并入标准质量控制措施，如健康群体中微生物的水平的参考间隔和EC阴性对照。

如果测试示出相比于阴性背景对照，幽门螺杆菌为显著的，则测试将被视为阳性的。然而请注意，在解决定量MPM截止值之后，负同一性百分比(NPA)不太可能反映测试的NPA。

除了使用如通过实验室确定的以MPM计的阳性和阴性的阈值评估研究队列、PUD和结肠镜检查中的每一个内的PPA和NPA，还应考虑MPM中的其它阈值。首先，将使用每个研究队列的均值、标准偏差、中位数和范围来汇总MPM。其次，将使用接收者操作特性(ROC)曲线来鉴定MPM中的最优切割点，以用于最大化样品中的PPA和NPA。

最后，为了评估本方法在30天时鉴定根除的能力，将用研究队列中的每一个内的比例和95％置信区间来估计成功根除。

实例8：片段长度分布谱和定殖位点

将从来自感染位于血流和肺部中的患者的临床样品获得的微生物测序读段的片段长度分布的特性进行了比较，作为深部组织感染的实例。片段长度分布特性取决于定位位点而变化。不受机制的限制，不同感染位点的不同宿主反应可能有助于改变片段长度分布特性。再次，不受机制的限制，不同感染位点可以表现出不同非宿主核酸片段化机制。

临床血浆样品：收集了来自确认有血流感染的患者的10种去标识的临床样品和来自确认有肺部感染的患者的10种去标识的临床样品。对每个样品执行在样品收集的24小时内从全血进行单离心步骤血浆提取过程，如前所述(参见Fan HC等人,《美国科学院院报》2008；105(42):16266-16271，所述文献通过引用以其整体并入本文，包含任何附图)，并且在使用之前储存在-80℃下。然后将样品解冻，并且向150μL的每种血浆加标1.5μL的加标物主混合物(参见下文)。如果获得的体积不同，则成比例地添加较小或较高体积的加标物主混合物，以维持所有初始样品和对照样品中的过程控制分子的恒定浓度。

阴性对照样品：由水性缓冲液(10mM Tris pH 8、0.1mM EDTA、0.05v/v％Tween-20)与5μL加标物主混合物(参见以下)制成四种500pF阴性对照样品(EC)，并且将其用作环境污染的对照(例如，处理期间通过试剂、仪器、消耗品、操作者和/或空气引入的微生物和病原体核酸污染)。之后使用这些合成核酸以对样品中的信号进行归一化，以解决样品处理中的变化。

如上文所述用ID加标分子、SPANK分子和SPARK分子制备加标物主混合物。

使用了如美国临时申请62/770,181的实例1中描述的基于连接的直接到文库的方法来由5μl加标的无症状血浆制备测序文库。如实例8描述的执行测序和测序数据分析。

结果：表2列示出作为此实例的一部分的所有20个临床样品连同捐献临床样品的每个受试者的感染位点和感染微生物的物种。所有所测试样品中的感染微生物的片段长度分布在图17中示出。针以下对片段长度分布谱特性(例如短指数衰减片段、峰、长片段)的存在，分析了映射到感染微生物的参考的读段的归一化片段长度分布：(1)短类指数分布分数(表2中为“短”)，(2)峰分数(表2中为“峰”)，以及(3)比实验的读段长度长的读段的分数(75bp；表2中为“长”)。同样，典型长度的分数范围在微生物片段长度分布中。片段长度分布谱类型的比较揭示了，血流感染不成比例地展现出表征为以下的片段长度分布谱：(1)短伪指数分布的片段的高分数，(2)20bp与75bp读段长度之间的峰不存在，以及(3)大于10％in的长读段(>64bp)的分数。相反，肺部感染不成比例地展现出表征为以下的片段长度分布谱：(1)短伪指数分布的片段存在，(2)在20bp与75bp读段长度之间存在峰，以及(3)小于10％的长读段的分数。这表明微生物片段长度分布的特征可以用于确定感染存在于血液中或深部组织中。

表2：临床样品和感染部位、感染微生物的物种以及映射到感染微生物物种的参考的测序读段的片段长度分布的性质的列表.对于每种性质，指出了其定量评估(存在/不存在)，并且在括号中给出了所述分段中存在的总读段的分数。在此，短片段区段包含22bp直到29bp并且包含29bp的读段；峰片段长度范围包含30bp直到59bp并且包含59bp的读段；并且长片段范围包含长于59bp的读段。

实例9：片段长度分布谱和定殖位点2

将从来自感染位于血流(来自静脉血液抽取的血浆)和来自毛细血液的在将其收集在毛细抽取收集系统中之前与指尖上的皮肤接触的血浆的患者的临床样品获得的微生物测序读段的片段长度分布的特性作为皮肤感染的实例进行了比较。

临床血浆样品：根据制造商的说明，将来自20个健康成人供体的血液收集到PPT管中，其中K2EDTA作为抗凝血剂(新泽西州富兰克林湖(Franklin Lakes,NJ)的BectonDickinson公司)。静脉血液抽取后，立即使用Microvette CB300血液采样装置，使用K2EDTA作为抗凝剂(内华达州Sparks公司的莎斯特公司(Sarstedt Inc,Sparks,NV))对同一组20名健康供体执行毛细血液抽取。在毛细管抽吸过程中，执行以下步骤：(1)将供体的手指保持在向上位置，并用适当大小的刺血针刺入手指的手掌侧表面，(2)避免穿刺时用力压在手指上以防止抽取的血液溶血，以及(3)将在指尖之上扩散的血滴收集到清洁MicrovetteCB300血液采样装置中。根据制造商的说明，对每个样品在样品采集后12小时内从全血中进行单离心血浆提取过程，并将血浆保存在-80℃直至使用。然后将样品解冻，并且向每种血浆加标等同于1％血浆体积的加标物主混合物的体积。

阴性对照样品：由水性缓冲液(10mM Tris pH 8、0.1mM EDTA、0.05v/v％Tween-20)与5μL加标物主混合物(参见以下)制成四种500μL阴性对照样品(EC)，并且将其用作环境污染的对照(例如，处理期间通过试剂、仪器、消耗品、操作者和/或空气引入的微生物和病原体核酸污染)。之后使用这些合成核酸以对样品中的信号进行归一化，以解决样品处理中的变化。

阴性Microvette样品：将四种300μL的水性缓冲液(10mM Tris pH 8、0.1mM EDTA、0.05v/v％Tween-20)添加到四种清洁且未使用的Microvette CB300血液采样装置中，并且在室温下温育6小时，之后定量地收集含量并且加标3μL的加标物主混合物(参见以下)。

直接来自血浆的核酸文库生成：将25.0μL每种加标的样品与10.0μL 10x末端转移酶反应缓冲液(马塞诸塞州伊普斯威奇市的新英格兰生物实验室公司)、2.5μL蛋白酶K(西格玛公司)、1.0μL 10％Tween-20(马萨诸塞州沃尔瑟姆市的赛默飞世尔科技公司)、1.0μL10％Triton X100(马萨诸塞州沃尔瑟姆市的赛默飞世尔科技公司)和60.5.0μL无核酸酶的水混合。将混合物加热到60℃持续20分钟，并且加热到95℃持续10分钟，并且将其放置在冰上直到冷却。添加1.0μL 10mM dATP、1.0μL末端转移酶(20u/μL，马塞诸塞州伊普斯威奇市的新英格兰生物实验室公司)和3.0μL无核酸酶的水以制备A尾部反应，然后在37℃下温育40分钟。向反应添加150.0μL裂解/结合缓冲液(马萨诸塞州沃尔瑟姆市的赛默飞世尔科技公司)。然后将整个体积添加到25.0μL Dynabeads寡核苷酸(dT)₂₅(马萨诸塞州沃尔瑟姆市的赛默飞世尔科技公司)中，然后用裂解/结合缓冲液(马萨诸塞州沃尔瑟姆市的赛默飞世尔科技公司)洗涤一次。在25℃和600RPM下温育混合物。所述过程的其余部分遵循实例1中概述的方案的步骤。

测序：使用Illumina公司的NextSeq^TM 500测序仪对样品进行测序以获得序列读段。按照制造商的说明执行测序。如以上实例1中描述的执行测序分析。

结果：图18A示出了在此研究的供体中的两个供体的静脉抽取中检测到的微生物的归一化片段长度分布，并且图18B示出了在相同两个供体的复制品毛细抽取之一中检测到的微生物的归一化片段长度分布。也检测了在毛细抽取收集过程期间获得的生物样品中的在静脉抽取中检测到的两种微生物(例如，供体1体内的流感嗜血杆菌和供体2体内的嗜热链球菌)，并且所述两种微生物在两种收集类型，即峰化片段长度分布中示出相似的片段长度分布(图18A和图18B)。在利用在毛细抽取期间应用的方法获得的样品中检测到的另外的微生物包含一组更多样化的微生物(表3)。大多数这些另外的微生物共存在于两种复制品/每个供体中(图18C)。为了确认这些另外的微生物不是由用于收集在毛细抽取期间应用的程序获得的或衍生自过程污染的样品的Microvette CB300血液采样装置中存在的污染物造成的，对从阴性Microvette样品获得的测序数据进行了分析(参见上文)。图18D示出了在从在毛细血液抽取期间应用的过程获得的生物样品中的另外的微生物的以MPM为单位的丰度(x轴线)和在阴性Microvette样品中的相同微生物的以MPM为单位的丰度的比较。由毛细抽取获得的数据中的另外的微生物的绝大部分信号不是由管污染谱引起的，并且可以得出结论绝大多数信号衍生自通过从指尖收集血滴获得的生物样品。由于在静脉抽取中未检测到这些微生物的信号，因此其一定源自在刺开指尖皮肤之后血液在其上扩散的皮肤表面，这表明衍生自皮肤的微生物核酸示出其片段长度分布的不同性质，例如在20bp与75bp之间不存在峰，以及具有片段长度的片段频率的类指数衰减。在其它样品供体中观察到相同的趋势(数据未示出)。

表3：在从在供体1和供体2的毛细血液抽取期间应用的过程获得生物样品中检测到的微生物物种的列表.

实例10：移植后感染

监测10名移植患者在移植外科手术之后可能的感染，并且监测在有症状前阶段检测到的病原体的其片段长度分布的改变，以将感染阶段与观察到的片段长度相关联。具体地，随着感染进展到不同阶段，将跟踪20bp与75bp之间峰的存在以及与此峰不关联的片段的分数。除了这10名移植患者外，还选择了来自Karius产生的10个去标识的连续采样集，以跟踪相同的行为。

实例11：定位位点评估

使用基于模板切换的直接到文库的方法利用如美国临时62/770,181所述的蛋白酶K对来自Karius产生的1000个去标识的样品连同测定对照和环境对照进行加标和处理。1000个去标识的样品包含来自患有肺炎、免疫受损状态、心内膜炎、败血症或侵入性真菌感染的患者的血浆样品，并且对脐带丰度以及微生物和宿主片段长度分布进行分析以将片段长度分布的特征(例如在20与75bp之间存在或不存在峰、长于65bp的读段的分数、短于40bp的读段的分数)与感染位点相关联，尤其是与深部组织感染中的或共生的峰的存在相关联。

实例12：由微生物片段长度分布进行的感染阶段确定

为了确定用于测量感染阶段的片段长度谱诊断可预测性值，根据制造商的说明，通过将血液抽取到PPT管中并且通过单个离心步骤提取血浆，从16名不同的疑似患有感染的经同意的受试者收集了一组临床血浆样品。将血浆样品冷冻或在环境温度下过夜运送到加利福尼亚州红木城的Karius实验室(Karius lab in Redwood City,CA)。对于每个受试者，在进入医院时获得了第一样品，此时还执行了正交试验(例如血液培养)，以确认负责或部分负责感染的可能的微生物物种。随后，在治疗期间的各个时间点处从受试者体内抽取了另外的样品，以监测感染的进展和治疗效果。总计，至少在每受试者两个时间点(包含入院的时间点)收集了样品。每受试者的时间点的最大数量是7。将血浆样品和阴性对照样品加工成核酸文库，并如以上所述进行测序。

此研究的受试者的组包含正交诊断有血流感染的3名患者、正交诊断有心内膜炎的8名患者以及正交诊断为发热性粒细胞减少性患者的5名患者。图19A、19B和19C分别示出了血流感染、心内膜炎和发热性粒细胞减少症的代表性实例中的片段长度分布的变化。图19中的示例片段长度分布指示短指数分布的片段的高概率(范围<40bp)，以及在治疗已经开始之后50bp左右的峰化分布的增加的概率。因此，研究了所有经处理的样品中的短指数分布或接近指数分布的片段的分数。图20A描绘了此短读段分数的变化的动力学。这表明可以基于短且指数分布的读段分数的存在来诊断侵入性感染，在血流感染或菌血症的情况下尤其如此。在单个受试者体内，存在>64bp的高读段分数，这可能表明得到短指数分布片段的机制的饱和(数据未示出)。同时测量微生物丰度(图20B)使得能够通过组合使用丰度和片段长度谱测量结果来确定感染阶段。

测序数据还指示未通过执行的其它微生物测试正交确认的微生物的存在。在这些微生物的情况下，也可以研究片段长度分布。例如，通过所公开的方法分别在来自受试者RD-06和RD-13的入院样品中检测到流感嗜血杆菌和产黑普雷沃氏菌(图21A)。尽管正交检测到微生物，但是感染的推测的原因在两种情况下示出高短读段分数，另外的微生物示出可变趋势；流感嗜血杆菌片段长度分布与侵入性或菌血症感染一致，而产黑普雷沃氏菌仅示出存在峰化分布，这与无症状患者的感染的无形阶段或共生行为(参见例如，于2018年11月21日提交的题为“直接到文库的方法、系统和组合物”的美国临时申请第62/770,181号中的“幽门螺杆菌片段长度分布(Helicobacter pylori fragment length distribution)”或管理的感染足迹一致。另外，在治疗过程期间新微生物可能会出现，并且片段长度分析也可能协助诊断这些的感染状态。例如，图21B示出了与鹑鸡肠球菌比对的读段的片段长度分布，所述鹑鸡肠球菌示出具有一串峰分数的短指数分布的读段的可检测分数。治疗此感染的决定可以基于短读段分数的幅度。对临床记录的检查确认了受试者确实进行了此感染的治疗。

最后，分析了随着在疗法期间所研究的受试者从在入院和诊断时感染的有症状阶段移动到感染循环并且到治疗感染阶段，人片段长度分布的变化。图22描绘了在此研究的受感染患者的人片段分布的主要三种行为模式：(1)长(主要核小体)人片段的分数在治疗期间降低(图22的左图，此研究中总受试者的37.5％)；(2)长人读段的分数在治疗期间浮动(图22的中图，此研究中总受试者的37.5％)；以及(3)长(主要核小体)人读段的分数在治疗期间增加(图22的右图，此研究25％中总受试者的37.5％)。如以上示出的，人片段长度分布形状和性质可以预测受试者的感染阶段。然后可以将衍生自人分布的参数与样品中检测到的感染微生物或其它微生物的片段长度组合使用，以预测受试者的恢复轨迹，例如受试者是否正在恢复，在对初始感染进行治疗期间，另一种微生物是否会感染受试者，或认识到无形感染或共生存在。

Claims

1.一种来自核酸文库的片段长度谱，其中所述核酸文库由初始样品生成，并且其中在制备所述核酸文库之前不从所述初始样品中提取用于生成所述核酸文库的核酸，其中所述片段长度谱包括一个或多个选自包括以下的组的特性：分布的形状、分段幅度、峰形状、两个或更多个分段的片段计数比率、螺旋定相峰的高度、两个不同片段长度处的片段计数比率、两个不同片段长度范围内的片段计数的比率、分段内的片段长度范围、两个或更多个分段的最大幅度的比率以及读段的子集内的片段长度分布。

2.一种生成核酸文库的片段长度谱的方法，所述方法包括以下步骤：

(a)使用偏差校正的恢复方法由初始样品制备核酸文库；

(b)确定所述核酸文库内的多个片段长度的读段数量；

(c)确定所述核酸文库的一个或多个片段长度特性，其中所述一个或多个片段长度特性选自包括以下的组：分布的形状、分段幅度、峰形状、两个或更多个分段的片段计数比率、螺旋定相峰的高度、两个不同片段长度处的片段计数比率、两个不同片段长度范围内的片段计数的比率、分段内的片段长度范围、两个或更多个分段的最大幅度的比率以及读段的子集内的片段长度分布；以及

(d)使用所述一个或多个片段长度特性生成所述核酸文库的片段长度谱。

3.一种生成核酸文库的片段长度谱的方法，所述方法包括以下步骤：

(a)由初始样品制备核酸文库，所述由初始样品制备核酸文库包括：

(i)向所述初始样品中添加一种或多种过程控制分子，以提供加标的初始样品；以及

(ii)由所述加标的初始样品生成核酸文库，其中在制备所述核酸文库之前不从所述初始样品中提取用于生成所述核酸文库的核酸；

(b)确定所述核酸文库内的多个片段长度的读段数量；

4.根据权利要求3所述的方法，其中由所述初始样品生成所述核酸文库包括以下、由以下组成或基本上由以下组成：

(a)使来自所述初始样品的核酸去磷酸化以产生一组去磷酸化的核酸；

(b)使所述去磷酸化的核酸变性以产生经变性的核酸；

(c)将3'端衔接子与所述经变性的核酸连接以产生经衔接的核酸；

(d)分离经衔接的核酸；

(e)将引物粘接到所述经衔接的核酸并且用聚合酶扩展所述引物以生成互补链；

(f)连接5'端衔接子；

(g)洗脱所述链；以及

(h)扩增所述互补链。

5.根据权利要求2所述的方法，其中所述读段数量是归一化的读段数量。

6.根据权利要求2所述的方法，其中所述片段长度谱用于读段的至少一个子集，并且所述方法进一步包括：

(a)鉴定所述核酸文库内的读段的至少一个子集；以及

(b)确定读段的所述至少一个子集内的所述片段长度谱。

7.根据权利要求2所述的方法，其中所述生成至少一个片段长度谱的步骤进一步包括使用两个或更多个片段长度特性。

8.一种鉴定样品中存在的微生物的方法，所述方法包括以下步骤：

(a)生成由所述样品生成的核酸文库的片段长度谱；

(b)将所述片段长度谱与一种或多种微生物的参考片段长度谱进行比较；以及

(c)如果来自所述样品的所述片段长度谱与微生物的参考片段长度谱相似，则将所述微生物鉴定为存在于所述样品中。

9.根据权利要求8所述的方法，其中生成所述核酸文库的片段长度谱包括以下步骤：

(b)对所述核酸文库内的多个片段长度的读段数量进行定量；

10.根据权利要求8所述的方法，其中所述片段长度谱指示所述微生物以病原体形式或共生微生物的形式存在。

11.根据权利要求8所述的方法，其中所述片段长度谱包括至少一个选自包括以下的组的片段长度特性：两个或更多个峰的片段计数比率和片段长度分布形状。

12.一种鉴定受试者的定位位点的方法，所述方法包括以下步骤：

(a)生成由样品生成的核酸文库的片段长度谱；

(b)将所述片段长度谱与一个或多个源位点的参考片段长度谱进行比较；以及

(c)如果来自所述样品的所述片段长度谱与来自第一源位点的片段长度谱相似，则将所述第一位点鉴定为定位位点；如果来自所述样品的所述片段长度谱与来自第二源位点的片段长度谱相似，则将所述第二位点鉴定为定位位点。

13.根据权利要求12所述的方法，其中生成所述核酸文库的片段长度谱包括以下步骤：

(b)对所述核酸文库内的多个片段长度的读段数量进行定量；

14.根据权利要求12所述的方法，其中所述定位位点选自包括以下的源位点的组：深部组织、血流、皮肤、肺部、心脏、脑和血液。

15.一种监测具有移植物的受试者体内的移植物状态的方法，所述方法包括以下步骤：

(a)生成由从所述受试者获得的样品生成的核酸文库的基线片段长度谱；

(b)生成由从所述受试者获得的第二样品生成的核酸文库的第二片段长度谱；

(c)将所述第二片段长度谱与所述基线片段长度谱进行比较；

如果所述第二片段长度谱与所述基线片段长度谱不同，则内部施用增加量的抗排斥疗法，其中在施用所述抗排斥疗法之后，具有移植物的受试者的排斥风险降低；如果所述第二片段长度谱与所述基线片段长度谱相似，则维持或减少抗排斥疗法，其中所述抗排斥疗法在患者体内的副作用风险低于患者接受增加量的所述抗排斥疗法的副作用风险。

16.一种监测施用于受试者的化合物的毒性的方法，所述方法包括以下步骤：

(a)生成由样品生成的核酸文库的片段长度谱；以及

(b)将所述片段长度谱与一个或多个参考片段长度谱进行比较。

17.根据权利要求16所述的方法，其中所述一个或多个参考片段长度谱由从暴露于所述化合物的受试者或细胞获得的核酸文库生成。

18.根据权利要求16所述的方法，其中所述受试者患有癌症、有患癌症的风险或表现出癌症相关的症状。

19.根据权利要求16所述的方法，其中所述化合物是化学治疗剂。

20.根据权利要求16所述的方法，其中生成所述核酸文库的片段长度谱包括以下步骤：

(a)使用偏差校正的恢复方法由初始样品制备核酸文库；

(b)确定所述核酸文库内的多个片段长度的读段数量；

21.根据权利要求16所述的方法，其中生成所述核酸文库的片段长度谱包括以下步骤：

(b)对所述核酸文库内的多个片段长度的读段数量进行定量；

(c)确定所述核酸文库的一个或多个片段长度特性，其中所述一个或多个片段长度特性选自包括以下的组：

分布的形状、分段幅度、峰形状、两个或更多个分段的片段计数比率、螺旋定相峰的高度、两个不同片段长度处的片段计数比率、两个不同片段长度范围内的片段计数的比率、分段内的片段长度范围、两个或更多个分段的最大幅度的比率以及读段的子集内的片段长度分布；以及

22.一种确定受试者的感染阶段的方法，所述方法包括以下步骤：

(a)生成由从所述受试者获得的样品生成的核酸文库的片段长度谱；

(b)将所述片段长度谱与参考片段长度谱进行比较；以及

(c)如果来自所述样品的所述片段长度谱与来自有症状受试者的片段长度谱相似，则确定所述感染阶段指示所述受试者表现出微生物相关的症状的风险增加；如果来自所述样品的所述片段长度谱与来自无症状受试者的片段长度谱相似，则确定所述感染处于无形阶段。

23.根据权利要求22所述的方法，其中所述片段长度谱是核酸文库片段长度谱的非微生物宿主或微生物子集。

24.根据权利要求22所述的方法，其进一步包括以下步骤：(a)确定来自所述受试者的样品中的至少一种显著微生物的丰度；(b)将所述丰度与阈值进行比较，并且将所述片段长度谱与参考片段长度谱进行比较；以及(c)如果来自所述样品的所述片段长度谱与来自有症状受试者的片段长度谱相似，并且所述丰度相当于或高于阈值，则确定所述感染阶段指示所述受试者表现出微生物相关的症状的风险增加；如果来自所述样品的所述片段长度谱与来自无症状受试者的片段长度谱相似，则确定所述感染处于无形阶段。

25.根据权利要求22所述的方法，其进一步包括向确定表现出微生物相关的症状的风险增加的受试者施用抗微生物剂。

26.一种用于确定疑似患有微生物感染的受试者的感染阶段的方法，所述方法包括：

a)对来自生物样品的核酸执行高通量测序；

b)执行生物信息学分析以鉴定存在于所述生物样品中的游离核酸序列；以及

c)获得所述游离核酸的测量结果并且将所述测量结果与对照进行比较，由此确定在所述生物样品中鉴定的微生物的感染阶段。

27.根据权利要求26所述的方法，其进一步包括选自由以下组成的组的一个或多个步骤：(a)从获得自所述受试者的生物样品中提取游离核酸；以及(b)向所述游离部分中添加合成核酸加标物。

28.根据权利要求26所述的方法，其中所述核酸包括微生物核酸、宿主核酸或微生物核酸和宿主核酸两者。

29.根据权利要求26所述的方法，其中所述测量结果选自由以下组成的测量结果的组：所述游离核酸的绝对丰度、所述游离核酸的片段长度的分布以及靶微生物的绝对丰度和片段长度的分布两者。

30.根据权利要求26所述的方法，其中所述感染阶段选自无形期、有症状感染期、治疗期或根除阶段。

31.根据权利要求26所述的方法，其进一步包括向所述受试者施用治疗方案，其中所述治疗方案适用于所确定的感染阶段。

32.根据权利要求26所述的方法，其进一步包括在多个时间点处对从受试者获得的样品重复所述方法以监测感染或对感染进行的治疗的功效。

33.根据权利要求26所述的方法，其中所述微生物选自包括以下的组：幽门螺杆菌(heliobacter pylori)、艰难梭菌(clostridium difficile)、流感嗜血杆菌(haemophilusinfluenza)、沙门氏菌(salmonella)、肺炎链球菌(streptococcus pneumoniae)、巨细胞病毒(cytomegalovirus)、肝炎病毒b、肝炎病毒c、人乳头瘤病毒、爱泼斯坦-巴尔二氏病毒(Epstein-Barr virus)、人T细胞淋巴瘤病毒1、梅克尔细胞多瘤病毒(Merkel cellpolyomavirus)、卡波氏肉瘤病毒(Kaposi's sarcoma virus)、人疱疹病毒(humanHerpesvirus)8、衣原体病毒(chlamydia)、淋病(gonorrhea)、梅毒(Syphilis)或毛滴虫病(trichomoniasis)。

34.根据权利要求27所述的方法，其中添加合成核酸加标物进一步包括：

(a)通过从受试者获得包括游离核酸的样品并且向所述样品中添加至少1000个独特合成核酸来制备加标的样品，其中所述1000个独特合成核酸中的每一个包括：

(i)识别标签；以及

(ii)可变区，所述可变区包括至少5个简并碱基；

(b)从所述加标的样品中提取核酸；

(c)生成加标的样品文库；

(d)富集所述加标的样品文库；

(f)计算1,000个独特合成核酸的多样性损失值；以及

(g)计算所述游离核酸的测量结果并且将所述测量结果与对照进行比较，由此确定所述受试者的感染阶段。

35.一种确定受试者的幽门螺杆菌的感染阶段的方法，所述方法包括：

(b)从获得自所述受试者的生物样品中提取游离核酸；

(c)向所述游离部分中添加合成核酸加标物；

(d)对来自所述生物样品的核酸执行高通量测序；

(e)执行生物信息学分析以鉴定存在于所述生物样品中的游离幽门螺杆菌核酸序列；以及

(f)计算所述游离幽门螺杆菌核酸的测量结果并且将所述测量结果与对照进行比较，由此确定所述受试者的幽门螺杆菌的感染阶段。

36.一种确定受试者的幽门螺杆菌的感染阶段的方法，所述方法包括：

a)通过从受试者获得包括游离核酸的样品并且向所述样品中添加至少1000个独特合成核酸来制备加标的样品，其中所述1000个独特合成核酸中的每一个包括：(i)识别标签；以及(ii)可变区，所述可变区包括至少5个简并碱基；

b)从所述加标的样品中提取核酸；

c)生成加标的样品文库，其中所述生成包括(i)将衔接子与端部修复的加标的样品连接；以及(ii)扩增；

d)富集所述加标的样品文库；

e)执行高通量测序测定，以从所述加标的样品文库获得序列读段；

f)计算1,000个独特合成核酸的多样性损失值；以及

g)计算所述游离核酸的测量结果并且将所述测量结果与对照进行比较，由此确定所述受试者的幽门螺杆菌的感染阶段。

37.一种确定受试者体内的宿主-微生物生物学相互作用的方法，所述方法包括：

(a)生成由来自所述受试者的样品生成的核酸文库的片段长度谱；

(b)任选地，确定靶核酸的丰度并且将所述丰度与阈值进行比较；

(c)将所述片段长度谱与一种或多种宿主-微生物生物学相互作用的参考片段长度谱进行比较；以及

(d)如果所述片段长度谱与宿主-微生物生物学相互作用的参考片段长度谱相似，则鉴定所述宿主-微生物生物学相互作用。

38.根据权利要求37所述的方法，其中如果所述靶核酸的所述片段长度谱和丰度与宿主-微生物生物学相互作用的参考片段长度谱和阈值相似，则鉴定所述宿主-微生物生物学相互作用。

39.根据权利要求32所述的方法，其进一步包括改变治疗方案。

40.一种鉴定疑似患有微生物感染的受试者体内存在病毒感染的方法，所述方法包括：

a)生成由来自所述受试者的样品生成的核酸文库的片段长度谱；

b)将所述片段长度谱与病毒参考片段长度谱进行比较；

c)任选地，对靶核酸的丰度进行定量并且将所述丰度与阈值进行比较；

d)如果所述片段长度谱类似于所述参考谱，则鉴定所述受试者体内存在病毒感染。