CN109312400A

CN109312400A - 合成核酸掺入物

Info

Publication number: CN109312400A
Application number: CN201780032561.1A
Authority: CN
Inventors: 佛瑞德·C·克里斯蒂安斯; 伊戈尔·D·维尔凡; 迈克尔·凯尔泰斯; 蒂莫西·A·布劳坎普; 希夫库马尔·文卡塔苏布拉马尼亚姆; 迈克尔·罗森; 雷内·西特
Original assignee: Kayrux Co
Current assignee: Kayrux Co
Priority date: 2016-03-25
Filing date: 2017-03-24
Publication date: 2019-02-05
Also published as: EP4198146A2; KR102175718B1; AU2017237199B2; KR20210138154A; JP6743268B2; EP3433382B1; KR20180129844A; JP7091397B2; US20240043923A1; KR20200128194A; JP2019509068A; CN116987777A; US20210324467A1; IL278000A; MX2021006899A; US20180237851A1; US11692224B2; JP2022120165A; MX2021006911A; CA3185611A1

Abstract

本公开内容提供了用于确定来自宿主的样品中一种或多种非宿主种类的相对丰度的方法。还提供了涉及将已知浓度的合成核酸添加至样品中并进行测序分析以鉴别非宿主种类如病原体的方法。还提供了追踪样品、追踪试剂和追踪测序分析中的多样性损失的方法。

Description

合成核酸掺入物

交叉引用

本申请要求于2016年3月25日提交的美国临时专利申请62/313,668、于2016年9月21日提交的美国临时专利申请62/397,873和于2017年1月27日提交的美国临时专利申请62/451,363的权益，这些美国临时专利申请通过引用整体并入本文。

发明背景

下一代测序可用于收集关于样品遗传内容的大量数据。它特别可用于分析复杂样品如临床样品中的核酸以及全基因组的测序。然而，本领域需要更有效和准确的方法来检测和量化核酸，特别是低丰度核酸或患者样品中的核酸。

发明内容

本文提供了使用掺入(spike-in)合成核酸在下一代测序分析和其他测定中改进核酸鉴别或定量的方法和组合物。在一些情况下，所述掺入合成核酸具有特定的特征，诸如特定序列、长度、GC含量、简并程度、多样性程度和/或已知起始浓度。本文提供的方法特别可用于检测临床样品如血浆中的病原体核酸，但也可用于检测其他类型的靶标。

在一个方面，本文提供了用于确定包含靶核酸的初始样品中的核酸丰度的方法，所述方法包括：(a)将起始量的至少1000个合成核酸添加至所述样品中，其中所述至少1000个合成核酸中的每一个包含独特的可变区；(b)对一部分靶核酸和所述样品中的一部分所述至少1000个合成核酸进行测序分析，从而获得靶标和合成核酸序列读取，其中所述合成核酸序列读取包括独特的可变区序列；(c)通过(i)量化所述合成核酸序列读取内的许多不同可变区序列以获得独特的测序值；以及(ii)将所述至少1,000个合成核酸的起始量与所述独特的测序值进行比较，以获得所述至少1,000个合成核酸的多样性损失，来检测所述至少1000个合成核酸的多样性损失；以及(d)使用所述至少1000个合成核酸的多样性损失来计算所述初始样品中靶核酸的丰度。在一些情况下，所比较的起始量为起始浓度。

在一些实施方案中，所述靶核酸包含病原体核酸。在一些情况下，所述靶核酸包含来自至少五种不同病原体的病原体核酸。在一些情况下，所述靶核酸包含来自至少两种不同病原体的病原体核酸。在一些情况下，所述靶核酸包含来自至少十种不同病原体的病原体核酸。

在一些情况下，所述至少1,000个合成核酸包含DNA。在一些情况下，所述至少1,000个合成核酸包含RNA、ssRNA、dsDNA、ssDNA或其一下组合。在一些情况下，所述至少1,000个合成核酸中的每一个的长度小于500个碱基对或核苷酸。在一些情况下，所述至少1,000个合成核酸中的每一个的长度小于200个碱基对或核苷酸。在一些情况下，所述至少1,000个合成核酸中的每一个的长度小于100个碱基对或核苷酸。在一些情况下，所述样品为血液、血浆、血清、脑脊液、滑液、支气管-肺泡灌洗液、尿液、粪便、唾液或鼻腔样品。在一些情况下，所述样品来自人类受试者。在一些情况下，所述样品为分离的核酸的样品。

在一些情况下，所述方法进一步包括从所述样品产生测序文库，其中在产生所述测序文库之前将所述至少1,000个合成核酸添加至所述样品中。在一些情况下，所述至少1,000个合成核酸的多样性损失指示所述样品的样品处理期间的一种或多种核酸的损失。

在一些情况下，所述至少1,000个合成核酸中的每一个包含标识标签序列。在一些情况下，所述量化独特可变区序列的数目包括检测含有所述标签序列的序列。在一些情况下，所述量化所述第一序列读取内的所述至少1,000个独特序列包括确定所述第一序列读取内的独特序列的读取计数。在一些情况下，所述至少1,000个独特合成核酸包含至少10⁴个独特合成核酸。

在一些情况下，所述方法进一步包括添加具有至少三种不同长度的额外的合成核酸。在一些情况下，所述方法进一步包括添加具有第一长度的第一组额外的合成核酸、具有第二长度的第二组额外的合成核酸和具有第三长度的第三组额外的合成核酸，其中所述第一、第二和第三组额外的合成核酸各自包含具有至少三种不同GC含量的合成核酸。在一些情况下，所述方法进一步包括使用所述额外的合成核酸来计算所述样品中靶核酸的绝对丰度值。在一些情况下，所述方法进一步包括基于所述额外的合成核酸的长度、GC含量或长度和GC含量两者，使用所述额外的合成核酸来计算所述样品中靶核酸的绝对或相对丰度。

在一些情况下，在第一样品处理步骤中将所述至少1,000个合成核酸添加至所述样品中。在一些情况下，所述方法进一步包括在第二样品处理步骤中将额外的一池(pool)至少1,000个独特合成核酸添加至所述样品中，其中所述第二样品处理步骤不同于所述第一样品处理步骤。在一些情况下，所述方法进一步包括计算所述额外的一池至少1,000个合成核酸的多样性损失。在一些情况下，所述方法进一步包括通过将所述至少1,000个合成核酸的多样性损失与所述额外的一池至少1,000个合成核酸的多样性损失进行比较来鉴别具有相对较高多样性损失的样品处理步骤。

在一些情况下，所述额外的一池至少1,000个独特合成核酸中的每一个独特合成核酸包含将所述合成核酸标识为所述额外的一池至少1,000个合成核酸的成员的结构域。在一些情况下，所述方法进一步包括将样品标识核酸添加至所述样品中。在一些情况下，上述(a)进一步包括将非独特合成核酸添加至所述样品中。

在一些实施方案中，所计算的丰度为相对丰度。在一些实施方案中，所计算的丰度为绝对丰度。

在另一个方面，本文提供了确定样品中病原体核酸的相对丰度或初始丰度的方法，所述方法包括：(a)从感染病原体或疑似感染病原体的受试者获得样品，其中所述样品包含多种病原体核酸；(b)将多种合成核酸添加至所述样品中，使得所述样品包含已知初始丰度的所述合成核酸，其中(i)所述合成核酸的长度小于500个碱基对；(ii)所述合成核酸包含具有第一长度的合成核酸、具有第二长度的合成核酸和具有第三长度的合成核酸，其中所述第一、第二和第三长度是不同的；并且(iii)具有所述第一长度的所述合成核酸包含具有至少三种不同GC含量的合成核酸；(c)对包含所述多种合成核酸的所述样品进行测序分析，从而确定所述合成核酸的最终丰度和所述多种病原体核酸的最终丰度；(d)比较合成核酸的所述最终丰度和所述已知初始丰度，以产生所述合成核酸的回收曲线(recoveryprofile)；以及(e)使用所述合成核酸的回收曲线通过将所述病原体核酸与具有最接近的GC含量和长度的所述合成核酸进行比较来对所述多种病原体核酸的最终丰度进行归一化，从而确定所述多种病原体核酸的相对丰度或初始丰度。

在一些情况下，所述至少三种不同的GC含量包括10％至40％之间的第一GC含量、40％至60％之间的第二GC含量和60％至90％之间的第三GC含量。在一些情况下，所述至少三种不同的GC含量各自在10％至50％之间。在一些情况下，所述至少三种不同的GC含量各自在5％至40％之间。在一些情况下，所述合成核酸的长度小于200个碱基对或核苷酸。在一些情况下，所述合成核酸的长度小于100个碱基对或核苷酸。在一些情况下，所述至少三种不同的GC含量为至少4种不同、至少5种不同、至少6种不同、至少7种不同或至少8种不同的GC含量。在一些情况下，所述合成核酸具有至少第四长度、至少第五长度、至少第六长度、至少第七长度、至少第九长度、至少第十长度、至少第12长度或至少第15长度。在一些实施方案中，每个长度包含具有至少3、4、5、6、7、8、9、10种不同GC含量或不超过50种不同GC含量的合成核酸。

在一些情况下，所述合成核酸包含双链DNA。在一些情况下，所述方法进一步包括使用所述合成核酸来监测所述病原体核酸的变性。在一些情况下，所述方法进一步包括通过使用加权因子来对所述病原体核酸的相对丰度或初始丰度进行归一化。在一些情况下，通过与所述多种合成核酸的第一合成核酸的已知浓度和所述多种合成核酸的第二合成核酸的已知浓度相比较，分析所述第一合成核酸的原始测量值和所述第二合成核酸的原始测量值，来获得所述加权因子。

在另一个方面，本文提供了用于检测来自病原体的核酸的方法，所述方法包括：(a)获得包含第一病原体核酸的第一样品，其中所述第一样品从感染所述第一病原体的第一受试者获得；(b)从第二受试者获得第二样品；(c)获得第一和第二样品标识物，每个标识物包含不同的合成核酸，所述合成核酸不能与所述第一病原体核酸杂交，并且将所述第一样品标识物分配给所述第一样品并将所述第二样品标识物分配给所述第二样品；(d)将所述第一样品标识物添加至第一样品中，将第二样品标识物添加至第二样品中；(e)对包含所述第一样品标识物的所述第一样品和包含所述第二样品标识物的所述第二样品进行测序分析，从而获得所述第一和第二样品的序列结果；(f)在所述第一样品的序列结果中检测所述第一样品标识物、所述第二样品标识物和所述第一病原体核酸是否存在；以及(g)当所述测序分析在第一样品中检测到：(i)所述第一样品标识物；(ii)所述第一病原体核酸；以及(iii)无第二样品标识物或第二样品标识物低于阈值水平时，确定所检测到的第一病原体核酸最初存在于所述第一样品中：。

在另一个方面，本文提供了用于检测核酸的方法，所述方法包括：(a)获得包含第一核酸的第一核酸样品；(b)获得包含第一阳性对照核酸的第一对照核酸样品；(c)将第一样品标识物添加至所述第一对照核酸中，所述第一样品标识物包含不能与所述第一核酸杂交的合成核酸；(d)对所述第一核酸样品和包含所述第一样品标识物的第一对照核酸样品进行测序分析，从而获得所述第一核酸样品和所述对照核酸样品的序列读取；(e)将所述第一核酸样品的序列读取与参考序列进行比对，以检测所述第一核酸样品的序列读取中是否存在第一样品标识物；以及(f)基于所述序列读取的比对，确定所述第一核酸样品中是否存在所述第一阳性对照核酸。

在一些情况下，所述第一样品标识物的合成核酸的长度小于150个碱基对或核苷酸。在一些情况下，所述第一阳性对照核酸为病原体核酸。在一些情况下，所述第一样品标识物包含修饰的核酸。在一些情况下，所述第一样品标识物包含DNA。在一些情况下，所述样品包含无细胞体液。在一些情况下，所述样品来自感染病原体的受试者。

在另一个方面，本文提供了用于检测样品中的试剂的方法，所述方法包括：(a)将第一合成核酸添加至所述试剂中，其中所述第一合成核酸包含独特的序列；(b)将包含所述第一合成核酸的试剂添加至核酸样品中；(c)为测序分析准备所述核酸样品；(d)对所述核酸样品进行测序分析，从而获得所述核酸样品的序列结果；以及(e)基于所述核酸样品的序列结果，通过确定所述样品中是否存在所述第一合成核酸来检测所述样品中的所述试剂。

在一些情况下，所述第一合成核酸的长度小于150个碱基对或核苷酸。在一些情况下，将所述第一合成核酸添加至第一批试剂，并且进一步包括将第二合成核酸添加至第二批试剂中。在一些情况下，检测所述样品中的试剂包括检测特定批次的试剂。在一些情况下，所述合成核酸不能被核酸酶降解。在一些情况下，所述试剂包含水性缓冲液。在一些情况下，所述试剂包括提取试剂、酶、连接酶、聚合酶或dNTP。

在另一个方面，本文提供了产生测序文库的方法，所述方法包括：(a)获得样品，其包含：(i)靶核酸；(ii)测序衔接子；以及(iii)至少一种合成核酸，其中所述至少一种合成核酸包含DNA并且抵抗与核酸的连接；以及(b)对样品进行连接反应，使得所述测序衔接子相对于所述至少一种合成核酸优先与所述靶核酸连接。

在另一个方面，本文提供了用于产生测序文库的方法，所述方法包括：(a)获得包含靶核酸和至少一种合成核酸的样品；以及(b)从所述样品中去除所述至少一种合成核酸，从而获得包含所述靶核酸而不包含所述至少一种合成核酸的测序样品；以及(c)将测序衔接子附接至所述测序样品内的靶核酸上。

在另一个方面，本文提供了产生测序文库的方法，所述方法包括：(a)获得包含靶核酸和至少一种合成核酸的样品，其中所述至少一种合成核酸包含：(i)单链DNA；(ii)抑制所述合成核酸扩增的核苷酸修饰；(iii)固定化标签；(iv)DNA-RNA杂合体；(v)长度大于所述靶核酸长度的核酸；或者(vi)其任何组合；以及(b)从所述样品产生用于测序反应的测序文库，其中至少一部分所述合成核酸在所述测序反应中未测序。

在另一个方面，本文提供了产生测序文库的方法，所述方法包括：(a)获得样品，其包含：(i)靶核酸；(ii)测序衔接子；以及(iii)至少一种合成核酸，其中所述至少一种合成核酸包含DNA并且抵抗末端修复；以及(b)对所述样品进行末端修复反应，使得靶核酸相对于所述至少一种合成核酸优先进行末端修复。

在另一个方面，本文提供了用于产生测序文库的试剂盒，所述试剂盒包含(a)测序衔接子；以及(b)至少一种合成核酸，其中所述至少一种合成核酸包含DNA并且抵抗核酸的末端修复。

在一个方面，本文提供了用于在包含靶核酸的初始样品中确定核酸绝对或相对丰度的方法，所述方法包括：(a)将起始量的至少1000个独特合成核酸添加至所述样品中，其中所述至少1000个独特合成核酸中的每一个包含(i)标识标签和(ii)可变区；(b)对所述样品中的一部分靶核酸和一部分所述至少1000个合成核酸进行测序分析，从而获得靶标和合成核酸序列读取，其中所述合成核酸序列读取包括标识标签序列和可变区序列；(c)通过(i)检测对应于至少一部分所述标识标签序列的序列读取，以获得一组第一序列读取；(ii)量化所述第一序列读取内的许多不同可变区序列以获得独特的测序值；以及(iii)将所述至少1,000个独特合成核酸的起始量与所述独特的测序值进行比较，以获得所述至少1,000个独特合成核酸的多样性损失，来检测所述至少1000个合成核酸的多样性损失；以及(d)使用所述至少1000个合成核酸的多样性损失来计算所述初始样品中靶核酸的丰度。在一些情况下，所比较的起始量为起始浓度。

在一些情况下，所述靶核酸包含病原体核酸。在一些情况下，所述靶核酸包含来自至少五种不同病原体的病原体核酸。在一些情况下，所述至少1,000个独特合成核酸包含DNA。

在一些情况下，所述至少1,000个独特合成核酸中的每一个的长度小于500个碱基对或核苷酸。在一些情况下，所述至少1,000个独特合成核酸中的每一个的长度小于200个碱基对或核苷酸。在一些情况下，所述至少1,000个独特合成核酸中的每一个的长度小于100个碱基对或核苷酸。

在一些情况下，所述样品为血液、血浆、血清、脑脊液、滑液、支气管-肺泡灌洗液、尿液、粪便、唾液或鼻腔样品。在一些情况下，所述样品为分离的核酸样品。在一些情况下，所述样品来自人类受试者。

在一些情况下，所述方法进一步包括从所述样品产生测序文库，其中在产生所述测序文库之前将所述至少1,000个独特合成核酸添加至所述样品中。在一些情况下，所述至少1,000个独特合成核酸的多样性损失指示所述样品的样品处理期间的一种或多种核酸的损失。在一些情况下，所述标识标签包含共同序列。在一些情况下，所述量化第一序列读取内的所述至少1,000个独特序列包括确定所述第一序列读取内的独特序列的读取计数。

在一些情况下，所述至少1,000个独特合成核酸包含至少10⁴个独特合成核酸。在一些情况下，所述至少1,000个独特合成核酸包含至少10⁵个独特合成核酸。在一些情况下，所述方法进一步包括添加具有至少三种不同长度的额外的合成核酸。

在一些情况下，所述方法进一步包括添加具有第一长度的第一组额外的合成核酸、具有第二长度的第二组额外的合成核酸和具有第三长度的第三组额外的合成核酸，其中所述第一、第二和第三组额外的合成核酸各自包含具有至少三种不同GC含量的合成核酸。在一些情况下，所述方法进一步包括使用额外的合成核酸来计算所述样品中靶核酸的绝对或相对丰度值。在一些情况下，所述方法进一步包括基于所述额外的合成核酸的长度、GC含量或长度和GC含量两者，使用所述额外的合成核酸来计算所述样品中靶核酸的绝对或相对丰度值。

在一些情况下，在第一样品处理步骤中将所述至少1,000个独特合成核酸添加至所述样品中。在一些情况下，所述方法进一步包括在第二样品处理步骤中将额外的一池至少1,000个独特合成核酸添加至所述样品中，其中所述第二样品处理步骤不同于所述第一样品处理步骤。在一些情况下，所述方法进一步包括计算所述额外的一池至少1,000个独特合成核酸的多样性损失。在一些情况下，所述方法进一步包括通过将所述至少1,000个独特合成核酸的多样性损失与所述额外的一池至少1,000个独特合成核酸的多样性损失进行比较来鉴别具有相对较高多样性损失的样品处理步骤。

在一些情况下，所述额外的一池至少1,000个独特合成核酸中的每一个独特合成核酸包含将所述合成核酸标识为所述额外的一池至少1,000个独特合成核酸的成员的结构域。在一些情况下，所述方法进一步包括将样品标识核酸添加至所述样品中。在一些情况下，上述(a)进一步包括将非独特合成核酸添加至所述样品中。在一些情况下，通过与参考序列比对来检测所述可变序列读取。在一些情况下，通过将所述可变序列读取互相比对并丢弃重复序列读取来量化不同可变序列读取的数目。

本文提供了确定核酸样品中病原体核酸的相对丰度或浓度的方法。在一些情况下，所述方法可包括：从感染病原体或疑似感染病原体的受试者获得样品，其中所述样品包含两种或更多种病原体核酸，其中所述两种或更多种病原体核酸包含具有不同长度的第一和第二病原体核酸；将已知浓度的两种或多种合成核酸添加至所述样品中，其中所述两种或多种合成核酸包含第一合成核酸和第二合成核酸，第一合成核酸的长度为第一病原体核酸的65％至135％、75％至125％或85％至115％，第二合成核酸的长度为第二病原体核酸的65％至135％、75％至125％或85％至115％，并且其中所述两种或更多种合成核酸不与所述第一或第二病原体核酸杂交；对所述样品进行测序分析，从而获得所述两种或更多种合成核酸、所述第一病原体核酸和所述第二病原体核酸的原始测量值；将所述第一合成核酸的原始测量值与所述第一合成核酸的已知浓度进行比较，以产生所述第一合成核酸的回收曲线；并且使用所述第一合成核酸的回收曲线对第一病原体核酸的原始测量值进行归一化，从而确定所述第一病原体核酸的相对丰度或起始浓度。

在一些情况下，所述第一和第二病原体核酸来源于相同的病原体。在一些情况下，所述第一和第二病原体核酸来源于不同的病原体。在一些情况下，本文所述的方法进一步包括通过使用加权因子来对所述第一病原体核酸的相对丰度或起始浓度进行归一化。在一些情况下，通过与所述第一合成酸的已知浓度和所述第二合成核酸的已知浓度相比较，分析所述第一合成核酸的原始测量值和所述第二合成核酸的原始测量值，来获得所述加权因子。

本文提供了确定样品中核酸的相对丰度或起始浓度的方法，所述方法包括：(a)从受试者获得核酸样品，其中所述核酸样品包含具有不同长度的第一和第二核酸；将已知浓度的两种或多种合成核酸添加至所述样品中，其中：(i)所述两种或更多种合成核酸包含第一合成核酸和第二合成核酸，第一合成核酸的长度为所述第一核酸的长度的65％至135％、75％至125％或85％至115％，第二合成核酸的长度为所述第二核酸的长度的65％至135％、75％至125％或85％至115％；(ii)所述第一合成核酸包含特定长度的负载结构域和标识物结构域，所述标识物结构域具有编码的独特序列以标识所述负载结构域的特定长度；以及(iii)所述两种或多种合成核酸不能与所述第一核酸或所述第二核酸杂交；(b)对所述样品进行测序分析，从而获得所述两种或更多种合成核酸、所述第一核酸和所述第二核酸的原始测量值；(c)将所述第一合成核酸的原始测量值与所述第一合成核酸的已知浓度进行比较，以产生回收曲线；(d)使用回收曲线对第一核酸的原始测量值进行归一化，从而确定第一核酸的相对丰度或起始浓度。

在一些情况下，所述第一核酸为病原体核酸。在一些情况下，所述两种或更多种合成核酸的已知浓度包含2种或更多种；3种或更多种；5种或更多种；10种或更多种；50种或更多种；100种或更多种；或1,000种或更多种不同的浓度。在一些情况下，所述两种或更多种合成核酸的已知浓度为等摩尔浓度。在一些情况下，所述两种或更多种合成核酸包含DNA或修饰的DNA。在一些情况下，所述两种或更多种合成核酸包含RNA或修饰的RNA。在一些情况下，所述两种或更多种合成核酸包含2种或更多种；3种或更多种；5种或更多种；8种或更多种；10种或更多种；50种或更多种；100种或更多种；或1,000种或更多种不同的长度。在一些情况下，所述两种或更多种合成核酸包含2种或更多种；3种或更多种；5种或更多种；8种或更多种；10种或更多种；50种或更多种；100种或更多种；或1,000种或更多种不同的序列。在一些情况下，所述两种或更多种合成核酸的长度为至多50种、至多100种、至多200种、至多300种、至多350种、至多400种、至多450种、至多500种、至多750或至多1,000种核苷酸。在一些情况下，所述两种或更多种合成核酸的长度为至少10种、至少20种、或至少30种、至少50种、至少100种或至少150种核苷酸。在一些情况下，所述两种或更多种合成核酸包含将所述两种或更多种合成核酸标识为合成核酸的核酸序列。在一些情况下，将所述两种或更多种合成核酸标识为合成核酸的所述核酸序列的长度为至多50种、至多100个、至多10个、至多20个、至多30个、至多40个、至多50个、至多100个、至多200个或至多500个核苷酸。在一些情况下，所述两种或更多种合成核酸包含标识所述合成核酸长度的核酸序列。在一些情况下，标识所述合成核酸长度的所述核酸序列的长度为至多50个、至多100个、至多10个、至多20个、至多30个、至多40个、至多50个、至多100个、至多200个或至多500个核苷酸。

在一些情况下，所述样品选自血液、血浆、血清、脑脊液、滑液、支气管-肺泡灌洗液、尿液、粪便、唾液、鼻拭子或其任何组合。在一些情况下，所述样品包含无细胞核酸。在一些情况下，所述样品包含循环的无细胞核酸。在一些情况下，所述受试者为人。在一些情况下，所述病原体为细菌、病毒、真菌或寄生物。在一些情况下，所述受试者罹患或疑似罹患脓毒症。在一些情况下，所述病原体与脓毒症有关。在一些情况下，所述两种或更多种病原体核酸包含3种或更多种；5种或更多种；10种或更多种；50种或更多种；100种或更多种；1,000种或更多种；2,000种或更多种；5,000种或更多种；8,000种或更多种；10,000种或更多种；15,000种或更多种；或20,000种或更多种病原体核酸序列。

在一些情况下，确定所述第一病原体核酸的相对丰度包括产生一个或多个基因组拷贝。在一些情况下，将产生一个或多个基因组拷贝表示为每体积的基因组拷贝。在一些情况下，本文所述的方法进一步包括从所述样品中提取核酸。在一些情况下，使用磁珠从所述样品中提取核酸。在一些情况下，本文所述的方法进一步包括去除低质量的测序读取。在一些情况下，本文所述的方法进一步包括去除与所述受试者的种类的参考序列比对的测序读取或映射到所述受试者的种类的参考序列的测序读取。在一些情况下，本文所述的方法进一步包括确定回收一种或多种不同长度的核酸的相对效率。在一些情况下，本文所述的方法进一步包括确定一种或多种合成核酸的测量浓度。在一些情况下，本文所述的方法进一步包括将所述一种或多种合成核酸的测量浓度与所述已知浓度进行比较。在一些情况下，本文所述的方法进一步包括在测序分析中检测1种或多种；2种或更多种；3种或更多种；5种或更多种；10种或更多种；50种或更多种；100种或更多种；1,000种或更多种；2,000种或更多种；5,000种或更多种；8,000种或更多种；10,000种或更多种；15,000种或更多种；或20,000种或更多种病原体核酸。在一些情况下，本文所述的方法进一步包括在测序分析中检测1种或多种；2种或更多种；3种或更多种；5种或更多种；10种或更多种；50种或更多种；100种或更多种；1,000种或更多种；2,000种或更多种；5,000种或更多种；8,000种或更多种；10,000种或更多种；15,000种或更多种；或20,000种或更多种病原体核酸，所述病原体核酸指示抗微生物抗性、抗细菌抗性、抗病毒抗性或抗真菌抗性。在一些情况下，本文所述的方法进一步包括鉴别所述样品内2种或更多种；3种或更多种；5种或更多种；10种或更多种；50种或更多种；100种或更多种病原体的共同发生率。

在一些情况下，在从所述样品中提取核酸之前或期间将所述两种或更多种合成核酸添加至所述样品中。在一些情况下，在从所述样品中提取核酸之后和在所述核酸的文库制备之前将所述两种或更多种合成核酸添加至所述样品中。在一些情况下，所述两种或更多种合成核酸的长度相差至少约20个碱基对。在一些情况下，所述两种或更多种合成核酸包括3种或更多种、5种或更多种、8种或更多种、10种或更多种、20种或更多种或50种或更多种合成核酸。在一些情况下，所述两种或更多种合成核酸选自SEQ ID NO:111-SEQ ID NO:118及其任何组合。在一些情况下，所述两种或更多种合成核酸共享共同的正向序列。在一些情况下，所述共同的正向序列的长度为至多约20个碱基对。在一些情况下，所述两种或更多种合成核酸共享共同的反向序列。在一些情况下，所述共同的反向序列的长度为至多约20个碱基对。

在一些情况下，本文所述的方法进一步包括：将所述第二合成核酸的原始测量值与所述第二合成核酸的已知浓度进行比较，以产生所述第二合成核酸的回收曲线；并且使用所述第二合成核酸的回收曲线对第二病原体核酸的原始测量值进行归一化，从而确定所述第二病原体核酸的相对丰度或起始浓度。

在一些情况下，所述两种或更多种病原体核酸包含五种或更多种具有不同长度的病原体核酸；所述两种或更多种合成核酸包含一种或多种合成核酸，其长度为所述五种或更多种病原体核酸中的每一种长度的65％至135％、75％至125％或85％至115％，并且其中所述两种或更多种合成核酸不与所述五种或更多种病原体核酸杂交；对所述样品进行测序分析获得所述两种或更多种合成核酸和所述五种或更多种病原体核酸的原始测量值；比较所述原始测量值包括将所述原始测量值与所述每种合成核酸的已知浓度进行比较，以产生每种合成核酸的回收曲线；和/或使用回收曲线包括使用所述每种合成核酸的回收曲线来对所述五种或更多种病原体核酸中的每一种的原始测量值进行归一化，从而确定所述五种或更多种病原体核酸中每一种的相对丰度或起始浓度。在一些情况下，所述五种或更多种病原体核酸包含10种或更多种；50种或更多种；100种或更多种；1,000种或更多种；2,000种或更多种；5,000种或更多种；8,000种或更多种；10,000种或更多种；15,000种或更多种；或20,000种或更多种病原体核酸。在一些情况下，本文所述的方法进一步包括提取或纯化所述核酸样品和所述两种或更多种合成核酸中的核酸。在一些情况下，提取或纯化所述核酸样品和所述两种或更多种合成核酸中的核酸改变了所述核酸样品或所述两种或更多种合成核酸中的核酸的相对浓度。在一些情况下，所述原始测量值为读取计数。

本文提供了用于检测来自病原体的核酸的方法，所述方法包括：(a)获得包含第一病原体核酸的第一核酸样品，其中所述第一核酸样品从感染所述第一病原体或疑似感染所述第一病原体的第一受试者获得；(b)获得包含第二病原体核酸的第二核酸样品，其中所述第二核酸样品从感染第二病原体或怀疑感染第二病原体的第二受试者获得；(c)获得第一和第二样品标识物，每个标识物包含不同的合成核酸，所述合成核酸不能与所述病原体核酸杂交，并且将所述第一样品标识物分配给所述第一核酸样品并将所述第二样品标识物分配给所述第二核酸样品；(d)将所述第一样品标识物添加至第一核酸样品中，将第二样品标识物添加至第二核酸样品中；(e)对包含所述第一样品标识物的所述第一核酸样品和包含所述第二样品标识物的所述第二核酸样品进行测序分析，从而获得所述第一和第二样品的序列结果；(f)在所述序列结果中检测所述第一样品标识物、所述第二样品标识物和所述病原体核酸是否存在；以及(g)当所述测序分析检测到第一样品标识物和靶核酸但没有检测到第二样品标识物时，确定靶核酸最初存在于所述第一样品中。

在一些情况下，所述合成核酸的长度为至多约500个碱基对。在一些情况下，所述合成核酸的长度为至多约100个碱基对。在一些情况下，所述合成核酸的长度为至少约50个碱基对。在一些情况下，所述合成核酸的长度为至少约100个碱基对。在一些情况下，所述合成核酸包含DNA或修饰的DNA。在一些情况下，所述合成核酸包含RNA或修饰的RNA。在一些情况下，所述合成核酸为修饰的核酸。在一些情况下，所述合成核酸包含选自SEQ ID NO:111-SEQ ID NO:110及其任何组合的序列。在一些情况下，所述第一样品包含无细胞体液。

本文提供了用于检测样品中的试剂的方法，所述方法包括：将第一合成核酸添加至所述试剂中，其中所述第一合成核酸包含独特的序列；将包含所述第一合成核酸的试剂添加至所述核酸样品中；为测序分析准备所述核酸样品；对所述核酸样品进行测序分析，从而获得所述核酸样品的序列结果；以及基于所述核酸样品的序列结果，通过确定所述样品中所述第一合成核酸是否存在来检测所述样品中的所述试剂。

在一些情况下，在步骤a中将所述第一合成核酸添加至所述试剂包括将所述第一合成核酸添加至所述特定批次的试剂。在一些情况下，本文所述的方法进一步包括基于所述核酸样品的序列结果检测所述特定批次的试剂。在一些情况下，所述第一合成核酸不与来自病原体的核酸杂交。在一些情况下，本文所述的方法进一步包括将第二合成核酸添加至不同批次的试剂，其中所述第二合成核酸独特地标识所述不同批次的试剂。在一些情况下，本文所述的方法进一步包括基于来自所述核酸样品的测序分析的结果检测靶核酸。在一些情况下，本文所述的方法进一步包括：(i)如果准确检测到所述靶核酸，则在未来的测序分析中使用所述特定批次的试剂；或者(ii)如果未准确检测到所述靶核酸，则在未来的测序分析中不使用所述特定批次的试剂。在一些情况下，所述试剂包含水性溶液。在一些情况下，所述合成核酸的长度为约50至约500个碱基对。在一些情况下，所述合成核酸包含DNA或修饰的DNA。在一些情况下，所述合成核酸包含RNA或修饰的RNA。在一些情况下，所述合成核酸选自SEQ ID NO:111-SEQ ID NO:110及其任何组合。在一些情况下，所述合成核酸不能被DNA酶降解。

本文提供了用于确定样品中核酸的多样性损失或丰度的方法，所述方法包括：将已知浓度的1,000个独特合成核酸添加至包含靶核酸的样品中；对所述样品进行测序分析，从而获得靶核酸和至少一部分所述1,000个独特合成核酸的序列读取计数；通过将所述至少一部分1,000个独特合成核酸的序列读取计数与步骤a中添加至包含靶核酸的样品中的1,000个独特核酸的序列进行比对来检测所述1,000个独特合成核酸的多样性损失，并将所述比对的序列读取的多样性与所述1,000个或更多个独特合成核酸的多样性进行比较；并且使用所述1,000个独特合成核酸的多样性损失来计算所述样品中靶核酸的多样性损失或丰度。

在一些情况下，所述1,000个独特合成核酸的长度为至多约500个碱基对或长度为至多约100个碱基对。在一些情况下，以等摩尔浓度添加所述1,000个独特合成核酸。在一些情况下，所述1,000个独特合成核酸具有至少约1×10⁶的多样性。在一些情况下，所述1,000个独特合成核酸具有至少约1×10⁷的多样性。在一些情况下，所述1,000个独特合成核酸具有至少约1×10⁸的多样性。在一些情况下，所述1,000个独特合成核酸具有随机部分。在一些情况下，所述1,000个独特合成核酸包含DNA、修饰的DNA、RNA或修饰的RNA。在一些情况下，所述1,000个独特合成核酸包含SEQ ID NO:119和SEQ ID NO:120中确定的序列。在一些情况下，在第一样品处理步骤中将所述1,000个独特合成核酸添加至所述样品中。在一些情况下，本文所述的方法进一步包括在第二样品处理步骤中将额外的一池1,000个独特合成核酸添加至所述样品中，其中所述第二样品处理步骤不同于所述第一样品处理步骤。在一些情况下，计算所述额外的一池1,000个独特合成核酸的多样性损失。在一些情况下，本文所述的方法进一步包括通过将所述1,000个独特合成核酸的多样性损失与所述额外的一池1,000个独特合成核酸的多样性损失进行比较来鉴别具有相对较高多样性损失的样品处理步骤。在一些情况下，所述1,000个独特合成核酸包含将所述合成核酸标识为所述额外的一池1,000个独特合成核酸的成员的结构域。在一些情况下，所述额外的一池1,000个独特合成核酸包含将所述合成核酸标识为所述额外的一池1,000个独特合成核酸的成员的结构域。在一些情况下，在所述靶核酸的提取之前，将所述1,000个独特合成核酸添加至所述样品中。在一些情况下，在所述靶核酸的文库制备之前，将所述1,000个独特合成核酸添加至所述样品中。在一些情况下，本文所述的方法进一步包括将已知浓度的5,000个独特合成核酸添加至包含所述靶核酸的所述样品中。

本文进一步公开了用于分析分子的方法和组合物。在一个方面，本文公开了用于产生测序文库的方法，所述方法包括：a)获得样品，所述样品包含：(i)靶核酸；(ii)测序衔接子；以及(iii)至少一种合成核酸，其中所述至少一种合成核酸包含DNA并且抵抗与核酸的连接；以及b)对样品进行连接反应，使得所述测序衔接子相对于所述至少一种合成核酸优先与所述靶核酸连接。

在一些情况下，所述至少一种合成核酸抵抗通过磷酸二酯键与所述核酸的连接。在一些情况下，所述至少一种合成核酸抵抗与所述测序衔接子的连接。在另一个方面，本文公开了产生测序文库的方法，所述方法包括：a)获得包含靶核酸和至少一种合成核酸的样品；b)从所述样品中去除所述至少一种合成核酸，从而获得包含所述靶核酸而不包含所述至少一种合成核酸的测序样品；以及c)将测序衔接子附接至所述测序样品内的靶核酸上。在一些情况下，去除所述至少一种合成核酸不是通过内切核酸酶消化进行的。在一些情况下，从所述样品中去除的至少一种合成核酸不与另一种合成核酸附接。在一些情况下，所述至少一种合成核酸抵抗末端修复。

在另一个方面，本文公开了产生测序文库的方法，所述方法包括：a)获得包含靶核酸和至少一种合成核酸的样品；b)将测序衔接子附接到所述样品内的靶核酸上，从而获得测序样品；c)通过基于亲和力的消耗、RNA指导的DNA酶消化或其组合从测序样品中去除至少一种合成核酸，其中从所述测序样品中去除所述至少一种合成核酸包括相对于所述测序衔接子和相对于所述测序衔接子的多聚体优先去除所述至少一种合成核酸。

在一些情况下，所述方法进一步包括通过内切核酸酶消化、基于大小的消耗或其组合去除所述至少一种合成核酸。在一些情况下，所述测序衔接子为核酸。在一些情况下，通过基于亲和力的消耗来去除所述至少一种合成酸，并且所述至少一种合成核酸包含固定化标签。在一些情况下，通过RNA指导的DNA酶消化来去除所述至少一种合成核酸。在一些情况下，所述RNA指导的DNA酶包含CRISPR相关蛋白。在一些情况下，通过内切核酸酶消化来去除所述至少一种合成核酸。在一些情况下，通过基于大小的消耗来去除所述至少一种合成酸，并且所述至少一种合成核酸的长度大于所述靶核酸的长度。在一些情况下，用RNA酶来去除所述至少一种合成酸并且所述至少一种合成核酸为DNA-RNA杂合体。在一些情况下，将所述测序衔接子附接至所述靶核酸包括将所述测序衔接子附接至所述靶核酸。在一些情况下，将所述测序衔接子附接至所述靶核酸包括将所述测序衔接子附接至所述靶核酸。

在另一个方面，本文公开了产生测序文库的方法，所述方法包括：a)获得包含靶核酸和至少一种合成核酸的样品，其中所述至少一种合成核酸包含：(i)单链DNA；(ii)抑制所述合成核酸扩增的核苷酸修饰；(iii)固定化标签；(iv)DNA-RNA杂合体；(v)长度大于所述靶核酸长度的核酸；或者(vi)其任何组合；以及b)从所述样品产生用于测序反应的测序文库，其中至少一部分所述合成核酸在所述测序反应中未测序。

在一些情况下，所述至少一种合成核酸进一步包含内切核酸酶识别位点。在一些情况下，获得所述样品包括从测试样品中提取所述靶核酸，并且进一步包括在从所述测试样品中提取所述靶核酸之后将所述至少一种合成核酸添加至所述测试样品中。在一些情况下，获得所述样品包括从测试样品中提取所述靶核酸，并且进一步包括在从所述测试样品中提取所述靶核酸之前将所述至少一种合成核酸添加至所述测试样品中。在一些情况下，其中所述至少一种合成核酸包含抑制连接反应的阻断基团，并且所述阻断基团包含修饰的核苷酸。在一些情况下，所述修饰的核苷酸包含反向脱氧糖。在一些情况下，所述反向脱氧碱包含3’反向脱氧糖。在一些情况下，所述修饰的核苷酸包含反向胸苷、反向腺苷、反向鸟苷或反向胞苷。在一些情况下，所述修饰的核苷酸包含反向双脱氧糖。在一些情况下，所述反向双脱氧糖包含5’反向双脱氧糖。在一些情况下，所述修饰的核苷酸包含反向双脱氧胸苷、反向双脱氧腺苷、反向双脱氧鸟苷或反向双脱氧胞苷。在一些情况下，所述修饰的核苷酸为双脱氧胞苷。在一些情况下，所述至少一种合成核酸包含抑制连接反应的阻断基团，并且所述阻断基团包含间隔区。在一些情况下，间隔区包括C3间隔区或间隔区18。在一些情况下，所述至少一种合成核酸包含抑制连接反应的阻断基团，并且所述阻断基团包含发夹结构。在一些情况下，所述合成核酸包含抑制所述至少一种合成核酸的扩增的核苷酸修饰，并且所述核苷酸修饰包含至少一个无碱基位点。在一些情况下，所述至少一个无碱基位点为至少一个内部无碱基位点。在一些情况下，所述核苷酸修饰包含8至10个无碱基位点。在一些情况下，所述至少一个无碱基位点为单个无碱基位点。在一些情况下，所述至少一个无碱基位点在修饰的核糖上。在一些情况下，所述至少一个无碱基位点包含1’,2’-双脱氧核糖、锁核酸、桥接核酸或扭曲插入核酸。在一些情况下，所述至少一种合成核酸包含固定化标签，并且所述固定化标签包含生物素、洋地黄毒苷、多组氨酸或Ni-次氮基三乙酸。在一些情况下，所述至少一种合成核酸包含DNA并用内部尿嘧啶标记。在一些情况下，用尿嘧啶特异性切除试剂酶从所述测序样品中去除所述至少一种合成核酸。

在一些情况下，所述测试样品为生物样品。在一些情况下，所述生物样品为全血、血浆、血清或尿液。在一些实施方案中，所述靶核酸为无细胞核酸。在一些情况下，所述无细胞核酸为无细胞DNA。在一些情况下，所述无细胞核酸为病原体核酸。在一些情况下，所述无细胞核酸为循环无细胞核酸。在一些情况下，所述至少一种合成核酸包含双链核酸。在一些情况下，所述至少一种合成核酸包含单链核酸。在一些情况下，所述至少一种合成核酸包含DNA、RNA、DNA-RNA杂合体或其任何类似物。

在一些情况下，所述方法进一步包括以下一种或多种：(a)从所述样品中提取所述靶核酸；(b)从所述样品中纯化所述靶核酸；(c)末端修复所述靶核酸；(d)使所述靶核酸片段化；(e)扩增所述靶核酸；(f)将测序衔接子附接到所述靶核酸上；以及(g)对所述靶核酸进行测序。在一些情况下，所述方法包括将所述测序衔接子附接至所述靶核酸，并且进一步包括在将所述测序衔接子附接至所述靶核酸之前用内切核酸酶处理所述测序样品。在一些情况下，所述方法包括将所述测序衔接子附接至所述靶核酸，并且进一步包括在将所述测序衔接子附接至所述靶核酸之后用内切核酸酶处理所述测序样品。在一些情况下，所述方法包括末端修复所述靶核酸，其中在末端修复所述靶核酸之前将所述至少一种合成核酸添加至所述样品。在一些情况下，所述方法包括末端修复所述靶核酸，其中在末端修复所述靶核酸之后将所述至少一种合成核酸添加至所述样品。在一些情况下，所述方法包括将所述测序衔接子附接至所述靶核酸，并且在将所述测序衔接子附接至所述靶核酸之前将所述至少一种合成核酸添加至所述样品。在一些情况下，所述样品中至少一种合成核酸的浓度与所述样品中靶核酸的浓度的比率为1:1至1000:1。

在一些情况下，所述至少一种合成核酸的大小与所述靶核酸的大小之间的差异允许所述至少一种合成核酸与所述靶核酸的基于大小的分离。在一些情况下，所述合成核酸包含抑制连接反应的阻断基团和抑制扩增反应的核苷酸修饰。在一些情况下，所述抑制连接反应的阻断基团包含3’反向脱氧-T，并且所述抑制扩增反应的核苷酸修饰包含内部无碱基位点。在一些情况下，所述阻断基团进一步包含5’反向双脱氧-T。在一些情况下，所述方法进一步包括将所述样品与内切核酸酶VIII一起温育。在一些情况下，将所述样品与内切核酸酶VIII一起温育不超过1小时。在一些情况下，所述方法包括从所述样品中提取所述靶核酸，并且与从不含有所述至少一种合成核酸的样品中提取所述靶核酸相比，所述提取所述靶核酸具有更高的产率。在一些情况下，所述方法包括末端修复所述靶核酸，并且与末端修复样品中不含有所述至少一种合成核酸的靶核酸相比，所述末端修复所述靶核酸具有更高的效率。在一些情况下，所述靶核酸包含天然存在的核酸或其拷贝。在一些情况下，所述方法进一步包括使用计算机获得至少一种所述靶核酸的序列信息。

在另一个方面，本文公开了产生测序文库的方法，所述方法包括：(a)获得样品，其包含：(i)靶核酸；(ii)测序衔接子；以及(iii)至少一种合成核酸，其中所述至少一种合成核酸包含DNA并且抵抗末端修复；以及b)对所述样品进行末端修复反应，使得靶核酸相对于所述至少一种合成核酸优先进行末端修复。

在一些实施方案中，任何前述方法可包括将所述方法的结果报告给患者、照护者或其他人。

在另一个方面，本文公开了用于产生测序文库的试剂盒，所述试剂盒包含：a)测序衔接子；和b)至少一种合成核酸，其中所述至少一种合成核酸包含DNA并且抵抗核酸的末端修复。在一些情况下，所述至少一种合成核酸的量与测序衔接子的量的比率不大于1:1。

附图说明

所公开主题的新颖特征在所附权利要求书中具体阐述。通过参考以下对其中利用到所公开主题原理的说明性实施方案加以阐述的详细描述和附图，将会对所公开主题的特征和优点获得更好的理解；在这些附图中：

图1示出了本公开内容的基本方法的示意图。

图2示出了示例性感染的示意图。

图3示出了本文提供的一些方法的一般方案。

图4示出了8个示例性Spark大小组掺入的设计。

图5示出了本文提供的用于确定多样性损失的方法的一般方案。

图6示出了示例性Spank掺入的设计。

图7示出了计算机控制系统，其被编程或以其他方式配置为实现本文提供的方法。

图8示出了测序文库制备中的步骤，其中可添加载体核酸。

图9示出了110个示例性ID Spike的归一化读取计数。

图10示出了110个信号归一化的示例性ID Spike的归一化读取计数。

图11示出了来自用于使用病原体追踪物来鉴别弗氏志贺氏菌(Shigellaflexneri)阳性对照的交叉污染的方法的结果。

图12示出了来自用于使用病原体追踪物来鉴别肠沙门氏菌(Salmonellaenterica)阳性对照的交叉污染的方法的结果。

图13示出了来自用于使用病原体追踪物来鉴别金黄色葡萄球菌(Staphylococcusaureus)阳性对照的交叉污染的方法的结果。

图14示出了来自用于使用病原体追踪物来鉴别铜绿假单胞菌(Pseudomonasaeruginosa)阳性对照的交叉污染的方法的结果。

图15示出了来自用于使用病原体追踪物来鉴别生孢梭菌(Clostridiumsporogenes)阳性对照的交叉污染的方法的结果。

图16示出了大小选择文库处理方法对示例性Spark大小掺入的相对产率的影响。

图17示出了来自用于使用不同GC含量的核酸来制备含有酶加热-杀灭步骤的测序文库的方法的结果。

图18示出了来自用于使用不同GC含量的核酸来制备缺乏酶加热-杀灭步骤的测序文库的方法的结果。

图19示出了用于使用载体合成核酸来制备测序文库的示例性方法，所述载体合成核酸具有防止两端连接的较大的大小。

图20A示出了用于使用载体合成核酸来制备测序文库的示例性方法，所述载体合成核酸具有无碱基位点和修饰。

图20B示出了来自使用载体合成核酸的测序文库生成的结果，所述载体合成核酸不具有内切核酸酶VIII消化。泳道A1：TapeStation梯(ladder)。泳道B1：无CNA，第1次复制。泳道C1：无CNA，第2次复制。泳道D1：无CNA，第3次复制。泳道E1：10ngCNA，第1次复制。泳道F1：10ngCNA，第2次复制。泳道G1：10ngCNA，第3次复制。

图20C示出了来自使用载体合成核酸的测序文库生成的结果，所述载体合成核酸具有内切核酸酶VIII消化。泳道A1：TapeStation梯状带。泳道B1：无CNA，第1次复制。泳道C1：无CNA，第2次复制。泳道D1：无CNA，第3次复制。泳道E1：10ng CNA，第1次复制。泳道F1：10ng CNA，第2次复制。泳道G1：10ng CNA，第3次复制。

图21A示出了使用载体合成核酸来制备测序文库的结果，所述载体合成核酸具有无内切核酸酶VIII消化的无碱基位点。

图21B示出了使用载体合成核酸来制备测序文库的结果，所述载体合成核酸具有有内切核酸酶VIII消化的无碱基位点。

图22示出了具有DNA-RNA杂合体的载体合成核酸的示例性序列。字母“rX”(例如，rG、rC、rA)表示RNA序列。

图23A示出了用于使用载体合成核酸来制备测序文库的示例性方法，所述载体合成核酸具有DNA-RNA杂合体。

图23B示出了来自使用载体合成核酸的测序文库生成的结果，所述载体合成核酸具有DNA-RNA杂合体。

援引并入

本说明书中提到的所有出版物、专利和专利申请均通过引用整体并入本文，其引用程度如同特别地且单独地指出每个单独的出版物、专利或专利申请均通过引用而并入。

具体实施方式

概述

本公开内容提供了用于在下一代测序分析和其他测定中对核酸的改进鉴别或定量的多种方法和途径。通常，本文提供的方法涉及使用具有特殊特征如特定序列、长度、GC含量、简并程度、多样性程度和/或已知起始浓度的掺入合成核酸。使用这样的掺入合成核酸可实现并改进绝对丰度测定、相对丰度测定、丰度归一化、通用定量、偏差控制、样品鉴别、交叉污染检测、信息传递效率、试剂追踪、多样性损失归一化、绝对或相对损失测定、质量控制和许多其他应用。本文提供的掺入合成核酸还包括特别设计的载体核酸，该载体核酸可增加样品中核酸的总浓度，但是具有逃避通过测序或其他测定进行检测的能力。

在优选的实施方案中，本公开内容提供了掺入合成核酸种类组，其中每个种类的长度和/或GC含量被设计成匹配或非常接近待分析的靶核酸组的预期或可观察的长度和/或GC含量。例如，掺入合成核酸的长度可接近从感染病原体的人类患者获得的样品(例如，血浆)中的疾病特异性或病原体特异性无细胞核酸的长度。在其他优选的实施方案中，本公开内容提供了掺入合成核酸，其包含独特地鉴别样品、试剂或试剂批次的序列。在其他优选的实施方案中，本公开内容提供了包含大量掺入合成核酸的池，这些掺入合成核酸具有可用于通过在高通量测序分析过程中，特别是在样品处理步骤如核酸提取和/或文库制备过程中通过独特掺入序列的多样性降低来追踪样品中的绝对核酸损失的独特序列(例如，10⁴、10⁵、10⁶、10⁷、10⁸、10⁹或10¹⁰个独特的掺入合成核酸)。

追踪绝对核酸损失的能力可允许确定初始样品中靶核酸的绝对丰度。例如，可基于归因于病原体的测序读取的数目来确定临床样品中病原体的绝对量。可通过确定随时间采集的临床样品中病原体的绝对丰度来监测或调整药物治疗，诸如在用抗生素或药物组合物治疗之前、期间和之后。除了确定是否存在特定病原体之外，还可确定感染或疾病的程度或阶段。

所述方法可包括将掺入合成核酸添加至各种不同样品，包括但不限于临床样品、经处理的样品(例如，提取的核酸、提取的无细胞DNA、提取的无细胞RNA、血浆、血清)、未处理的样品(例如，全血)和任何其他类型的样品，特别是包含核酸的样品。在一些情况下，所述方法可涉及将掺入合成核酸添加至试剂，特别是在通过测序(例如，下一代测序)分析样品的任何阶段使用的实验室试剂(或特定试剂批次)。在优选的实施方案中，所述方法可包括将已知浓度的合成核酸引入试剂和样品中。所述方法可特别有助于提高被设计用于检测、鉴别、监测或量化临床样品中的低丰度病原体或来源于病原体的核酸的测定的准确性和效率。所述方法还可减少样品追踪中伴随错误出现的不期望结果；由样品制备、核酸纯化或测序文库制备过程中核酸序列的不均等损失引起的不期望结果；或者由比较不同靶核酸或不同样品的分析时缺乏内部归一化标准引起的不期望结果。

图1提供了本文提供的许多方法的步骤的总体概述，特别是在它们涉及丰度归一化时。所述方法可包括从受试者110如人类患者获得样品。在一些特定实施方案中，受试者患有感染性疾病或在其他方面疑似被病原体感染。如图所示，样品可以是血液样品120或血浆样品130，或任何其他类型的生物样品，尤其是含有体液、组织和/或细胞的生物样品，或者无细胞生物样品。

可提取来自样品140的核酸(例如，无细胞核酸)并用于测定，诸如测序分析(例如，下一代测序分析)。可在所述方法的一个或多个步骤中将一种或多种类型的合成核酸150添加(或掺入)至例如血液样品120、血浆样品130或样品核酸140。该合成核酸可以具有被设计成接近待分析的靶核酸组的长度的长度和/或被设计成接近待分析的靶核酸组的GC含量的GC含量。通常，该合成核酸还具有已知的起始浓度。然后可通过测序分析160如下一代测序分析来分析包含合成核酸的样品。在一些情况下，将通过测序分析鉴别的合成核酸的量与合成核酸的已知起始浓度进行比较，以便使读取计数与已知起始浓度相关联。因此，可以鉴别或量化样品核酸内的靶核酸，特别是通过将所检测到的靶核酸的丰度与长度和/或GC含量最接近于这类靶核酸170的合成核酸的丰度进行比较。通过使用这样的方法和本文提供的其他方法，可以以更高的准确性和确定性水平鉴别受试者的状况。在一些特定实施方案中，测序分析(例如，下一代测序分析)检测来源于人类患者的无细胞核酸(例如，DNA)样品中的病原体核酸。

可以以任何顺序和任何组合执行所述步骤。在一些情况下，某些步骤重复几次。在一些情况下，不执行某些步骤。在一些情况下，新步骤被添加至所描绘的步骤或散布在所描绘的步骤之间。

图2提供了示例性感染的示意图。病原体感染的来源可以是例如肺。来源于病原体的无细胞核酸如无细胞DNA可穿过血流并且可收集在血浆样品中以供分析。然后可通过如图1中所示的测序分析来分析样品中的核酸。

图3描绘了本文提供的一些方法的总体方案。所述方法可包括获得含有宿主(例如，人)和非宿主(例如，病原体)核酸的样品。可从受试者如患者获得样品。在一些特定实施方案中，受试者患有感染性疾病或在其他方面疑似被病原体感染。样品可以是血液样品或血浆样品，或任何其他类型的生物样品，尤其是含有体液、组织和/或细胞的生物样品。来自样品的核酸(例如，无细胞核酸)可与已知量的合成核酸组合。然后可通过测序分析如下一代测序分析来分析包含合成核酸的样品。测序结果可映射到已知的宿主和非宿主参考序列。在一些情况下，将通过测序分析鉴别的合成核酸的量与合成核酸的已知起始浓度进行比较，以便使读取计数与已知起始浓度相关联。因此，可以确定非宿主序列的相对丰度。可以以任何顺序和任何组合执行所述步骤。在一些情况下，某些步骤重复几次。在一些情况下，不执行某些步骤。在一些情况下，新步骤被添加至所描绘的步骤或散布在所描绘的步骤之间。

本文提供的方法可实现通过下一代测序对靶核酸的改进的鉴别或定量，特别是当靶核酸以低丰度存在于样品中时或当比较或追踪多个样品或多个靶核酸时。例如，如果不正确地追踪样品或者如果靶核酸被不准确地归一化或定量，则通过下一代测序对临床样品中的目标病原体、肿瘤细胞或癌基因组标志物的准确检测和定量可能受到破坏或负面影响。因此，本文提供的方法可帮助避免由样品追踪或鉴别中或者核酸定量中或者以其他方式对测序数据的云分析中的错误引起的缺陷。

本文提供的方法和组合物可用于在测序文库制备期间添加和/或去除合成核酸，以提高测序文库的产率、质量或效率，特别是当起始样品具有相对低量的核酸时。通常，在一些情况下，合成核酸在这些应用中可充当载体核酸，以提高样品制备过程中总核酸的浓度。将合成核酸添加至样品可提高测序文库生成的一个或多个步骤的产率和/或效率。所述一个或多个步骤可以是对核酸浓度敏感的。例如，所述步骤的产率和/或效率可取决于样品中的核酸浓度。此类步骤可包括核酸提取、纯化、连接和末端修复。在一些情况下，可从测序文库中去除合成核酸。合成核酸可包含阻止它们参与测序文库生成中的一个或多个步骤的某些特征。因此，合成核酸可能不在测序步骤中被测序。

所述方法和组合物可用于分析来自多个受试者的样品(例如，从样品中的靶核酸生成测序文库)。这些样品中靶核酸的浓度在受试者之间可有所不同。将本文的合成核酸添加至这些样品可减少样品之间的浓度变化，从而提高分析的准确性。

所述方法和组合物可用于通过添加至少一种合成核酸从样品制备测序文库。合成核酸可具有一种或多种特性，使得它们不在测序反应中被测序。在一些情况下，合成核酸包含抑制测序文库生成中的一个或多个反应的修饰，该反应例如是衔接子连接和核酸扩增。例如，核酸可在一端或两端包含反向糖，和/或一个或多个脱碱基位点。

在一些情况下，可在测序之前从测序文库中去除合成核酸。在一些情况下，可通过酶消化来去除合成核酸。例如，合成核酸可包含限制酶识别位点，并且可被限制酶降解。在一些情况下，可通过基于亲和力的消耗来去除合成核酸。例如，合成核酸可包含一种或多种固定化标签，并且可通过基于亲和力的消耗来去除。在一些情况下，可通过基于大小的消耗来去除合成核酸。合成核酸还可具有与测序文库中的其他分子不同的大小，使得可通过基于大小的消耗来去除合成核酸。在一些情况下，合成核酸可包含本文的特性和/或修饰的组合，使得它们不参与序列文库生成的一个或多个步骤，并且还可在测序之前去除。

样品

本文提供的方法可实现对宽范围的样品的改进分析。本文提供的合成核酸可用于分析这样的样品，其可涉及将合成核酸直接添加至样品或添加至经处理形式的样品，例如，从临床血浆样品提取的无细胞核酸。

在本文提供的方法中分析的样品优选地是任何类型的临床样品。在一些情况下，样品含有细胞、组织或体液。在优选的实施方案中，样品是液体或流体样品。在一些情况下，样品含有体液，诸如全血、血浆、血清、尿液、粪便、唾液、淋巴液、脊髓液、滑液、支气管肺泡灌洗液、鼻拭子、呼吸道分泌物、阴道液、羊水、精液或月经。在一些情况下，样品全部或部分由细胞或组织组成。在一些情况下，从样品中去除细胞、细胞碎片或外来体，诸如通过离心或过滤。本文的样品可以是生物样品。

样品可包含任何浓度的核酸。本文的组合物和方法可用于具有低浓度的总核酸的样品。在一些情况下，样品具有至多100ng/μL、50ng/μL、10ng/μL、5ng/μL、2ng/μL、1.5ng/μL、1.2ng/μL、1ng/μL、0.8ng/μL、0.4ng/μL、0.2ng/μL、0.1ng/μL、0.05ng/μL、0.01ng/μL、10ng/mL、5ng/mL、2ng/mL、1ng/mL、0.8ng/mL、0.6ng/mL、0.5ng/mL或0.1ng/mL的核酸总浓度。在一些情况下，样品包含至少0.1ng/mL、0.5ng/mL、0.6ng/mL、0.8ng/mL、1ng/mL、2ng/mL、5ng/mL、10ng/mL、0.01ng/μL、0.05ng/μL、0.1ng/μL、0.2ng/μL、0.4ng/μL、0.8ng/μL、1ng/μL、1.2ng/μL、1.5ng/μL、2ng/μL、5ng/μL、10ng/μL、50ng/μL或100ng/μL的核酸总浓度。在一些情况下，样品具有在约0.1ng/mL至约10,000ng/mL(即，约0.1ng/mL至约10ng/μL)范围内的核酸总浓度。

样品可包括一种或多种对照。在一些情况下，样品包括一种或多种阴性对照。示例性的阴性对照包括为了鉴别污染物而准备的样品(例如，减去血浆的样品)、来自健康受试者的血浆和低多样性样品(例如，从看似健康的受试者收集的样品)。在一些情况下，样品包括一种或多种阳性对照。示例性的阳性对照包括来自健康受试者的样品(例如，血浆样品)，具有来自已知病原体的基因组DNA。来自已知病原体的基因组DNA可以是完整的基因组DNA。在一些情况下，来自已知病原体的基因组DNA可以被剪切，例如剪切成各种平均长度。可通过机械剪切(例如，超声波、流体动力学剪切力)、酶促剪切(例如，内切核酸酶)、热片段化(例如，在高温下温育)、化学片段化(例如，碱性溶液、二价离子)进行剪切。

样品可包含靶核酸。靶核酸可指样品中待分析的核酸。例如，靶核酸可最初存在于样品中，例如天然核酸。样品可进一步包含一种或多种本文公开的合成核酸。在一些情况下，靶核酸是本文所述的无细胞核酸。例如，靶核酸可以是无细胞DNA、无细胞RNA(例如，无细胞mRNA、无细胞miRNA、无细胞siRNA)或其任意组合。在一些情况下，无细胞核酸是病原体核酸，例如来自病原体的核酸。无细胞核酸可以是循环核酸，例如循环肿瘤DNA或循环胎儿DNA。样品可包含来自病原体例如病毒、细菌、真菌和/或真核寄生物的核酸。

在一些情况下，样品还包含衔接子。衔接子可以是具有已知或未知序列的核酸。衔接子可附接到核酸的3'端、5'端或两端。衔接子可包含已知序列和/或未知序列。衔接子可以是双链或单链的。在一些情况下，衔接子是测序衔接子。测序衔接子可附接到靶核酸并帮助对靶核酸的测序。例如，测序衔接子可包含以下一种或多种：测序引物结合位点、独特标识物序列、非独特标识物序列和用于将靶核酸固定在固体支持物上的序列。与测序衔接子附接的靶核酸可固定在测序仪上的固体支持物上。测序引物可与衔接子杂交并在测序反应中使用靶核酸作为模板进行延伸。在一些情况下，衔接子中的标识物用于标记不同靶序列的序列读取，从而允许多个靶核酸的高通量测序。

术语“附接”及其语法等同语可指使用任何附接模式连接两个分子。例如，附接可指通过化学键或其他方法连接两个分子以产生新分子。使衔接子附接到核酸可指在衔接子与核酸之间形成化学键。在一些情况下，通过连接进行附接，例如使用连接酶。例如，核酸衔接子可通过连接经由形成被连接酶催化的磷酸二酯键而附接到靶核酸。

可使用本文提供的方法和组合物从样品生成测序文库。测序文库可包含与待使用的测序系统相匹配的多种核酸。例如，测序文库中的核酸可包含与一个或多个衔接子附接的靶核酸。制备测序文库的步骤可包括以下一种或多种：从样品中提取靶核酸、对靶核酸进行片段化、将衔接子附接至靶核酸、扩增靶核酸-衔接子复合体以及对扩增的靶核酸-衔接子复合体进行测序。

样品(特别是细胞样品或组织活检物)可来自身体的任何部分或区域。示例性样品可从例如血液、中枢神经系统、脑、脊髓、骨髓、胰腺、甲状腺、胆囊、肝、心脏、脾、结肠、直肠、肺、呼吸系统、喉、鼻腔、胃、食道、耳、眼睛、皮肤、四肢、子宫、前列腺、生殖器官或身体的任何其他器官或区域获得。

通常，样品来自人类受试者，尤其是人类患者。但样品还可来自任何其他类型的受试者，包括任何哺乳动物、非人类哺乳动物、非人类灵长类动物、驯养动物(例如，实验室动物、家庭宠物或家畜)或非驯养动物(例如，野生动物)。在一些具体实施方案中，受试者为狗、猫、啮齿动物、小鼠、仓鼠、牛、鸟、鸡、猪、马、山羊、绵羊、兔、猿、猴或黑猩猩。

在优选的实施方案中，受试者为感染病原体、有感染病原体的风险或疑似具有病原体感染的宿主生物体(例如，人)。在一些情况下，受试者疑似具有特定感染，例如疑似患有结核病。在其他情况下，受试者疑似具有不明来源的感染。在一些情况下，宿主或受试者被感染(例如，被一种或多种微生物、病原体、细菌、病毒、真菌或寄生物感染)。在一些情况下，宿主或受试者已被诊断有一种或多种癌症或者有患一种或多种癌症的风险。在一些情况下，宿主或受试者未被感染(例如，未被一种或多种微生物、病原体、细菌、病毒、真菌或寄生物感染)。在一些情况下，宿主或受试者是健康的。在一些情况下，宿主或受试者是易受感染的或有感染的风险。

在一些情况下，受试者可能已经或者可以用抗微生物药、抗细菌药、抗病毒药或抗寄生物药进行治疗。受试者可具有实际感染(例如，被一种或多种微生物、病原体、细菌、病毒、真菌或寄生物感染)。在一些情况下，受试者未被感染(例如，未被一种或多种微生物、病原体、细菌、病毒、真菌或寄生物感染)。在一些情况下，受试者是健康的。在一些情况下，受试者是易受感染的或有感染的风险(例如，患者是免疫受损的)。受试者可患有另一种疾病或病症或者有患另一种疾病或病症的风险。例如，受试者可患有疾病、具有患疾病的风险或疑似患有疾病，该疾病例如是癌症(例如，乳腺癌、肺癌、胰腺癌、血液癌症等)。

样品可以是核酸样品；在一些情况下，样品含有一定量的核酸。样品内的核酸可包括双链(ds)核酸、单链(ss)核酸、DNA、RNA、cDNA、mRNA、cRNA、tRNA、核糖体RNA、dsDNA、ssDNA、miRNA、siRNA、循环核酸、循环无细胞核酸、循环DNA、循环RNA、无细胞核酸、无细胞DNA、无细胞RNA、循环无细胞DNA、无细胞dsDNA、无细胞ssDNA、循环无细胞RNA、基因组DNA、外来体、无细胞病原体核酸、循环病原体核酸、线粒体核酸、非线粒体核酸、核DNA、核RNA、染色体DNA、循环肿瘤DNA、循环肿瘤RNA、环状核酸、环状DNA、环状RNA、环状单链DNA、环状双链DNA、质粒或其任意组合。在一些情况下，样品核酸可包括合成核酸。在一些情况下，合成核酸包括本文公开的任何类型的核酸，例如DNA、RNA、DNA-RNA杂合体。例如，合成核酸可以是DNA。

在一些情况下，样品中可存在不同类型的核酸。例如，样品可包含无细胞RNA和无细胞DNA。同样地，本文提供的方法可包括单独地或组合地分析样品中存在的RNA和DNA两者的方法。

如本文所用，术语“无细胞”是指在从身体获得样品之前核酸在体内出现时的状况。例如，样品中的循环无细胞核酸可源自在人体血流中循环的无细胞核酸。相反，从实体组织如活检物提取的核酸通常不认为是“无细胞”的。

在一些情况下，样品可以是含有无细胞或细胞相关核酸的未处理的样品(例如，全血)或者经处理的样品(例如，血清、血浆)。在一些情况下，样品已经针对某种类型的核酸进行了富集，该核酸类型例如是DNA、RNA、无细胞DNA、无细胞RNA、无细胞循环DNA、无细胞循环RNA等。在一些情况下，已经以一些方式处理样品，以分离核酸或将核酸与样品内的其他组分分离。在一些情况下，样品已针对病原体特异性核酸进行了富集。

通常，样品是新鲜样品。在一些情况下，样品是冷冻样品。在一些情况下，样品被固定，例如用化学固定剂固定，诸如福尔马林固定、石蜡包埋的组织。

靶核酸

本文提供的方法可用于检测任何数目的靶核酸。靶核酸包括但不限于：全基因组或部分基因组、外显子组、遗传基因座、基因、外显子、内含子、修饰的核酸(例如，甲基化核酸)和/或线粒体核酸。通常，本文提供的方法可用于检测病原体靶核酸；在一些情况下，病原体靶核酸存在于来自受试者的含有核酸的复杂临床样品中。病原体靶核酸可与感染性疾病相关，该感染性疾病例如是流感、结核病或任何其他已知的感染性疾病或病症，包括本文进一步描述的那些。在一些情况下，本文描述的靶核酸可以是靶核酸。

在一些情况下，病原体靶核酸存在于组织样品中，诸如来自感染部位的组织样品中。在其他情况下，病原体靶核酸已从感染部位迁移；例如，其可从含有循环无细胞核酸(例如，DNA)的样品获得。

在一些情况下，靶核酸来源于癌组织。可直接从组织或肿瘤获得靶核酸。在一些情况下，从循环无细胞核酸或从循环肿瘤细胞(CTC)获得靶癌症核酸。

在一些情况下，靶核酸可仅构成整个样品的非常少的部分，例如，样品中总核酸的少于1％、少于0.5％、少于0.1％、少于0.01％、少于0.001％、少于0.0001％、少于0.00001％、少于0.000001％或少于0.0000001％。在一些情况下，靶核酸可构成样品中总核酸的约0.00001％至约0.5％。通常，原始样品中的总核酸可有所变化。例如，总无细胞核酸(例如，DNA、mRNA、RNA)可在1-100ng/ml的范围内(例如，约1、5、10、20、30、40、50、80、100ng/ml)。在一些情况下，样品中无细胞核酸的总浓度在该范围之外(例如，小于1ng/ml；在其他情况下，总浓度大于100ng/ml)。主要由人DNA和/或RNA组成的无细胞核酸(例如，DNA)样品可能如此。在这样的样品中，与人核酸或健康核酸相比，病原体靶核酸或癌症靶核酸可能很少存在，例如在来自经历化疗的受试者的样品的情况下。例如，病原体靶核酸可构成样品中总核酸的少于0.001％，并且癌症靶核酸可构成样品中总核酸的少于1％。

靶核酸的长度可有所不同。在一些情况下，靶核酸的长度可以是约或至少约20、30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、250、300、350、400、450、500、750、1000、1500、2000、3000、4000、5000、10000、15000、20000、25000或50000个核苷酸(或碱基对)。在一些情况下，靶核酸的长度可以是至多约20、30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、250、300、350、400、450、500、750、1000、1500、2000、3000、4000、5000、10000、15000、20000、25000或50000个核苷酸(或碱基对)。在一些特定实施方案中，靶核酸的长度相对较短，例如小于500个碱基对(或核苷酸)或小于1000个碱基对(或核苷酸)。在一些情况下，靶核酸相对较长，例如长度大于1000、大于1500、大于2000、大于2500、大于3000或大于5000个碱基对(或核苷酸)。在一些情况下，靶核酸可以在约20个至约120个碱基对的范围内。在一些情况下，靶核酸可以在约40个至约100个碱基对的范围内。

与样品核酸一样，靶核酸可以是任何类型的核酸，包括：双链(ds)核酸、单链(ss)核酸、DNA、RNA、cDNA、mRNA、cRNA、tRNA、核糖体RNA、dsDNA、ssDNA、miRNA、siRNA、循环核酸、循环无细胞核酸、循环DNA、循环RNA、无细胞核酸、无细胞DNA、无细胞RNA、循环无细胞DNA、无细胞dsDNA、无细胞ssDNA、循环无细胞RNA、基因组DNA、外来体、无细胞病原体核酸、循环病原体核酸、线粒体核酸、非线粒体核酸、核DNA、核RNA、染色体DNA、循环肿瘤DNA、循环肿瘤RNA、环状核酸、环状DNA、环状RNA、环状单链DNA、环状双链DNA、质粒或其任意组合。靶核酸优选是来源于病原体的核酸，该病原体包括但不限于病毒、细菌、真菌、寄生物和任何其他微生物，特别是感染性微生物。靶核酸可以是来源于特定器官或组织的核酸。在一些情况下，靶核酸直接来源于受试者，而不是病原体。

掺入合成核酸

本公开内容描述了用于在各种应用中使用的单一合成核酸和合成核酸组，特别涉及高通量或下一代测序分析。在一些情况下，当在所描述的方法中使用时，掺入合成核酸可允许对样品之间的核酸(例如，疾病特异性核酸、病原体核酸)的有效归一化，例如，独立于样品来源于的个体、分析前的样品处理状况、核酸提取方法、用分子生物学工具和方法对核酸的操作、核酸纯化方法、测量本身的行为、储存状况和时间推移。在一些情况下，本公开内容提供了具有特定特性如较大数目的独特序列的合成核酸的池或组。合成核酸组可用于监测样品分析过程中的多样性损失，其可转而用于确定起始核酸的丰度。本文提供的合成核酸还可用于追踪样品、监测样品之间的交叉污染、追踪试剂、追踪试剂批次和许多其他应用。通常，合成核酸的设计、长度、数量、浓度、多样性水平和序列可针对特定应用进行定制。在一些情况下，掺入合成核酸包括本文所述的载体合成核酸(例如，载体合成核酸)。

本文提供的合成核酸的集合(或组)可含有几个种类的合成核酸。在一些情况下，种类的长度、浓度和/或序列可以相同或相似。在一些情况下，种类的长度、浓度和/或序列可以不同。

在优选的实施方案中，合成核酸的种类长度不同。例如，合成核酸种类的集合可共同跨越样品中某些靶核酸的可观察范围的长度或这样的可观察范围的至少一部分。例如，种类可共同跨越样品(特别是从感染病原体或疑似感染病原体的受试者获得的样品)中疾病特异性或病原体特异性核酸的长度。在一些情况下，样品中疾病特异性或病原体特异性核酸的长度可在约40至约100个碱基对的范围内。在一些情况下，种类可共同跨越样品中各种不同的疾病特异性或病原体特异性核酸的长度。在一些情况下，种类可共同跨越特定病原体特异性核酸如特定病原体基因组内的核酸的长度。在一些情况下，核酸可以是病原体基因组内的特定核酸，诸如病原体的毒力区域、病原体的抗生素抗性区域或者其他区域或特定核酸或基因内的核酸。在一些情况下，长度或核酸可针对特定类型的感染(例如，急性、慢性、活性或潜伏)具有特异性。在其他实例中，种类可共同跨越样品(例如，来自受感染的受试者)中某些受试者核酸和/或病原体核酸的长度。

集合内合成核酸种类的长度可与特定靶核酸(例如，样品中可观察范围的病原体特异性或疾病特异性核酸)的长度恰好匹配。在其他情况下，合成核酸集合内的合成核酸种类的长度可与靶核酸的长度密切匹配，或与这样的长度基本上匹配。例如，合成核酸种类的长度可以在靶核酸长度的50％-150％之内、靶核酸长度的55％-145％之内、靶核酸长度的60％-140％之内、靶核酸长度的65％-135％之内、靶核酸长度的70％-130％之内、靶核酸长度的75％-125％之内、靶核酸长度的80％-120％之内、靶核酸长度的85％-115％之内、靶核酸长度的90％-110％之内、靶核酸长度的95％-105％之内、靶核酸长度的96％-104％之内、靶核酸长度的99％-101％之内或靶核酸长度的99.5％-100.5％之内。在一些情况下，合成核酸种类的长度可以在靶核酸长度的50％-150％之内。在一些情况下，合成核酸种类的长度可以是靶核酸长度的至多两倍、三倍、四倍或五倍。在一些情况下，合成核酸种类的长度可以在靶核酸长度的1、2、3、4、5、10、20、30、40、50、60、70、80、90、100、125、150或200个核苷酸之内。在一些情况下，集合中的合成核酸种类大于最密切匹配的靶核酸的长度的65％、75％、80％、85％、90％、92％、95％、97％或99％。

本文公开的合成核酸的集合(或池)内的每个或大多数核酸“种类”可含有一个或多个感兴趣的结构域或区域。在一些情况下，感兴趣的结构域或区域是长度标识物序列。长度标识物序列可含有预先确定以指示或表示特定长度的编码；通常，这样的长度标识物可以是短序列，例如10个碱基对(bp)、9bp、8bp、7bp、6bp、5bp、4bp或3bp；小于9bp、小于8bp、小于7bp或小于6bp；或者6-15bp、5-10bp、4-8bp或6-9bp。种类可包含1个、2个或更多个长度标识物序列。在一些情况下，长度标识物作为正向和/或反向序列存在。

在一些情况下，合成核酸集合内的核酸种类内的结构域可以是特定长度的负载序列，该长度通常对应于由合成核酸中的长度鉴别序列(如果存在的话)编码的长度。掺入核酸或负载的长度可有所变化。在一些情况下，整个掺入核酸的长度可以是约或至少约20、30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、250、300、350、400、450或500个核苷酸。在一些情况下，掺入核酸的长度可以是至多约20、30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、250、300、350、400、450或500个核苷酸。在一些情况下，掺入核酸可以在约20至约200个碱基对，诸如约20至约120个碱基对的范围内。在一些情况下，掺入核酸内的负载序列结构域的长度可以是长度为约或至少约20、30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、250、300、350、400、450或500个核苷酸。在一些情况下，掺入核酸内的负载序列结构域的长度可以是长度为至多约20、30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、250、300、350、400、450或500个核苷酸。在一些情况下，掺入核酸内的负载序列结构域的长度可以在0至约200bp的范围内。

合成核酸集合内的核酸种类内的结构域可以是合成核酸鉴别序列(例如，Spark鉴别序列、Spank鉴别序列)，其包含表示核酸是掺入而不是原始样品的一部分的独特编码。通常，独特编码是不存在于原始样品中或靶核酸池中的编码。合成核酸鉴别序列可包含特定的bp数目，例如，25bp、20bp、19bp、18bp、16bp、15bp、12bp、10bp或其他长度。种类可包含1个、2个或更多个合成核酸鉴别序列或结构域。在一些情况下，合成核酸鉴别序列作为正向和/或反向序列存在。

在一些情况下，合成核酸集合内的核酸种类内的结构域可以是与合成核酸的整体池或集合相关联的“多样性编码”。多样性编码结构域可以是表示合成核酸池内多样性的量的独特编码。在此类情况下，可用表示池的多样性程度的序列(例如，10⁸个独特序列)对多样性池内的每个合成核酸进行编码。在一些情况下，诸如当在同一样品上使用两个或更多个多样性池时，多样性编码可用于鉴别两个或更多个池中的多样性损失。

在一些情况下，取决于应用，合成核酸集合内的核酸种类内的结构域可以是与样品或试剂的一种或多种特征相关联的特征结构域。例如，特征结构域可包括编码以表示特定试剂；特定试剂批次；或特定样品(例如，样品编号、患者编号、患者姓名、患者年龄、患者性别、患者种族、从患者获得样品的位置)的序列。

感兴趣的结构域或区域可以以任何组合和数目存在。例如，合成核酸可包含：任何组合或比率的一种或多种长度标识物序列、一种或多种负载序列、一种或多种合成核酸-标识物序列、一种或多种多样性编码和/或一种或多种特征结构域。例如，在一些情况下，合成核酸含有长度标识物序列和负载序列。在一些情况下，合成核酸含有合成核酸-标识物序列和特征结构域序列。在一些情况下，合成核酸含有合成核酸标识物序列，而在其他情况下不含这样的序列。

在一些情况下，合成核酸可含有具有重叠目的的结构域。例如，在一些情况下，合成核酸含有一种或多种长度标识物序列，其还作为负载序列。在一些情况下，长度标识物序列和/或负载序列还用作合成核酸标识物序列。

可选择或设计合成或掺入核酸以与核酸文库相配。在一些情况下，合成核酸或掺入物可含有衔接子、常见序列、随机序列、多聚A尾、平端或不平端，或其任意组合。在一些情况下，合成核酸或掺入被设计成以这些或其他特性中的一种或多种模拟样品中的核酸。

此处提供的合成核酸(例如，掺入的合成核酸)可含有任何类型的核酸或核酸类型的组合。在优选的实施方案中，合成或掺入核酸是DNA。在一些情况下，合成或掺入核酸是单链DNA。在一些情况下，合成或掺入核酸是双链DNA。在一些情况下，合成或掺入核酸是RNA。在一些情况下，合成或掺入核酸可含有修饰的碱基或人造碱基。双链的合成或掺入核酸可具有平端或凹端。合成或掺入核酸可具有磷酸化或去磷酸化的末端。在一些情况下，合成核酸可含有双链(ds)核酸、单链(ss)核酸、DNA、RNA、cDNA、mRNA、cRNA、tRNA、核糖体RNA、dsDNA、ssDNA、snRNA、基因组DNA、寡核苷酸、双链体寡核苷酸、较长装配的双链体DNA(例如，来自Integrated DNA Technologies的gBlock)、质粒、PCR产物、体外合成的转录物、病毒颗粒、片段化或未片段化的基因组DNA、环状核酸、环状DNA、环状RNA、环状单链DNA、环状双链DNA、质粒或其任意组合。合成核酸通常可包含核碱基，诸如腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和/或尿嘧啶(U)。

合成核酸可以是或可包含任何合成核酸或核酸类似物。合成核酸可包含修饰或改变的磷酸骨架；修饰的戊糖(例如，修饰的核糖或脱氧核糖)；或者修饰或改变的核碱基(例如，修饰的腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)、尿嘧啶(U))。在一些情况下，合成核酸可包括一种或多种修饰的碱基，诸如5-甲基胞嘧啶(m5C)、假尿苷(Ψ)、二氢尿苷(D)、肌苷(I)和/或7-甲基鸟苷(m7G)。在一些情况下，合成核酸可包括肽核酸(PNA)、桥接核酸(BNA)、模拟核酸、甘油核酸(GNA)、苏糖核酸(TNA)、锁核酸(LNA)、2’-O-甲基取代的RNA、吗啉代或具有核苷酸侧链的其他合成聚合物。在一些情况下，合成核酸可包括DNA、RNA、PNA、LNA、BNA或其任意组合。在一些情况下，合成核酸可包括双螺旋或三螺旋或其他结构。

合成核酸可包括任何核苷酸的任何组合。核苷酸可以是天然存在的或合成的。在一些情况下，核苷酸可被氧化或甲基化。核苷酸可包括但不限于腺苷一磷酸(AMP)、腺苷二磷酸(ADP)、腺苷三磷酸(ATP)、鸟苷一磷酸(GMP)、鸟苷二磷酸(GDP)、鸟苷三磷酸(GTP)、胸苷一磷酸(TMP)、胸苷二磷酸(TDP)、胸苷三磷酸(TTP)、尿苷一磷酸(UMP)、尿苷二磷酸(UDP)、尿苷三磷酸(UTP)、胞苷一磷酸(CMP)、胞苷二磷酸(CDP)、胞苷三磷酸(CTP)、5-甲基胞苷一磷酸、5-甲基胞苷二磷酸、5-甲基胞苷三磷酸、5-羟甲基胞苷一磷酸、5-羟甲基胞苷二磷酸、5-羟甲基胞苷三磷酸、环腺苷一磷酸(cAMP)、环鸟苷一磷酸(cGMP)、脱氧腺苷一磷酸(dAMP)、脱氧腺苷二磷酸(dADP)、脱氧腺苷三磷酸(dATP)、脱氧鸟苷一磷酸(dGMP)、脱氧鸟苷二磷酸(dGDP)、脱氧鸟苷三磷酸(dGTP)、脱氧胸苷一磷酸(dTMP)、脱氧胸苷二磷酸(dTDP)、脱氧胸苷三磷酸(dTTP)、脱氧尿苷一磷酸(dUMP)、脱氧尿苷二磷酸(dUDP)、脱氧尿苷三磷酸(dUTP)、脱氧胞苷一磷酸(dCMP)、脱氧胞苷二磷酸(dCDP)和脱氧胞苷三磷酸(dCTP)、5-甲基-2'-脱氧胞苷一磷酸、5-甲基-2'-脱氧胞苷二磷酸、5-甲基-2'-脱氧胞苷三磷酸、5-羟甲基-2'-脱氧胞苷一磷酸、5-羟甲基-2'-脱氧胞苷二磷酸和5-羟甲基-2'-脱氧胞苷三磷酸。

合成或掺入核酸可指添加至样品的任何分子，并且不限于化学(例如，在柱上)合成的分子。在一些情况下，可例如通过PCR扩增、体外转录或其他基于模板的复制来合成合成或掺入核酸。在一些情况下，合成或掺入核酸是剪切的或以其他方式片段化的核酸或包含该核酸。剪切或片段化的核酸可包括基因组核酸，诸如人或病原体基因组核酸。在一些情况下，合成核酸不含人核酸。在一些情况下，合成核酸不含可在自然界中发现的核酸。在一些情况下，合成核酸不含样品核酸。

掺入或合成核酸的鸟嘌呤-胞嘧啶含量(GC含量)可有所变化。在一些情况下，掺入或合成核酸的GC含量可以是约或至少约0％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或100％。在一些情况下，GC含量可以是至多约0％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或100％。在一些情况下，掺入或合成核酸的GC含量可以在约15％至约85％，诸如约20％至约80％的范围内。集合内合成核酸种类的GC含量可与特定靶核酸(例如，样品中可观察范围的病原体特异性或疾病特异性核酸)的GC含量恰好匹配。在其他情况下，合成核酸集合内的合成核酸种类的GC含量可与靶核酸的GC含量密切匹配，或与这样的GC含量基本上匹配。例如，合成核酸种类的GC含量可在靶核酸的GC含量的75％-125％之内、靶核酸的GC含量的80％-120％之内、靶核酸的GC含量的85％-115％之内、靶核酸的GC含量的90％-110％之内、靶核酸的GC含量的95％-105％之内、靶核酸的GC含量的96％-104％之内、靶核酸的GC含量的99％-101％之内或靶核酸的GC含量的99.5％-100.5％之内。

掺入核酸可附接、连接或缀合到不同的分子，诸如珠、荧光团、聚合物。荧光团的实例包括但不限于荧光蛋白、绿色荧光蛋白(GFP)、Alexa染料、荧光素、红色荧光蛋白(RFP)和黄色荧光蛋白(YFP)。掺入核酸可以与蛋白质(例如，组蛋白、核酸结合蛋白、DNA结合蛋白、RNA结合蛋白)相关联。在其他情况下，掺入核酸与蛋白质不相关。掺入核酸可以是颗粒保护的(例如，类似于病毒粒中的核酸)。在一些情况下，掺入核酸被封装在颗粒中或与颗粒相关联。在一些情况下，颗粒包括蛋白质、脂质、金属、金属氧化物、塑料、聚合物、生物聚合物、陶瓷或复合材料。

掺入核酸可具有与可在样品或宿主中发现的序列不同的序列。在一些情况下，掺入核酸序列是天然存在的。在一些情况下，掺入核酸序列不是天然存在的。在一些情况下，掺入核酸序列来源于宿主。在一些情况下，掺入核酸序列不来源于宿主。在一些情况下，掺入或合成核酸不能与一种或多种靶核酸(例如，病原体核酸、疾病特异性核酸)和/或一种或多种样品核酸杂交(或不互补)。

样品中掺入核酸的浓度可有所变化。可以以各种浓度添加掺入物，这对确定灵敏度和样品损失有用。在一些情况下，将约或至少约为10万、50万、100万、200万、300万、400万、500万、600万、700万、800万、900万、1000万、2000万、3000万、4000万、5000万、6000万、7000万、8000万、9000万、1亿、5亿或10亿个分子的每种掺入核酸添加至每mL的血浆或样品。在一些情况下，将约1000万至约1亿个分子的每种掺入核酸添加至每mL的血浆或样品。在一些情况下，合成核酸以等摩尔浓度掺入。在其他情况下，合成核酸以不同浓度掺入样品。

添加至样品的不同掺入核酸的数目可有所变化。可将多种掺入核酸添加至样品或试剂中。在一些情况下，将约或至少约1、2、3、4、5、6、7、8、9或10个掺入核酸添加至样品或试剂。在一些情况下，将至多约1、2、3、4、5、6、7、8、9或10个掺入核酸添加至样品或试剂。在一些情况下，添加至样品或试剂的掺入核酸长度相同。在一些情况下，添加至样品或试剂的掺入核酸长度不同。在一些情况下，掺入核酸选自SEQ ID NO 1-120及其任意组合。

掺入核酸的独特性水平可有所变化。可设计或使用基本上无限数目的掺入(例如，ID Spike)。

掺入核酸添加的过程中的步骤可有所变化。对于样品追踪，早期添加掺入核酸可能更佳，并降低操作者或系统错误的后续可能性。在一些情况下，样品(例如，血液)首先添加至的管可能已含有掺入核酸。与在临床或实验室中将掺入核酸添加至样品相比，可以更系统地控制并测试这些管的制造，从而降低样品混淆的可能性。在一些情况下，ID Spike可代替所有外部标签(“白色标签”)。

在一些情况下，可将鉴别核酸标记添加至样品中的每个核酸片段，使得每个序列读取包含鉴别标记。该方法将会实现初始与下游交叉污染的区分。如果片段的标记足够完整，则一旦将条形码添加至样品片段，还可允许有意地多重化样品。并入标签的方法包括但不限于转座子、末端转移酶、在甲基化位点切割和在去甲基化位点切割。

对于其他应用，包括但不限于涉及过程质量控制或开发工作的那些应用，可在过程的不同步骤添加掺入核酸。例如，对于RNA分析，可在样品制备开始时添加多种RNA掺入，每种掺入具有不同的浓度、长度、序列和/或GC含量，并且可在RNA已被转化为DNA之后添加DNA掺入。对于DNA文库，可在文库生成过程的不同步骤添加不同形式的DNA。例如，为了测试末端修复步骤，可使用具有非平端、具有+/-5’-磷酸和具有+/-3'-腺嘌呤延伸的DNA掺入。为了测试将衔接子连接到末端修复片段的步骤，可使用+/-预衔接的掺入。测序或qPCR可量化各个步骤的样品损失。掺入的qPCR还可与其他文库定量方法一起用于测序前的最终文库评估。

术语“掺入物”、“掺入合成核酸”、“掺入”和“合成核酸”在本文可互换使用，并且应当同样解释，除非上下文表明有不同的解释。术语“IDSpike”或“追踪物”在本文通常用于指代可用于例如样品鉴别追踪、交叉污染检测、试剂追踪或试剂批次追踪的鉴别掺入。术语“Spark”在本文通常用于指代作为大小或长度标志物的核酸，其可用于丰度归一化、开发和/或分析目的，以及其他目的。术语“Spank”在本文通常用于指具有不同序列的简并池或核酸池，并且通常可用于多样性评估和丰度计算。

核酸测量值的通用归一化

本公开内容描述了合成核酸组，当在所述方法中使用时，其可允许样品中的疾病特异性核酸、病原体特异性核酸或其他靶核酸的量的有效和改进的归一化。掺入核酸组可包含长度不同的几种核酸“种类”，使得掺入核酸种类的集合共同跨越病原体核酸、疾病特异性核酸或其他待测靶核酸中可观察的长度范围。

掺入合成核酸可用于以多种不同方式对样品进行归一化。通常，归一化可在样品之间，独立于样品来源于的受试者、分析前样品处理状况、核酸提取方法、用分子生物学工具和方法对核酸的操作、核酸纯化方法、测量本身的行为、储存状况和/或时间推移。

在一些优选的实施方案中，掺入核酸可在所有样品和所有测量疾病特异性核酸、病原体特异性核酸或其他靶核酸的方法之间进行归一化。在一些情况下，掺入可用于确定样品中病原体核酸(或疾病特异性核酸或靶核酸)相对于其他病原体核酸的相对丰度。

通常，本文提供的方法涉及将一组或多组合成核酸掺入或引入样品中。该掺入步骤可在整个方法的任何点发生，包括在过程的早期、中途或即将结束时。例如，合成核酸可在从受试者收集样品时或之后立即、样品储存之前或期间、样品转移之前、核酸提取之前或期间、文库制备之前或期间、测序分析或该方法的任何其他步骤之前即时引入合成核酸。在一些情况下，所述方法可包括在该过程的早期用已知量的独特核酸分子掺入生物样品，所述独特核酸分子通过相同的方法测量，但容易区别于病原体特异性或疾病特异性核酸或其他样品核酸。在一些情况下，在该过程的单个步骤中将合成核酸掺入生物样品，例如，在从受试者收集样品时、在获得样品以便进行分析时、样品储存期间、核酸提取之前或期间、文库制备之前或期间或者在测序分析之前即时。在其他情况下，在过程的不同步骤中引入相同或不同的掺入合成核酸。例如，可以在过程的早期诸如在样品收集时引入独特的合成核酸，并且可以在过程的后期诸如在提取、纯化或文库制备之前或之后引入不同组的独特合成核酸。还可使用相同的掺入核酸集合或在某些方面不同的集合在所述方法的不同步骤中重复添加步骤。

通常，可将已知浓度(或多个浓度)的合成核酸种类掺入每个样品中。在许多情况下，合成核酸种类以每个种类的等摩尔浓度掺入。在一些情况下，合成核酸种类的浓度不同。

当处理并最终测量样品时，由于样品处理、制备和测量的固有偏差，核酸种类的相对丰度可能改变。在测量之后，可通过比较掺入核酸的每个“种类”的测量丰度与最初掺入的量来确定回收每种长度的核酸的效率。这可产生“基于长度的回收曲线”。

“基于长度的回收曲线”可用于通过将疾病特异性核酸丰度(或病原体核酸或其他靶核酸的丰度)与最接近长度的掺入分子或拟合成不同长度的掺入分子的函数归一化来使所有(或大多数或一些)疾病特异性核酸、病原体核酸或其他靶核酸的丰度归一化。该过程可应用于疾病特异性核酸，并且可产生在掺入样品时“所有疾病特异性核酸的原始长度分布”的估计。类似地，该过程可应用于其他靶核酸如病原体特异性核酸，并且可产生在掺入样品时“所有病原体特异性核酸的原始长度分布”的估计。“所有靶核酸的原始长度分布”可显示在掺入样品时靶核酸(例如，疾病特异性核酸、病原体特异性核酸)的长度分布曲线。掺入核酸可以寻求概括这种长度分布，以便实现完美或接近完美的丰度归一化。

因为可能无法用精确概括特定样品中疾病特异性核酸、病原体核酸或其他靶核酸的相对丰度曲线的已知核酸的混合物掺入样品，部分原因是样品可能已经用尽或时间可能已经改变了相对丰度曲线，因此掺入的每个“种类”可以与其在“所有疾病特异性核酸的原始长度分布”内的相对丰度成比例地加权。所有“加权因子”的总和可等于1.0。

归一化可涉及单一步骤或一系列步骤。在一些情况下，可使用最接近大小的掺入核酸丰度的原始测量值来对疾病特异性核酸(或病原体核酸或其他靶核酸)的丰度进行归一化，以产生“归一化疾病特异性核酸(或病原体核酸或其他靶核酸)丰度”。然后，可用“归一化疾病特异性核酸丰度”(或病原体核酸或其他靶核酸丰度)乘以“加权因子”以调整回收该长度的相对重要性，从而产生“加权的归一化疾病特异性(或病原体特异性或其他靶标)核酸丰度”。这种归一化方法的一个优点可以是它允许在测量疾病特异性核酸丰度的所有(或大多数)方法中对靶核酸(例如，疾病特异性核酸、病原体核酸)丰度进行可比较的测量，而不考虑方法。

靶核酸丰度或相对丰度的测量对于检测、预测、监测和诊断测定尤其有用。这样的测定可涉及测量生物样品(例如，血浆)中的靶核酸(例如，疾病特异性核酸)的量以检测病原体的存在或鉴别疾病状态。本文描述的方法可以使这些测量在样品、测量时间、核酸提取方法、核酸操作方法、核酸测量方法和/或各种样品处理状况之间具有可比性。

掺入分子的确切序列、“种类”的确切数目、“种类”的长度范围、掺入分子的浓度、每种分子的相对量、每种掺入分子的实际量以及分子掺入的阶段可基于样品进行优化或定制。可用GC含量、核酸结构、DNA损伤或DNA修饰状态代替或分析长度。

在一些情况下，本文提供的方法可包括使用含有单一长度核酸，通常具有很大程度上固定的序列组成(除了在一些方法中的一些短随机化部分)的掺入核酸。当疾病特异性核酸、病原体特异性核酸或其他靶核酸与掺入核酸具有几乎相同的长度时，该方法可以很好地起作用。

单一长度核酸可单独使用，或者该方法可与涉及使用多长度核酸的另一方法组合。例如，在获得样品时或在提取核酸之前，可将多长度核酸池掺入样品中，并且可以在过程中不同的点诸如在核酸提取之后和文库制备之前将单一长度的核酸池掺入样品中。当使用单一长度和/或多长度核酸时，可将疾病特异性核酸、病原体核酸或其他靶核酸的量相对于在该方法结束时测量的掺入核酸的量进行归一化。

在许多情况下，如本文所述，使用具有多种长度的合成核酸可优于使用涉及使用单一长度的合成核酸的方法。当靶核酸具有多种长度时，本文提供的方法特别有用。例如，疾病特异性(或病原体特异性)核酸的长度可广泛变化。因此，使用跨越疾病特异性核酸的可观察长度的掺入核酸可以特别有用。此外，测量的疾病特异性核酸的长度还可受到许多因素的显著影响，包括其来源于的个体的代谢、分析前样品处理状况、核酸提取方法、用分子生物学工具和方法对核酸的操作、核酸纯化方法、测量本身的行为、储存状况和时间推移。这些因子对不同长度的核酸具有不同的影响，因此单一掺入核酸可能不足以反映对混合长度的核酸进行的过程的总效率。

“每体积基因组拷贝”的计算

本文提供的方法和合成核酸可用于辅助某些计算，包括从下一代测序结果确定样品中每体积的微生物或病原体的基因组拷贝。通常，每体积的基因组拷贝可指每1ml流体(例如，血浆、尿液、缓冲液等)的靶核酸(例如，来源于特定病原体的靶核酸)的量的绝对量度，通常可用作表明个体病原体的丰度或相对丰度的表达。读取的总数目和/或病原体丰度的大小可随样品而变化。可能需要报告对应于感染的生物水平的值，并且该值可能对样品与样品的比较有用。

在特定实例中，所述方法可用于确定样品中每体积病原体核酸的基因组拷贝，尤其是从感染病原体或疑似感染病原体的受试者获得的样品。可使用统计框架确定或估计每体积的基因组拷贝。统计框架可用于估计在样品的测序结果中产生非人读取(例如，病原体读取)的集合的一个或多个基因组的相对丰度。

使用本文提供的掺入合成核酸，可计算样品中一种或多种病原体/生物的“每体积基因组拷贝”的估计。通常，可以以已知浓度将各种长度的核酸掺入样品中。在一些情况下，可针对每种掺入长度观察在测序数据中实际观察到的来自样品的信息部分(例如，通过将所观察的读取与掺入核酸相关的读取进行比较，或通过用所观察的读取除以掺入读取)。每种长度的非宿主或病原体分子的原始数目也可进行反算(例如，部分地从每种长度的掺入读取的数目推断)。当已知每种病原体的基因组长度时，可将该负载转化为“每体积基因组拷贝”量度。

在许多情况下，用于检测每体积基因组拷贝的方法(以及本文提供的其他方法)可涉及去除或隔离低质量读取。去除低质量读取可提高本文提供的方法的准确性和可靠性。在一些情况下，所述方法可包括去除或隔离以下读取(以任意组合)：不可映射的读取、由PCR复制产生的读取、低质量读取、衔接子二聚体读取、测序衔接子读取、非唯一映射的读取和/或映射到无信息序列的读取。

在一些情况下，序列读取被映射到参考基因组，并且未映射到这样的参考基因组的读取被映射到靶标或病原体基因组。在一些情况下，读取可映射到人参考基因组(例如，hg19)，而剩余的读取被映射到病毒、细菌、真菌和其他真核病原体(例如，真菌、原生动物、寄生物)的精选(curated)参考数据库。

在一些特定实例中，所述方法可包括在DNA提取(例如，无细胞DNA提取、无细胞RNA提取)之前或在测定的不同阶段(例如，提取之后、文库制备之前，在测序之前、样品的储存期间)将已知浓度的合成核酸(例如，DNA)掺入样品(例如，血浆样品)。合成核酸还可添加至阴性和/或阳性对照样品。在一些情况下，对照样品可与样品一起处理。所述方法可进一步包括产生样品(例如，血浆样品、阳性对照、阴性对照)的测序文库。可在本领域已知的测序装置，特别是能够进行下一代测序的装置上对文库进行多重化和测序。所述方法可进一步包括通过与人参考序列(例如，hg19)进行比对来丢弃低质量读取并去除人类读取。然后可将剩余的读取与病原体序列的数据库进行比对。在一些情况下，从NGS读取集量化对应于感兴趣的靶序列(例如，病原体序列)的读取。根据该信息，靶核酸(例如，病原体核酸)的相对丰度可表示为每体积的基因组拷贝。可通过例如确定与掺入样品(例如，血浆)中的已知数量的寡核苷酸归一化的每种生物体(例如，病原体)存在的序列数目来确定每体积的基因组拷贝值。每体积基因组的计算还可考虑个体病原体基因组的相对长度。在一些情况下，可通过量化与掺入样品中的已知数量的合成核酸归一化的每种生物体(例如，病原体)存在的序列的数目来确定每体积值的基因组拷贝，其中病原体序列的归一化考虑与病原体序列长度最接近的合成核酸。类似地，归一化可涉及使用不同长度(例如，2、3、4、5、6、10、15、20种或更多种不同长度)的掺入合成核酸的集合，其中病原体核酸相对于掺入集合内相应的长度最接近的掺入核酸归一化。

用于样品追踪和/或分析的掺入

可将分子掺入样品中以提供独特的标识物和追踪物。这些分子可成为样品的一部分，并可通过适当的测量装置读取，该分子是类似于激光扫描仪读取的样品管外部的1D或2D条形码的概念。光学、放射性和其他追踪物是可能的，但是为了分析核酸样品，核酸追踪物可能是最合适的选择，因为可以在评估样品核酸的同一过程(例如，DNA或RNA测序)中显示掺入的身份。

外源来源的核酸可包括但不限于寡核苷酸、双链寡核苷酸、较长装配的双链体DNA(例如，来自Integrated DNA Technologies的gBlock)、质粒、PCR产物、体外合成的转录物、病毒颗粒和片段化或未片段化的基因组DNA，它们可以添加至样品，诸如来自受试者的体液。使用掺入的优点包括但不限于定制样品或应用的核酸序列、长度、多样性和浓度的能力。

应用包括但不限于样品追踪(例如，ID Spike可在传统标签条形码之外或者可能代替传统标签条形码使用)、样品交叉污染(例如，如果ID Spike不天然存在于任何样品中，并且如果将不同的ID Spike添加至不同样品，则可以确定样品的混合)、试剂追踪(例如，IDSpike还可添加至试剂。例如，可针对每个样品追踪其使用的每个试剂批次，提供不易出错的试剂追踪分子实验室信息管理系统(LIMS))、质量控制或开发工作(例如，可在样品处理过程中的各种时间添加不同的掺入以监测文库复杂性(例如，PCR重复)、样品损失或灵敏度)、归一化或产量(例如，将掺入的已知输入与测量输出进行比较可实现用测量输出对未知输入(例如，样品中)的推断。这些测量和计算可告知例如样品的病原体负载)和增加核酸浓度(例如，如果条形码是核酸，它们可以以高浓度用于核酸浓度受限的样品，这可以改善样品回收)。

在一些优选的实施方案中，掺入可用于估计感兴趣的特定核酸序列源自观察到的样品的可能性，或者其在观察样品中的存在是否可能是交叉污染或由不同样品遗留的结果。通过向每个样品中引入浓度高于来自特定病原体(或其他感兴趣的序列类别)的分子的合理预期浓度的独特掺入分子，有可能由交叉污染或遗留意外引入的任何病原体序列(或其他感兴趣的序列类别)将会伴随有来自污染或遗留序列来源的更多数目的掺入分子。因此，病原体序列计数(或其他类别的序列)与交叉污染或遗留掺入分子计数之比可用于鉴别可能是样品与样品交叉污染或遗留的结果的任何病原体序列。在一些情况下，不存在交叉污染或遗留的掺入分子，或其存在于低于阈值水平的水平，用于表明样品未被污染。

对于一些应用而言，可使用样品来源于的受试者的基因型，特别是用于样品追踪。在一些情况下，可在分析程序期间或通过移除等分试样并进行单独的基因型分型过程来确定基因型。在一些情况下，样品的基因型是已知的。可将受试者DNA的测序输出与独立来源的基因型进行比较。使用基因型的优点是它已经是样品的一部分并且是样品固有的。示例性的正交基因型分型方法为短串联重复(STR)分析，参见例如ATCC的测试服务。

在一些情况下，表型特性可帮助样品鉴别。例如，受试者的眼睛颜色、血型、性别、种族和其他特质可提供基因型的线索。

ID Spike

可完全扰乱独特的样品标识物(例如，对于DNA为A、C、G和T，或对于RNA为A、C、G和U的乱序体(randomer))，或者它们可具有共享序列的一些区域。例如，每端的共享区域可减少连接事件中的序列偏差。在一些情况下，共享区域是约或至少约1、2、3、4、5、6、7、8、9、10、15或20个共有碱基对。在一些情况下，共享区域是至多约1、2、3、4、5、6、7、8、9、10、15或20个共有碱基对。示例性序列参见表1。

可添加ID Spike的组合以增加多样性，而无需使用大量ID Spike。例如，ID Spike可用作微量滴定板中孔位置的标识物(例如，96孔板的96个不同的ID Spike)，另一个IDSpike可用作板号的标识物(例如，24个不同板的24个不同的ID Spike)，仅使用96+24＝120个序列给出96×24＝2,304个组合。每个样品使用3个或更多ID Spike可更显著地增加可实现的多样性。

表1：示例性ID Spike序列

Spark偏差对照掺入

跨越多个长度的核酸序列组(“Spark”)可充当大小标志物。可将这些序列掺入样品中并与样品核酸一起处理(例如，提取、纯化、测序)。某些过程可能差异地影响不同长度的核酸。例如，使用二氧化硅膜柱的核酸纯化可偏向更长的序列或优化以保留特定长度的序列。由于核酸测序通常在从样品提取核酸后发生，因此测序结果中长度的普遍性或分布可能不代表原始样品。通过掺入已知数量和长度的Spark序列，可监测和量化处理和测序对不同长度的样品核酸的影响。此外，原始样品中不同长度的样品核酸的相对和/或绝对量可通过测量样品核酸和Spark大小组核酸的测序读取的最终数目并且与掺入原始样品中的Spark大小组核酸的已知数量进行归一化来估计。

在一些情况下，Spark大小组可包括约或至少约3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、100、200、250、300、350、400、500、600、700、800、1000个或更多个核酸。在一些情况下，Spark大小组可包括至多约3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、100或200个核酸。在一些情况下，Spark大小组包括约3至约50个核酸，诸如约3至约30个核酸。在一些情况下，Spark大小组中的核酸具有一种或多种不同的性质，诸如不同的长度、不同的GC含量和/或不同的序列。

Spark核酸可包含本文所述的合成掺入核酸的任何特征，包括长度鉴别序列、负载序列、合成核酸鉴别序列(其在此处是Spark鉴别序列)和特征结构域。在一些情况下，Spark大小组中的核酸包含固定正向序列和/或固定反向序列。固定正向序列和/或固定反向序列可以是Spark大小组中所有核酸所共有的，并且将序列鉴别为Spark。在一些情况下，固定正向序列和/或固定反向序列的长度为约或至少约5、10、11、12、13、14、15、16、17、18、19、20、25、30、32、40、50、60、70、80、90或100个碱基对。在一些情况下，固定正向序列和/或固定反向序列的长度为至多约5、10、11、12、13、14、15、16、17、18、19、20、25、30、32、40、50、60、70、80、90或100个碱基对。在一些情况下，固定正向序列和/或固定反向序列在约8bp至约50bp的范围内，诸如约8bp至约20bp或约16bp至约40bp。在一些情况下，Spark鉴别序列不是天然存在的或不存在于样品中。在一些情况下，固定正向序列与固定反向序列不同。

在一些情况下，Spark大小组中的核酸包含独特正向序列和/或独特反向序列。独特正向序列和/或独特反向序列可将大小组中的Spark彼此区分开。在一些情况下，独特正向序列和/或独特反向序列的长度为约或至少约0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、32、40、50、60、70、80、90或100个碱基对。在一些情况下，独特正向序列和/或独特反向序列的长度为至多约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、32、40、50、60、70、80、90、100、200、300、306、400或500个碱基对。在一些情况下，独特正向序列和/或独特反向序列的长度在约4至约10个碱基对的范围内。在一些情况下，Spark大小组中的每个核酸具有不同的独特正向序列和/或独特反向序列。在一些情况下，Spark大小组中的每个核酸具有相同长度的独特正向序列和/或独特反向序列。在一些情况下，Spark大小组中的每个核酸具有不同长度的独特正向序列和/或独特反向序列。

在一些情况下，Spark大小组中的核酸包含填充序列。在一些情况下，填充序列可将大小组中的Spark彼此区分开。在一些情况下，填充序列的长度为约或至少约0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、32、40、50、60、70、80、90或100个碱基对。在一些情况下，填充序列的长度为至多约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、32、40、50、60、70、80、90、100、200、300、306、400或500个碱基对。在一些情况下，填充序列在0至约350bp的范围内。在一些情况下，Spark大小组中的每个核酸具有不同长度的填充序列。在一些情况下，填充序列长度选自0、8、31、56、81、106、131和306bp。

在一些情况下，Spark大小组中的核酸的长度为约或至少约10、20、30、32、40、50、60、70、80、90或100个碱基对。在一些情况下，Spark大小组中的核酸的长度为至多约10、200、300、350、400、500、600、700、800、900或1,000个碱基对。在一些情况下，Spark大小组中的核酸的长度在约20至约500个碱基对的范围内、长度在约20至约400个碱基对的范围内或长度在约20至约200个碱基对的范围内。

例如，可设计一组8个双链体DNA序列(表2中的SEQ ID NO:111-118，图4)，具有以下特征：32-350bp的大小范围(例如，分别具有0、8、31、56、81、106、131和306bp的填充序列长度的32、52、75、100、125、150、175和350bp的片段)，固定16bp正向序列，与正向序列不同的固定16bp反向序列，以及独特6bp正向和反向序列。

表2：示例性Spark大小组序列

GC含量掺入组

将已知浓度的核酸(例如，DNA)掺入样品中，然后在处理后进行测量，可提供产率和关于该过程的其他信息，其可用于推断产率和关于样品本身的其他性质。例如，可将包含一系列大小的核酸掺入组添加至样品(例如，血浆)，然后进行提取，随后进行下一代测序(NGS)。每种大小的掺入的产率可根据处理过程中的许多因素而变化，包括有意的大小选择、温度和其他变性因素以及PCR偏差。该信息可用于开发旨在使所需大小范围的回收最大化或用于监测现有过程(例如质量控制)的新程序。

对于双链DNA文库制备，DNA双链体的相对低的解链温度(T_m)的变性降低了这些双链体的产率，与T_m成反比。对于给定条件(例如，盐浓度、温度、pH等)，影响双链体T_m的贡献因素包括长度和GC含量。一定大小范围的双链体，每个大小由具有单一GC含量的单一种类表示，可仅提供关于对不同条件的T_m响应的部分信息。

关于核酸长度和/或GC含量如何影响核酸T_m和处理的信息可能是重要的，例如，当使用掺入作为替代物来推断来自血液中不同病原体的短无细胞片段的回收时。病原体核酸的GC含量可能显著不同，因此短片段长度可具有非常不同的T_m。例如，鉴于许多cfDNA片段的长度较短(例如，30、40、50bp)，它们可能在NGS处理过程中易于变性。用于追踪大T_m范围内的回收的更精细的掺入组可允许更好地推断未知样品的起始量。

跨越一系列T_m、GC和/或长度的一组掺入核酸可用于绝对丰度值测定和/或能够详细监测变性。例如，可使用包含具有4种不同长度(例如，32、42、52和75bp)，并且对于每种长度具有7种不同GC含量(约20、30、40、50、60、70或80％GC)的一组28种不同核酸(例如，双链体)，如表3中所示。对于每种大小，组可总体提供比具有单一GC含量的组更多的间隔。在一些情况下，一组合成核酸(dsDNA，ssDNA，dsRNA，ssRNA)可含有至少3种不同长度，每种长度至少2种不同GC含量、至少3种GC含量、至少4种GC含量、至少5种GC含量、至少7种GC含量或至少10种GC含量的核酸。在一些情况下，一组合成核酸(dsDNA，ssDNA，dsRNA，ssRNA)可含有至少5种不同长度，每种长度至少2种不同GC含量、至少3种GC含量、至少4种GC含量、至少5种GC含量、至少7种GC含量或至少10种GC含量的核酸。

在一些情况下，掺入组包含至少3、5、10、15、20、25或30种独特核酸。在一些情况下，掺入组包含至多15、20、25、30、35、40、45、50或100种独特核酸。

可使用具有不同GC含量的掺入核酸。在一些情况下，掺入组包含具有跨越约40-60％GC、约45-65％GC、约30-70％GC、约25-75％GC或约20-80％GC范围的GC含量的核酸。在一些情况下，掺入组包含具有至少2、3、4、5、6、7、8、9或10种不同GC含量的核酸。在一些情况下，掺入组包含具有至多3、4、5、6、7、8、9、10、15或20种不同GC含量的核酸。在一些情况下，掺入组包含具有相差至少1、2、3、4、5、6、7、8、9、10、15或20％GC的不同GC含量的核酸。GC的百分比可通过用G和C核苷酸的数目之和除以序列中总核苷酸的数目来计算。例如，对于序列ACTG，％GC将会计算为(1+1)/4＝50％GC。

可使用具有不同长度的掺入核酸。在一些情况下，掺入组包含具有至少3、4、5、6、7、8、9、10或15种不同长度的核酸。在一些情况下，掺入组包含具有至多3、4、5、6、7、8、9、10、15、20、25、50或100种不同长度的核酸。在一些情况下，掺入组包含具有跨越约40-50bp、约35-55bp、约30-60bp、约35-60bp、约35-65bp、约35-70bp、约35-75bp、约30-70bp、约30-80bp、约30-90bp、约30-100bp、约25-150bp、约20-300bp或约20-500bp的范围的长度的核酸。在一些情况下，掺入组包含具有相差至少1、2、3、4、5、6、7、8、9、10、15或20bp的不同长度的核酸。在一些情况下，掺入组包含具有32、42、52和75bp的长度或27、37、47、57、62和67bp的长度的核酸。

可使用从一组值中挑选的长度和GC含量的掺入核酸。例如，合成核酸组可选自两种或更多种长度和两种或更多种GC含量。表3中的28种合成核酸组(SEQ ID NO:125-SEQ IDNO:152)由四种不同长度(例如，32、42、52和75bp)和七种不同GC含量形成(例如，约20、30、40、50、60、70和80％GC)。可使用不同长度(例如，20、30、40、50、60、70和67bp)和不同GC含量(例如，约15、25、35、45、55、65和75％GC)生成类似的合成核酸组。

可使用具有不同解链温度(T_m)的掺入核酸。在一些情况下，掺入组包含具有跨越约40-50℃、约35-55℃、约30-60℃、约35-60℃、约35-65℃、约35-70℃、约35-75℃或约30-70℃范围的解链温度(T_m)的核酸。在一些情况下，掺入组包含具有相差至少1、2、3、4、5、6、7、8、9、10、15、20、25或30℃的不同解链温度(T_m)的核酸。

在一些情况下，可基于除了双链体长度和GC含量之外的一个或多个参数计算T_m，诸如双链体浓度、核苷酸序列的最近邻效应、高级DNA结构、单价和/或二价阳离子浓度以及核苷酸浓度。在一些情况下，可根据经验计算给定条件的T_m，例如，使用双链DNA特异性染料和温度的逐渐升高以及染料信号的检测。

可使用具有不同序列的掺入核酸。优选地，使用非自然或非天然的序列，或无法与样品核酸杂交的序列。在一些情况下，掺入组包含具有至少3、4、5、6、7、8、9、10或15种不同序列的核酸。在一些情况下，掺入组包含具有至多3、4、5、6、7、8、9、10、15、20、25、50或100种不同序列的核酸。

可使用不同数目的掺入核酸。在一些情况下，使用约1、2、3、4、5、6、7、8、9、10、15、20、25、30、40或50个核酸。例如，可使用表3中列出的28个序列的子集，例如，32/42/52/75bp×20/50/80％GC。

RNA组可用于RNA应用。如本文所讨论的，RNA组可包括在长度、GC含量和/或其他性质方面不同的相同分子或不同分子。

8个DNA序列的组(表2中的SEQ ID NO:111-118，各自大约50％GC)提供表3中列出的28个成员GC组的部分覆盖。

表3：示例性GC掺入序列

简并掺入：Spank

掺入合成核酸可以是核酸的简并池，或具有高度多样性的核酸池(在本文有时被称为“Spank”)。通常，Spank可用于确定在导致和/或包括测序反应的样品处理步骤期间可能发生的绝对或相对核酸损失或多样性损失。对于独特的Spank序列池，池中序列多样性的损失应当直接对应于核酸丰度的损失，而不需要考虑扩增或PCR偏差的影响。例如，如果将10⁸个独特Spank序列掺入样品中，并且在测序后仅回收了10⁴个独特Spank序列，则核酸的丰度和核酸的多样性均降低了10⁴倍。在一些情况下，Spank可用于确定复制分子的回收程度。例如，在提取和文库处理(其可包括PCR和各种输入分子的潜在不均匀扩增)之后，各个Spank的测序和比对可显示复制分子的回收程度。

然后可使用确定的多样性损失来确定在一个或多个样品处理或测序步骤之前初始样品中核酸(例如，靶核酸)的绝对丰度。在一些情况下，确定的多样性损失用于确定初始样品中核酸的相对丰度。如图5中所示，在一个或多个样品处理步骤之前，样品核酸(S₁，S₂，…，S_m)可与Spank掺入合成核酸(SP₁，SP₂，…，SP_n)组合。例如，可将大约10⁸个独特Spank添加至样品。在样品处理(例如，核酸提取、纯化、连接和/或末端修复)期间，一部分样品核酸和一部分合成核酸可能损失。在样品处理之后，可保留初始的10⁸个独特序列中的大约10⁶个独特序列。然后可对这些序列的一部分进行测序，例如10⁴个独特序列。绝对多样性损失可被计算为独特序列的初始数目除以独特序列的测序或回收数目(例如，10⁸/10⁴＝10⁴)。类似地，回收值可被计算为独特序列的测序或回收数目除以独特序列的初始数目(例如，10⁴/10⁸＝10^-4)。计算的多样性损失可用于确定初始样品中核酸的绝对丰度。例如，可从测序分析确定Spank序列和样品序列的测序读取计数，并且了解掺入样品中的Spank序列的初始浓度或量。使用确定的多样性损失可确定初始样品中核酸(例如，来自特定生物体、病原体、肿瘤或器官的核酸)的初始浓度或量。原始样品中样品核酸的绝对量可通过测量样品核酸和Spank核酸的测序读取的最终数目和/或Spank核酸的最终多样性并且与掺入原始样品中的Spank组核酸的已知数量或多样性进行归一化来估计。

可通过各种方法确定独特序列读取的数目。例如，可鉴别具有标识标签的序列读取。然后可通过去重复(“重复数据删除”)或去除重复序列来确定具有标识标签的序列读取内的独特序列的数目。例如，序列可与可能序列的参考数据库比对或彼此进行比对以确定哪些序列是重复的以及哪些序列是独特的或不同的。由于标识标签通常在序列之间是保守的，因此可分析嵌入每个掺入分子内的随机化序列区域。在一些情况下，Spank核酸不包括标识标签；在此类情况下，可通过其他方法鉴别Spank，诸如通过参考或比对包含已知序列的数据库。

Spank序列可用于检测相对损失和/或绝对损失。在一些情况下，如果Spank序列的多样性足够高，则可假定掺入样品的Spank序列是基本上全部独特的。因此，测序的任何重复Spank序列可能是由于PCR扩增而不是由于添加至样品的相同Spank序列的多个拷贝，并且可从分析去除。另外，如果每个Spank序列是独特的，则基于添加至样品的核酸浓度和体积了解最初添加至样品的Spank序列的总数目，并且了解测序后的独特Spank测序读取的总数目；这些值可共同用于计算多样性损失值或回收值。

本文提供的方法包括鉴别与群体瓶颈或多样性损失相关的样品处理期间的步骤的方法。在一些情况下，当鉴别出群体瓶颈时，校正因子可应用于起始群体中的其他最初未知的分子。例如，如果输入的Spank分子是基本上全部独特的，但回收的Spank只有50％的独特性，这表明瓶颈和多样性损失可告知来自样品的其他分子的多样性的解释。

可在样品处理期间的任何步骤将Spank的集合掺入样品，以便鉴别瓶颈发生的步骤。例如，第一集合的Spank可在从受试者收集样品(例如，体液)时引入，第二集合的Spank可在收集的样品进行后续处理(例如，去除残留细胞、储存)之前或期间引入样品，并且/或者第三集合的Spank可在文库制备之前引入。在一些情况下，在样品处理过程中的不同步骤掺入样品的Spank集合具有相同或相似的组成。在一些情况下，在样品处理过程中的不同步骤将不同的Spank集合掺入样品。

在一些情况下，Spank核酸可各自含有具有独特序列的随机化部分。Spank可包含一个或多个不同结构域。在一些情况下，Spank可包含一个或多个过程编码、一个或多个多样性编码、一个或多个长度标识物序列、一个或多个负载序列、一个或多个合成核酸标识物序列(或Spank标识物序列)和/或一个或多个特征结构域。在一些情况下，Spank可包含标识标签和独特的核酸序列。

当使用不同的Spank集合时，可用“过程编码”对每个集合进行编码，以鉴别在特定步骤(例如，样品收集、提取、文库处理)中引入样品的Spank集合。在此类情况下，具有相同过程编码的Spank可在生物信息上分组并分析多样性损失。然后可确定与特定步骤相关的多样性损失程度，然后在每个样品处理步骤之间进行比较。

Spank可包含与合成核酸或Spank的整体池或集合相关的“多样性编码”。多样性编码结构域可以是表示合成核酸池内多样性的量的独特编码。在此类情况下，可用表示池的多样性程度(例如，10⁸个独特序列)的序列对多样性池内的每个合成核酸进行编码。在一些情况下，诸如当在同一样品上使用两个或更多个多样性池时，多样性编码可用于鉴别两个或更多个池中的多样性损失。

在一些情况下，Spank可包含一个或多个编码(例如，过程编码)，其将Spank鉴别为特定Spank池或集合的成员。在一些情况下，Spank可包含一个或多个将Spank鉴别结构域，其将Spank识别为Spank，而不是初始存在于样品中的核酸。Spank还可包含特征结构域、长度标识物结构域和负载结构域，如本文进一步描述的。

Spank可单独使用或与其他合成核酸组合使用，以便计算核酸的丰度或用于其他应用。在一些情况下，Spank可与其他合成核酸一起使用。例如，在一些情况下，可以将一组Spank和一组Spark添加至样品。在一些情况下，还可将样品鉴别核酸添加至样品。

Spank池优选包含核酸序列的多样混合；因此，可设计Spank池以便使多样性最大化。在一些情况下，Spank池衍生自更大的Spank池。例如，在一些情况下，75-bp寡核苷酸可用两个8-bp的N串(例如，A/C/G/T等比例)合成。Spank可以是合成核酸，其包含(i)一种或多种标识标签和(ii)独特核酸序列。在一些情况下，独特核酸序列可以是多个简并或随机位置，例如由一个或多个核苷酸间隔开的简并位置的两组8-bp串，如图6中所示。表4中列出了两个示例性序列。设计有两个8-bp的N串的寡核苷酸含有总共16个N，对应4¹⁶＝4.3×10⁹个不同寡核苷酸的池。例如，如果将该池中的1×10⁸个分子掺入1mL血浆中并如上所述对IDSpike和Spark进行处理，则几乎所有Spank都会是独特的。例如，在这种情形下，多于90％、95％、99％的Spank可以是独特的。

在一些情况下，Spank核酸的长度可以是约或至少约20、30、40、50、60、70、75、80、90、100、110、120、125、130、140、150、160、170、175、180、190、200、250、300、350、400、450、500、600、700、800、900或1000个核苷酸。在一些情况下，Spank核酸的长度可以是至多约20、30、40、50、60、70、75、80、90、100、110、120、125、130、140、150、160、170、175、180、190、200、250、300、350、400、450、500、600、700、800、900或1000个核苷酸。在一些情况下，Spank核酸可具有在约20至约175个碱基对范围内的长度。在一些情况下，Spank组中的核酸具有相同长度。在一些情况下，Spank组中的核酸具有两种或更多种长度(例如，2、3、4、5种或更多种长度)。

在一些情况下，Spank核酸可具有约或至少约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个简并位置。在一些情况下，Spank核酸可具有至多约10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个简并位置。在一些情况下，Spank核酸可具有在约5至约25个范围内的简并位置数。在一些情况下，简并位置可以是连续的、分离的或分成两个或更多个组，诸如两个、三个、四个或五个组。在一些情况下，在简并位置被分组的情况下，简并位置可以在组之间平均分开(例如，两组8-bp的简并位置串，共16个简并位置)或者可以在不同组之间不均匀地分开(例如，一组10个简并位置和另一组6个简并位置，共16个简并位置)。在一些情况下，在简并位置被分组的情况下，所述组可被一个或多个核苷酸分隔开。在一些情况下，所述组被约或至少约1、2、3、4、5、6、7、8、9、10、15、20、30、40或50个核苷酸分隔开。在一些情况下，所述组被至多约1、2、3、4、5、6、7、8、9、10、15、20、30、40或50个核苷酸分隔开。

在一些情况下，Spank核酸可具有约或至少约1×10³、1×10⁴、1×10⁵、1×10⁶、2×10⁶、3×10⁶、4×10⁶、5×10⁶、6×10⁶、7×10⁶、8×10⁶、9×10⁶、1×10⁷、2×10⁷、3×10⁷、4×10⁷、5×10⁷、6×10⁷、7×10⁷、8×10⁷、9×10⁷、1×10⁸、2×10⁸、3×10⁸、4×10⁸、5×10⁸、6×10⁸、7×10⁸、8×10⁸、9×10⁸、1×10⁹、2×10⁹、3×10⁹、4×10⁹、5×10⁹、6×10⁹、7×10⁹、8×10⁹、9×10⁹、1×10¹⁰或1×10¹¹个独特序列的多样性。在一些情况下，Spank核酸可具有至多约1×10⁶、2×10⁶、3×10⁶、4×10⁶、5×10⁶、6×10⁶、7×10⁶、8×10⁶、9×10⁶、1×10⁷、2×10⁷、3×10⁷、4×10⁷、5×10⁷、6×10⁷、7×10⁷、8×10⁷、9×10⁷、1×10⁸、2×10⁸、3×10⁸、4×10⁸、5×10⁸、6×10⁸、7×10⁸、8×10⁸、9×10⁸、1×10⁹、2×10⁹、3×10⁹、4×10⁹、5×10⁹、6×10⁹、7×10⁹、8×10⁹、9×10⁹、1×10¹⁰或1×10¹¹个独特序列的多样性。在一些情况下，Spank核酸可具有在约1×10⁴至约1×10¹¹个独特序列范围内的多样性。

表4：示例性Spank多样性序列

追踪物序列

来源于实验室的核酸(例如，病原体基因组DNA)可用作感染性疾病诊断测试的开发、确认、验证、测定控制等的标准。然而，由于这些相同的生物体可存在于临床样品中(例如，病原体感染的样品中)，因此来源于实验室的材料可能会在测试过程中交叉污染临床样品，从而产生假阳性判定，这不仅可能向患者和医生提供不正确的信息，而且对于某些病原体种类还可能触发向卫生当局所需的报告。虽然真实的参考核酸(例如，真实的病原体基因组DNA、癌症核酸、肿瘤核酸或其他疾病相关核酸)作为阳性对照是有用的甚至是必需的，但在处理时常规甚至极端的谨慎可能不足以防止交叉污染，特别是对于敏感测定如新一代测序(NGS)。

可以以至少与阳性对照核酸一样高的有效浓度将合成追踪物核酸添加至阳性对照核酸原种，所述合成追踪物核酸在自然界中尚未发现或无法与样品核酸杂交。追踪物和阳性对照核酸处于使得它们以相同的方式处理和检测的形式。因此，终点(例如，在NGS的情况下为比对序列读取)对于追踪物和阳性对照核酸都是相同的，并且由于追踪物较高的有效浓度，其至少与阳性对照核酸一样容易检测。在一些情况下，阳性对照核酸是病原体基因组DNA。在一些情况下，阳性对照核酸包含疾病相关核酸，诸如致癌基因。

追踪物序列可在一个或多个性质方面有所变化，诸如序列、长度、浓度、GC含量等。表5中所示和实施例6中使用的序列具有大约50％GC含量，但追踪物序列可有所变化以匹配阳性对照或它们配对的基因组的组成，例如30％GC含量、35％GC含量、40％GC含量、45％GC含量、50％GC含量、55％GC含量、60％GC含量、65％GC含量或70％GC含量。

在一些情况下，可在片段化后将追踪物序列添加至阳性对照核酸或基因组DNA，例如如实施例6中所述。在一些情况下，可在片段化之前将追踪物序列添加到阳性对照核酸或基因组DNA中，以更好地表示对阳性对照核酸或样品核酸进行的完整处理。在临床样品(例如，病原体DNA)中稀少并以低浓度存在的阳性对照核酸可尽早用追踪物序列标记，以最小化与未标记核酸的交叉污染。

在一些情况下，向每个阳性对照核酸添加一个以上的追踪物序列。在一些情况下，以相同浓度或不同浓度添加两种或更多种、三种或更多种、四种或更多种或者五种或更多种追踪物序列。

不同形式的追踪物序列可用于不同应用。例如，追踪物序列的长度可与对照序列的长度例如平均长度或中位长度匹配。在一些情况下，追踪物序列的长度可以在控制序列的平均或中位长度的5％、10％或20％之内。

RNA追踪物序列可用于RNA应用。

表5：示例性追踪物序列

分子LIMS

实验室信息管理系统(LIMS)是追踪消耗品的消耗和使用的方式，在一些情况下用于确保给定实验所必需的化学品或试剂并且仅给定实验所必需的化学品或试剂用于该实验。LIMS还可帮助追踪每次重复实验所用化学品的批号。所有这些功能(例如，追踪批号)可帮助对失败的实验进行排查，例如，当单个化学品质量下降或者在实验中使用不正确的试剂时。

LIMS系统可设计为电子或网络应用，其中实验室人员输入过程中使用的每种消耗品的目录和批号。通常，使用条形码来加速该过程并提高其准确性。然而，对于给定的重复反应，人为错误仍可能导致不完全的记录。

本文提供了在分子上标记试剂，特别是试剂、试剂批次、等分试样或装运的方法。在一些情况下，所述方法包括使用掺入合成核酸，以便对不同容器的各种试剂进行分子条形码标记。例如，向每种试剂、试剂批次、试剂等分试样或试剂装运添加具有独特序列(例如，非人类、非病原体)的掺入核酸或短核酸寡聚体(例如，50至100bp)可帮助追踪用于制备特定文库的试剂库存。在一些情况下，一个或多个ID Spike、Spark或Spank序列可用于分子LIMS。然后可以通过测序自动检测每个样品处理中使用的批号和试剂，并且可用于对有问题的运行进行排查，例如，通过与成功运行中使用的批号进行比较或鉴别在处理该样品中遗漏或附加的试剂。

类似地，对与特定试剂、试剂批号、等分试样或装运相关的掺入核酸的检测可用于鉴别在成功的测序运行中使用的试剂的批号、等分试样或装运。在一些情况下，可通过除测序之外的方法检测核酸或掺入，例如，可使用荧光检测用一种或多种荧光探针标记的一般聚合物。

虽然DNA寡聚体可用于许多水溶液，但可针对含DNA酶的溶液设计对DNA酶作用免疫的核酸寡聚体(例如，RNA、具有修饰骨架的DNA寡聚体)。类似地，可使用对RNA酶具有抗性的合成核酸(例如DNA)来追踪含RNA酶的溶液。

核酸富集与文库制备

在本文提供的方法中，可使用本领域已知的任何手段从样品分离核酸。例如，可使用液体提取(例如，Trizol、DNAzol)技术提取核酸。还可使用市售试剂盒(例如，QIAamp循环核酸试剂盒、Qiagen DNeasy试剂盒、QIAamp试剂盒、Qiagen Midi试剂盒、QIAprep旋转试剂盒)提取核酸。

可通过已知方法富集或沉淀核酸，仅举例而言包括离心。为了纯化目的，核酸可与选择性膜(例如，二氧化硅)结合。还可针对所需长度的片段，例如长度小于1000、500、400、300、200或100个碱基对的片段对核酸进行富集。基于大小的这种富集可使用例如PEG诱导的沉淀、电泳凝胶或色谱材料(Huber等人(1993)Nucleic Acids Res.21:1061-6)、凝胶过滤色谱或TSKgel(Kato等人(1984)J.Biochem,95:83-86)进行，这些出版物为了所有目的通过引用整体并入本文。

核酸样品可针对靶多核苷酸进行富集，特别是与炎症或感染相关的靶核酸。在一些优选的情况下，靶核酸是病原体核酸(例如，无细胞病原体核酸)。在一些优选的情况下，靶核酸是与特定器官或组织(包括但不限于子宫、心、肺、肾、胎儿脑、肝或宫颈组织)相关的无细胞RNA。

靶标富集可通过本领域已知的任何方法进行。例如，可通过使用靶标特异性引物(例如，对病原体核酸具有特异性的引物)扩增靶序列来富集核酸样品。靶标扩增可使用本领域已知的任何方法或系统以数字PCR形式发生。可通过将靶序列捕获到将靶标选择性寡核苷酸固定在其上的阵列上来富集核酸样品。可通过与溶液中或固体支持物上游离的靶标选择性寡核苷酸杂交来富集核酸样品。寡核苷酸可包含捕获部分，其能够被捕获试剂捕获。在一些实施方案中，核酸样品不针对靶多核苷酸进行富集，例如表示全基因组。

在一些情况下，靶(例如，病原体、器官)核酸可相对于样品中的背景(例如，受试者、健康组织)核酸进行富集，例如通过下拉(例如，通过将靶核酸与缀合至标记物如生物素标签的互补寡核苷酸杂交并使用例如附着于固体支持物的抗生物素蛋白或链霉抗生物素蛋白，优先在下拉测定中下拉靶核酸)、靶向PCR或其他方法。富集技术的实例包括但不限于：(a)自杂交技术，其中核酸样品中的主要群体比所述样品中的次要群体更快地自杂交；(b)从游离DNA中消耗核小体相关的DNA；(c)去除和/或分离特定长度区间的DNA；(d)外来体消耗或富集；以及(e)策略性捕获感兴趣区域。

在一些情况下，富集步骤包括(a)提供来自宿主的核酸样品，其中来自宿主的核酸样品是来自宿主的单链核酸样品并且包含宿主核酸和非宿主核酸；(b)使来自宿主的至少一部分单链核酸复性，从而在样品内产生双链核酸群体；以及(c)使用核酸酶去除样品内的至少一部分双链核酸，从而富集来自宿主的核酸样品中的非宿主序列。在一些情况下，富集步骤包括(a)提供来自宿主的核酸样品，其中来自宿主的核酸样品包含与核小体相关的宿主核酸以及非宿主核酸；(b)去除与核小体相关的至少一部分宿主核酸，从而富集来自宿主的核酸样品中的非宿主核酸。在一些情况下，富集步骤包括(a)提供来自宿主的核酸样品，其中来自所述宿主的核酸样品包含宿主核酸和非宿主核酸；以及(b)去除或分离具有一个或多个长度区间的DNA，从而富集来自所述宿主的核酸样品中的非宿主核酸。在一些情况下，富集步骤包括(a)提供来自宿主的核酸样品，其中来自所述宿主的核酸样品包含宿主核酸、非宿主核酸和外来体；以及(b)去除或分离至少一部分外来体，从而富集来自所述宿主的核酸样品中的非宿主序列。在一些情况下，富集步骤包括优先从样品去除长度超过约300个碱基的核酸。在一些情况下，富集步骤包括优先扩增或捕获来自样品的非宿主核酸。

富集步骤可包括优先去除所述样品中长度大于约120、约150、约200或约250个碱基的核酸。在一些情况下，所述富集步骤包括优先富集所述样品中长度为约10个碱基至约60个碱基、长度为约10个碱基至约120个碱基、长度为约10个碱基至约150个碱基、长度为约10个碱基至约300个碱基、长度为约30个碱基至约60个碱基、长度为约30个碱基至约120个碱基、长度为约30个碱基至约150个碱基、长度为约30个碱基至约200个碱基、或长度为约30个碱基至约300个碱基的核酸。在一些情况下，富集步骤包括优先消化来源于宿主(例如，受试者)的核酸。在一些情况下，富集步骤包括优先复制非宿主核酸。

在一些情况下，富集步骤将非宿主的核酸相对于宿主(例如，受试者)的核酸的比例提高了至少2X、至少3X、至少4X、至少5X、至少6X、至少7X、至少8X、至少9X、至少10X、至少11X、至少12X、至少13X、至少14X、至少15X、至少16X、至少17X、至少18X、至少19X、至少20X、至少30X、至少40X、至少50X、至少60X、至少70X、至少80X、至少90X、至少100X、至少1000X、至少5000X或至少10,000X。在一些情况下，富集步骤使非宿主核酸相对于宿主(例如，受试者)核酸的比率提高了至少10X。在一些情况下，富集步骤使非宿主核酸相对于宿主(例如，受试者)核酸的比率提高了约10X至约100X的范围。

在一些情况下，制备核酸文库。核酸文库可以是单链核酸文库或双链核酸文库。在一些情况下，单链核酸文库可以是单链DNA文库(ssDNA文库)或RNA文库。在一些情况下，双链核酸文库为双链DNA文库(dsDNA文库)。制备ssDNA文库的方法可包括使双链DNA片段变性为ssDNA片段，将引物对接序列连接到ssDNA片段的一端，并使引物与引物对接序列杂交。引物可包含与下一代测序平台偶联的衔接子序列的至少一部分。所述方法可进一步包括延伸杂交的引物以产生双链体，其中双链体包含原始ssDNA片段和延伸的引物链。延伸的引物链可与原始ssDNA片段分离。可收集延伸的引物链，其中延伸的引物链是ssDNA文库的成员。制备RNA文库的方法可包括将引物对接序列连接到RNA片段的一端，并使引物与引物对接序列杂交。引物可包含与下一代测序平台偶联的衔接子序列的至少一部分。所述方法可进一步包括延伸杂交的引物以产生双链体，其中双链体包含原始RNA片段和延伸的引物链。延伸的引物链可与原始RNA片段分离。可收集延伸的引物链，其中延伸的引物链是RNA文库的成员。制备dsDNA文库的方法可包括将衔接子序列连接到dsDNA片段的一端或两端。

在各个方面，dsDNA可通过本领域已知的或如本文所述的任何方式片段化。在一些情况下，dsDNA可通过物理手段(例如，通过机械剪切、雾化或超声处理)、通过酶促手段或通过化学手段进行片段化。

在一些实施方案中，cDNA由RNA产生。例如，可使用随机引物逆转录(RNA酶H+)产生cDNA以产生随机大小的cDNA。

核酸的长度可有所变化。核酸或核酸片段(例如，dsDNA片段、RNA或随机大小的cDNA)可小于1000bp、小于800bp、小于700bp、小于600bp、小于500bp、小于400bp、小于300bp、小于200bp或小于100bp。DNA片段可以是约40至约100bp、约50至约125bp、约100至约200bp、约150至约400bp、约300至约500bp、约100至约500、约400至约700bp、约500至约800bp、约700至约900bp、约800至约1000bp或约100至约1000bp。在一些情况下，核酸或核酸片段(例如，dsDNA片段、RNA或随机大小的cDNA)可以在约20至约200bp的范围内，诸如在约40至约100bp的范围内。

可以使dsDNA片段的末端变平(例如，变成平端)。可通过用聚合酶处理来使DNA片段的末端变平。变平可包括去除3'突出端、填充5'突出端或其组合。聚合酶可以是校正聚合酶(例如，包含3'至5'核酸外切酶活性)。校正聚合酶可以是例如T4 DNA聚合酶、Pol 1Klenow片段或Pfu聚合酶。变平可包括使用本领域已知的任何手段去除受损核苷酸(例如脱碱基位点)。

将衔接子连接到核酸片段的3'端可包括在片段的3'OH基团与衔接子的5'磷酸之间形成键。因此，从核酸片段去除5'磷酸可使两个文库成员的异常连接最小化。因此，在一些实施方案中，从核酸片段去除5'磷酸。在一些实施方案中，从样品中至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或大于95％的核酸片段去除5'磷酸。在一些实施方案中，从核酸片段去除基本上所有磷酸基团。在一些实施方案中，从样品中至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或大于95％的核酸片段去除基本上所有磷酸。可通过本领域已知的任何手段从核酸样品去除磷酸基团。去除磷酸基团可包括用热不稳定的磷酸酶处理样品。在一些实施方案中，不从核酸样品去除磷酸基团。在一些实施方案中，进行衔接子与核酸片段的5'端的连接。

测序

本公开内容提供了分析核酸的方法。这样的分析方法包括对核酸进行测序以及对测序结果进行生物信息学分析。可分析根据本方法产生的核酸以获得各种类型的信息，包括基因组、表观遗传(例如，甲基化)和RNA表达。甲基化分析可通过例如甲基化碱基的转化随后进行DNA测序来进行。RNA表达分析可通过例如多核苷酸阵列杂交、RNA测序技术或对由RNA产生的cDNA进行测序来进行。

在优选的实施方案中，使用下一代测序分析进行测序。如本文所用，术语“下一代”是本领域充分了解的，并且通常指任何高通量测序方法，包括但不限于以下一种或多种：大规模平行签名测序、焦磷酸测序(例如，使用Roche 454测序装置)、Illumina(Solexa)测序、合成测序(Illumina)、Ion torrent测序、连接测序(例如，SOLiD测序)、单分子实时(SMRT)测序(例如，Pacific Bioscience)、聚合酶克隆测序、DNA纳米球测序、Heliscope单分子测序(Helicos Biosciences)和纳米孔测序(例如，Oxford Nanopore)。在一些情况下，测序分析使用纳米孔测序。在一些情况下，测序分析包括一些形式的Sanger测序。在一些情况下，测序涉及鸟枪法测序；在一些情况下，测序包括桥式PCR。在一些情况下，测序是广谱的。在一些情况下，测序是靶向的。

在一些情况下，测序分析包括Gilbert测序方法。在这样的方法中，核酸(例如，DNA)被化学修饰，然后在特定碱基处切割。在一些情况下，测序分析包括双脱氧核苷酸链终止或Sanger测序。

本文提供的方法中可使用合成测序途径。在一些情况下，将荧光标记的可逆终止子核苷酸引入固定在玻璃流通池表面上的克隆扩增的DNA模板。在每个测序循环期间，可将单一标记的脱氧核苷三磷酸(dNTP)添加至核酸链。标记的终止子核苷酸可以在添加时进行成像以鉴别碱基，然后可进行酶促切割以允许并入下一个核苷酸。由于所有四种可逆的终止子结合的dNTP(A，C，T，G)通常作为单个单独分子存在，因此自然竞争可使掺入偏差最小化。

在一些情况下，使用称为单分子实时(SMRT)的方法。在这样的途径中，核酸(例如，DNA)在零模式波导(ZMW)中合成，该ZMW为小型孔状容器，其中捕获工具位于孔的底部。使用未修饰的聚合酶(附着于ZMW底部)和在溶液中自由流动的荧光标记的核苷酸进行测序。荧光标记在掺入DNA链时与核苷酸脱离，留下未修饰的DNA链。然后可使用诸如相机等检测器来检测光发射；并且可在生物信息学上分析数据以获得序列信息。

在一些情况下，使用通过连接途径的测序来对样品中的核酸进行测序。一个实例是SOLiD(通过寡核苷酸连接和检测的测序)测序(Life Technologies)的下一代测序方法。该下一代技术可同时产生数亿至数十亿的小序列读取。该测序方法可包括从待测序的样品制备DNA片段的文库。在一些情况下，该文库用于制备克隆珠群体，其中每个珠(例如，磁珠)的表面上仅存在一种片段。附着于磁珠的片段可具有连接的通用P1衔接子序列，使得每个片段的起始序列都是已知且相同的。在一些情况下，该方法可进一步涉及PCR或乳液PCR。例如，乳液PCR可涉及使用含有用于PCR的试剂的微反应器。然后可将附着于珠的所得PCR产物共价结合到载玻片上。测序分析(诸如SOLiD测序分析或通过连接的其他测序分析)可包括涉及使用引物的步骤。引物可与P1衔接子序列或文库模板内的其他序列杂交。所述方法可进一步涉及引入四种荧光标记的二碱基探针，其竞争连接至测序引物。可通过在每个连接反应中询问每个第一和第二碱基来实现二碱基探针的特异性。可进行连接、检测和切割的多个循环，其中循环数确定最终读取长度。在一些情况下，在一系列连接循环后，去除延伸产物，并用与n-1位置互补的引物重置模板，进行第二轮连接循环。可针对每个序列标签完成多轮(例如，5轮)引物重置。通过引物重置过程，可通过两种不同引物在两个独立的连接反应中询问每个碱基。例如，在连接循环2中通过引物编号2并在连接循环1中通过引物编号3测定读取位置5处的碱基。

在任何实施方案中，可通过测序完成寡核苷酸的检测或定量分析。可通过本领域已知的任何合适的方法，例如Illumina HiSeq 2500，包括本文所述的测序方法，通过对所有寡核苷酸的完全测序来检测亚单位或完整的合成寡核苷酸。

可通过本领域公知的经典Sanger测序方法完成测序。还可使用高通量系统完成测序，其中一些系统允许在测序的核苷酸掺入生长链之后立即或之时检测测序的核苷酸，例如，实时或基本上实时地检测序列。在一些情况下，高通量测序每小时生成至少1,000、至少5,000、至少10,000、至少20,000、至少30,000、至少40,000、至少50,000、至少100,000或至少500,000个序列读取。在一些情况下，每个读取为每读取至少50、至少60、至少70、至少80、至少90、至少100、至少120或至少150个碱基。在一些情况下，每个读取为每读取至多2000、至多1000、至多900、至多800、至多700、至多600、至多500、至多400、至多300、至多200或至多100个碱基。长读取测序可包括对提供例如长于500个碱基、长于800个碱基、长于1000个碱基、长于1500个碱基、长于2000个碱基、长于3000个碱基或长于4500个碱基的连续序列读取进行测序。

在一些情况下，高通量测序涉及使用可从Illumina的Genome Analyzer II、MiSeq个人测序仪或HiSeq系统(诸如使用HiSeq 2500、HiSeq 1500、HiSeq 2000或HiSeq 1000的系统)获得的技术。这些机器使用通过合成化学的基于可逆终止子的测序。这些机器可在8天内完成2000亿次DNA或更多读取。可使用较小的系统在3天、2天或1天或更短的时间内运行。可使用短的合成循环来使获得测序结果所花费的时间最小化。

在一些情况下，高通量测序涉及使用可从ABI Solid System获得的技术。该遗传分析平台可实现与珠连接的克隆扩增的DNA片段的大规模平行测序。测序方法基于与染料标记的寡核苷酸的顺序连接。

下一代测序可包括离子半导体测序(例如，使用来自LifeTechnologies(IonTorrent)的技术)。离子半导体测序可利用以下事实：当核苷酸掺入DNA链时，可释放离子。为了进行离子半导体测序，可形成高密度的微机械孔阵列。每个孔可容纳单一DNA模板。孔下方可以是离子敏感层，并且离子敏感层下方可以是离子传感器。当将核苷酸添加至DNA时，可释放H+，其可以以pH的变化来测量。H+离子可转化成电压并由半导体传感器记录。阵列芯片可被接连的核苷酸依次充满。无需扫描、光或相机。在一些情况下，使用IONPROTON^TM测序仪来对核酸进行测序。在一些情况下，使用IONPGM^TM测序仪。Ion Torrent个人基因组机器(PGM)可在两小时内完成1000万次读取。

在一些情况下，高通量测序涉及使用可从Helicos BioSciences Corporation(马萨诸塞州坎布里奇)获得的技术，诸如合成单分子测序(SMSS)方法。SMSS可允许在至多24小时内对整个人类基因组进行测序。与MIP技术相同，SMSS在杂交之前可能不需要预扩增步骤。SMSS可能不需要任何扩增。SMSS部分描述于美国公开申请号20060024711；20060024678；20060012793；20060012784；和20050100932。

在一些情况下，高通量测序涉及使用可从454Lifesciences,Inc.(Branford，Connecticut)获得的技术，诸如Pico滴度板装置，其包括传输由测序反应生成的化学发光信号以被仪器中的CCD相机记录的光纤板。这种光纤的使用可允许在4.5小时内检测至少2000万个碱基对。

使用珠扩增然后进行光纤检测的方法描述于Marguiles,M.等人"Genomesequencing in microfabricated high-density picolitre reactors",Nature,doi:10.1038/nature03959；以及美国公开申请号20020012930；20030058629；20030100102；20030148344；20040248161；20050079510；20050124022；和20060078909。

在一些情况下，使用克隆单分子阵列(Solexa,Inc.)或利用可逆终止子化学的合成测序(SBS)进行高通量测序。这些技术部分描述于美国专利号6,969,488；6,897,023；6,833,246；6,787,308；和美国公开申请号20040106110；20030064398；20030022207；以及Constans,A.,The Scientist 2003,17(13):36。

在一些情况下，下一代测序为纳米孔测序(参见例如，Soni GV和Meller A.(2007)Clin Chem 53:1996-2001)。纳米孔可以是小孔，例如直径约为1纳米。将纳米孔浸入导电流体中并在其间施加电势可导致由离子通过纳米孔的传导而产生的轻微电流。流动的电流量可对纳米孔的大小敏感。当DNA分子穿过纳米孔时，DNA分子上的每个核苷酸可不同程度地阻塞纳米孔。因此，当DNA分子穿过纳米孔时，穿过纳米孔的电流的变化可表示DNA序列的读取。纳米孔测序技术可来自Oxford Nanopore Technologies；例如，GridION系统。可将单个纳米孔插入穿过微孔顶部的聚合物膜中。每个微孔可具有用于单个感测的电极。微孔可制成阵列芯片，每个芯片具有100,000个或更多个微孔(例如，大于200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000或1,000,000个)。仪器(或节点)可用于分析芯片。可实时分析数据。可一次操作一个或多个仪器。纳米孔可以是蛋白质纳米孔，例如，蛋白质α-溶血素、七聚体蛋白质孔。纳米孔可以是由例如在合成膜(例如，SiNx或SiO₂)中形成的纳米大小的孔制成的固态纳米孔。纳米孔可以是杂化孔(例如，将蛋白质孔整合到固态膜中)。纳米孔可以是具有集成传感器(例如，隧道电极检测器、电容检测器或基于石墨烯的纳米间隙或边缘状态检测器(参见例如，Garaj等人(2010)Nature vol.67,doi:10.1038/nature09379)的纳米孔。纳米孔可被功能化以分析特定类型的分子(例如，DNA、RNA或蛋白质)。纳米孔测序可包括“链测序”，其中完整的DNA聚合物可穿过蛋白质纳米孔，测序随着DNA在孔中的移位而实时进行。酶可分离双链DNA的链并使链前进通过纳米孔。DNA的一端可具有发夹，并且系统可读取两条链。在一些情况下，纳米孔测序是“外切核酸酶测序”，其中单个核苷酸可被加工外切核酸酶从DNA链切割，并且核苷酸可穿过蛋白质纳米孔。核苷酸可瞬时结合孔中的分子(例如，环糊精)。电流的特征性破坏可用于鉴别碱基。

可使用来自GENIA的纳米孔测序技术。工程化蛋白质孔可嵌入脂质双层膜中。“主动控制”技术可用于实现有效的纳米孔-膜组装并控制DNA移动通过通道。在一些情况下，纳米孔测序技术来自NABsys。基因组DNA可片段化成平均长度约100kb的链。可将100kb片段制成单链并随后与6聚体探针杂交。具有探针的基因组片段可通过纳米孔驱动，这可产生电流相对时间的追踪。电流追踪可提供探针在每个基因组片段上的位置。可排列基因组片段以产生针对基因组的探针图谱。该过程可针对探针文库平行完成。可生成每个探针的基因组长度探针图谱。可通过称为“移动窗口杂交测序(mwSBH)”的过程修复错误。在一些情况下，纳米孔测序技术来自IBM/Roche。电子束可用于在微芯片中制造纳米孔大小的开口。可使用电场将DNA拉过或穿过纳米孔。纳米孔中的DNA晶体管装置可包括交替的纳米尺寸的金属和介电层。DNA骨架中的离散电荷可被DNA纳米孔内的电场捕捉。关闭和打开门电压可允许读取DNA序列。

下一代测序可包括DNA纳米球测序(例如，通过Complete Genomics进行；参见例如，Drmanac等人(2010)Science 327:78-81)。DNA可进行分离、片段化和大小选择。例如，可将DNA片段化(例如，通过超声处理)至约500bp的平均长度。衔接子(Adl)可连接到片段的末端。衔接子可用于与锚定物杂交以进行测序反应。衔接子结合至每一端的DNA可进行PCR扩增。衔接子序列可进行修饰，使得互补的单链末端彼此结合形成环状DNA。可将DNA甲基化以保护其免于被后续步骤中使用的IIS型限制酶切割。衔接子(例如，右衔接子)可具有限制性识别位点，并且限制性识别位点可保持非甲基化。衔接子中的非甲基化限制性识别位点可被限制酶(例如，Acul)识别，并且Acul可在右衔接子右侧13bp切割DNA以形成线性双链DNA。第二轮的右衔接子和左衔接子(Ad2)可连接到线性DNA的任一端，并且两个衔接子结合的所有DNA可进行PCR扩增(例如，通过PCR)。可修饰Ad2序列以允许它们彼此结合并形成环状DNA。DNA可被甲基化，但左Ad1衔接子上的限制酶识别位点可保持非甲基化。可应用限制酶(例如，Acul)，并且可在Ad1左侧13bp切割DNA以形成线性DNA片段。第三轮的右衔接子和左衔接子(Ad3)可连接到线性DNA的右侧和左侧，并且所得片段可进行PCR扩增。可修饰衔接子，使得它们可彼此结合并形成环状DNA。可添加III型限制酶(例如，EcoP15)；EcoP15可在Ad3左侧26bp和Ad2右侧26bp切割DNA。该切割可去除DNA的大区段并再次使DNA线性化。第四轮的右衔接子和左衔接子(Ad4)可连接到DNA，DNA可进行扩增(例如，通过PCR)并进行修饰，使得它们彼此结合并形成完整的环状DNA模板。

可使用滚环复制(例如，使用Phi 29 DNA聚合酶)来扩增DNA的小片段。四个衔接子序列可含有能够杂交的回文序列，并且单链可折叠到其自身之上以形成DNA纳米球(DNB^TM)，其平均直径可以是大约200-300纳米。DNA纳米球可附着(例如，通过吸附)至微阵列(测序流通池)。流通池可以是涂覆有二氧化硅、钛和六甲基二硅氮烷(HMDS)的硅晶片以及光刻胶材料。通过将荧光探针连接到DNA，可通过非链式测序进行测序。询问位置的荧光颜色可通过高分辨率相机可视化。可确定衔接子序列之间的核苷酸序列的身份。

本文提供的方法可包括使用系统，诸如含有核酸测序仪(例如，DNA测序仪、RNA测序仪)的系统用于生成DNA或RNA序列信息。所述系统可包括计算机，该计算机包含对DNA或RNA序列信息进行生物信息学分析的软件。生物信息学分析可包括但不限于汇编序列数据、检测和量化样品中的遗传变体，包括种系变体和体细胞变体(例如，与癌症或癌前病况相关的遗传变异、与感染相关的遗传变异)。

测序数据可用于确定遗传序列信息、倍性状态、一种或多种遗传变体的身份以及变体的定量量度(包括相对和绝对相对量度)。

在一些情况下，基因组的测序涉及全基因组测序或部分基因组测序。测序可以是无偏差的，并且可涉及对样品中所有或基本上所有(例如，大于70％、80％、90％)的核酸进行测序。基因组的测序可以是选择性的，例如，针对感兴趣的基因组的部分。例如，已知许多基因(和这些基因的突变形式)与各种癌症相关。选定基因或基因部分的测序可满足所需的分析。可分离映射到感兴趣的受试者的基因组中的特定基因座的多核苷酸以供通过例如序列捕获或位点特异性扩增进行测序。

应用

本文提供的方法可用于各种目的，诸如诊断或检测病况(例如，感染)、预测病况将会发生或复发、监测治疗、选择或修改治疗方案或者优化治疗。利用这种途径，可根据在治疗过程中的不同时间获得的数据对治疗和/或诊断方案进行个体化和定制，从而提供对个体适当的方案。

检测/诊断/预测病况

本文提供的方法可用于检测、诊断或预测患者样品(诸如人血液样品)中的感染或疾病。所述方法可用于检测主要由人核酸组成的样品中稀少的微生物核酸片段。例如，血液中的无细胞DNA(cfDNA)主要由来源于宿主的DNA片段组成，但还含有来自体内微生物的少量片段。提取cfDNA然后进行深度测序(例如，下一代测序或NGS)可产生数百万或数十亿的序列读取，其可针对宿主和非宿主基因组数据库进行映射。同样，该方法还可用于检测来自特定器官的稀少的循环或无细胞RNA群体。对于其中非宿主读取占总数非常小比例的样品，本文提供的方法可提高测定的灵敏度和特异性(否则会因缺乏针对其的内部归一化化标准而受到影响)，以便比较不同的靶核酸(例如，来源于不同的微生物或生物体)或追踪不同的样品或试剂。此外，所述方法可用于其中靶核酸构成核酸总群体的较大部分的情况下。

本文提供的方法可用于检测、监测、诊断、预后、治疗或预防多种疾病和病症。特别地，所述方法可用于检测来源于与感染性疾病或病症相关的病原体的一种或多种靶核酸。示例性的疾病和病症包括任何与感染相关的疾病或病症，例如，脓毒症、肺炎、结核病、HIV感染、肝炎感染(例如，甲型肝炎、乙型肝炎或丙型肝炎)、人乳头瘤病毒(HPV)感染、衣原体感染、梅毒感染、埃博拉感染、金黄色葡萄球菌感染或流感。本文提供的方法特别适用于检测包括多重耐药微生物在内的耐药微生物或者不易培养或通常测试的微生物引起的感染。可用本方法检测的疾病和病症的一些非限制性实例包括：癌症、扩张型心肌病、Guillain-Barre综合征、多发性硬化、肺结核、炭疽中毒、昏睡病、痢疾、弓形体病、癣、念珠菌病、组织胞浆菌病、埃博拉、不动杆菌感染、放线菌病、非洲昏睡病(非洲锥虫病)、AIDS(获得性免疫缺陷综合症)、HIV感染、阿米巴病、无形体病、炭疽、溶血隐秘杆菌感染、阿根廷出血热、蛔虫病、曲霉病、星状病毒感染、巴贝斯虫病、蜡状芽孢杆菌感染、细菌性肺炎、细菌性阴道病(BV)、拟杆菌感染、小袋虫病、蛔虫感染、BK病毒感染、黑色发结节病、人芽囊原虫感染、芽生菌病、玻利维亚出血热、包柔氏螺旋体感染、肉毒中毒(和婴儿肉毒中毒)、巴西出血热、布氏杆菌病、腺鼠疫、伯克霍尔德菌感染、Buruli溃疡、嵌杯样病毒感染(诺罗病毒和札幌病毒)、弯曲杆菌病、念珠菌病(念珠菌性疾病；鹅口疮)、猫抓病、蜂窝织炎、Chagas病(美洲锥虫病)、软下疳、水痘、切昆贡亚热、衣原体、肺炎衣原体感染(台湾急性呼吸病原体(Taiwanacute respiratory agent)或TWAR)、霍乱、着色芽生菌病、支睾吸虫病、艰难梭菌感染、球孢子菌病、科罗拉多壁虱热(CTF)、普通感冒(急性病毒性鼻咽炎；急性鼻炎)、Creutzfeldt-Jakob病(CJD)、Crimean-Congo出血热(CCHF)、隐球菌病、隐孢子虫病、皮肤幼虫移行症(CLM)、原球虫病、囊虫病、巨细胞病毒感染、登革热、双核阿米巴病、白喉、裂头绦虫病、麦地那龙线虫病、埃博拉出血热、包虫病、埃里希体病、蛲虫病(蛲虫感染)、肠球菌感染、肠道病毒感染、流行性斑疹伤寒、传染性红斑(第五病)、幼儿急疹(第六病)、姜片虫症、肝片吸虫病、丝虫病、产气荚膜梭菌引起的食物中毒、自生生活阿米巴感染、梭杆菌感染、气性坏疽(梭菌性肌坏死)、地霉菌病、Gerstmann--Scheinker综合征(GSS)、贾第虫病、鼻疽、腭口线虫病、淋病、腹股沟肉芽肿(第五性病)、A群链球菌感染、B群链球菌感染、流感嗜血杆菌感染、手足口病(HFMD)、汉坦病毒肺综合征(HPS)、Heartland病毒疾病、幽门螺旋杆菌感染、溶血性尿毒综合征(HUS)、肾综合征出血热(HFRS)、甲型肝炎、乙型肝炎、丙型肝炎、丁型肝炎、戊型肝炎、单纯性疱疹、组织胞浆菌病、钩虫感染、人博卡病毒感染、人埃翁氏埃里希体病、人粒细胞无形体病(HGA)、人偏肺病毒感染、人单核细胞埃里希体病、人乳头瘤病毒(HPV)感染、人副流感病毒感染、膜壳绦虫病、EB病毒传染性单核细胞增多症(Mono)、流行性感冒(流感)、等孢球虫病、川崎病、角膜炎、金氏金氏杆菌感染、库鲁病、拉沙热、军团杆菌病(军团病)、军团杆菌病(庞蒂亚克热)、利什曼病、麻风病、钩端螺旋体病、李斯特菌病、莱姆病(莱姆包柔螺旋体)、淋巴丝虫病(象皮肿)、淋巴细胞性脉络丛脑膜炎、疟疾、马尔堡出血热(MHF)、麻疹、中东呼吸综合征(MERS)、类鼻疽(Whitmore病)、脑膜炎、脑膜炎球菌病、后殖吸虫病、微孢子虫病、传染性软疣(MC)、猴痘、流行性腮腺炎、鼠型斑疹伤寒(地方性斑疹伤寒)、支原体肺炎、马杜拉分枝菌病、蝇蛆病、新生儿结膜炎(新生儿眼炎)、(新)变异型Creutzfeldt-Jakob病(vCJD，nvCJD)、诺卡菌病、盘尾丝虫病(河盲症)、副球孢子菌病(南美芽生菌病)、并殖吸虫病、巴斯德菌病、头虱病(头虱)、体虱病(体虱)、阴虱病(阴虱，蟹虱)、盆腔炎性疾病(PID)、百日咳(百日咳)、鼠疫、肺炎球菌感染、肺孢子虫性肺炎(PCP)、肺炎、脊髓灰质炎、普雷沃菌感染、原发性阿米巴性脑膜脑炎(PAM)、进行性多灶性白质脑病、鹦鹉热、Q热、狂犬病、呼吸道合胞病毒感染、鼻孢子菌病、鼻病毒感染、立克次体感染、立克次体痘、裂谷热(RVF)、洛矶山斑疹热(RMSF)、轮状病毒感染、风疹、沙门氏菌病、严重急性呼吸系统综合征(SARS)、疥疮、血吸虫病、脓毒症、志贺氏菌病(细菌性痢疾)、带状疱疹(带状疱疹)、天花(天花病)、孢子丝菌病、葡萄球菌食物中毒、葡萄球菌感染、类圆线虫病、亚急性硬化性全脑炎、梅毒、绦虫病、破伤风(牙关紧闭症)、须癣(颜面癣)、头癣(头皮癣)、体癣(体癣)、股癣(股癣)、手癣(手癣)、掌黑癣、脚癣(运动员脚癣)、甲癣(甲真菌病)、花斑癣(花斑糠疹)、弓蛔虫病(眼幼虫移行症(OLM))、弓蛔虫病(内脏幼虫移行症(VLM))、沙眼、Trinochccliasis、Trichinlosis、滴虫病、鞭虫病(鞭虫感染)、肺结核、土拉菌病、伤寒、解脲支原体感染、溪谷热、委内瑞拉马脑炎、委内瑞拉出血热、病毒性肺炎、西尼罗河热、白色毛结节菌病(白秃疮)、假结核耶尔森菌感染、耶尔森菌病、黄热病、寨卡病毒和接合菌病。

在一些情况下，本文描述的方法包括确定感染是活动性还是潜伏性的。在一些情况下，基因表达定量可提供用于检测、预测、诊断或监测活动性感染的方法。在一些情况下，本文描述的方法包括检测活动性感染。在一些情况下，可通过检测或测序一种或多种感兴趣的靶核酸来量化基因表达。在一些情况下，基因表达量化可提供用于检测、预测、诊断或监测潜伏性感染的方法。在一些情况下，本文描述的方法包括检测潜伏性感染。

本文提供的方法可用于检测癌症，特别是在患有此类癌症、有患此类癌症的风险或疑似患有此类癌症的受试者中。癌症的实例包括但不限于：脑癌、头颈癌、喉癌、口癌、乳腺癌、骨癌、血癌、白血病、淋巴瘤、肺癌、肾癌、胰腺癌、胃癌、结肠癌、直肠癌、皮肤癌、生殖道癌、前列腺癌等。在一些情况下，本文提供的方法可特别用于检测非血液学癌症，诸如实体器官的癌症(例如，肺癌、乳腺癌、胰腺癌等)。

所述方法还可用于检测受试者的任何其他类型的疾病或病况。通常，它们可用于检测罕见的遗传变异；或仅构成样品中总核酸群体的非常小部分的核酸序列。

病原体或器官核酸的检测可涉及将病原体或器官核酸的水平与对照或参考值进行比较，以确定病原体或器官核酸的存在或不存在和/或病原体或器官核酸的数量。该水平可以是定性或定量水平。在一些情况下，对照或参考值是预定的绝对值，表明存在或不存在无细胞病原体核酸或无细胞器官衍生的核酸。例如，检测高于对照值的无细胞病原体核酸水平可表明病原体或感染存在，而低于对照值的水平可表明病原体或感染不存在。对照值可以是通过分析没有感染的受试者的无细胞核酸水平而获得的值；在一些情况下，对照值可以是阳性对照值，并且可通过分析来自具有特定感染或者特定器官的特定感染的受试者的无细胞核酸而获得。

在一些情况下，为了确定是否存在感染－－并且通常为了获得精确的结果－－可应用以下方法中的一种或多种：(i)如专利WO 2015070086 A1中所述，通过测序获得的全部读取可与针对性的宿主基因组参考数据库进行比对，所述数据库可来自人、狗、猫、灵长类动物或来自任何其他宿主，该序列包括例如GenBank hg19人参考序列；(ii)用于生物信息学分析的数据处理器可扣除或隔离宿主序列，从而只能进一步分析非宿主序列，包括病原体相关序列；(iii)数据处理器可通过将非宿主序列与针对性的微生物参考序列数据库(包括例如来自GenBank和Refseq的参考序列)进行比对来确定一种或多种病原体的存在；(iv)可应用统计分析框架来确定一种或多种病原体的存在是否是统计上显著的；和/或(v)在一些情况下，数据处理器可基于针对病原体获得的读取数目与在测序之前以已知浓度掺入样品中的对照分子获得的读取数目的比较来量化存在的病原体的量。

对照值可以是在不同时间点(诸如，测试时间点之前的时间点)从受试者(例如，患有感染或疑似患有感染的受试者)获得的无细胞病原体或器官特异性核酸的水平。在此类情况下，不同时间点的水平的比较可表明存在感染、特定器官中存在感染、感染改善或感染恶化。例如，无细胞病原体核酸随时间推移增加一定量可表明存在感染或感染恶化，例如病原体或器官特异性无细胞核酸与原始值相比增加至少5％、10％、20％、25％、30％、50％、75％、100％、200％、300％或400％可表明存在感染或感染恶化。在其他实例中，病原体或器官特异性无细胞核酸与原始值相比减少至少5％、10％、20％、25％、30％、50％、75％、100％、200％、300％或400％可表明没有感染或感染改善。通常，此类测量可在特定时间段内进行，诸如每天、每隔一天、每周、每隔一周、每月或每隔一个月。例如，一周内病原体或无器官细胞核酸增加至少50％可表明存在感染。

对照或参考值可作为浓度或测序读取的数目来测量。对照或参考值可以是病原体依赖性的。例如，大肠杆菌(Escherichia coli)的对照值可与人型支原体(Mycoplasmahominis)的对照值不同。可基于从一个或多个受试者、一个或多个病原体、一个或多个器官和/或一个或多个时间点获得的样品生成水平或对照值的数据库。这样的数据库可以是针对性的或专有的。推荐的治疗选择可基于不同的阈值水平。例如，低水平可意味着感染，但治疗可能不是必需的；中等水平可导致抗生素治疗；高水平可能需要立即或严重干预。

本文提供的方法可以以高效率、高准确性和/或高灵敏度生成测序数据。通常，这些方法可检测通过其他方法如平板培养或聚合酶链反应(PCR)未检出或无法检测的病原体或感染。所述方法通常可具有非常高的灵敏度，例如，高于80％、85％、90％、95％、99％或99.5％的灵敏度。所述方法通常可具有非常低的假阳性率，例如，低于5％、4％、3％、2％、1％、0.1％、0.05％、0.01％的假阳性率。

本文提供的方法可提供高特异性、高灵敏度、高阳性预测值和/或低阴性预测值。本文提供的方法可提供至少70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的特异性(或阴性百分比一致性)和/或灵敏度(或阳性百分比一致性)。在一些情况下，标称特异性大于或等于70％。标称阴性预测值(NPV)大于或等于95％。在一些情况下，NPV为至少95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或更高。

灵敏度、阳性百分比一致性(PPA)或真阳性率(TPR)可指等式TP/(TP+FN)或TP/(感染受试者的总数)，其中TP是真阳性的数目，FN是假阴性的数目。当计算先前方程的分母时，该值可反映基于检测感染的特定独立方法(例如，血液培养或PCR)的感染结果的总数。

特异性、阴性百分比一致性或真阴性率可指等式如TN/(TN+FP)或TN/(未感染受试者的总数)，其中TN为真阴性，FP为假阳性。当计算先前方程的分母时，该值可反映通过检测感染的独立方法(例如，血液培养或PCR)确定的实际“非感染”的总数。

在一些情况下，样品被鉴别为感染，准确性高于75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或更高。在一些情况下，样品被鉴别为感染，灵敏度高于95％。在一些情况下，样品被鉴别为感染，特异性高于95％。在一些情况下，样品被鉴别为感染，灵敏度高于95％，且特异性大于95％。在一些情况下，使用训练算法计算准确性。本文使用的诊断准确性包括特异性、灵敏度、阳性预测值、阴性预测值和/或错误发现率。在一些情况下，本文所述的方法具有高于70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％的特异性或灵敏度，或者至少95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或更高的阳性预测值或阴性预测值。

在对样品进行分类以便诊断感染时，二元分类器通常有四种可能的结果。如果预测结果为p而实际值也为p，则它被称为真阳性(TP)；然而，如果实际值为n，则它被称为假阳性(FP)。相反，当预测结果和实际值均为n时，则出现真阴性，而当预测结果为n但实际值为p时，则为假阴性。对于检测疾病或病症如感染的测试，当受试者测试为阳性但实际上没有感染时，可出现假阳性。另一方面，当受试者确实具有感染但对这种感染的测试呈阴性时，可出现假阴性。

阳性预测值(PPV)或精确率或疾病的测试后概率是具有阳性测试结果的正确诊断的患者的比例。PPV可通过应用以下等式计算：PPV＝TP/(TP+FP)。PPV可反映阳性测试反映正在测试的潜在状况的概率。然而，该值可取决于疾病的患病率，这可能有所不同。阴性预测值(NPV)可通过以下等式计算：TN/(TN+FN)。阴性预测值可以是具有阴性测试结果的正确诊断的患者的比例。可使用适当的疾病患病率估计得出PPV和NPV测量。

在一些情况下，本文描述的方法的测序分析的结果提供给定诊断正确的统计置信水平。在一些情况下，这样的统计置信水平高于85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％。

监测和治疗

所述方法可包括监测受试者是否随时间具有感染。例如，可在不同时间连续收集样品以便确定存在或不存在感染。在其他实例中，所述方法可包括随时间监测感染的过程。在此类情况下，可在感染或疾病期间的不同时间点连续收集样品；在一些情况下，将连续收集的样品彼此比较以确定感染正在改善还是恶化。

本文提供的方法包括治疗受试者，例如感染或疑似患有感染的受试者的方法。治疗可减少、预防或消除受试者的感染。在一些情况下，治疗可减少、预防或消除感染和/或炎症。

治疗可涉及施用药物或其他疗法以减少或消除炎症和/或感染。在一些情况下，使用药物预防性地治疗受试者，例如，以预防感染或炎症的发展。

可向受试者施用任何改善或减少感染或炎症症状的疗法(包括药物)。示例性药物包括但不限于抗生素、抗病毒药物、氨苄青霉素、舒巴坦、青霉素、万古霉素、庆大霉素、氨基糖苷、克林霉素、头孢菌素、甲硝唑、特美汀、替卡西林、克拉维酸、头孢西丁、抗逆转录病毒药物(例如，高效抗逆转录病毒疗法(HAART)、逆转录酶抑制剂、核苷/核苷酸逆转录酶抑制剂(NRTI)、非核苷RT抑制剂和/或蛋白酶抑制剂)、抗体-药物缀合物和免疫球蛋白。

所述方法可包括调整治疗方案的方法。例如，受试者可具有已知的感染并且可能已经施用药物来治疗该感染。本文提供的方法可用于追踪或监测药物治疗的功效。在一些情况下，可根据这种监测的结果调整治疗方案。例如，如果本文提供的方法表明感染没有因药物治疗而改善，则可通过改变给予患者的药物或治疗的类型、停止使用先前药物、继续使用该药物、增加药物治疗的剂量或者向受试者的治疗方案添加新药或其他治疗来调整治疗方案。在一些情况下，治疗方案可涉及特定程序。同样，如果所述方法表明感染正在改善或消除，则调整可涉及减少或中断药物治疗。

本文描述的方法可进一步包括RNA测序(RNA-Seq)或与包含RNA-Seq的方法组合。组织损伤或感染可导致从特定器官或组织释放无细胞核酸。例如，RNA可被组织中的凋亡细胞释放。无细胞RNA的RNA-Seq可表明体内不同组织的健康或状态。

包括RNA测序的方法可实现对感染的特定器官或组织的检测，并且可用于检测或监测器官的健康。RNA-Seq可独立地用于研究器官的健康，或者可提供通过本文损失的方法检测的感染是特定器官的感染的提高的置信度。RNA-Seq测试可与检测感染的方法同时进行、在检测感染的方法之后进行或在检测感染的方法之前进行。

存在许多可能的情况，其中本文提供的检测病原体的方法可与通过对体液中的无细胞RNA进行RNA测序来检测感染部位的方法组合。例如，本文提供的方法可用于检测来自病原体的循环无细胞核酸。所述方法可进一步包括进行RNA-Seq测试以检测受试者血液中器官特异性无细胞RNA的增加。测试结果的组合可表明病原体已经感染器官，甚至可确定哪个器官组织被感染。

在本文所述的方法产生阳性测试结果(例如，检测到病原体感染)之后，有时可进行RNA-Seq测试(或一系列RNA-Seq测试)。RNA-Seq测试对于确认感染或鉴别感染位置可能特别有用。例如，所述方法可通过分析循环无细胞核酸来检测受试者中病原体的存在，但是感染部位可能不清楚。在此类情况下，所述方法可进一步包括对来自受试者的无细胞RNA进行测序，以便确认感染在器官内(诸如通过检测增加水平的来源于器官组织的循环无细胞RNA)。然后可随时间重复RNA测序测试，以便确定感染在特定器官或组织中恶化还是改善，或者它是否扩散到不同的器官或组织。同样，病原体检测测定也可随时间重复。

在一些情况下，在进行RNA-Seq测试后进行本文所述的检测病原体的方法。例如，与器官相关的无细胞RNA的血浆水平的增加可表明诸如器官感染等病症。在这种情况下，所述方法可进一步包括检测与器官感染相关的循环无细胞核酸的水平。

本文所述的方法可进行重复，例如，以随时间监测感染或治疗。本文所述的方法可每1、2、3、4、5、6、7、8、9或10天；每1、2、3、4、5或6周；或者每1、2、3、4、5、6、7、8或9个月重复。

在一些情况下，当本文所述的方法给出阴性测试结果(例如，未检测到病原体)时，可随时间连续地重复该方法以监测受试者中的病原体核酸。在一些情况下，在阴性病原体测试结果或阴性RNA-Seq结果之后，RNA-Seq测定也随时间连续地重复。

在一些情况下，当本文所述的方法给出阳性测试结果(例如，检测到病原体)时，可向受试者施用治疗方案。治疗方案可包括但不限于药物施用、抗生素施用或抗病毒剂施用。

在一些情况下，当本文所述的方法给出阳性测试结果时，可随时间连续地重复该方法或测试以监测感染过程。例如，可根据感染的上升或下降过程来调整治疗方案。在其他情况下，最初不进行治疗方案；例如，可通过“观察等待”或“观察和等待”途径监测感染，以观察感染是否在没有额外医疗干预的情况下清除。在一些情况下，当本文所述的方法给出阳性测试结果时，可施用药物并且可监测感染过程以检测药物起作用的情况或何时停止药物治疗。在一些情况下，可根据需要改变治疗。

计算机控制系统

本发明提供了被编程用于实现本发明的方法的计算机控制系统。图7示出了被编程或以其他方式配置用于实现本发明的方法的计算机系统701。

计算机系统701包含中央处理器(CPU，在本文中也称为“处理器”和“计算机处理器”)705，其可以是单核或多核处理器，或用于平行处理的多个处理器。计算机系统701还包括存储器或存储器位置710(例如，随机存取存储器、只读存储器、闪速存储器)、电子存储单元715(例如，硬盘)、用于与一个或多个其他系统通信的通信接口720(例如，网络适配器)和外围设备725，如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器710、存储单元715、接口720和外围设备725通过通信总线(实线)如主板与CPU 705通信。存储单元715可以是用于存储数据的数据存储单元(或数据储存库)。计算机系统701可在通信接口720的辅助下可操作地耦合至计算机网络(“网络”)730。网络730可以是因特网、互联网和/或外联网、或与因特网通信的内联网和/或外联网。在一些情况下，网络730是电信和/或数据网络。网络730可包含一个或多个计算机服务器，其可实现分布式计算，如云计算。在一些情况下，网络730可借助计算机系统701实现对等网络，其可使耦合到计算机系统701的装置作为客户端或服务器。

CPU 705可执行一系列的机器可读指令，该机器可读指令可体现在程序或软件中。指令可存储于存储器位置，如存储器710中。指令可被引导至CPU 705，其可随后对CPU 705进行编程或以其他方式配置以实现本发明的方法。由CPU 705执行的操作的实例可包括获取、解码、执行和写回。

CPU 705可以是电路如集成电路的一部分。系统701中的一个或多个其他组件可包括在电路中。在一些情况下，电路是专用集成电路(ASIC)。

存储单元715可存储文件，诸如驱动程序、库和保存的程序。存储单元715可存储用户数据，例如用户偏好和用户程序。在一些情况下，计算机系统701可包括在计算机系统701外部，诸如位于通过内联网或因特网与计算机系统701通信的远程服务器上的一个或多个附加数据存储单元。

计算机系统701可通过网络730与一个或多个远程计算机系统进行通信。例如，计算机系统701可与用户(例如，医疗保健提供者)的远程计算机系统进行通信。远程计算机系统的实例包括个人计算机(例如，便携式PC)、板型或平板PC(例如，iPad、Galaxy Tab)、电话、智能电话(例如iPhone、支持Android的装置、)或个人数字助理。用户可经由网络730访问计算机系统701。

如本文所述的方法可通过机器(例如，计算机处理器)可执行代码来实现，该机器可执行代码存储在计算机系统701的电子存储位置，诸如存储器710或电子存储单元715上。该机器可执行代码或机器可读代码可以以软件的形式提供。在使用期间，代码可由处理器705执行。在一些情况下，代码可从存储单元715检索并存储在存储器710上，以便处理器705迅速存取。在一些情况下，可排除电子存储单元715，机器可执行指令存储在存储器710上。

所述代码可被预编译并被配置用于与具有适于执行该代码的处理器的机器一起使用，或可在运行时进行编译。所述代码可以以可被选择以使代码能够以预编译或编译方式执行的编程语言提供。

本文提供的系统和方法的各方面，如计算机系统701，可在编程中体现。该技术的各个方面可被认为是“产品”或“制品”，其通常为在机器可读介质类型中执行或体现的机器(或处理器)可执行代码和/或相关数据的形式。机器可执行代码可存储于电子存储单元，例如存储器(例如，只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可包括计算机、处理器等的任何或所有有形存储器，或其相关模块，如各种半导体存储器、磁带驱动器、磁盘驱动器等，其可在任何时间为软件编程提供非暂时性存储。该软件的全部或部分有时可通过因特网或各种其他电信网络进行通信。例如，这样的通信可使得软件能够从一个计算机或处理器加载到另一个，例如从管理服务器或主计算机加载到应用服务器的计算机平台。因此，可承载软件元件的另一种类型的介质包括光波、电波和电磁波，诸如通过有线和光学陆上网络以及各种空中链路在本地设备之间的物理接口中使用的。携带这样的波的物理元件，如有线或无线链路、光链路等，还可被认为是携带该软件的介质。如本文所用的，除非限于非暂时性有形“存储”介质，否则诸如计算机或机器“可读介质”的术语是指参与向处理器提供用于执行的指令的任何介质。

因此，机器可读介质如计算机可执行代码可采取多种形式，包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘，诸如任何计算机中的任何存储装置等，诸如可用于实现图中所示的数据库等。易失性存储介质包括动态存储器，诸如这样的计算机平台的主存储器。有形传输介质包括同轴电缆、铜线和光纤，包括包含计算机系统内的总线的电线。载波传输介质可采取电或电磁信号或者声波或光波的形式，诸如在射频(RF)和红外(IR)数据通信期间所生成的信号。因此，计算机可读介质的常见形式包括例如：软盘、柔性盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、具有孔图案的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或匣盒、传输数据或指令的载波、传输这样的载波的电缆或链路、或计算机可从中读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多可涉及将一个或多个指令的一个或多个序列携带到处理器用于执行。

计算机系统701可包括电子显示器735或与电子显示器735进行通信，该电子显示器包括用于提供报告的输出的用户界面(UI)740，该报告可包含受试者的诊断或针对受试者的治疗干预。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。分析可作为报告提供。该报告可提供给受试者、医疗保健专业人员、实验室工作人员或其他个体。

本发明的方法和系统可通过一种或多种算法来实现。算法可在中央处理器1105执行时通过软件实现。该算法可例如促进病原体或其他靶核酸的富集、测序和/或检测。

可将关于患者或受试者的信息输入计算机系统，例如，患者背景、患者病史或医学扫描。计算机系统可用于分析来自本文所述的方法的结果，将结果报告给患者或医生，或者提出治疗计划。

试剂和试剂盒

还提供了用于实践本文所述的一种或多种方法的试剂和试剂盒。受试者的试剂及其试剂盒可有很大变化。感兴趣的试剂包括特别设计用于鉴别、检测和/或量化从受试者获得的样品中的一种或多种病原体或其他靶核酸的试剂。试剂盒可包含使用本文所述的方法如PCR和测序进行核酸提取和/或核酸检测所必需的试剂。该试剂盒可进一步包含用于数据分析的软件包，其可包括用于与测试曲线进行比较的参考曲线，并且特别地可包括参考数据库。试剂盒可包含试剂，诸如缓冲液和水。

此类试剂盒还可包含信息，诸如科学文献参考、包装插页材料、临床试验结果和/或这些的总结等，其表明或确立组合物的活性和/或优点，以及/或者描述剂量、施用、副作用、药物相互作用或对医疗保健提供者有用的其他信息。此类试剂盒还可包含访问数据库的指令。这些信息可基于各种研究，例如使用涉及体内模型的实验动物的研究和基于人类临床试验的研究等的结果。本文所述的试剂盒可提供、销售和/或推广给健康提供者，包括医生、护士、药剂师、处方人员等。在一些实施方案中，试剂盒还可直接销售给消费者。

本公开内容还提供了用于生成测序文库的试剂盒。该试剂盒可包含本文所述的至少一种合成核酸和用于测序文库反应的试剂。在一些情况下，试剂盒包含一种或多种测序衔接子和一种或多种载体核酸。试剂盒中的载体核酸可包括：i)一种或多种抗末端修复的载体核酸；ii)一种或多种抗连接的载体核酸；iii)一种或多种抗扩增的载体核酸；iv)一种或多种包含固定化标签的载体核酸；v)一种或多种具有允许基于大小的消耗的大小的载体核酸；和/或vi)其任意组合。例如，试剂盒可包含一种或多种测序衔接子和一种或多种抗末端修复的载体核酸。

试剂盒中测序文库衔接子的量与一种或多种载体核酸的量可处于一定比率。在一些情况下，测序文库衔接子的量与一种或多种载体核酸的量之比不大于1:10、1:5、1:1、5:1、10:1、20:1、50:1、100:1、500:1或1000:1。例如，测序文库衔接子的量与一种或多种载体核酸的量之比可不大于1:1。

载体核酸(CNA)

本公开内容提供了载体核酸(CNA)，特别是秘密(surreptitious)CNA，该秘密CNA含有被设计为将CNA从测序分析的一个或多个步骤中排除的特征。本公开内容还提供了使用能够逃避测序分析的一个或多个步骤的CNA的方法。尽管本文提供的CNA可表现得很秘密，但它们通常仍能够增加样品中总核酸的量，从而充当典型的“载体”核酸。当从样品制备测序文库时，载体核酸通常增强核酸量以提高产率和/或效率，并且可最终提高测序分析的准确度和/或灵敏度。当样品含有少量靶核酸(例如，小于1ng)时，载体核酸(包括本文提供的修饰的CNA)的添加可能特别有用，因为少量核酸可降低文库生成(例如，核酸提取、核酸纯化、核酸末端修复、衔接子连接等)的一个或多个步骤或在测序分析诸如扩增中的后续步骤的效率和/或产率。以其任何结构形式和/或具有或不具有一个或多个化学修饰的基于DNA和/或RNA的核酸可作为CNA被添加至感兴趣的核酸样品中。通常，CNA不干扰核酸测序，例如，通过抑制或通过占据测序通量的禁止部分。在一些情况下，将DNA CNA添加至DNA样品和/或RNA样品中。在一些情况下，将RNA CNA添加至DNA样品和/或RNA样品中。

表6：示例性载体核酸序列

可将本文提供的CNA设计或修饰用于避免测序文库生成的一个或多个步骤，诸如末端修复、片段化、扩增、连接和测序。可将CNA添加至测序文库制备中的一个或多个步骤。例如，如图8所示，可以在样品采集802期间或之后，样品制备(诸如血浆803的分离)期间或之后；核酸分离804或提取805之前、期间或之后，核酸纯化之前、期间或之后，核酸806末端修复之前、期间或之后，连接807或将衔接子附接至核酸的其他程序之前、期间或之后和/或扩增808之前或期间直接添加CNA。在某些情况下，可从测序分析中的步骤中去除CNA，例如通过酶消化、基于亲和力的消耗和/或基于大小的消耗。例如，可以以将CNA从被包括在序列文库中排除的方式从测序分析中的步骤中物理去除本文提供的CNA。在一些情况下，可从测序文库本身中物理去除CNA。

抵抗附接的CNA

本文提供的CNA可抵抗附接或连接至一个或多个测序衔接子和/或其他分子诸如靶核酸。在一些情况下，可以设计CNA以使得衔接子优先于CNA上的靶核酸连接。通过避免连接或附接至衔接子或靶核酸，CNA也可以避免被测序。

在一些情况下，特别是当使用连接将衔接子附接至样品中的核酸时，可以设计CNA以抵抗被包括在连接反应中。通常，连接反应涉及经由磷酸二酯键连接两个核酸。在一些情况下，可将CNA设计成具有抵抗连接反应的二级结构(例如，单链结构、发夹结构)。二级结构可含有RNA、DNA、ssDNA、dsDNA、DNA-RNA杂合体和/或其他特征。在一些情况下，CNA可含有阻断基团或被设计用于阻止连接的其他结构。

本文提供的CNA可含有被设计用于抵抗或减少附接或连接的单链和/或双链二级结构。CNA可含有一个或多个单链区，或者可以完全是单链的。单链区可在CNA的任何位置出现，但在一些优选的情况下，CNA在其一端或两端或在其一端或两端附近含有单链区。例如，CNA可含有来自一端或两端的50个核苷酸内的单链区，例如，来自一端或两端的50nt、45nt、40nt、35nt、30nt、25nt、20nt、15nt、10nt或5nt内。在一些优选的情况下，CNA可在其一端或两端(例如，在5’末端、在3’末端)含有单链区。在一些情况下，CNA可以完全是双链的或仅含有双链区。二级结构(特别是发夹环)可通过连接酶来阻止CNA的结合和/或识别。在一些情况下，CNA可含有Y形双链核酸，使得CNA的Y形部分不能连接或附接至另一个核酸。

可存在于本文提供的CNA中的发夹结构通常具有环和杂交区，例如发夹茎。例如，发夹可包含形成双链杂交区的两个互补区和连接两个互补区的环。互补区可包含至少5、10、15、20、30、40、50个核苷酸。环区可包含至少3、4、5、10、15、20、30、40、50个核苷酸。通常，发夹结构可以相对容易制造，因为它们通常仅是没有附接物的单链核酸。发夹可含有RNA或DNA。

本文提供的CNA可含有抵抗或减少附接或连接的环状结构。环状结构可以是环状DNA、环状RNA或环状DNA-RNA杂合体。在一些情况下，环状结构是环状DNA。环状结构可以是双链或单链的。环状结构可具有一定的长度，例如，至少圆形结构可以具有一定的长度，例如，至少5nt、10nt、20nt、30nt、32nt、40nt、50nt、60nt、70nt、80nt、90nt、100nt、120nt、140nt、160nt、180nt、200nt、250nt、300nt、400nt、500nt或1000nt。在一些情况下，环状结构包含约30至约100个核苷酸。在一些情况下，环状结构的大小可在约10个核苷酸至约10,000个核苷酸的范围内，例如在约100个核苷酸至约1,000个核苷酸范围内。在环状结构为双链的情况下，环状结构可具有至少10bp、20bp、30bp、40bp、50bp、60bp、70bp、80bp、90bp、100bp、120bp、140bp、160bp、180bp、200bp、250bp、300bp、400bp、500bp或1000bp的大小。在一些情况下，双链环状结构包含约30bp至100bp。在一些情况下，双链环状结构的大小可在约10个碱基对至约10,000个碱基对的范围内，例如在约100个碱基对至约1,000个碱基对的范围内。在一些情况下，环状结构可使CNA能够抵抗某种酶(例如，内切核酸酶)的消化。例如，CNA可含有双链环状结构，并且可抵抗内切核酸酶的消化，诸如消化双链线性DNA而不是双链环状DNA的内切核酸酶。在一些情况下，CNA主要或完全是环状的，例如环状双链DNA、环状单链DNA。在一些情况下，CNA包含抵抗内切核酸酶(例如，不结合和/或识别CNA二级结构的内切核酸酶)消化的二级结构。例如，CNA可包含双链DNA，该双链DNA通过识别单链DNA而不识别双链DNA的内切核酸酶来抵抗消化。又例如，CNA可包含单链DNA，该单链DNA通过识别双链DNA而不识别单链DNA的内切核酸酶来抵抗消化。

在一些情况下，CNA是双链的，具有一个或多个切口。切口在双链核酸分子中可以是不连续性的，其中在一条链的相邻核苷酸之间不存在磷酸二酯键。切口可通过酶产生，例如，切口内切核酸酶。在一些情况下，切口可通过酶(例如，连接酶)连接。在某些情况下，保护切口免于核酸外切酶消化和/或连接。

CNA可包含抵抗连接反应的一个或多个修饰(例如，修饰的核苷酸)。在一些情况下，修饰可以是阻止CNA与核酸连接的阻断基团。例如，CNA可在3’末端、5’末端或两端具有阻断基团。阻断基团可包含反向脱氧糖。反向脱氧糖可为反向脱氧糖、反向双脱氧糖或其他反向脱氧糖。反向脱氧糖可为3’反向脱氧糖或5’反向双脱氧糖。例如，阻断基团可为3’反向胸苷(dT)、3’反向腺苷(dA)、3’反向鸟苷(dG)、3’反向胞苷(dC)、3’反向脱氧尿嘧啶(dU)、5’反向二脱氧胸苷(ddT)、5’反向二脱氧腺苷(ddA)、5’反向双脱氧鸟苷(ddG)、5’反向双脱氧胞苷(ddC)、5’反向双脱氧尿嘧啶(ddU)或其任何类似物。在一些情况下，CNA包含3’反向胸苷。在一些情况下，CNA包含5’反向二脱氧胸苷。在一些情况下，CNA包含3’反向胸苷和/或5’反向双脱氧胸苷。在一些情况下，阻断基团包含双脱氧胞苷。在一些情况下，修饰包含尿嘧啶(U)碱基、2'OMe修饰的RNA、C3-18间隔区(例如，具有3-18个连续碳原子的结构)、生物素、双脱氧核苷三磷酸、乙二醇、胺和/或磷酸。

抵抗扩增的载体核酸

CNA可包含一个或多个抑制核酸扩增的核酸修饰，从而防止CNA在测序反应中被扩增。在一些情况下，修饰可防止核酸聚合酶起作用，例如通过停止或抑制(例如，减慢)聚合酶。在一些情况下，修饰可包含一个或多个无碱基位点。无碱基位点可指核酸中不具有碱基的位置。例如，核酸中的无碱基位点可在没有碱基的1’末端。无碱基位点可具有嘌呤或嘧啶结构、碱基类似物或磷酸骨架的类似物。在一些情况下，无碱基位点具有通过酰胺键、四氢呋喃或1’,2’-双脱氧核糖(dSpacer)连接的N-(2-氨基乙基)-甘氨酸的主链。在一些情况下，修饰可包含无碱基位点和修饰的糖残基，例如具有3个碳原子的糖残基，诸如部分核糖结构(例如，仅保留3’、4’、5’末端碳原子)以沿着骨架保持连通性。

无碱基位点可防止聚合酶扩增CNA。在一些情况下，CNA中的无碱基位点可抑制聚合酶(例如，Taq聚合酶)每个无碱基位点一个数量级。

本文提供的CNA可包含多个无碱基位点，例如，多个内部无碱基位点和一个或多个其他特征。CNA还可含有防止参与一个或多个文库制备反应的特征。例如，CNA可以以任何组合包含一个或多个内部无碱基位点，3’反向dT和/或5’反向ddT。

在一些情况下，CNA可含有抑制核酸扩增的其他修饰。在一些情况下，抑制核酸扩增的修饰包含尿嘧啶(U)碱基、2'OMe修饰的RNA、C3-18间隔区(例如，具有3-18个连续碳原子的结构，诸如C3间隔区)、乙二醇多聚体间隔区(例如，间隔区18(六乙二醇间隔区)、生物素、双脱氧核苷三磷酸、乙二醇、胺和/或磷酸。

修饰

CNA可包含至少一个、两个、三个、四个、五个、六个、七个、八个、九个、十个或更多个修饰(例如，无碱基位点)。在CNA包含多个修饰(例如，抑制核酸扩增的修饰)的情况下，可以对修饰进行簇集(例如，修饰彼此相邻地连续定位)。在一些情况下，一个或多个修饰位于CNA的5’末端。在一些情况下，一个或多个修饰位于CNA的3’末端。在一些情况下，一个或多个修饰位于CNA的3’末端和5’末端。在一些情况下，一个或多个修饰位于CNA的内部位置。例如，CNA可包含一个或多个内部dspacer(idsp)。

本文所述的修饰可包括2-氨基嘌呤、2,6-二氨基嘌呤、5-溴dU、脱氧尿苷、反向dT、反向双脱氧-T、双脱氧-C、5-甲基dC、脱氧肌苷、通用碱基诸如5-硝基吲哚、2'-O-甲基RNA碱基、Iso-dC、Iso-dG、核糖核苷酸、吗啉代、蛋白质核苷类似物、糖核苷酸类似物、锁定的核苷酸类似物、苏糖核苷酸类似物、链终止核苷酸类似物、硫脲苷、假尿苷、二氢尿苷、q核苷、丫苷核苷酸、无碱基位点、官能团，例如炔官能团、叠氮化物官能团诸如叠氮化物(NHS酯、非天然键，例如硫代磷酸酯键、间隔区，例如2'-双脱氧核糖(dSpacer)、己二醇、光-可切割的间隔区、具有不同碳原子数的不同长度间隔区，例如C3间隔亚磷酰胺、C9间隔区，例如三甘醇间隔区，C18和18-原子六乙二醇间隔区。这样的间隔区可在CNA或衔接子的5'末端或3'末端结合或可内部结合。此外，CNA的至少一条链可通过磷酸化修饰，例如包含5'磷酸或3'磷酸(例如，在互补链上)或两者。

酶识别位点

CNA可包含允许从测序文库中去除CNA的特征。这样的特征可包括酶识别位点。例如，CNA可以包一个或多个酶识别位点，使得合成核酸可被酶降解。在一些情况下，CNA可包含一个或多个不存在于靶核酸和衔接子中的酶识别位点。因此，可通过靶向识别位点的酶来去除载体核酸，而不会导致靶核酸或衔接子的酶促降解。

在一些情况下，CNA可包含核酸酶识别位点。例如，该核酸酶识别位点可为内切核酸酶识别位点。内切核酸酶可为I型、II型(包括IIS型、IIG型)、III型或IV型内切核酸酶。在一些情况下，内切核酸酶识别位点为限制性核酸酶识别位点。例如，内切核酸酶识别位点可为AatII、Acc65I、AccI、AclI、AatII、Acc65I、AccI、AclI、AfeI、AflII、AgeI、ApaI、ApaLI、ApoI、AscI、AseI、AsiSI、AvrII、BamHI、BclI、BglII、Bme1580I、BmtI、BsaHI、BsiEI、BsiWI、BspEI、BspHI、BsrGI、BssHII、BstBI、BstZ17I、BtgI、ClaI、DraI、EaeI、EagI、EcoRI、EcoRV、FseI、FspI、HaeII、HincII、HindIII、HpaI、KasI、KpnI、MfeI、MluI、MscI、MspA1I、MfeI、MluI、MscI、MspA1I、NaeI、NarI、NcoI、NdeI、NgoMIV、NheI、NotI、NruI、NsiI、NspI、PacI、PciI、PmeI、PmlI、PsiI、PspOMI、PstI、PvuI、PvuII、SacI、SacII、SalI、SbfI、ScaI、SfcI、SfoI、SgrAI、SmaI、SmlI、SnaBI、SpeI、SphI、SspI、StuI、SwaI、XbaI、XhoI、XmaI的识别位点。酶识别位点可为以上未提及的DNA酶(例如，外切核糖核酸酶)的位点。酶识别位点可为尿嘧啶DNA糖基化酶(UDG)、DNA糖基化酶-裂合酶(内切核酸酶VIII)或其混合物(例如，尿嘧啶特异性切除试剂(USER)酶)的位点。例如，CNA可包含一种或多种尿嘧啶(例如，内尿嘧啶)。酶识别位点可为RNA指导的DNA酶(例如，CRISPR相关蛋白核酸酶，例如，Cas9)的位点。在某些情况下，核酸酶识别位点可为RNA酶的公认位点，例如内切核糖核酸酶，诸如RNA酶A、RNA酶H、RNA酶III、RNA酶L、RNA酶P、RNA酶PhyM、RNA酶T1、RNA酶T2、RNA酶U2、RNA酶V，或核糖核酸外切酶，诸如多核苷酸磷酸化酶、RNA酶PH、RNA酶R、RNA酶D、RNA酶T、寡核糖核酸酶、核糖核酸外切酶I或核糖核酸外切酶II。在一些特定情况下，CNA可含有限制酶识别位点，并且本文提供的方法可包括用识别该位点的限制酶来消化CNA。在一些情况下，CNA包含可被酶(例如，结合和/或降解CNA的酶)识别的二级或三级结构、核酶、适体和基于DNA的催化或结合聚合物。在一些情况下，CNA包含一种或多种可被酶识别的特异性结合核酸序列。

在一些情况下，CNA可包含可被DNA酶或RNA酶降解的DNA-RNA杂合体。在一些情况下，CNA包含DNA-RNA-DNA杂合体。这样的分子可以是双链的。CNA的末端区域可包含脱氧核糖核苷酸。内部区域可包含核糖核苷酸。在一些情况下，DNA-RNA杂合体能够与靶核酸或衔接子连接；然后DNA-RNA杂合体在测序之前(例如，在扩增步骤之前)可被RNA酶消化。在一些特定情况下，DNA-RNA杂合体被消化(例如，被RNA酶消化)，而靶核酸(例如，DNA，诸如无细胞DNA)不被RNA酶消化。

在CNA的DNA部分足够长以抵抗扩增的情况下，可能不需要RNA酶消化步骤以在测序之前去除DNA-RNA杂合体。或者，在DNA-RNA杂合分子在扩增前被酶促消化降解的情况下，DNA-RNA杂合体可能不需要具有抵抗扩增的大小或长度。

基于大小的消耗的CNA

CNA可具有一定大小，使得它们可通过基于大小的消耗与测序文库分离。在一些情况下，CNA的长度大于靶核酸的长度或者大于靶核酸的平均长度。例如，CNA的长度可以是靶核酸的长度或者靶核酸的平均长度的1.5倍、2倍、3倍、4倍、5倍、10倍、20倍或50倍。CNA可具有至少150bp、200bp、300bp、400bp、500bp、600bp、800bp、1kb、2kb、5kb或10kb的长度。例如，CNA可具有至少500bp的长度。在一些情况下，CNA的大小可在约150bp至约1000bp的范围内。在一些情况下，CNA的大小可高达2kb。在一些情况下，CNA的长度是比靶核酸的长度或者比靶核酸的平均长度更短的长度。例如，CNA的长度可以是靶核酸的长度或者靶核酸的平均长度的至多99％、95％、90％、80％、60％、50％、40％、20％或10％。在一些情况下，CNA的大小可以是靶核酸大小或靶核酸的平均大小的至多50％。在某些情况下，CNA具有与靶核酸的长度或靶核酸的平均长度基本相同的长度。

具有允许基于大小的消耗的大小或长度的CNA还可以含有本公开内容中所述的任何修饰，例如，用于防止连接、扩增、末端修复或其组合的修饰。在一些情况下，CNA的一端或两端可含有一个或多个修饰。在一些情况下，修饰可为内部修饰，例如，内部无碱基位点或末端修饰和内部修饰的组合。

在一些特定实例中，CNA可具有更长的长度，其能够进行基于大小的消耗以及修饰(例如，末端修饰)诸如阻止连接的反向碱基。防止或阻止连接的其他结构组合也是可能的(例如，发夹环、与末端修饰结合的发夹环)。在一些情况下，CNA可包含一个或多个发夹结构和一个或多个无碱基位点。在一些特定情况下，CNA可具有大于500bp的大小或长度并且在一端上具有3’反向dT、5’反向ddT、C3间隔区或间隔区18或发夹结构。在一些特定情况下，CNA可具有大于600bp的大小或长度并且在一个或多个内部无碱基位点的一端具有3’反向dT、5’反向ddT。

固定化标签

CNA可包含一个或多个固定化标签。固定化标签可用于通过基于亲和力的消耗来从溶液(例如，测序文库的溶液)中去除CNA。例如，可将固定化标签附接至到固体支撑物，例如珠或板。当使溶液与固体载体接触时，可从溶液中去除CNA。包含一个或多个固定化标签的CNA可以比靶核酸短。或者，CNA分子可以比靶核酸长，例如，以使CNA到测序反应中的转移最小化。

固定化标签可包括生物素、洋地黄毒苷、镍-氨三乙酸、脱硫生物素、组氨酸、聚组氨酸、MYC、血凝素(HA)、FLAG，荧光标签、串联亲和纯化(TAP)标签、谷胱甘肽S转移酶(GST)、多核苷酸、适体、多肽(例如，抗原或抗体)或其衍生物。例如，CNA可包含生物素，例如内部或末端生物素化的链。在一些情况下，固定化标签可包括易受磁性影响的材料，例如磁铁或易受磁性影响的金属。在一些特定实例中，生物素化的CNA可在扩增步骤之前实现来自样品或测序文库的CNA的基于磁珠的消耗(例如，经由抗生物素蛋白-磁珠)。在一些情况下，CNA包含可附接至固体支撑物或与固定化标签结合的二级或三级结构。

在一些情况下，靶核酸和/或测序文库核酸包含一个或多个固定化标签。在这些情况下，与靶核酸相比，CNA不包含固定化标签或包含不同的固定化标签。因此，可使用不同的固定化标签通过基于亲和力的消耗将CNA与靶核酸和/或测序文库核酸分离。例如，可将靶核酸和/或测序文库核酸固定在固体支撑物上，同时可洗去CNA。在一些情况下，CNA直接或间接与固定化标签连接。在一些情况下，将CNA从固定化标签上切割下来。

CNA可包括本文公开的特征和结构的组合。在一些情况下，CNA包含一个或多个抑制核酸扩增的修饰和一个或多个抵抗连接反应的修饰。例如，CNA包含一个或多个无碱基位点(例如，内部dspacer)和反向脱氧碱基(例如，3’反向胸苷)。包含修饰的CNA可进一步包含酶识别位点和/或固定化标签。在某些情况下，CNA包含具有一个或多个固定化标签的DNA-RNA杂合体，例如生物素化的DNA-RNA-DNA杂合分子。CNA还可具有对特定酶或蛋白质具有高亲和力的核酸的二级和/或三级结构，或任何基于非氨基酸的催化或亲和单元，例如核酶、基于DNA的催化聚合物和分子印迹聚合物。

载体核酸与样品中核酸的比率

可将一定量的CNA添加至包含核酸的样品中，例如，用于从样品中核酸制备测序文库。在一些情况下，样品中总核酸的量与添加至样品中的CNA的量的比率为至少1:100、1:50、1:10、1:1、10:1、50:1、100:1、500:1、1000:1、2000:1或5000:1。在一些情况下，样品中靶核酸的量与添加至样品中的CNA的量的比率为至少1:100、1:50、1:10、1:1、10:1、50:1、100:1、500:1、1000:1、2000:1或5000:1。在一些情况下，样品中总核酸的量与添加至样品中的CNA的量的比率为至多10:1、1:1、1:10、1:50、1:100、1:500、1:1000、1:2000或1:5000。在一些情况下，样品中靶核酸的量与添加至样品中的CNA的量的比率为至多10:1、1:1、1:10、1:50、1:100、1:500、1:1000、1:2000或1:5000。在一些情况下，样品中总核酸的量与添加至样品中的CNA的量的比率在约1:1至约1:100的范围内。在一些情况下，样品中靶核酸的量与添加至样品中的CNA的量的比率在约1:1至约1:100的范围内。在一些情况下，比率为摩尔比。

用于在生成测序文库时使用CNA的方法

本文公开了包括用于制备测序文库的方法。该方法可包括添加本文公开的CNA以提高测序文库生成的效率和/或产率。测序文库可指经受测序的核酸分子群。该方法可涉及获得包含靶核酸和/或衔接子(例如，测序衔接子)和一种或多种CNA的样品。该方法可进一步包括用于生成测序文库的一个或多个步骤。该方法还可以包括对测序文库中的一种或多种核酸进行测序。可以不对CNA进行测序，例如，可以从文库中物理地去除CNA，或者可以设计CNA使得它们不参与测序文库生成中的一个或多个步骤。

该方法可包括在包含靶核酸和/或衔接子的样品中添加CNA。样品中添加的CNA的量可为至少0.1ng、0.5ng、1ng、5ng、10ng、20ng、30ng、40ng、50ng、60ng、70ng、80ng、90ng、100ng、150ng、200ng、300ng、400ng或500ng。在一些情况下，CNA的量可为0.1ng至200ng、1ng至100ng、5ng至80ng、10ng至60ng或20ng至50ng。样品中CNA的浓度可为至少0.1ng/mL、0.5ng/mL、0.6ng/mL、0.8ng/mL、1ng/mL、2ng/mL、5ng/mL、10ng/mL、0.01ng/μL、0.05ng/μL、0.1ng/μL、0.2ng/μL、0.4ng/μL、0.8ng/μL、1ng/μL、1.2ng/μL、1.5ng/μL、2ng/μL、5ng/μL或10ng/μL。在一些情况下，在样品中添加的CNA的量可在约1ng/15μL至约5ng/15μL的范围内。在一些情况下，在样品中添加的CNA的量可在约0.05ng/μL至约0.5ng/μL的范围内。

本文的方法可包括添加本公开内容自始至终描述的任何类型的合成核酸。例如，该方法可包括添加以下合成核酸中的一种或多种：用于测序文库生成的合成核酸、用于使靶核酸相对丰度归一化的合成核酸(例如，已知浓度的合成核酸)和/或用于确定样品中核酸多样性损失的合成核酸。

核酸提取

该方法可包括从样品中提取核酸(例如，靶核酸、无细胞核酸)。提取可包括将核酸与可存在于样品中的其他细胞组分和污染物例如生物流体或组织样品分离。在一些情况下，通过苯酚氯仿提取或通过有机溶剂(例如，乙醇或异丙醇)沉淀来进行提取。在一些情况下，使用核酸结合柱进行提取。在一些情况下，使用市售试剂盒进行提取，诸如QiagenQiamp Circulating Nucleic Acid Kit Qiagen Qubit dsDNA HS Assay试剂盒、Agilent^TMDNA 1000试剂盒、TruSeq^TM测序文库制备或核酸结合旋转柱(例如，Qiagen DNAmini-prep试剂盒)。在一些情况下，无细胞核酸的提取可涉及过滤或超滤。

可在提取之前或期间将CNA添加至样品中。例如，可以在将载体核酸与提取试剂(例如，提取缓冲液)混合之前将载体核酸添加至样品中。或者，可将载体核酸添加至提取试剂中，例如，随后与样品混合的提取缓冲液。在某些情况下，还可以将CNA添加至样品和提取试剂(例如，提取缓冲液)的混合物中。在这些情况下，可同时提取靶核酸和CNA。

将CNA添加至样品可提高核酸提取的产率。与CNA一起提取靶核酸的产率可高于在没有CNA的情况下提取靶核酸的产率，例如，至少10％、20％、40％、60％、80％、100％、2倍、4倍、6倍、8或10倍。在一些情况下，在核酸提取后可将CNA添加至包含靶核酸的样品中。提取可产生至少10ng、50ng、100ng、200ng、300ng、400ng、500ng、600ng、700ng、800ng、900ng或1000ng核酸。

核酸纯化

该方法可包括纯化靶核酸。示例性的纯化方法包括乙醇沉淀、异丙醇沉淀、苯酚氯仿纯化和柱纯化(例如，基于亲和力的柱纯化)、透析、过滤或超滤。

可在纯化之前或期间将CNA添加至样品中。例如，可以在将载体核酸与纯化试剂(例如，纯化缓冲液)混合之前将载体核酸添加至样品中。或者，可将载体核酸添加至纯化试剂中，例如，随后与样品混合的纯化缓冲液。在某些情况下，还可以将CNA添加至样品和纯化试剂(例如，纯化缓冲液)的混合物中。在这些情况下，可同时纯化靶核酸和CNA。

将CNA添加至样品可提高核酸纯化的产率。与CNA一起纯化靶核酸的产率可高于在没有CNA的情况下纯化靶核酸的产率，例如，至少10％、20％、40％、60％、80％、100％、2倍、4倍、6倍、8或10倍。在一些情况下，在核酸纯化后可将CNA添加至包含靶核酸的样品中。在一些情况下，添加CNA的样品中核酸的纯化产生样品中总核酸的至少1pg、10pg、50pg、100pg、500pg、1ng、5ng、10ng、50ng、100ng、200ng、300ng、400ng、500ng、600ng、700ng、800ng、900ng或1000ng。在一些情况下，添加CNA的样品中核酸的纯化产生样品中靶核酸的至少1pg、10pg、50pg、100pg、500pg、1ng、5ng、10ng、50ng、100ng、200ng、300ng、400ng、500ng、600ng、700ng、800ng、900ng或1000ng。

片段化

该方法可包括将靶核酸片段化。可通过例如机械剪切、使样品通过注射器、超声处理、热处理或其组合来进行靶核酸的片段化。在一些情况下，通过使用酶(包括核酸酶或转座酶)来进行靶核酸的片段化。用于片段化的核酸酶可包含限制性内切核酸酶、归巢内切核酸酶、切口内切核酸酶、高保真度限制酶或本文公开的任何酶。该方法可包括将靶核酸片段化成一定长度的片段，例如，至少50、60、80、100、120、140、160、180、200、300、400、500、1000、2000、4000、6000、8000或10000bp的长度。可在靶核酸的片段化之前将CNA添加到样品中。可在靶核酸的片段化之后将CNA添加到样品中。

A-加尾

该方法可包括对靶核酸进行A-加尾。可通过使用一种或多种A-加尾酶来进行A-加尾反应。例如，可通过将DNA片段与dATP和非校正DNA聚合酶一起温育来添加腺嘌呤(A)残基，其将添加单个3′A残基。在A-加尾之前可将CNA添加至包含靶核酸的样品中。或者，在A-加尾之后可将CNA添加至包含靶核酸的样品中。

末端修复

该方法可包括对靶核酸进行末端修复。例如，可对靶核酸进行末端修复，因此它们可以适用于测序文库制备的其他步骤。可通过使用一种或多种末端修复酶来进行末端修复反应。用于修复DNA的酶可包括聚合酶和外切核酸酶。例如，聚合酶可从5'到3'方向填充DNA链的缺失碱基。得到的双链DNA可具有与原始最长DNA链基本相同的长度。外切核酸酶可去除3'突出端。得到的双链DNA可具有与原始最短DNA链基本相同的长度。

在末端修复前可将CNA添加至包含靶核酸的样品中。在一些情况下，添加CNA提高了末端修复反应的效率，例如提高至少10％、20％、40％、60％、80％或100％。在一些情况下，在末端修复后可将CNA添加至包含靶核酸的样品中。在某些情况下，添加CNA可保持酶(例如，末端修复酶)的活性和/或功能。例如，酶可以在具有少量核酸的样品中具有降低的活性和/或异常功能，并且添加CNA可增加样品中的总核酸量，使得酶可在样品中正常发挥作用。

衔接子附接

该方法可包括将一个或多个衔接子附接至靶核酸。可通过引物延伸、逆转录或杂交将衔接子附接到靶核酸。在一些情况下，通过连接将衔接子附接至靶核酸。例如，可通过连接酶将衔接子附接至靶核酸。例如，可通过粘端连接或平端连接将衔接子附接至靶核酸。在一些情况下，可通过转座酶将衔接子附接至靶核酸。可在3’末端、5’末端或两个末端将靶核酸附接至衔接子。在一些情况下，在两个末端将靶核酸附接至相同的衔接子或不同的衔接子。在一些情况下，可在一个末端将靶核酸附接至一个或多个衔接子。

可在附接步骤之前添加CNA。或者，可在附着步骤之后添加CNA。CNA可抵抗连接反应。例如，CNA可抵抗与靶核酸和/或衔接子的连接。在这些情况下，当在附接步骤之前添加CNA时，它们不与靶核酸或衔接子连接，并且在测序步骤中不会被测序。在其他情况下，可在附接步骤之前从样品中去除CNA。或者，可在样品提取之后和附接步骤之前去除CNA。

在将衔接子附接至样品中的靶核酸之前，可用酶处理样品。例如，可用内切核酸酶处理样品以产生连接位点，例如粘端或平端。或者，在衔接子附接于靶核酸后，可用酶处理样品。

扩增

该方法可包括扩增靶核酸。扩增可指用于增加核酸序列的拷贝数目的任何方法。例如，可用聚合酶进行扩增，例如在一个或多个聚合酶链反应中进行。可使用本领域已知的方法进行扩增。这些方法通常取决于核酸或其互补物的多个拷贝的产物催化形成。其中一种方法为聚合酶链反应(PCR)，其包括AFLP(扩增片段长度多态性)PCR、等位基因特异性PCR、Alu PCR、装配、不对称PCR、菌落PCR、解旋酶依赖性PCR、热启动PCR、反向PCR、原位PCR、交叉序列特异性PCR或IS SR PCR、数字PCR、液滴数字PCR、线性指数PCR、长PCR、巢式PCR、实时PCR、双重PCR、多重PCR、定量PCR或单细胞PCR。也可使用其他扩增方法，其包括连接酶链反应(LCR)、基于核酸序列的扩增(NASBA)、线性扩增、等温线性扩增、Q-β-复制酶方法、3SR、转录介导的扩增(TMA)、链置换扩增(SDA)或滚环扩增(RCA)。

可在扩增之前添加CNA。或者，可在扩增之后添加CNA。CNA可能不会被扩增。例如，CNA可包含抑制扩增的修饰。在这些情况下，当在扩增前添加CNA时，它们不会被扩增。因此，CNA可能不在测序文库中或不会被测序。

CNA的去除

该方法可进一步包括从样品中去除CNA，这通常防止CNA被测序。在一些情况下，该方法包括从样品中去除一些或所有CNA以制备测序样品。得到的测序样品可能不含有CNA，并且可能准备好进行测序。在一些情况下，该方法包括优先去除样品中其他核酸的至少一种CNA，例如靶核酸、衔接子或衔接子的多聚体。

可使用酶进行去除CNA。例如，CNA可被酶降解，例如通过酶消化。在一些情况下，该方法包括使用核酸酶去除CNA。例如，该方法可包括使用内切核酸酶去除CNA，例如I型、II型(包括IIS型、IIG型)、III型或IV型内切核酸酶。该方法可包括使用限制性内切核酸酶例如AatII、Acc65I、AccI、AclI、AatII、Acc65I、AccI、AclI、AfeI、AflII、AgeI、ApaI、ApaLI、ApoI、AscI、AseI、AsiSI、AvrII、BamHI、BclI、BglII、Bme1580I、BmtI、BsaHI、BsiEI、BsiWI、BspEI、BspHI、BsrGI、BssHII、BstBI、BstZ17I、BtgI、ClaI、DraI、EaeI、EagI、EcoRI、EcoRV、FseI、FspI、HaeII、HincII、HindIII、HpaI、KasI、KpnI、MfeI、MluI、MscI、MspA1I、MfeI、MluI、MscI、MspA1I、NaeI、NarI、NcoI、NdeI、NgoMIV、NheI、NotI、NruI、NsiI、NspI、PacI、PciI、PmeI、PmlI、PsiI、PspOMI、PstI、PvuI、PvuII、SacI、SacII、SalI、SbfI、ScaI、SfcI、SfoI、SgrAI、SmaI、SmlI、SnaBI、SpeI、SphI、SspI、StuI、SwaI、XbaI、XhoI、XmaI或其任何组合去除CNA。该方法可包括使用以上未提及的DNA酶(例如，外切脱氧核糖核酸酶)去除CNA。该方法可包括使用尿嘧啶DNA糖基化酶(UDG)、DNA糖基化酶-裂合酶(内切核酸酶VIII)或其混合物(例如，尿嘧啶特异性切除试剂(USER)酶)去除CNA。该方法可包括使用RNA指导的DNA酶(例如，CRISPR相关蛋白核酸酶，例如，Cas9)去除CNA。RNA酶，该方法可包括使用RNA酶去除载体合成核酸，例如内切核糖核酸酶，诸如RNA酶A、RNA酶H、RNA酶III、RNA酶L、RNA酶P、RNA酶PhyM、RNA酶T1、RNA酶T2、RNA酶U2、RNA酶V，或核糖核酸外切酶，诸如多核苷酸磷酸化酶、RNA酶PH、RNA酶R、RNA酶D、RNA酶T、寡核糖核酸酶、核糖核酸外切酶I或核糖核酸外切酶II或其任何组合。在一些情况下，该方法包括使用本领域已知的任何核酸降解试剂去除CNA。在一些情况下，该方法可包括使CNA经受物理处理(例如，加热、冷却或剪切)来去除CNA。在一些情况下，用于去除CNA的方法不会从样品中去除测序文库中的靶核酸、衔接子或任何其他分子。在某些情况下，不会通过酶降解(例如，内切核酸酶消化)来进行的CNA的去除。

为了去除CNA，该方法可以包括在酶起作用的温度下将CNA与酶一起温育。例如，该方法可包括10℃至80℃，例如20℃至60℃、20℃至40℃、30℃至40℃或20℃至25℃的温度下下将CNA与酶一起温育。该方法可包括在至少10℃、20℃、25℃、30℃、31℃、32℃、33℃、34℃、35℃、36℃、37℃、38℃、39℃、40℃、50℃、60℃或70℃的温度下将CNA与酶一起温育。在一些情况下，该方法可包括在约20℃、21℃、22℃、23℃、24℃、25℃、26℃、27℃、28℃、29℃、30℃、31℃、32℃、33℃、34℃、35℃、36℃、37℃、38℃、39℃、40℃、41℃或42℃的温度下将CNA与酶一起温育。

为了去除CNA，该方法可包括将CNA与酶一起温育一段时间以使酶起作用。在一些情况下，该方法可包括将CNA与酶一起温育至少1分钟、5分钟、10分钟、15分钟、20分钟、30分钟、40分钟、50分钟、1小时、2小时、5小时、12小时、24小时、48小时或72小时。

该方法可包括通过基于亲和力的消耗来去除载体合成核酸。基于亲和力的消耗可在载体合成核酸上进行，该载体合成核酸可包含一个或多个固定化标签。在这些情况下，该方法可包括通过将固定化标签附接至固体支撑物来去除CNA。这样的固体载体可为纸、玻璃(例如，可控孔径玻璃(CPG))、塑料(例如，聚甲基丙烯酸、聚乙烯、聚丙烯、聚丙烯酸酯、聚甲基丙烯酸甲酯、聚氯乙烯、聚四氟乙烯、聚苯乙烯、聚碳酸酯大孔聚苯乙烯(MPPS)或尼龙)、聚丙烯酰胺、醋酸纤维素、硝酸纤维素、硝酸纤维素、硅或其他金属或光纤。

基于亲和力的消耗的固体支撑物可模塑成任何形状和形式。在一些情况下，固体载体可以以平面装置的形式制造，该平面装置具有井、槽、基座、疏水或亲水贴片、模切粘合剂储存器或流体流动的其他物理障碍形式的离散隔离区域。这样的固体支撑物的实例包括载玻片、微孔板、片、膜、试纸等。

在其他情况下，固体支撑物可以是含有涂覆的阳离子表面的珠或丸的形式。珠可提供增加涂覆的固体载体上的探针密度的手段。珠可提供各种适用于通过例如胺化使珠阳离子化的表面化学或功能(例如，胺、羧基或羟基)。合适的珠的组合物包括，例如，塑料，诸如聚苯乙烯、甲基苯乙烯、丙烯酸聚合物、陶瓷、玻璃、聚合物材料，诸如交联的葡聚糖、纤维素、尼龙和胶乳、顺磁性材料、二氧化钛、胶乳。珠可包括任何类型的实心或空心的球体、球、轴承、圆柱或其他实心配置。珠在本质上可以是多孔的或无孔的。多孔珠的使用可增加可用于核酸检测的珠的表面积。珠的大小可为100nm至5mm，例如，0.2μm至200μm或0.5μm至5μm。在一些情况下，固体支撑物可以是磁性的或易受磁性影响的。固体支撑物可被涂覆。涂层可与固定化标签结合。例如，可用固定化标签的结合配偶体例如链霉亲和素、抗原、抗体(例如，抗多组氨酸抗体)、谷胱甘肽S转移酶或其类似物来涂覆固体支撑物。

该方法可包括通过基于大小的消耗来去除CNA。例如，可使用多孔珠(例如，固相可逆固定(SPRI)磁珠、电泳凝胶纯化(例如，琼脂糖凝胶纯化)和/或凝胶过滤)进行基于大小的消耗。在一些情况下，该方法可包括去除长度为至少50bp、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kp、5kb或10kb的合成核酸。例如，该方法可包括去除长度为至少500bp的合成核酸。

测序

该方法可包括对测序文库中的靶核酸和/或衔接子进行测序。可通过基本测序方法进行测序，该方法包括Maxam-Gilbert测序、链终止测序、鸟枪测序或桥式PCR。测序也可通过大规模平行测序方法(例如，下一代测序)进行，该大规模平行测序方法包括高通量测序、焦磷酸测序、合成测序、单分子测序、纳米孔测序、半导体测序、连接测序、杂交测序、RNA-Seq(Illumina)、数字基因表达(Helicos)、下一代测序、合成单分子测序(SMSS)(Helicos)、大规模平行测序、克隆单分子阵列(Solexa)、鸟枪测序、Maxam-Gilbert或Sanger测序、引物步移、用Illumina、PacBio、SOLiD、Ion Torrent、454或纳米孔平台测序。在通过下一代测序方法进行测序的情况下，本文生成的测序文库为下一代测序文库。

如本文说明书自始至终所用的，当提及数字或数字范围时，术语“约”是指所提及的数字或数字范围是实验可变性内(或统计实验误差内)的近似值，并且该数字或数字范围可在例如所述数字或数字范围的1％至15％之间变化。在实例中，术语“约”是指所述数字或数值的±10％。

如本文所用的，除非另有说明，术语“或”用于指非排他性的“或”，诸如“A或B”包括“A而不是B”、“B而不是A”和“A和B”。

实施例

实施例1：通过无细胞DNA测序分析进行诊断

制备无细胞血浆样品。如前所述制备用于下一代测序的DNA文库(De Vlaminck I,Khush KK,Strehl C,等人Temporal response of the human virome toimmunosuppression and antiviral therapy.Cell 2013；155(5):1178-87.；De VlaminckI,Martin L,Kertesz M,等人Noninvasive monitoring of infection and rejectionafter lung transplantation.Proceedings of the National Academy of Sciences ofthe United States of America 2015；112(43):13336-41.；其中的每一个均通过引用整体并入本文)。在Illumina NextSeq仪器上进行测序并分析。简言之，在去除低质量读取后，将读取映射到人参考基因组(例如，hg19)。将剩余的读取映射到病毒、细菌、真菌和其他真核病原体的精选参考数据库。个体病原体的丰度表示为每体积的基因组拷贝，每1ml血浆中来自特定病原体的核酸量的绝对量度。可以进行进一步分析以鉴别已知赋予抗性的序列。

患者血浆的直接下一代测序(NGS)

在DNA提取之前，将已知浓度的合成DNA分子掺入血浆样品。使用改进的基于磁珠的方法(Omega Biotek,Norcross,GA)来提取DNA。使用改进的文库制备试剂盒(NuGEN,SanCarlos,CA)来构建NGS文库。将阴性(含有缓冲液但不含血浆)和阳性(含有来自健康供体的血浆加上已知浓度的剪切的，实验室衍生的病原体DNA)对照样品与样品一起处理。所有三种DNA文库类型在Illumina NextSeq上使用75个循环的单端双指数测序试剂盒进行多重化和测序。

生物信息学分析

从NGS读取组量化病原体读取。简言之，在丢弃低质量读取之后，通过与人参考序列(例如，hg19)比对来去除人读取。通过与完整掺入序列的数据库比对来鉴别合成掺入读取。剩余的读取与病毒、原核生物和真核生物(包括真菌、原生动物和寄生物)的超过8000个参考序列的针对性数据库进行比对。基于比对鉴别并去除假定来源于PCR复制或测序仪器错误的重复读取。生物体的相对丰度表示为估计的重复读取(EDR)，或每百万读取(RPM，相对于样品的总读取进行归一化)，或每体积样品的读取(MPM，每微升的分子)。MPM为归一化的量，其计算1微升血浆中每种生物体代表的核酸片段的估计数量。该计算来源于每种生物体存在的序列的数目，将该数目相对于在提取开始时掺入血浆中的合成DNA的已知量进行归一化。

两个患者样品的处理描述如下：将Spank-75B(SEQ ID NO:120)、Spark-32/52/75/100/125/150/175/350(SEQ ID NO:111-118)和ID-Spike(每个掺入的每微升血浆的3×10⁵个分子)的混合物掺入血浆。每个样品都接收相同的Spank/Spark混合物，但接收不同的ID-Spike。将掺入的血浆以16,000g离心10分钟，并且将由无细胞血浆组成的上清液转移到新管中。在无细胞DNA提取和文库制备以添加双指数Illumina衔接子后，合并样品以及平行处理的阴性和阳性对照样品，然后在Illumina NextSeq上测序。通常，一批中的样品中分布有大约4亿个读取，任何单个样品的读取与样品所包含的总文库池的分数成比例，并且该分数又与无细胞血浆中的DNA的量成比例。

计算分析：基于相应的衔接子条形码序列(“多路分解”)来鉴别单个样品的读取。在去除衔接子二聚体序列和基于质量的读取修剪后，通过与人基因组、掺入和病原体基因组参考序列比对来确定读取序列的可能来源。使用掺入比对来计数ID-Spike和SPANK-75B读取的数目；使用嵌入每个掺入的分子内的随机序列标签对SPANK-75B读取进行去重复。基于基因组位置重复进行病原体比对，并且使用机器学习方法确定每个读取最可能的分类学起源，以得到归因于特定病原体的估计的重复读取。归一化的病原体丰度以浓度表示为每微升的病原体分子(MPM-Spank)，并如下计算：MPM-Spank＝(估计的重复读取/SPANK-75B读取的数目)×c，其中c为掺入到样品中的SPANK-75B读取的浓度，即每微升3x10⁵个读取。

对于测序批次中的每个样品，ID-Spike可以是独特的掺入类型。SPANK分子可以在所有文库中以恒定浓度掺入。因此，在特定文库中检测到的重复SPANK分子的数目可以代表该文库中可检测的最小浓度。更通常地，它可以与该文库转化原始样品中的核酸(例如，DNA)分子以读取核酸测序数据的效率成比例。SPANK分子的目的可以是帮助确定样品中所示混合物内的靶标(例如，病原体或疾病相关)分子的相对丰度。

实施例2：ID Spike的合成和处理

通过使由Integrated DNA Technologies合成的互补100mer寡核苷酸对退火构建了110个示例性ID Spike(ID Spike 28-137，序列列于表1中)。然后将这些序列分成4组，添加至4等份的人血浆中，提取并与血浆的无细胞DNA一起加工成测序文库，并在IlluminaNextSeq500仪器上测序。确定映射到110个ID Spike中每一个的读取的数目，然后归一化为每百万总读取。图9示出了表明每百万总读取的约12,000的最小值和约88,000的最大值的图。

可调整来自ID Spike的信号。可通过例如基于图9所示的中值信号调整每个IDSpike的输入量来对ID Spike信号进行归一化。如图10所示，重新测试信号归一化的IDSpike导致更均匀的读取计数。在这样的情况下，映射到每个ID Spike的读取的数目在每百万总读取10,000到25,000的范围内，并且大多数ID Spike具有在每百万读取总数15,000到20,000范围内的读取的数目。均衡不同的ID Spike信号或对不同的ID Spike信号进行归一化的益处是它可以提高交叉污染检测的精度。例如，如果一个ID Spike通常每百万提供70,000个读取而另一个ID Spike提供19,000个，则后者可能是一个较不敏感的交叉污染追踪物；对两个ID Spike之间的信号进行归一化可以提供更多的均匀性。

实施例3：使用ID Spike测量样品的交叉污染

制备四个样品。将ID Spike 124-127添加至样品1中。将ID Spike 128-131添加至样品2中。将ID Spike 132-134添加至样品3中。将ID Spike 135-137添加至样品4中。对四个样品进行处理和测序。如表7中的ID Spike的子集所示，表明交叉污染(例如，归因于其中没有故意添加ID Spike的样品中ID Spike的读取)小于1:10,000。

表7：

实施例4：使用ID Spike测量样品的交叉污染

制备四个样品。将ID Spike 124添加至样品A中。将ID Spike 123添加至样品B中。将ID Spike 122添加至样品C中。将ID Spike 119添加至样品D中。对四个样品进行处理和测序。如表8所示，来自样品A和样品B中的ID Spike 123和ID Spike 124的大量读取表示两种ID Spike原液之间或样品A和样品B之间的交叉污染。

表8：

实施例5：使用ID Spike鉴别交叉污染源

在一些样品中，基本上仅鉴别出1个ID Spike，但在其他样品中，在显著水平上观察到几个污染的ID Spike。在这样的情况下，如表9所示，污染的ID Spike的特性可以告知例如来自微量滴定板的相邻孔的交叉污染源。

表9：

实施例6：用于鉴别病原体DNA阳性对照的交叉污染的追踪序列

将实验室病原体DNA样品用作阳性对照，但存在交叉污染临床样品并产生假阳性读取或诊断的风险。将追踪物添加至实验室病原体DNA样品中以实现交叉污染检测。在NGS检测来自血液的无细胞病原体DNA片段的情况下，可以使用相对较短的追踪物，因为无细胞病原体片段相对较短，例如，20-120bp并且通常平均约75bp。这里，将一组75bp的合成DNA双链体用作追踪物，每个病原体对照具有一个独特的追踪序列。通过用DNA酶I(New EnglandBiolabs)或片段酶核酸酶混合物(New England Biolabs)剪切实验室产生的基因组DNA(ATCC或NIST)来产生病原体片段。

将来自11种不同病原体的基因组DNA(如表10-表12所列)单独剪切至约75bp的平均片段长度，纯化并定量(Qubit,Thermo Fisher)。以大约高十倍的质量(Qubit,ThermoFisher)将单独的75-bp合成DNA双链体(Integrated DNA Technologies)添加至每个片段池，从而为每个片段化病原体提供独特的追踪物。优选地，追踪物相对于基因组DNA实现至少高约5倍的信号。病原体/追踪物对以三种不同的组合混合在一起以模拟共感染(如表10-表12所列，含有4种病原体的混合物1、含有4种病原体的混合物2以及含有3种病原体的混合物3)，将其添加至人血浆中，在人血浆中进一步稀释以提供浓度系列，并且然后进行无细胞DNA提取、文库制备和NGS。对数据库的比对计算了所有样品中所有11种追踪物和所有11种病原体的检测浓度。

表10-表12和图11-图15中显示的结果表明追踪物和病原体的1:1配对。在每种情况下，以比病原体浓度更高的浓度检测追踪物，并且浓度差异在整个稀释系列中保持一致。外推至很低的浓度，诸如低水平交叉污染事件期望的浓度，强烈表明了将在病原体之前检测到追踪物。表10-表12示出了来自所有样品的数据，并且图11-图15分别绘制了代表性追踪物：弗氏志贺氏菌、肠沙门氏菌、金黄色葡萄球菌、铜绿假单胞菌和生孢梭菌的病原体对。仅在有意添加它们的样品中观察到追踪物。在未掺入的样品中仅观察到一种病原体，大肠杆菌(E.coli)。因为在那些样品中没有观察到大肠杆菌追踪物#143，可以得出结论，大肠杆菌在人血浆中以低水平存在，这对于该共生生物体是常见的。

表10：病原体追踪物混合物1

表11：病原体追踪物混合物2

表12：病原体追踪物混合物3

实施例7：使用Spark序列确定不同长度的核酸的相对产率

将8个Spark以等摩尔量添加至人血浆中，提取并与血浆的无细胞DNA一起加工成测序文库，并在Illumina NextSeq500仪器上测序。可通过确定不同Spark的相对产率来监视不同的处理方法，诸如如图16所示选择具有不同大小范围的文库的子集。此外，如果将相同数量的Spark掺入所有样品中，例如将8个Spark中每一个的1亿个分子添加至每毫升血浆，则可以使用给定Spark的读取的数量来推断样品中其他类似大小的片段的起始浓度，诸如来自感染因子的无细胞DNA。

实施例8：使用具有各种GC含量的合成核酸制备测序文库

无细胞病原体核酸的GC含量可能不同，并且在较短片段长度下可能具有非常不同的T_m。由于无细胞病原体片段的长度相对较短(例如，20-120bp，通常平均约75bp)，例如，在NGS加工期间较短的片段可能更容易变性，并且因此即使存在于样品中，也可能无法测序或检测。用于追踪较低T_m片段(例如，来自较低GC基因组的较短的片段)的回收的方法，特别是在32至75bp的范围内，可用于优化核酸加工以保留更大百分比的较低T_m片段。

通过使2个寡核苷酸退火来制备28个双链体中的每一个。通过Qubit(ThermoFisher)测定双链DNA的浓度，并将等摩尔量的28个双链体组合成一种混合物。用标准文库制备方法1(含有酶加热-杀灭步骤)处理混合物的8个重复样品，并用改进的文库制备方法2(缺少酶加热-杀灭步骤)处理另外8个重复样品。在文库制备后，将16个样品在单次测序运行中组合，并且计算每个样品的28个掺入中的每一个的产率，并将其归一化为每个文库的每百万读取。

与标准方法1(图17所示)相比，归一化读取示出了改进的方法2(图18所示)中较低T_m种类的回收率的提高，例如，对于具有20％GC含量的长度为32bp、具有30％GC含量的长度为32bp、具有40％GC含量的长度为32bp、具有20％GC含量的长度为42bp、具有30％GC含量的长度为42bp、具有20％GC含量的长度为52bp的掺入。如果没有GC组的这种粒度，差异将会较不明显；例如，在50％GC含量下，仅32bp长度示出四种测试长度之间的回收率水平差异。

实施例9：使用具有较长长度的载体合成核酸制备测序文库，该载体合成核酸允许基于大小的消耗

该实施例示出了用于使用比样品中的靶核酸更长的合成DNA(例如，通过PCR合成的DNA)来产生测序文库的示例性方法。合成DNA可具有允许与样品中的靶核酸基于大小的分离的长度。合成DNA的一端或两端可具有抵抗连接的修饰。修饰可在一个或多个末端包括一个或多个内部无碱基位点和/或反向核苷酸。在将合成DNA添加至测序文库中后，可以使用基于大小的消耗方法随时从文库中消耗合成DNA，该消耗方法利用相对较长的合成DNA。

从受试者获得包含无细胞DNA的血浆样品。将合成DNA以用于文库生成试剂盒所需的最小DNA量的浓度添加至文库DNA输入溶液(例如，无细胞DNA提取物)中。在末端修复步骤之前，或在末端修复步骤之后但在衔接子连接步骤之前，将合成DNA添加至血浆DNA提取中。

然后按照试剂盒制造商的说明书进行DNA浓度敏感的连接。合成DNA不是PCR扩增的。相反，在富集短片段(例如，片段<110bp)期间，合成DNA的大小选自测序文库并从测序文库中消耗。此外，如果合成DNA被修饰以抵抗末端修复或连接，或者如果将它在末端修复后添加以使其抵抗连接，则它将在两端缺乏衔接子并将因此不会被测序。

图19示出了测序文库生成中的步骤。可以在步骤1902中分离样品(例如，血浆)中的无细胞DNA片段1901以获得浓度很低的无细胞DNA 1903。可以在步骤1904中使片段经受末端修复。然后可以添加具有在一端抵抗连接的修饰的较长载体核酸1910。然后核酸可以经历衔接子连接步骤1905，其中末端修复的片段具有与两端连接的衔接子，但载体核酸仅具有与一端连接的衔接子。在扩增步骤1906期间，扩增连接的片段但不扩增载体核酸。然后可以进行大小选择步骤1907。

合成DNA的一端包含防止合成DNA参与文库制备中的参与反应的修饰或结构。如果将衔接子连接到合成DNA的3’末端，则用两种限制酶对合成的DNA进行双重消化，以产生具有两个不同突出端的大于500bp的分子或在一端具有突出端而在另一端具有平端的大于500bp的分子。接下来，分别使用互补突出端或平端发夹将发夹特异性地连接到突出端或平端。如果预期将衔接子连接到合成DNA的5’末端，则使用PCR引物对来合成合成DNA，其中一个引物已经使5’末端(例如，5'反向双脱氧-T、C3间隔区、间隔区18等)失活。

实施例10：使用具有无碱基位点和修饰的载体合成核酸制备测序文库

设计载体合成核酸以在cfDNA提取步骤期间用作载体核酸并且在文库制备期间提供最小文库输入量。载体合成核酸含有中心无碱基伸展，并且具有包含修饰的两端。载体合成核酸的序列如下所示(5Invddt表示5’反向ddT；3invdT表示3’反向dT；idSp表示内部无碱基位点)

5’-

/5InvddT/GCGTCCCGGCGCGCGTTTAGGGATAACA/idSp/idSp/idSp/idSp/GGGTAATGGCGCAAGGGTGCTGGC/3InvdT/

3’-

/3InvdT/CGCAGGGCCGCGCGCAAATCCCTATTGT/idSp/idSp/idSp/idSp/CCCATTACCGCGTTCCCACGACCG/5InvddT/-5’

方案的步骤如图20A所示。进行了两个平行实验。在两个实验中的一个中进行内切核酸酶VIII消化。在无需内切核酸酶VIII消化的实验中，方案包括末端修复(步骤2001)、用乙酸钠和乙醇的MagBind纯化(步骤2002)、衔接子连接(步骤2003)、Ampure纯化(步骤2004)和文库扩增(步骤2005)。在用内切核酸酶VIII消化的实验中，方案包括末端修复(步骤2006)、用乙酸钠和乙醇的MagBind纯化(步骤2007)、衔接子连接(步骤2008)、Ampure纯化(步骤2009)、内切核酸酶VIII消化(步骤2010)和文库扩增(步骤2011)。

在37℃下进行内切核酸酶VIII消化，并允许其进行1小时。在衔接子连接后不需要载体合成核酸的消耗，因为无碱基位点已经有效地抑制了模板的扩增。此外，修饰防止了衔接子连接，所有这些都防止了载体合成核酸的测序。内切核酸酶VIII可用于消耗文库中的衔接子-二聚体。

图20B和图20C示出了用或无需内切核酸酶VIII消化的测序文库生成。与不含有载体合成核酸的文库相比，在含有载体合成核酸的文库中的衔接子连接后用内切核酸酶VIII消化导致改善的再现性和更高的掺入信号。

实施例11：使用具有无碱基位点的合成核酸制备测序文库

设计含有无碱基的载体合成核酸以在cfDNA提取步骤期间用作载体核酸并且在文库制备期间提供最小文库输入量。测序文库生成的方法与实施例8中使用的方法基本相同。设计了不同类型的无碱基载体合成核酸。载体合成核酸分子的序列如下所示：

部分活性的无碱基载体合成核酸(部分ab-CNA)，其双链体的一端包含抵抗连接的修饰(留下双链体的一端用于连接有助于介导末端修复和衔接子连接反应的任何浓度效应)(5Invddt表示5’反向ddT；3invdT表示3’反向dT；idSp表示内部无碱基位点)：

5’-

GCGTCCCGGCGCGCGTTTAGGGATAACA/idSp/idSp/idSp/idSp/GG

GTAATGGCGCAAGGGTGCTGGC/3InvdT/-3’

3’-

CGCAGGGCCGCGCGCAAATCCCTATTGT/idSp/idSp/idSp/idSp/CCCATTACCGCGTTCCCACGACCG/5InvddT/-5’

具有双链体两端的活性无碱基载体合成核酸(活性ab-CNA)是可连接的(留下两端用于连接可用于在需要末端以有效降低浓度效应的情况下减少载体合成核酸输入的量)(idSp表示内部无碱基位点)：

5’-

GCGTCCCGGCGCGCGTTTAGGGATAACA/idSp//idSp//idSp//idSp/GGGTAATGGCGCAAGGGTGCTGGC-3’

3’-

CGCAGGGCCGCGCGCAAATCCCTATTGT/idSp//idSp//idSp//idSp/CCCATTACCGCGTTCCCACGACCG-5’

单个无碱基载体合成核酸(单个ab-CNA)，其每个链只有一个无碱基位点(用内切核酸酶VIII更有效地消化单个无碱基位点)(idSp表示内部无碱基位点)：

5’-GCGTCCCGGCGCGCGTTTAGGGATAACAGT/idSp/GGGTAA TGGCGCAAGGGTGCTGGC-3’

3’-CGCAGGGCCGCGCGCAAATCCCTATTGTCA TCCCATT/idSp/CCGCGTTCCCACGACCG-5

制备所有文库并且每个变异进行三次重复。此外，使双链末端用于连接也扩散了掺入分子(例如SPARK)的条带，从而表明在该实验条件下多样性的降低可能是显著的。图21A和图21B示出了测序文库生成的结果。内切核酸酶VIII消化导致一些重复中衔接子二聚体带的消失。当使用内切核酸酶VIII消化时，更多的非衔接子二聚体模板可用于扩增。

实施例12：使用具有DNA-RNA杂合体的合成核酸制备测序文库

设计具有DNA-RNA杂交体(RnD-CNA)的载体合成核酸以在cfDNA提取步骤期间用作载体核酸并且在文库制备期间提供最小文库输入量。如图22所示，在衔接子连接后但在文库扩增之前，通过RNA酶H消化实现可测序分子的最终池中的RnD-CNA消耗。在37oC的文库扩增缓冲液中进行基于RNA酶H的消耗，并允许其进行1小时。

方案的步骤如图23A所示。在典型的实验中，方案包括末端修复(步骤2301)、用乙酸钠和乙醇的MagBind纯化(步骤2302)、衔接子连接(步骤2303)、Ampure纯化(步骤2304)、载体核酸消耗(步骤2305)和文库扩增(步骤2306)。这些实验中的RnD-CNA不具有防止连接或防止扩增的末端。图23B示出了文库生成结果。当RnD-CNA作为文库输入材料的一部分引入时，衔接子二聚体带消失。

图23A和图23B示出了RNA酶H消化后的RnD-CNA。由RNA酶H消化产生的片段产生175bp和166bp的片段，如果两侧与衔接子连接，则假定2x衔接子的总长度为145bp。如果首先用扩增缓冲液中的聚合酶填充3’凹陷末端，则该连接是可能的。通过设计核糖核苷酸在RnD-CNA内的位置来防止这种情况，使得消化后的片段都含有3’-突出端，并且扩增聚合酶不展示出3’-末端外切核酸酶活性。

虽然本文已经示出并描述了本公开主题的优选实施方案，但对于本领域技术人员而言显而易见的是，这样的实施方案仅作为示例提供。在不偏离本公开主题的情况下，本领域技术人员现将想到许多变化、改变和替换。应理解，可使用本文描述的本公开主题的实施方案的各种替代方案来实施本公开主题。旨在用以下权利要求来限定本公开主题的范围，并且由此涵盖这些权利要求范围内的方法和结构及其等同物。

Claims

1.一种用于确定包含靶核酸的初始样品中的核酸丰度的方法，所述方法包括：

(a)将起始量的至少1000个合成核酸添加至所述样品中，其中所述至少1000个合成核酸中的每一个包含独特的可变区；

(b)对一部分靶核酸和所述样品中的一部分所述至少1000个合成核酸进行测序分析，从而获得靶核酸序列和合成核酸序列读取，其中所述合成核酸序列读取包括独特的可变区序列；

(c)通过以下步骤检测所述至少1000个合成核酸的多样性损失：

(i)量化所述合成核酸序列读取内的不同可变区序列的数目以获得独特的测序值；以及

(ii)将所述至少1,000个合成核酸的起始量与所述独特的测序值进行比较，以获得所述至少1,000个合成核酸的多样性损失；以及

(d)使用所述至少1000个合成核酸的多样性损失来计算所述初始样品中靶核酸的丰度。

2.根据权利要求1所述的方法，其中所述靶核酸包含病原体核酸。

3.根据前述权利要求中任一项所述的方法，其中所述靶核酸包含来自至少五种不同病原体的病原体核酸。

4.根据前述权利要求中任一项所述的方法，其中所述至少1,000个合成核酸包含DNA。

5.根据前述权利要求中任一项所述的方法，其中所述至少1,000个合成核酸中的每一个的长度小于500个碱基对或核苷酸。

6.根据前述权利要求中任一项所述的方法，其中所述至少1,000个合成核酸中的每一个的长度小于200个碱基对或核苷酸。

7.根据前述权利要求中任一项所述的方法，其中所述样品为血液、血浆、血清、脑脊液、滑液、支气管-肺泡灌洗液、尿液、粪便、唾液或鼻腔样品。

8.根据前述权利要求中任一项所述的方法，其中所述样品为分离的核酸样品。

9.根据前述权利要求中任一项所述的方法，进一步包括从所述样品产生测序文库，其中在产生所述测序文库之前将所述至少1,000个合成核酸添加至所述样品中。

10.根据前述权利要求中任一项所述的方法，其中所述至少1,000个合成核酸的多样性损失指示所述样品的样品处理期间一种或多种核酸的损失。

11.根据前述权利要求中任一项所述的方法，其中所述至少1,000个合成核酸中的每一个包含标识标签序列。

12.根据权利要求11所述的方法，其中所述量化独特可变区序列的数目包括检测含有所述标签序列的序列。

13.根据前述权利要求中任一项所述的方法，其中所述样品来自人类受试者。

14.根据前述权利要求中任一项所述的方法，其中所述量化第一序列读取内的所述至少1,000个独特序列包括确定所述第一序列读取内的独特序列的读取计数。

15.根据前述权利要求中任一项所述的方法，其中所述至少1,000个独特合成核酸包含至少10⁴个独特合成核酸。

16.根据前述权利要求中任一项所述的方法，进一步包括添加具有至少三种不同长度的额外的合成核酸。

17.根据前述权利要求中任一项所述的方法，进一步包括添加具有第一长度的第一组额外的合成核酸、具有第二长度的第二组额外的合成核酸和具有第三长度的第三组额外的合成核酸，其中所述第一、第二和第三组额外的合成核酸各自包含具有至少三种不同GC含量的合成核酸。

18.根据权利要求15或16所述的方法，进一步包括使用所述额外的合成核酸来计算所述样品中靶核酸的丰度。

19.根据权利要求15或16所述的方法，进一步包括基于所述额外的合成核酸的长度、GC含量或长度和GC含量两者，使用所述额外的合成核酸来计算所述样品中靶核酸的丰度。

20.根据前述权利要求中任一项所述的方法，其中在第一样品处理步骤中将所述至少1,000个合成核酸添加至所述样品中。

21.根据权利要求20所述的方法，进一步包括在第二样品处理步骤中将额外的一池至少1,000个独特合成核酸添加至所述样品中，其中所述第二样品处理步骤不同于所述第一样品处理步骤。

22.根据权利要求20所述的方法，进一步包括计算所述额外的一池至少1,000个合成核酸的多样性损失。

23.根据权利要求20所述的方法，进一步包括通过将所述至少1,000个合成核酸的多样性损失与所述额外的至少1,000个合成核酸池的多样性损失进行比较来鉴别具有相对较高多样性损失的样品处理步骤。

24.根据权利要求20所述的方法，其中所述额外的一池至少1,000个独特合成核酸中的每一个独特合成核酸包含将所述合成核酸标识为所述额外的一池至少1,000个合成核酸的成员的结构域。

25.根据前述权利要求中任一项所述的方法，进一步包括将样品标识核酸添加至所述样品中。

26.根据前述权利要求中任一项所述的方法，其中(a)进一步包括将非独特合成核酸添加至所述样品中。

27.根据权利要求1所述的方法，其中所计算的丰度为相对丰度。

28.根据权利要求1所述的方法，其中所计算的丰度为绝对丰度。

29.一种确定样品中病原体核酸的相对丰度或初始丰度的方法，所述方法包括：

(a)从感染病原体或疑似感染病原体的受试者获得样品，其中所述样品包含多种病原体核酸；

(b)将多种合成核酸添加至所述样品中，使得所述样品包含已知初始丰度的所述合成核酸，其中

(i)所述合成核酸的长度小于500个碱基对；

(ii)所述合成核酸包含具有第一长度的合成核酸、具有第二长度的合成核酸和具有第三长度的合成核酸，其中所述第一、第二和第三长度是不同的；并且

(iii)具有所述第一长度的所述合成核酸包含具有至少三种不同GC含量的合成核酸；

(c)对包含所述多种合成核酸的所述样品进行测序分析，从而确定所述合成核酸的最终丰度和所述多种病原体核酸的最终丰度；

(d)比较合成核酸的所述最终丰度和所述已知初始丰度，以产生所述合成核酸的回收曲线；以及

(e)使用所述合成核酸的回收曲线，通过将所述病原体核酸与具有最接近的GC含量和长度的所述合成核酸进行比较来对所述多种病原体核酸的最终丰度进行归一化，从而确定所述多种病原体核酸的相对丰度或初始丰度。

30.根据前述权利要求中任一项所述的方法，其中所述至少三种不同的GC含量包括10％至40％之间的第一GC含量、40％至60％之间的第二GC含量和60％至90％之间的第三GC含量。

31.根据前述权利要求中任一项所述的方法，其中所述至少三种不同的GC含量各自在10％至50％之间。

32.根据前述权利要求中任一项所述的方法，其中所述合成核酸的长度小于200个碱基对或核苷酸。

33.根据前述权利要求中任一项所述的方法，其中所述合成核酸的长度小于100个碱基对或核苷酸。

34.根据前述权利要求中任一项所述的方法，其中所述合成核酸包含双链DNA。

35.根据前述权利要求中任一项所述的方法，进一步包括使用所述合成核酸来监测所述病原体核酸的变性。

36.根据前述权利要求中任一项所述的方法，进一步包括通过使用加权因子来对所述病原体核酸的相对丰度或初始丰度进行归一化。

37.根据权利要求36所述的方法，其中通过与所述多种合成核酸的第一合成核酸的已知浓度和所述多种合成核酸的第二合成核酸的已知浓度相比较，分析所述第一合成核酸的原始测量值和所述第二合成核酸的原始测量值，来获得所述加权因子。

38.一种用于检测来自病原体的核酸的方法，所述方法包括：

(a)获得包含第一病原体核酸的第一样品，其中所述第一样品从感染所述第一病原体的第一受试者获得；

(b)从第二受试者获得第二样品；

(c)获得第一和第二样品标识物，每个标识物包含不同的合成核酸，所述合成核酸不能与所述第一病原体核酸杂交，并且将所述第一样品标识物分配给所述第一样品并将所述第二样品标识物分配给所述第二样品；

(d)将所述第一样品标识物添加至第一样品中，并将第二样品标识物添加至第二样品中；

(e)对包含所述第一样品标识物的所述第一样品和包含所述第二样品标识物的所述第二样品进行测序分析，从而获得所述第一和第二样品的序列结果；

(f)在第一样品的序列结果中检测所述第一样品标识物、所述第二样品标识物和所述第一病原体核酸是否存在；以及

(g)当所述测序分析在第一样品中检测到：

(i)所述第一样品标识物；

(ii)所述第一病原体核酸；以及

(iii)无第二样品标识物或第二样品标识物低于阈值水平时，确定所检测到的第一病原体核酸最初存在于所述第一样品中。

39.一种检测核酸的方法，所述方法包括：

(a)获得包含第一核酸的第一核酸样品；

(b)获得包含第一阳性对照核酸的第一对照核酸样品；

(c)将第一样品标识物添加至所述第一对照核酸中，所述第一样品标识物包含不能与所述第一核酸杂交的合成核酸；

(d)对所述第一核酸样品和包含所述第一样品标识物的第一对照核酸样品进行测序分析，从而获得所述第一核酸样品和所述对照核酸样品的序列读取。

(e)将所述第一核酸样品的序列读取与参考序列进行比对，以检测所述第一核酸样品的序列读取中是否存在第一样品标识物；以及

(f)基于所述序列读取的比对，确定所述第一核酸样品中是否存在所述第一阳性对照核酸。

40.根据前述权利要求中任一项所述的方法，其中所述第一样品标识物的合成核酸的长度小于150个碱基对或核苷酸。

41.根据前述权利要求中任一项所述的方法，其中所述第一阳性对照核酸为病原体核酸。

42.根据前述权利要求中任一项所述的方法，其中所述第一样品标识物包含修饰的核酸。

43.根据前述权利要求中任一项所述的方法，其中所述第一样品标识物包含DNA。

44.根据前述权利要求中任一项所述的方法，其中所述样品包含无细胞体液。

45.根据前述权利要求中任一项所述的方法，其中所述样品来自感染病原体的受试者。

46.一种用于检测样品中的试剂的方法，所述方法包括：

(a)将第一合成核酸添加至所述试剂中，其中所述第一合成核酸包含独特的序列；

(b)将包含所述第一合成核酸的试剂添加至核酸样品中；

(c)为测序分析准备所述核酸样品；

(d)对所述核酸样品进行测序分析，从而获得所述核酸样品的序列结果；以及

(e)基于所述核酸样品的序列结果，通过确定所述样品中是否存在所述第一合成核酸来检测所述样品中的试剂。

47.根据前述权利要求中任一项所述的方法，其中所述第一合成核酸的长度小于150个碱基对或核苷酸。

48.根据前述权利要求中任一项所述的方法，其中将所述第一合成核酸添加至第一批试剂，并且进一步包括将第二合成核酸添加至第二批试剂。

49.根据前述权利要求中任一项所述的方法，其中检测所述样品中的试剂包括检测特定批次的试剂。

50.根据前述权利要求中任一项所述的方法，其中所述合成核酸不能被核酸酶降解。

51.根据前述权利要求中任一项所述的方法，其中所述试剂包含水性缓冲液。

52.根据前述权利要求中任一项所述的方法，其中所述试剂包括提取试剂、酶、连接酶、聚合酶或dNTP。

53.一种产生测序文库的方法，所述方法包括：

(a)获得样品，其包含：(i)靶核酸；(ii)测序衔接子；以及(iii)至少一种合成核酸，其中所述至少一种合成核酸包含DNA并且抵抗与核酸的连接；以及

(b)对样品进行连接反应，使得所述测序衔接子相对于所述至少一种合成核酸优先与所述靶核酸连接。

54.一种用于产生测序文库的方法，所述方法包括：

(a)获得包含靶核酸和至少一种合成核酸的样品；

(b)从所述样品中去除所述至少一种合成核酸，从而获得包含所述靶核酸而不包含所述至少一种合成核酸的测序样品；以及

(c)将测序衔接子附接至所述测序样品内的靶核酸上。

55.一种用于产生测序文库的方法，所述方法包括：

(a)获得包含靶核酸和至少一种合成核酸的样品；

(b)将测序衔接子附接至所述样品内的靶核酸上，从而获得测序样品；以及

(c)通过基于亲和力的消耗、RNA引导的DNA酶消化或其组合，从所述测序样品中去除所述至少一种合成核酸，其中从所述测序样品中去除所述至少一种合成核酸包括相对于所述测序衔接子和相对于所述测序衔接子的多聚体优先去除所述至少一种合成核酸。

56.一种产生测序文库的方法，所述方法包括：

(a)获得包含靶核酸和至少一种合成核酸的样品，其中所述至少一种合成核酸包含：

(i)单链DNA；

(ii)抑制所述合成核酸扩增的核苷酸修饰；

(iii)固定化标签；

(iv)DNA-RNA杂合体；

(v)长度大于所述靶核酸长度的核酸；或者

(vi)其任何组合；以及

(b)从所述样品产生用于测序反应的测序文库，其中至少一部分所述合成核酸在所述测序反应中未测序。

57.一种产生测序文库的方法，所述方法包括：

(a)获得样品，其包含：(i)靶核酸；(ii)测序衔接子；以及(iii)至少一种合成核酸，其中所述至少一种合成核酸包含DNA并且抵抗末端修复；以及

(b)对所述样品进行末端修复反应，使得靶核酸相对于所述至少一种合成核酸优先进行末端修复。

58.根据前述权利要求中任一项所述的方法，其中将所述方法的结果报告给患者、照护者或其他人。

59.一种用于产生测序文库的试剂盒，所述试剂盒包含：

(a)测序衔接子；以及

(b)至少一种合成核酸，其中所述至少一种合成核酸包含DNA并且抵抗核酸的末端修复。