CN117015614A

CN117015614A - 用于评估文库中的dna损伤和将扩增子大小偏差归一化的组合物和方法

Info

Publication number: CN117015614A
Application number: CN202280022274.3A
Authority: CN
Inventors: 安德鲁·B·肯尼迪; 莉娜·斯托尔姆; 沈菲; 奥利维亚·贝尼斯; 埃里克·慕特菲德; 凯特琳·普格利泽; 迈克尔·霍华德
Original assignee: Illumina Inc
Current assignee: Illumina Inc
Priority date: 2021-03-29
Filing date: 2022-03-28
Publication date: 2023-11-07

Abstract

本文描述了将扩增子大小偏差归一化的标准品和方法。这些标准品可以包含独特分子标识符。在一些实施方案中，这些标准品和方法与下一代测序(NGS)测定一起使用。本文还描述了用于使用荧光来定量包含DNA的样品中的DNA损伤或用于确定文库中DNA损伤的存在的方法。

Description

用于评估文库中的DNA损伤和将扩增子大小偏差归一化的组合物和方法

相关申请的交叉引用

本申请要求于2021年3月29日提交的美国临时申请第63/167,171号和于2021年7月30日提交的美国临时申请第63/227,550号的优先权权益，这些临时申请中的每一篇以引用方式全文并入本文以用于任何目的。

说明书

技术领域

本申请涉及用于在下一代测序(NGS)测定中评估文库损伤和将扩增子大小偏差归一化的标准品和方法。本申请还涉及使用荧光来定量包含DNA的样品中的DNA损伤。

背景技术

在基因组编辑或肿瘤学应用中检测和定量大的插入/缺失变体(indel)的常见方法涉及定向“长扩增子”PCR(LongAmp，大于1kb)，随后进行长读段测序或转化为用于(短读段)NGS的短读段文库。然而，“长”PCR扩增中基于大小的偏差使准确定量大的indel变体的相对频率的过程复杂化。在扩增之前或期间用独特的分子索引标记靶DNA分子的末端的策略需要在相同的NGS读段中鉴定的变体和UMI。因此，用长扩增子文库进行的标记方法需要长读段测序或复杂的合成长读段文库制备。用于短读段NGS的扩增后文库转化步骤使得这种UMI末端标记不适当，因为短读段NGS可以将变体序列和原始扩增子UMI解偶为单独的读段。

这些本发明的方法将短读段NGS与不同长度的含UMI的合成DNA对照合并，用于将扩增子大小偏差归一化。对DNA对照进行设计，使得标准品和UMI的同一性将包含在相同的NGS读段中。用这些标准品运行对照测定或将已知量的这些标准品掺入每个LongAmp测定中使得能够对基于大小的PCR偏差进行生物信息学分析，并且通过考虑所定量的PCR大小偏差而有利于更好地估计大indel的频率。

用于长读段测序的文库(即，长读段文库)的另一个问题是受损的文库分子的存在。对长读段文库制备的质量进行评估可用于预测后续工作流程步骤和测序的成功。长文库分子在标准工作流程期间可容易地被切口或损坏，从而导致文库分子不与衔接子序列缔合，并且因此无法用于需要衔接子的工作流程，诸如测序。文库制备步骤可能由于移液、储存或其他处理和/或技术错误而损坏DNA。如果带切口的DNA通过了需要5'和3'衔接子两者的文库制备，则带切口的DNA将不能用于下游步骤。未考虑到的文库损伤可因此导致文库浓度估计不准确、测序覆盖率低和测序测定度量整体不佳。

准确定量文库制备中未受损的文库分子的文库质量控制(QC)方法可以帮助解决该问题。本文所述的定量PCR(qPCR)QC方法评估文库制备质量，以避免在文库浓度不准确的情况下进行后续工作流程步骤。因此，这些方法可以避免使用者时间、金钱以及试剂和其他消耗品的损失。

进一步地，来自环境、样品的制备和处理或储存条件的DNA损伤可显著影响文库制备质量的一致性。例如，在测序过程期间，由于在测序循环期间暴露于低波长激光和其他化学品而造成的DNA损伤的累积可增加测序的错误率。使用者可能希望对这种损伤进行评价。本文描述了一种使用荧光来定量DNA损伤的方法。被开发用于使用荧光来定量DNA损伤的其他测定(诸如US2014/0030705、WO 2010028388和US20090042205)因信噪比低而受阻，这可能部分地是由于未掺入的荧光核苷酸的非特异性结合。本发明的测量DNA损伤的方法包括dNTP的去磷酸化步骤和修复的DNA从羧酸酯或纤维素珠的结合/洗脱步骤，以改善信号并允许更大动态范围的测定。

发明内容

本文描述了一种不同长度的核酸标准品的池，其中这些核酸标准品包含独特分子标识符(UMI)和：

5'通用寡核苷酸，其中该5'通用寡核苷酸对于所有标准品是相同的；3'通用寡核苷酸，其中该3'通用寡核苷酸对于所有标准品是相同的；以及UMI与5'通用寡核苷酸之间和/或UMI与3'通用寡核苷酸之间的至少一个区域；其中该至少一个区域的长度决定该标准品的长度。本文还描述了文库的质量控制方法。

实施方案1.一种不同长度的核酸标准品的池，其中所述核酸标准品包含独特分子标识符(UMI)和：

a.5'通用寡核苷酸，其中所述5'通用寡核苷酸对于所有标准品是相同的；

b.3'通用寡核苷酸，其中所述3'通用寡核苷酸对于所有标准品是相同的；以及

c.所述UMI与所述5'通用寡核苷酸之间和/或所述UMI与所述3'通用寡核苷酸之间的至少一个区域；

其中所述至少一个区域的长度决定所述标准品的长度。

实施方案2.根据实施方案1所述的标准品的池，其中所述池还包含另外的核酸标准品，所述另外的核酸标准品包含UMI和

a.5'通用寡核苷酸，其中所述5'通用寡核苷酸对于所有标准品是相同的；以及

b.3'通用寡核苷酸，其中所述3'通用寡核苷酸对于所有标准品是相同的；

其中所述另外的核酸标准品不包含所述UMI与所述5'通用寡核苷酸之间或所述UMI与所述3'通用寡核苷酸之间的至少一个区域。

实施方案3.根据实施方案1所述的标准品的池，其中所述UMI与所述5'通用寡核苷酸之间和/或所述UMI与所述3'通用寡核苷酸之间的所述至少一个区域包含0.2kb-10kb。

实施方案4.根据实施方案1至3中任一项所述的标准品的池，其中所述5'通用寡核苷酸和/或所述3'通用寡核苷酸各自包含从目标序列扩增的扩增子。

实施方案5.根据实施方案1或3至4中任一项所述的标准品的池，其中所述UMI与所述5'通用寡核苷酸之间和/或所述UMI与所述3'通用寡核苷酸之间的所述至少一个区域各自包含从目标序列扩增的扩增子。

实施方案6.根据实施方案1或3至5中任一项所述的标准品的池，其中所述UMI与所述5'通用寡核苷酸之间和/或所述UMI与所述3'通用寡核苷酸之间的所述至少一个区域各自包含任意序列。

实施方案7.一种不同长度的核酸标准品的池，其中所述核酸标准品包含UMI和

a.5'部分重叠的寡核苷酸，其中所述5'部分重叠的寡核苷酸在其序列的至少一部分上对于所有标准品是相同的；和/或

b.3'部分重叠的寡核苷酸，其中所述3'部分重叠的寡核苷酸在其序列的至少一部分上对于所有标准品是相同的；

其中所述5'部分重叠的寡核苷酸和/或所述3'部分重叠的寡核苷酸的长度决定所述标准品的长度。

实施方案8.根据实施方案7所述的标准品的池，其中：

a.所述5'部分重叠的寡核苷酸包含目标序列的至少第一部分；并且

b.所述3'部分重叠的寡核苷酸包含目标序列的至少第二部分。

实施方案9.根据实施方案7至8中任一项所述的标准品的池，其中所述5'部分重叠的寡核苷酸和/或所述3'部分重叠的寡核苷酸各自包含比目标序列小20bp-1kb的序列。

实施方案10.根据实施方案7至9中任一项所述的标准品的池，其中所述5'部分重叠的寡核苷酸和/或所述3'部分重叠的寡核苷酸各自包含从目标序列扩增的扩增子。

实施方案11.根据实施方案1至10中任一项所述的标准品的池，其中所述标准品包含双链核酸。

实施方案12.根据实施方案1至11中任一项所述的标准品的池，其中所述标准品包含双链DNA。

实施方案13.根据实施方案1至12中任一项所述的标准品的池，其中每个标准品包含不同的UMI。

实施方案14.根据实施方案1至13中任一项所述的标准品的池，其中所述标准品的池中包含的所述UMI是包含16个至20个碱基对的随机序列集。

实施方案15.根据实施方案14所述的标准品的池，其中所述标准品的池中包含的所述UMI是包含18个碱基对的随机序列集。

实施方案16.根据实施方案1至15中任一项所述的标准品的池，其中所述标准品的池包含1×10¹⁰个或更多个、10×10¹⁰个或更多个、或100×10¹⁰个或更多个标准品，其中每个标准品包含不同的UMI。

实施方案17.根据实施方案1至16中任一项所述的标准品的池，其中所述池中的标准品的数量大于通过扩增反应生成的扩增子的数量。

实施方案18.一种标准品的池，其中所述标准品的至少第一部分来自实施方案1至6或11至17中任一项，并且其中所述标准品的至少第二部分来自实施方案7至17中任一项。

实施方案19.一种生成核酸标准品的池的方法，所述方法包括：

a.提供包含核酸的至少一个目标序列的多个拷贝；

b.提供各自包含UMI的寡核苷酸的集合；

c.提供不同长度的插入寡核苷酸的集合；以及

d.连接(a)的至少一个目标序列、(b)的至少一个包含UMI的寡核苷酸和(c)的至少一个插入扩增子，以产生所述核酸标准品的池的多个核酸标准品。

实施方案20.根据实施方案19所述的方法，其中所述至少一个目标序列和/或插入寡核苷酸是通过扩增制备的。

实施方案21.根据实施方案19或实施方案20所述的方法，其中所述目标序列、各自包含UMI的所述寡核苷酸和/或所述插入寡核苷酸包含限制酶裂解位点。

实施方案22.根据实施方案21所述的方法，其中所述限制酶裂解位点邻近所述目标序列、各自包含UMI的所述寡核苷酸和/或插入所述寡核苷酸的5'和/或3'末端。

实施方案23.根据实施方案21或实施方案22所述的方法，其中所述方法还包括在所述连接之前用限制酶裂解所述目标序列、各自包含UMI的所述寡核苷酸和/或所述插入寡核苷酸。

实施方案24.根据实施方案23所述的方法，其中用限制酶进行所述裂解产生用于所述连接的粘性末端。

实施方案25.一种生成核酸标准品的池的方法，所述方法包括：

a.提供包含核酸的至少一个目标序列的多个拷贝；

b.提供各自包含UMI的寡核苷酸的集合；以及

c.连接(a)的至少一个目标序列和(b)的至少一个包含UMI的寡核苷酸。

实施方案26.根据实施方案25所述的方法，其中所述至少一个目标序列是通过扩增制备的。

实施方案27.根据实施方案25或26所述的方法，其中所述目标序列和/或各自包含UMI的所述寡核苷酸包含限制酶裂解位点。

实施方案28.根据实施方案27所述的方法，其中所述限制酶裂解位点邻近所述目标序列和/或各自包含UMI的所述寡核苷酸的5'和/或3'末端。

实施方案29.根据实施方案27至28所述的方法，其中所述方法还包括在所述连接之前用限制酶裂解所述目标序列和/或各自包含UMI的所述寡核苷酸。

实施方案30.根据实施方案29所述的方法，其中用限制酶进行所述裂解产生用于所述连接的粘性末端。

实施方案31.一种将扩增子大小偏差归一化的方法，所述方法包括：

a.将包含靶核酸的样品与不同长度的核酸标准品的池组合，其中每个标准品包含UMI；

b.扩增所述标准品和包含在所述靶核酸中的目标序列的扩增子；

c.对所述标准品和所述目标序列的所述扩增子进行测序，以生成测序数据；

d.使用来自所述标准品的测序数据确定基于扩增子大小的偏差谱图；以及

e.使用所述偏差谱图将扩增子大小偏差归一化。

实施方案32.根据实施方案31所述的方法，其中所述核酸标准品的池中的所述标准品范围为0.2kb至20kb碱基对。

实施方案33.根据实施方案31或实施方案32所述的方法，其中所述核酸标准品的池中的每个标准品包含不同的UMI。

实施方案34.根据实施方案31至33中任一项所述的方法，其中所述标准品的池中包含的所述UMI是包含16个至20个碱基对的随机序列集。

实施方案35.根据实施方案31至34中任一项所述的方法，其中所述标准品的池中包含的所述UMI是包含18个碱基对的随机序列集。

实施方案36.根据实施方案31至35中任一项所述的方法，其中所述标准品的池包含1×10¹⁰个或更多个、10×10¹⁰个或更多个、或100×10¹⁰个或更多个标准品，其中每个标准品包含不同的UMI。

实施方案37.根据实施方案31至36中任一项所述的方法，其中所述标准品的池中的标准品的数量大于通过所述扩增生成的扩增子的数量。

实施方案38.根据实施方案31至37中任一项所述的方法，其中所述核酸标准品的池包含根据实施方案1至18中任一项所述的核酸标准品的池。

实施方案39.根据实施方案31至37中任一项所述的方法，其中所述核酸标准品的池包含第一部分和第二部分，所述第一部分包含根据实施方案1至6或11至17中任一项所述的核酸标准品的池，所述第二部分包含根据实施方案7至17中任一项所述的核酸标准品的池。

实施方案40.根据实施方案31至39中任一项所述的方法，其中所述目标序列包含限制酶裂解位点，所述限制酶裂解位点不位于或不紧邻所述目标序列的5'和/或3'末端。

实施方案41.根据实施方案31至40中任一项所述的方法，其中所述目标序列可包含插入或缺失突变。

实施方案42.根据实施方案31至41中任一项所述的方法，其中已经对所述目标序列进行了基因编辑，任选地其中所述目标序列包含通过基因编辑引入的切割位点。

实施方案43.根据实施方案31至42中任一项所述的方法，其中扩增所述目标序列的扩增子包括用与所述目标序列的末端处的引物结合序列结合的一对PCR引物从所述靶核酸扩增扩增子。

实施方案44.根据实施方案31至43中任一项所述的方法，其中所述标准品包含与所述目标序列的末端处的那些引物结合序列相同的引物结合序列。

实施方案45.根据实施方案31至44中任一项所述的方法，还包括在所述扩增之后和所述测序之前生成片段文库。

实施方案46.根据实施方案31至45所述的方法，其中所述生成片段文库是通过标签化进行的。

实施方案47.根据实施方案31至46中任一项所述的方法，其中用于确定所述偏差谱图的来自所述标准品的所述测序数据是包含在所述标准品中的UMI的独特分子计数。

实施方案48.一种确定包含一个或多个文库分子的文库中DNA损伤的存在的方法，其中每个文库分子包含双链DNA插入片段，在所述插入片段的每个末端具有发夹衔接子，所述方法包括：

a.使包含在文库分子中的所述双链DNA插入片段的第一链和第二链变性；

b.使正向引物和反向引物退火至文库分子；

c.扩增以产生文库扩增子；以及

d.基于所产生的文库扩增子的数量评估DNA损伤的存在。

实施方案49.根据实施方案48所述的方法，其中所述正向引物和/或所述反向引物结合至包含在一个或两个发夹衔接子中的一个或多个序列。

实施方案50.根据实施方案48或实施方案49所述的方法，其中所述正向引物结合至附着于所述双链DNA插入片段的第一末端的发夹衔接子中包含的序列，并且所述反向引物结合至附着于所述双链DNA插入片段的第二末端的发夹衔接子中包含的序列。

实施方案51.根据实施方案48至50中任一项所述的方法，其中通过测量定量循环(Cq)值来估计所产生的文库扩增子的数量。

实施方案52.根据实施方案48至51中任一项所述的方法，其中更高数量的文库扩增子导致更低的Cq值。

实施方案53.根据实施方案48至52中任一项所述的方法，其中具有较低Cq值的文库具有较少的DNA损伤。

实施方案54.根据实施方案51至53中任一项所述的方法，还包括基于所述Cq值确定用于分析所述文库的条件。

实施方案55.根据实施方案54所述的方法，其中所述分析是测序。

实施方案56.根据实施方案48至55中任一项所述的方法，其中所述扩增被优化用于扩增5kb或更大、10kb或更大、15kb或更大、20kb或更大、25kb或更大、或30kb或更大的文库分子。

实施方案57.根据实施方案48至56中任一项所述的方法，其中所述扩增用针对长扩增子的扩增而优化的聚合酶进行。

实施方案58.根据实施方案57所述的方法，其中所述聚合酶被优化用于扩增20kb或更大或30kb或更大的扩增子。

实施方案59.根据实施方案57或实施方案58所述的方法，其中所述聚合酶与野生型Taq聚合酶相比具有更高的持续合成能力或延伸速率。

实施方案60.根据实施方案59所述的方法，其中所述聚合酶包含一个或多个突变或融合，所述一个或多个突变或融合增加持续合成能力或延伸速率。

实施方案61.根据实施方案59或实施方案60所述的方法，其中所述聚合酶具有大于3kb/分钟的延伸速率。

实施方案62.根据实施方案48至61中任一项所述的方法，其中所述扩增是指数式的。

实施方案63.根据实施方案48至62中任一项所述的方法，其中进行30个或更多个或者40个或更多个扩增循环。

实施方案64.根据实施方案48至63中任一项所述的方法，其中所述DNA损伤包括文库分子中的一个或多个切口。

实施方案65.根据实施方案64所述的方法，其中所述一个或多个切口位于所述插入片段内。

实施方案66.根据实施方案64或实施方案65所述的方法，其中当所述文库中更高百分比的文库分子包含一个或多个切口时，所述Cq值更大。

实施方案67.根据实施方案64至66中任一项所述的方法，其中所述DNA损伤包括文库分子中的两个或更多个切口，其中所述切口位于所述双链DNA插入片段的相同链中。

实施方案68.根据实施方案64至66中任一项所述的方法，其中所述DNA损伤包括文库分子中的两个或更多个切口，其中所述切口位于所述双链DNA插入片段的两条链中。

实施方案69.根据实施方案48至68中任一项所述的方法，其中如果所述文库分子包含一个或多个切口，则所述正向引物和/或所述反向引物无法生成对应于所述文库分子的全序列的扩增子。

实施方案70.根据实施方案69所述的方法，其中从包含切口的文库分子生成的扩增子缺乏用于结合至所述正向引物和/或反向引物的序列。

实施方案71.根据实施方案64至70中任一项所述的方法，其中与不包含切口的文库分子相比，包含切口的文库分子在所述扩增期间生成较少的扩增子。

实施方案72.根据实施方案64至71中任一项所述的方法，还包括在退火所述正向引物和所述反向引物之前从切口生成双链断裂。

实施方案73.根据实施方案72所述的方法，其中使用酶促反应进行双链断裂的生成。

实施方案74.根据实施方案73所述的方法，其中所述酶促反应通过核酸内切酶进行。

实施方案75.根据实施方案74所述的方法，其中所述核酸内切酶是T7核酸内切酶。

实施方案76.根据实施方案72至75中任一项所述的方法，其中包含双链断裂的文库分子在所述扩增期间不生成对应于所述文库分子的全序列的扩增子。

实施方案77.根据实施方案72至76所述的方法，其中从包含双链断裂的文库分子生成的扩增子缺乏用于结合至所述正向引物和/或反向引物的序列。

实施方案78.一种使用荧光来定量包含DNA的样品中的DNA损伤的方法，所述方法包括：

a.组合以下各项：

i.包含DNA的样品的等分试样；

ii.一种或多种DNA修复酶；以及

iii.dNTP，其中一种或多种dNTP是荧光标记的；

b.制备修复的DNA；

c.将来自dNTP的磷酸酯去磷酸化；

d.将所修复的DNA结合至羧酸酯或纤维素珠；

e.用重悬浮缓冲液从羧酸酯或纤维素珠洗脱所结合的修复的DNA；以及

f.测量所修复的DNA的荧光以确定DNA损伤的量。

实施方案79.根据实施方案78所述的方法，其中修复的DNA的荧光越大表明DNA损伤越大。

实施方案80.根据实施方案78或实施方案79所述的方法，其中修复的DNA的所述荧光在不同量的DNA损伤范围内是线性的。

实施方案81.根据实施方案78至80中任一项所述的方法，其中所述测定可通过评估操作前和操作后的相同样品的等分试样来评估由所述样品的操作诱导的DNA损伤。

实施方案82.根据实施方案81所述的方法，其中所述操作是对样品进行测序。

实施方案83.根据实施方案81或实施方案82所述的方法，其中测量修复的DNA的荧光包括制作修复的DNA的稀释液的标准曲线并测量修复的DNA的稀释液的荧光。

实施方案84.根据实施方案78至83中任一项所述的方法，其中测量修复的DNA的荧光包括将修复的DNA的荧光与仅荧光标记的所述一种或多种dNTP的稀释液的单独标准曲线进行比较，以确定包含在修复的DNA中的荧光染料分子的数量。

实施方案85.根据实施方案84所述的方法，还包括通过将确定的荧光染料分子的数量除以修复的DNA的质量来计算包含在修复的DNA中的荧光染料分子的归一化数量。

实施方案86.根据实施方案78至85中任一项所述的方法，其中所述DNA是基因组DNA、cDNA或包含片段化的双链DNA的文库。

实施方案87.根据实施方案86所述的方法，其中所述DNA是基因组DNA和cDNA，并且所述方法还包括在确定DNA损伤的量后制备文库。

实施方案88.根据实施方案87所述的方法，其中如果所述DNA损伤的量为总核苷酸的5％或更少、4％或更少、3％或更少、2％或更少、或1％或更少，则制备文库。

实施方案89.根据实施方案78至88中任一项所述的方法，其中如果所述DNA损伤的量为总核苷酸的5％或更多、4％或更多、3％或更多、2％或更多、或1％或更多，则不制备文库。

实施方案90.根据实施方案78至89中任一项所述的方法，其中在测量所述荧光之前进行多于一轮的将修复的DNA结合至羧酸酯或纤维素珠并且洗脱。

实施方案91.根据实施方案90所述的方法，其中在测量所述荧光之前进行两轮的将修复的DNA结合至羧酸酯或纤维素珠并且洗脱。

实施方案92.根据实施方案78至91中任一项所述的方法，其中所述羧酸酯或纤维素珠是磁性的。

实施方案93.根据实施方案78至92中任一项所述的方法，其中所述制备修复的DNA在37℃下进行。

实施方案94.根据实施方案78至93中任一项所述的方法，其中所述制备修复的DNA进行10分钟或更长、20分钟或更长、30分钟或更长、45分钟或更长或者60分钟或更长。

实施方案95.根据实施方案78至94所述的方法，其中用酶进行来自dNTP的磷酸酯的去磷酸化。

实施方案96.根据实施方案78至95所述的方法，其中用于将来自dNTP的磷酸酯去磷酸化的酶是虾碱性磷酸酶(SAP)或小牛肠碱性磷酸酶(CIP)。

实施方案97.根据实施方案78至96中任一项所述的方法，其中所述一种或多种DNA修复酶包括DNA聚合酶。

实施方案98.根据实施方案97所述的方法，其中所述DNA聚合酶具有5'-3'聚合酶活性但缺乏5'-3'核酸外切酶活性。

实施方案99.根据实施方案97所述的方法，其中所述DNA聚合酶是Bst DNA聚合酶，大片段。

实施方案100.根据实施方案78至99中任一项所述的方法，其中所述一种或多种DNA修复酶包括连接酶。

实施方案101.根据实施方案100所述的方法，其中所述连接酶是Taq连接酶。

实施方案102.根据实施方案78至101中任一项所述的方法，其中所述DNA损伤包括双链DNA中的切口。

实施方案103.根据实施方案78至102中任一项所述的方法，其中所述一种或多种DNA修复酶包括T4嘧啶二聚体糖基化酶(PDG)。

实施方案104.根据实施方案78至103中任一项所述的方法，其中所述DNA损伤包括胸腺嘧啶二聚体。

实施方案105.根据实施方案104所述的方法，其中所述胸腺嘧啶二聚体是由紫外线辐射诱导的。

实施方案106.根据实施方案78至105中任一项所述的方法，其中所述一种或多种DNA修复酶包括尿嘧啶DNA糖基化酶(UDG)和无嘌呤或无嘧啶位点裂解酶。

实施方案107.根据实施方案78至106中任一项所述的方法，其中所述DNA损伤包括尿嘧啶。

实施方案108.根据实施方案78至107中任一项所述的方法，其中所述一种或多种DNA修复酶包括甲酰胺嘧啶DNA糖基化酶(FPG)和无嘌呤或无嘧啶位点裂解酶。

实施方案109.根据实施方案78至108所述的方法，其中所述DNA损伤包括氧化的碱基。

实施方案110.根据实施方案78至109中任一项所述的方法，其中所述dNTP包括dATP、dGTP、dCTP和dTTP或dUTP。

实施方案111.根据实施方案78至110中任一项所述的方法，其中所有dNTP均为荧光标记的。

实施方案112.根据实施方案78至111所述的方法，其中dUTP和dCTP是荧光标记的。

实施方案113.根据实施方案112所述的方法，其中所述荧光标记是Alexa Fluor488、Alexa Fluor 546、Alexa Fluor 555、Alexa Fluor 633、异硫氰酸荧光素(FITC)或四甲基罗丹明-5-(和6)-异硫氰酸酯(TRITC)。

另外的目的和优点将在下列描述中部分地示出，并且部分地将在描述中显而易见，或可通过实践获知。这些目的和优点将借助所附权利要求书中特别指出的元件和组合来实现和获得。

应当理解，上述一般描述和下述详细描述均仅作为示例和说明，并且不是对权利要求书的限制。

并入本说明书中并且构成本说明书的一部分的附图示出了一个(多个)实施方案，并且其与说明书一起用于解释本文所述的原理。

附图说明

图1示出了用于大indel检测的代表性标准方法。此类方法涉及在切割位点周围的低循环PCR(低循环，约1kb野生型扩增子)，其中PCR条件针对长扩增子(10kb)优化。扩增后，在PCR扩增子上进行Nextera文库制备(LP)。扩增子分析涉及“从头”扩增子组装和独特基因编辑事件(即，生成独特扩增子的事件)的定量。

图2A和2B总结了可以使用通用UMI双链(ds)DNA寡核苷酸制备的长扩增(LongAmp)插入对照。UMI dsDNA寡核苷酸可以是商业来源的(诸如来自Integrated DNATechnologies的gBlock基因片段)(A)。该寡核苷酸可用于制备LongAmp插入对照(B)。RS(在RS1等中)是指限制性位点。N18是指包含18个随机核苷酸的UMI序列。LA-fwd和LA-rev分别指用于LongAmp反应的正向引物和反向引物。对照1、2、3和n分别包含0.2kb、1kb、2kb和10kb的插入片段。10kb标准品的亮区表明，该标准品不是按比例绘制的。

图3示出了产生上游通用PCR衔接子扩增子和下游通用PCR衔接子扩增子的方法。这些扩增子可分别用作5'通用寡核苷酸和3'通用寡核苷酸。分别使用LA-amp正向和反向引物(例如，对于上游扩增子使用LA-fwd/RS1引物，并且对于下游扩增子使用LA-rev/RS2)，可以使用包含RS1和RS2并且结合在目标靶序列中的5'区或3'区中的互补链上的引物来生成上游通用PCR衔接子扩增子(5'区)和下游通用PCR衔接子扩增子(3'区)。所示的“切割位点”是指通过基因编辑(诸如用CRISPR Cas系统)引入到代表性目标序列中的切割位点，因为插入和缺失通常在用于基因编辑的此类切割位点周围发生。其他目标序列(诸如来自正针对插入/缺失突变进行评价的癌症患者的样品中包含的那些序列)将不具有引入的切割位点。

图4示出了使用加尾PCR引物制备不同大小的插入扩增子的方法。该方法使用一组两个引物，这两个引物包含限制酶裂解位点(RS's)的序列并且结合至目标序列内的引物结合序列(即，如图所示，两个引物，诸如包含RS1/RS3序列的那些引物；或两个引物，诸如包含RS2/RS4的那些引物)。插入扩增子和插入扩增子的大小可通过基于它们与目标序列的引物结合位点选择引物来进行控制。在该图中，上游是指目标序列的5'部分中的序列，并且下游是指目标序列的3'部分中的序列。插入扩增子对可以指上游插入扩增子和下游插入扩增子。10kb标准品的亮区表明，该标准品不是按比例绘制的。

图5示出了产生缺失标准品的方法。结合目标序列的互补链上的RS3和RS4的引物可用于使用LA-amp正向和LA-amp反向引物(例如，使用LA-fwd/RS3引物或LA-rev/RS4)生成缺失扩增子。缺失扩增子对可以指上游缺失扩增子和下游缺失扩增子。然后可以使用对应于RS3和RS4的限制性位点来生成用于将切割扩增子连接至通用UMI ds DNA寡核苷酸的适当末端(如图6A中所示)，以生成如图6B中所示的LongAmp缺失标准品。

图6A和6B总结了可以使用通用UMI双链(ds)DNA寡核苷酸制备的长扩增(LongAmp)缺失对照。UMI dsDNA寡核苷酸可以是商业来源的(诸如来自Integrated DNATechnologies的gBlock基因片段)(A)。该寡核苷酸可用于制备LongAmp缺失标准品(B)。对照1、2、3和n分别包含-20个碱基对(bp)、-50bp或约-1kb的缺失。

图7示出了为避免UMI序列重复，LongAmp反应中可能存在的对照输入的质量。

图8A至8C示出了可包含在不同长度的核酸标准品的池中的代表性单个标准品。这些标准品均可包含UMI以及LA-rev和LA-fwd引物结合序列。下表1提供了标准品中包含的标记区域和寡核苷酸的描述符。全长标准品可以包含5'通用寡核苷酸和3'通用寡核苷酸(100和101)(A)。插入标准品可以包含5'通用寡核苷酸、3'通用寡核苷酸以及UMI与5'通用寡核苷酸之间的区域和UMI与3'通用寡核苷酸之间的区域(100、101和102以及103)(B)。插入标准品也可以包含UMI与5'通用寡核苷酸之间的区域或UMI与3'通用寡核苷酸之间的区域，但不包含两个区域(如8B的底部标准品所示，包含100、101和103，但不包含102)。缺失标准品可以包含5'部分重叠的寡核苷酸和3'部分重叠的寡核苷酸(104和105)(C)。缺失标准品可以包含5'部分重叠的寡核苷酸或3'部分重叠的寡核苷酸，但不包含两者(如8C的底部标准品所示，包含104，但不包含105)。如本文所述，核酸标准品的池可以包含本文所示的任何或所有不同类型的标准品。

图9总结了用于评估长文库中DNA损伤的定量PCR(qPCR)测定。该测定使用与文库分子中包含的发夹衔接子内的序列结合的正向和反向引物。没有DNA损伤(诸如切口)的文库将生成更多的信号(即产生更多的全长扩增子)。如图所示，示例性测定可以包括使用针对LongAmp PCR优化的聚合酶(诸如PrimeStar GXL DNA聚合酶，Takara)进行指数扩增。

图10A至10D示出了用不同浓度的切口酶处理的文库的QC测定的平均定量循环(Cq)和损伤百分比的结果。示出了10ng文库的Cq(A)和损伤百分比(B)结果，以及20ng文库的Cq(C)和损伤百分比(D)结果。

图11示出了将文库分子中的切口转化为双链断裂的方法的结果，诸如用创伤弧菌(Vibrio vulnificus)核酸酶(VVN)和T7核酸内切酶突变体的组合。Endo＝核酸内切酶。

图12A和12B总结了当用或不用核酸内切酶突变体处理文库时，Cq值的不同。(A)Cq值的总结。(B)使用Agilent的自动电泳结果的总结。

图13A至13C示出了当在定量PCR(qPCR)中评估SMRTbell模板然后在PacBioSequel 2系统上进行测序以确定qPCR Cq是否与测序度量相关时的结果。样品按最低到最高Cq排序。(A)平均Cq。(B)总输出。(C)变化(P1百分比)。对于qPCR Cq和总输出(千兆碱基，GB)观察到相关性，并且Cq越低表明输出越高(除了文库8的一个离群值，最低的Cq)。通常，文库具有2-3的平均Cq值。qPCR结果预测文库13的质量低，测序结果相对较差也证实了这一点。

图14A至14C显示出了在qPCR中评估并随后在PacBio Sequel 2系统上测序的另一组SMRTbell模板的数据。(A)平均Cq值，样品按最低到最高Cq排序。(B)总输出(GB)。(C)P1百分比。对于qPCR Cq和总输出观察到相关性，并且Cq越低表明输出越高(除了文库14的一个离群值，最低的Cq)。大多数文库具有3-4的平均Cq值。qPCR预测文库10的质量低，测序证实了这一点。

图15A至15C示出了几个PacBio SMRTbell文库预测序并与总Gb输出相关的qPCRQC测定结果的数据。总输出随较低的Cq值而增加，这表明该QC测定可用作预测测序性能的有用工具。来自文库20(A)、文库21(B)和文库22(C)的文库级分(F#)的Cq值和Gb测量结果。

图16示出了DNA损伤检测工作流程。通过采用虾碱性磷酸酶(SAP)消化和基于严格的基于双SPRI珠的纯化步骤(即，用羧酸酯珠进行两次纯化)来大大减少未掺入的荧光核苷酸的非特异性结合，增加了该测定的信噪比。

图17示出了SAP消化和基于单个SPRI珠的纯化步骤的结果。与没有SAP处理(-SAP)相比，当在纯化前用SAP处理(+SAP)时，单个SPRI纯化的剪切和基因组DNA显示出减少的荧光核苷酸非特异性结合。

图18显示，两个基于珠的纯化步骤基本上减少了荧光核苷酸的非特异性结合。

图19A和19B示出了市售修复混合物(PreCR修复混合物(NEB)，在图片(A)中示出)和本发明方法与包含Taq连接酶(40U)、Bst聚合酶大片段(8U)和T4 PDG(1U)的DNA修复酶混合物(在图片(B)中示出)的功效的比较。

图20示出了对基因组DNA样品的紫外(UV)损伤的测量结果。随着光的能量增加和暴露时间增加，在用定制的DNA修复酶混合物修复的样品中荧光的量也增加，该定制的DNA修复酶混合物包含Taq连接酶、Bst聚合酶和T4嘧啶二聚体糖基化酶(T4 PDG)(一种UV损伤特异性修复酶)。

图21示出了对基因组DNA样品的切口损伤的测量结果。当切口酶(Nt.BspQI)的量增加时，在使用本发明的测定用Taq连接酶和Bst聚合酶修复的样品中，荧光信号通常也增加。

具体实施方式

长扩增PCR可用于来自靶核酸的目标序列中的定向长indel检测。然而，PCR偏向较小的扩增子(诸如具有小插入和缺失突变的扩增子)，并且不利于较长的扩增子(诸如长插入)。这种偏差在PCR方法中是固有的，因为与较短的扩增子相比，较长的扩增子将花费较长时间来合成新的核酸链，在PCR循环中产生较长扩增子的可能性较低。进一步地，在可能停止复制的事件之前，较长的扩增子将在产生完整扩增子方面具有较低的成功率。换句话说，较长扩增子的扩增失败率可能高于较短扩增子的扩增失败率。例如，聚合酶产生扩增片段所需的时间越长，由于随机脱落、遇到DNA损伤或由于其持续合成速率而时间不够等原因，聚合酶无法达到扩增子末端的几率就越大。

由于已知的不利于长扩增子的偏差，长扩增(LongAmp)PCR无法用于准确地确定不同事件的相对频率。因此，LongAmp扩增的结果无法定量原始靶核酸样品中特定突变的相对数量，因为与不同突变相关的扩增子的大小将不同地扩增。

本文所述的标准和方法可有助于这种扩增子大小偏差的归一化。

此外，本公开还描述了一种用于评估文库质量的质量控制(QC)方法。在一些实施方案中，在测序前评估文库，诸如用于长读段测序的文库。在一些实施方案中，文库包含文库分子，该文库分子包含双链DNA插入片段，在该插入片段的两端具有发夹衔接子。在一些实施方案中，通过使靶DNA片段化并在片段的两端掺入发夹衔接子(诸如通过标签化或连接)来生成文库。

I.用于将扩增子大小偏差归一化的标准品

在一些实施方案中，不同长度的核酸标准品的池可用于将扩增子大小偏差归一化的方法中。在一些实施方案中，这些核酸标准品包含独特分子标识符(UMI)。

在一些实施方案中，核酸的池可以包含目标序列中包含的一系列不同序列。

在一些实施方案中，该池中的标准品的数量大于通过扩增反应生成的扩增子的数量。在一些实施方案中，扩增反应是目标序列的扩增。

在一些实施方案中，该标准品的至少第一部分来自标准品一个的池，并且其中该标准品的至少第二部分来自标准品的另一个池。

在一些实施方案中，标准品是双链的。在一些实施方案中，标准品包含靶双链DNA。在一些实施方案中，每个标准品包含不同的UMI。

在一些实施方案中，扩增引物结合序列包含在每个标准品的一个或两个末端处或紧邻一个或两个末端。在整个文件中，“紧邻一个或两个末端”意指在末端的10个或更少核苷酸内。在一些实施方案中，扩增引物结合序列包含在每个标准品的一端或两端的末端处。在一些实施方案中，扩增引物结合序列包含每个标准品的一端或两端的1个、2个、3个、4个、5个、6个、7个、8个或9个核苷酸。在一些实施方案中，标准品在其3'末端和其5'末端均包含扩增引物结合序列。在一些实施方案中，标准品在3'末端相对于其3'末端包含不同的扩增引物结合序列。在一些实施方案中，标准品包含UMI的一个或多个寡核苷酸5'。在一些实施方案中，标准品包含UMI的一个或多个寡核苷酸3'。在一些实施方案中，标准品包含UMI的一个或多个寡核苷酸5'和UMI的一个或多个寡核苷酸3'。

A.UMI

在一些实施方案中，标准品的池中的标准品各自包含UMI。

在一些实施方案中，UMI不位于或不紧邻标准品的5'和/或3'末端。在一些实施方案中，位于标准品中心的UMI增加了对标准品进行片段化(诸如通过标签化)产生包含UMI和来自标准品其余部分(UMI的5'和/或3')的全部或部分序列的片段的可能性。如本文所用，“中心”定位的特征是指特征的中间位于标准品中心的10个或更少核苷酸内的位置处。在一些实施方案中，位于标准品中心的UMI具有在标准品中心的1个、2个、3个、4个、5个、6个、7个、8个或9个核苷酸内的UMI的中间。

相反，将UMI置于目标序列的5'和/或3'末端附近可能导致更高百分比的片段，该片段仅包含UMI而不包含来自标准品其余部分的附加序列。

在一些实施方案中，UMI用于鉴定从相同LongAmp标准品生成的扩增子。换句话说，对包含UMI和上游/下游插入连接碱基的标准品的测序可分别提供该标准品的独特分子计数和对照同一性。这是因为从相同标准品生成的每个扩增子将具有相同的独特UMI，并且从LongAmp标准品生成的其他扩增子将具有不同的UMI。

在一些实施方案中，UMI包含随机碱基对，使得每个独特UMI包含与池中其他UMI不同的序列。在一些实施方案中，UMI包含10个(N10)或更多个、12个(N12)或更多个、14个(N14)或更多个、16个(N16)或更多个、18个(N18)或更多个、20个(N20)或更多个、或22个(N22)或更多个随机碱基对。在一些实施方案中，UMI包含18个碱基对(N18)。在一些实施方案中，标准品的池中包含的UMI是包含16个至20个碱基对的随机序列集。

使用具有大量UMI的UMI池可以帮助避免UMI冲突。具有更长的UMI(即，N18而不是N10)也减少UMI冲突的几率。

如本文所用，“UMI冲突”是指观察到具有相同序列和相同UMI条形码但源自两个不同基因组分子的两个读段的事件。使用扩增子测序，基因组中的特定位置被测序多次，从而导致测序深度比全基因组测序大得多(参见Clement等人,Bioinformatics,34,2018,i202-i210)。基于该测序深度，来自不同基因组分子的许多等位基因可以共享相同的序列，并且与全基因组测序相比，扩增子测序发生UMI冲突的可能性高得多。

在一些实施方案中，标准品的池包含1×10¹⁰个或更多个、10×10¹⁰个或更多个、或100×10¹⁰个或更多个标准品，其中每个标准品包含不同的UMI。图7示出了用于制备包含6.87×10¹⁰个UMI的实验的计算，包括所需的包含UMI的合成双链DNA的量。

在一些实施方案中，标准品中的UMI可源自相对便宜的市售试剂，如本文所述。在一些实施方案中，包含UMI的双链寡核苷酸还包含用于制备标准品的一个或多个限制酶裂解位点。

例如，示出了代表性合成dsDNA寡核苷酸，其用于制备插入标准品(图2A)和用于制备缺失标准品(图6A)，如下所述。在一些实施方案中，合成dsDNA寡核苷酸包含UMI和限制酶裂解位点(或限制性位点，诸如RS3和RS4，如图2A和6A所示)。在一些实施方案中，限制酶裂解位点可用于切割寡核苷酸，然后连接至其他寡核苷酸，以制备最终标准品。UMI dsDNA寡核苷酸的来源包括gBlock基因片段(Integrated DNA Technologies)。

B.目标序列

如本文所用，“目标序列”可以是使用者希望研究的任何序列。在一些实施方案中，已经对目标序列进行了基因编辑。例如，使用者可能已经进行了基因编辑或其他诱变(诸如化学诱变)的方法，并且希望评价目标序列中的不同突变(连同野生型序列)。

在一些实施方案中，用CRISPR Cas方法进行基因编辑。在一些实施方案中，CRISPRCas切割位点存在于目标序列中。在一些实施方案中，插入或缺失突变可能在目标序列内的切割位点附近发生。例如，图5示出了使用基因编辑方法(诸如CRISPR Cas)引入的目标序列内存在的切割位点。一些目标序列，诸如来自正针对indel突变进行评价的患者的肿瘤学样品的序列，将不具有通过基因编辑方法学引入的切割位点。

在一些实施方案中，目标序列包含限制酶裂解位点，该限制酶裂解位点不位于或不紧邻该目标序列的5'和/或3'末端。在一些实施方案中，这种切割位点可用于生成标准品或可用于评价目标序列。

在一些实施方案中，目标序列包含能够结合至长扩增引物(即，LA-fwd和LA-rev引物)的引物结合序列。在一些实施方案中，使用者可以评价目标序列以制备适当的LA-fwd和LA-rev引物。

在一些实施方案中，目标序列可以包含插入或缺失突变。例如，目标序列可以包含插入突变或可以是缺失突变(即，不包含目标序列的全序列)。

如本文所用，“野生型”目标序列是指不包含indel突变的目标序列。换句话说，野生型序列是指不包含插入突变并且也不包含缺失突变的序列。如本文所用，“野生型扩增子”是包含野生型目标序列的扩增子。

目标序列可以是任何类型的核酸序列。在一些实施方案中，已经对目标序列进行了基因编辑方法(诸如CRISPR)，并且使用者希望分析独特的基因编辑事件。在一些实施方案中，已进行基因编辑的目标序列可以包含如图3、5和6B中的代表性示例所示的“切割位点”。此类基因编辑方法可导致使用者可能希望表征的多种不同类型的indel突变。

在一些实施方案中，包含癌症和种系indel突变的目标序列可通过该方法进行评价，来自可转座元件的插入也可通过该方法进行评价。在此类实施方案中，目标序列可以不包含来自基因编辑方法的切割位点。

在一些实施方案中，目标序列可以是目标基因(例如已知与癌症相关的基因)的全部或部分。本领域技术人员可能希望表征患者在包含目标序列的基因中可能具有的indel和/或表征不同突变的相对量。例如，本领域技术人员可能希望表征存在于来自患者样品的目标序列中的大插入突变的数量。

C.包含通用寡核苷酸的标准品

在一些实施方案中，核酸标准品的池中的所有或一些标准品包含5'通用寡核苷酸和3'通用寡核苷酸。如本文所用，“通用寡核苷酸”是指包含在该池中的所有标准品中的寡核苷酸。如本文所用，“5'通用寡核苷酸”是标准品中包含的UMI的5'的寡核苷酸(如在图8中表示为100)。如本文所用，“3'通用寡核苷酸”是标准品中包含的UMI的3'的寡核苷酸(如在图8中由101表示)。

在一些实施方案中，该标准品的至少第一部分来自标准品一个的池，并且其中该标准品的至少第二部分来自标准品的另一个池。换句话说，其中每个标准品包含5'通用寡核苷酸和3'通用寡核苷酸的标准品的池可以与不包含5'通用寡核苷酸和/或3'通用寡核苷酸的标准品的不同池组合。

在一些实施方案中，核酸标准品的池包含不同长度的标准品，其中这些核酸标准品包含独特分子标识符(UMI)和5'通用寡核苷酸，其中该5'通用寡核苷酸对于所有标准品是相同的；3'通用寡核苷酸，其中该3'通用寡核苷酸对于所有标准品是相同的；以及UMI与5'通用寡核苷酸之间和/或UMI与3'通用寡核苷酸之间的至少一个区域；其中所述至少一个区域的长度决定所述标准品的长度。UMI与5'通用寡核苷酸之间的区域在图8B中显示为102，并且UMI与3'通用寡核苷酸之间的区域在图8B中显示为103。

在一些实施方案中，包含5'通用寡核苷酸和3'通用寡核苷酸并且还包含附加序列(诸如UMI与5'通用寡核苷酸之间的区域和/或UMI与3'通用寡核苷酸之间的区域)的标准品可以被称为“插入标准品”。这是因为插入标准品的长度可能比野生型目标序列更长。以这种方式，插入标准品可以控制将野生型目标序列中插入突变的扩增子大小偏差归一化，因为这些插入突变将大于野生型目标序列。

在一些实施方案中，该池还包含核酸标准品，该核酸标准品包含UMI和5'通用寡核苷酸，其中该5'通用寡核苷酸对于所有标准品是相同的；以及3'通用寡核苷酸，其中该3'通用寡核苷酸对于所有标准品是相同的；其中所述另外的核酸标准品不包含所述UMI与所述5'通用寡核苷酸之间或所述UMI与所述3'通用寡核苷酸之间的至少一个区域。包含5'通用寡核苷酸(100)和3'通用寡核苷酸(101)的标准品可以被称为全长标准品，如图8A所示。全长标准品可具有与没有插入或缺失突变的野生型目标序列(即，没有indel的野生型序列)相似的长度。

在一些实施方案中，UMI与5'通用寡核苷酸之间和/或UMI与3'通用寡核苷酸之间的至少一个区域决定插入标准品的长度。在一些实施方案中，UMI与5'通用寡核苷酸之间和/或UMI与3'通用寡核苷酸之间的至少一个区域包含对应于目标插入突变的潜在长度的多个千碱基(kb)。在一些实施方案中，UMI与5'通用寡核苷酸之间和/或UMI与3'通用寡核苷酸之间的至少一个区域包含0.2kb-10kb。

5'通用寡核苷酸和/或3'通用寡核苷酸可以包含目标序列中包含的序列。在一些实施方案中，5'通用寡核苷酸和/或3'通用寡核苷酸各自包含从目标序列扩增的扩增子。换句话说，5'通用寡核苷酸和/或3'通用寡核苷酸可通过扩增制备，如图3所示。

当通过扩增制备5'通用寡核苷酸时，其可被称为“5'通用PCR衔接子扩增子”或“上游通用PCR衔接子扩增子”。图3示出了如何使用长扩增正向引物(LA-fwd)和结合至目标序列且包含限制酶裂解位点(RS1)的引物来生成代表性的上游通用PCR衔接子扩增子。

当通过扩增制备3'通用寡核苷酸时，其可被称为“3'通用PCR衔接子扩增子”或“下游通用PCR衔接子扩增子”图3示出了如何使用长扩增反向引物(LA-rev)和结合至目标序列且包含限制酶裂解位点(RS2)的引物来生成代表性的下游通用PCR衔接子扩增子。

在一些实施方案中，上游通用PCR衔接子扩增子和下游通用PCR衔接子扩增子可用合适的限制酶(对于图3中所示的示例，其可在RS1和RS2处裂解)进行裂解以制备标准品，该标准品包含UMI和5'通用寡核苷酸的，其中该5'通用寡核苷酸对于所有标准品是相同的；以及3'通用寡核苷酸，其中该3'通用寡核苷酸对于所有标准品是相同的。这种裂解可产生适于将这些扩增子连接到标准品的其他部分(诸如UMI与5'通用寡核苷酸之间和/或UMI与3'通用寡核苷酸之间的区域)的末端，如下文在制备标准品的方法的描述中所讨论的。

在一些实施方案中，UMI与5'通用寡核苷酸之间和/或UMI与3'通用寡核苷酸之间的至少一个区域各自包含任意序列。如本文所用，“任意序列”是指包含核苷酸的任何序列，不要求任意序列中包含特定的核酸序列。例如，本领域技术人员可能希望制备插入标准品，其中任意序列是随机的并且与目标序列无关。在另一个实施方案中，任意序列可以是已知序列，其不是随机的，并且其也与目标序列无关(诸如不相关的基因序列)。可以使用包含任意序列的标准品来将插入突变的扩增子大小偏差归一化，因为这种偏差大多与扩增子大小有关，而与包含在插入序列中的确切序列无关。在一些实施方案中，任意序列是双链的。

在一些实施方案中，UMI与5'通用寡核苷酸之间和/或UMI与3'通用寡核苷酸之间的至少一个区域各自包含从目标序列扩增的扩增子。换句话说，可以通过扩增制备UMI与5'通用寡核苷酸之间和/或UMI与3'通用寡核苷酸之间的区域。在一些实施方案中，这种扩增来自目标序列，如图4中所示。

1.插入扩增子

如本文所用，当通过扩增制备时，UMI与5'通用寡核苷酸之间的区域可以称为“5'插入扩增子”或“上游插入扩增子”。图4示出了如何使用结合至目标序列且包含限制酶裂解位点(RS1和RS3)的引物来生成代表性的上游插入扩增子。

如本文所用，当通过扩增制备时，UMI与3'通用寡核苷酸之间的区域可以称为“3'插入扩增子”或“下游插入扩增子”。图4示出了如何使用限制酶裂解位点(RS2和RS4)来生成代表性的上游插入扩增子。

在一些实施方案中，用于制备插入扩增子的反向和正向引物决定插入扩增子的大小。在一些实施方案中，单个引物对生成期望大小的插入扩增子。

如本文所用，“插入扩增子”可以指作为5'插入扩增子或3'插入扩增子的扩增子。通常，“插入扩增子”不受其在标准品中的位置的限制。

在一些实施方案中，标准品包含上游插入扩增子和下游插入扩增子两者(如图4所示)。这些可被称为“插入扩增子对”。然而，标准品也可以仅包含上游插入扩增子或下游插入扩增子。

图2B示出了代表性的标准品的池，其包含核酸标准品的池，这些核酸标准品包含5'通用寡核苷酸和3'通用寡核苷酸。如图2B所示，标准品的池可以包含如图4所示制备的上游插入扩增子和下游插入扩增子。

D.包含部分重叠的寡核苷酸的标准品

在一些实施方案中，不同长度的核酸标准品的池包含核酸标准品，这些核酸标准品包含UMI和5'部分重叠的寡核苷酸，其中该5'部分重叠的寡核苷酸在其序列的至少一部分上对于所有标准品是相同的；和/或3'部分重叠的寡核苷酸，其中该3'部分重叠的寡核苷酸在其序列的至少一部分上对于所有标准品是相同的；其中所述5'部分重叠的寡核苷酸和/或所述3'部分重叠的寡核苷酸的长度决定所述标准品的长度。

如本文所用，“部分重叠的寡核苷酸”是指对于所有标准品而言在其序列的至少一部分上相同的寡核苷酸。在一些实施方案中，标准品包含5'部分重叠的寡核苷酸和3'部分重叠的寡核苷酸。

如本文所用，“5'部分重叠的寡核苷酸”是标准品中包含的UMI的5'的寡核苷酸，如在图8C中由104表示。如本文所用，“3'部分重叠的寡核苷酸”是标准品中包含的UMI的3'的寡核苷酸，如在图8C中由105表示。在一些实施方案中，5'部分重叠的寡核苷酸和3'部分重叠的寡核苷酸是不同的。在一些实施方案中，5'部分重叠的寡核苷酸和3'部分重叠的寡核苷酸包含不同数量的核苷酸。

在一些实施方案中，5'部分重叠的寡核苷酸包含目标序列的至少第一部分，并且3'部分重叠的寡核苷酸包含目标序列的至少第二部分。换句话说，5'部分重叠的寡核苷酸包含目标序列的至少第一部分，并且3'部分重叠的寡核苷酸可以对应于目标序列的不同部分。

在一些实施方案中，标准品仅包含5'部分重叠的寡核苷酸(而不包含3'部分重叠的寡核苷酸)。在一些实施方案中，标准品仅包含3'部分重叠的寡核苷酸(而不包含5'部分重叠的寡核苷酸)。仅包含5'部分重叠的寡核苷酸或3'部分重叠的寡核苷酸的标准品可用于控制导致目标序列中大片区域丢失的缺失突变。

在一些实施方案中，5'部分重叠的寡核苷酸和/或3'部分重叠的寡核苷酸各自包含从目标序列扩增的扩增子，如图5所示。

1.缺失扩增子

当通过从目标序列扩增而生成时，5'部分重叠的寡核苷酸可以被称为5'缺失扩增子或上游缺失扩增子。当通过从目标序列扩增而生成时，3'部分重叠的寡核苷酸可以被称为3'缺失扩增子或下游缺失扩增子。例如，如图5所示，上游缺失扩增子中的每一个包含目标序列的一部分(以黑色显示)，并且下游缺失扩增子中的每一个也包含目标序列的一部分(以黑色显示)。在一些实施方案中，上游缺失扩增子和下游缺失扩增子中包含的目标序列的部分可以是不同的。图5示出了如何使用包含限制酶裂解位点(诸如RS3和RS4)并且结合至LA-fwd和LA-rev引物结合序列和包含在目标序列中的其他序列的引物来生成代表性的上游缺失扩增子和下游缺失扩增子。

如本文所用，“缺失扩增子”可以指作为5'缺失扩增子或3'缺失扩增子的扩增子。通常，“缺失扩增子”不受其在标准品中的位置的限制。

在一些实施方案中，用于制备缺失扩增子的反向和正向引物决定缺失扩增子的大小。在一些实施方案中，单个引物对生成期望大小的缺失扩增子。

在一些实施方案中，标准品包含上游缺失扩增子和下游缺失扩增子两者(如图5所示)。这些可被称为“缺失扩增子对”。然而，标准品也可以仅包含上游缺失扩增子或下游缺失扩增子。

在一些实施方案中，5'部分重叠的寡核苷酸和/或3'部分重叠的寡核苷酸各自包含比目标序列小20bp-1kb的序列。换句话说，5'部分重叠的寡核苷酸和/或3'部分重叠的寡核苷酸可以对应于在目标序列的缺失突变中发现的序列。

图6B示出了如图5中所示制备的代表性的标准品的池，其包含核酸标准品的池，这些核酸标准品包含上游缺失扩增子和下游缺失扩增子。

II.制备标准品的方法

本发明标准品和使用方法不受生成标准品的方式的限制。在一些实施方案中，通过将寡核苷酸连接在一起以制备标准品来生成标准品。

本文描述了一种生成核酸标准品的池的方法，该方法包括提供包含核酸的至少一个目标序列的多个拷贝；提供各自包含UMI的寡核苷酸的集合；提供不同长度的插入寡核苷酸的集合；以及连接至少一个目标序列、至少一个包含UMI的寡核苷酸和至少一个插入扩增子，以产生核酸标准品的池的多个核酸标准品。

在一些实施方案中，至少一个目标序列和/或插入寡核苷酸是通过扩增制备的。

在一些实施方案中，目标序列、各自包含UMI的寡核苷酸和/或插入寡核苷酸包含限制酶裂解位点。在一些实施方案中，该限制酶裂解位点邻近目标序列、各自包含UMI的寡核苷酸和/或插入寡核苷酸的5'和/或3'末端。

在一些实施方案中，该方法还包括在连接之前用限制酶裂解目标序列、各自包含UMI的寡核苷酸和/或插入寡核苷酸。在一些实施方案中，用限制酶进行裂解产生用于连接的粘性末端。在一些实施方案中，包含UMI的寡核苷酸被设计成包含期望的限制酶裂解位点，该限制酶裂解位点也包含在目标序列中。

本文还描述了一种生成核酸标准品的池的方法，该方法包括提供包含核酸的至少一个目标序列的多个拷贝；提供各自包含UMI的寡核苷酸的集合；以及连接至少一个目标序列和至少一个包含UMI的寡核苷酸。

在一些实施方案中，至少一个目标序列是通过扩增制备的。在一些实施方案中，目标序列和/或各自包含UMI的寡核苷酸包含限制酶裂解位点。在一些实施方案中，该限制酶裂解位点邻近目标序列和/或各自包含UMI的寡核苷酸的5'和/或3'末端。

在一些实施方案中，该方法还包括在连接之前用限制酶裂解目标序列和/或各自包含UMI的寡核苷酸。

在一些实施方案中，用限制酶进行裂解产生用于连接的粘性末端。

在一些实施方案中，与正在运行的LongAmp标准品的数量相比，有更大数量的UMI可用。以这种方式，UMI的数量大于正在制备的标准品的数量，并且UMI的重复被最小化。

III.将扩增子大小偏差归一化的方法

本文所述的标准品的池可用于将扩增子大小偏差归一化的方法中。

本文描述了一种将扩增子大小偏差归一化的方法，该方法包括将包含靶核酸的样品与不同长度的核酸标准品的池组合，其中每个标准品包含UMI；扩增标准品和包含在靶核酸中的目标序列的扩增子；对标准品和目标序列的扩增子进行测序，以生成测序数据；使用来自标准品的测序数据确定基于扩增子大小的偏差谱图；以及使用该偏差谱图将扩增子大小偏差归一化。

如本文所用，“扩增子大小偏差”是指不同大小的扩增子将不同地扩增的事实。在一些实施方案中，与较短的扩增子相比，在给定的扩增反应中生成较少的大扩增子。在一些实施方案中，该扩增是PCR扩增。在一些实施方案中，该扩增是LongAmp PCR。

LongAmp PCR包括扩增通常无法使用常规PCR方法或试剂进行扩增的DNA长度。针对LongAmp PCR优化的酶可被称为长程聚合酶。因为如果产生完整扩增子，则LongAmp PCR结果得到改善，因为在一个循环中不完整扩增子的生成导致在后面的PCR循环中不完整扩增子的进一步生成。在一些实施方案中，长程聚合酶具有高持续合成能力(即，在通过DNA聚合酶的单一结合事件期间掺入相对高数量的核苷酸)和/或快速延伸速率。

具有高持续合成能力和快速延伸速率的长程聚合酶有助于确保长模板的有效DNA合成并缩短循环时间。已知多种方案和长程聚合酶被用于LongAmp PCR，诸如LongAmp TaqDNA聚合酶和Phusion DNA聚合酶(New England Biolabs)。在一些实施方案中，长程聚合酶是PrimeSTAR GXL DNA聚合酶(Takara)。

在一些实施方案中，LongAmp PCR中的扩增子大小偏差可以用使用本文所述的核酸标准品的方法来进行归一化。在一些实施方案中，标准品被用于生成偏差谱图，其中该偏差谱图可用于将关于从目标序列生成的扩增子的数据归一化。在一些实施方案中，扩增子大小对来自目标序列的扩增子的扩增的影响可使用用本文描述的标准品生成的数据进行归一化。

在一些实施方案中，扩增目标序列的扩增子包括用与该目标序列末端处的引物结合序列结合的一对PCR引物从靶核酸扩增扩增子。在一些实施方案中，标准品包含与目标序列末端处的那些引物结合序列相同的引物结合序列。

在一些实施方案中，该方法还包括在扩增之后和测序之前生成片段文库。

在一些实施方案中，生成片段文库是通过标签化进行的。这种方法示于图1中，其中通过Nextera片段化方案生成片段。这种方法生成包含例如不同插入突变(在图1中用箭头标记)的片段。在这种“long amp”PCR和片段化步骤中，可添加如本文所述的标准品的池，以在PCR期间将扩增子大小偏差归一化。以这种方式，使标准品的池经受与目标序列相同的扩增和片段化条件。

在一些实施方案中，用于确定偏差谱图的来自标准品的测序数据是包含在标准品中的UMI的独特分子计数。换句话说，本领域技术人员可以使用测序数据的标准分析来确定来自不同标准品的重复UMI的数量。由于这些UMI源自不同长度的标准品，因此不同UMI的计数可提供不同大小的扩增子的扩增效率的量度，以生成偏差谱图。以这种方式，可以将针对来自目标序列的不同序列生成的扩增子(包括从野生型目标序列以及包含indel的目标序列生成的扩增子)的数量与偏差谱图进行比较。换句话说，从目标序列生成的数据与标准品的比较可用于将测序数据针对扩增子大小偏差归一化。例如，如果与目标序列的大插入突变大小相似的插入标准品以与野生型目标序列大小相似的标准品的1/3的速率扩增，则使用者可以将这些大插入突变的拷贝数相对于野生型序列进行归一化。类似地，与使用缺失标准品的野生型序列相比，本领域技术人员可以针对更大数量的大缺失突变(即，其中大量序列丢失)进行归一化。

A.长扩增PCR和测序

长扩增PCR(LongAmp)是指针对长扩增子优化的PCR反应。这种LongAmp反应如图1所示(“long amp”PCR)。这种优化的LongAmp PCR的方法是本领域公知的。

在一些实施方案中，长扩增子可以为大于5,000千碱基、大于10,000千碱基或大于20,000千碱基。

在一些实施方案中，从可包含大插入突变的目标序列生成长扩增子。例如，长扩增子可以为约10,000千碱基，而来自该目标序列的野生型扩增子为约1,000千碱基。

在一些实施方案中，LongAmp用于优化目标序列中长插入突变的鉴定。

在LongAmp PCR之后，可在对文库片段进行测序之前进行文库制备。例如，可以使用标签化(诸如使用来自Illumina的Nextera系统)进行文库制备，以用于测序。

在一些实施方案中，标准品用于运行对照测定。在一些实施方案中，这些对照测定与LongAmp PCR反应分开。在一些实施方案中，将已知量的标准品掺入每个LongAmp PCR反应中。“掺入”意指在与LongAmp PCR反应相同的反应溶液中扩增标准品。

IV.确定文库中的DNA损伤的方法

本文描述了一种对文库进行质量控制(QC)的定量PCR(qPCR)方法。此类方法可允许使用者在对文库进行进一步分析(诸如测序)之前确定存在于文库中的DNA损伤的量。在一些实施方案中，QC测定区分具有不同损伤水平的文库。

在一些实施方案中，这些文库可以用于测序。在一些实施方案中，文库旨在用于长读段测序。在一些实施方案中，使用标签化和/或珠连接的转座体制备文库。确定文库中的DNA损伤的本发明方法可用于通过任何方法生成的文库。

如本文所用，“文库分子”是指包含在文库内的单分子。在一些实施方案中，每个文库分子可包含来自靶核酸的不同插入片段。文库分子可以用本领域公知的标准品标签化或连接方案生成。

许多测序应用要求文库分子中存在一个或多个衔接子。通常，这些衔接子序列位于插入片段的两端。在一些实施方案中，包含在衔接子中的序列用于测序应用，诸如允许文库分子与流动池的结合或允许测序引物与文库分子的结合。在一些实施方案中，为了测序应用，诸如为了结合至两个不同的测序引物序列，在插入片段的两端需要衔接子序列。在这种情况下，缺乏一个衔接子序列的文库分子(诸如带切口的文库或其扩增子)无法被成功测序。

在一些实施方案中，文库包含含有长读段发夹衔接子的文库分子。长读段文库分子中的插入片段大小可以为5kb或更大、10kb或更大、15kb或更大、20kb或更大、25kb或更大、或30kb或更大。在一些实施方案中，发夹衔接子可被添加到包含在文库分子内的插入片段中的DNA的长区域。在一些实施方案中，可使用连接或标签化方案将发夹衔接子添加至插入片段。例如，NEB的NEBNext Multiplex Oligos for使用具有独特发夹环结构的衔接子连接，该发夹环结构使衔接子-二聚体的形成最小化。

在一些实施方案中，发夹衔接子可以在标签化反应期间添加到插入片段中。如本文所用，“标签化”是指转座酶用于将核酸片段化并加标签。标签化包括通过转座体复合物修饰DNA，该转座体复合物包含与包含转座子末端序列(本文称为转座子)的一个或多个标签(诸如衔接子序列)复合的转座酶。因此，标签化可导致DNA的片段化和衔接子与双重片段的两条链的5'末端的连接同时发生。然而，标签化仅是生成文库的一种方法，并且其他方法(诸如连接)也可用于生成用于与本发明QC测定一起使用的文库。

在一些实施方案中，确定包含一个或多个文库分子的文库中DNA损伤的存在的方法(其中每个文库分子包含双链DNA插入片段，在该插入片段的每个末端具有发夹衔接子)包括：使包含在文库分子中的双链DNA插入片段的第一链和第二链变性；使正向引物和反向引物退火至文库分子；扩增以产生文库扩增子；以及基于所产生的文库扩增子的数量评估DNA损伤的存在。示例性方法示于图9中，该图表明，具有切口的文库分子将不会生成全长扩增子。

本文所述的方法可使用长程聚合酶来扩增用于QC的文库分子。在一些实施方案中，QC测定区分具有不同损伤水平的文库，从而产生与文库制备中的损伤百分比相关的Cq值。目前描述的方法可应用于包含一个或多个发夹衔接子的任何文库，特别用于针对长读段测序的长插入片段文库制备。在一些实施方案中，使用本发明的QC测定避免了使用受损的文库，从而导致时间、金钱和消耗品的节省。

A.文库中的DNA损伤

所有文库制备方法都可能在制备过程期间对核酸造成损伤。例如，任何移液步骤可能导致核酸的剪切。虽然使用者可以采取措施来减少潜在的损伤，但是这种损伤无法被完全避免或预测。

文库分子内的插入片段可包含作为片段从一个或多个较大核酸获得的双链核酸。片段化可以使用本领域已知的多种技术中的任一种技术进行，这些技术包括例如雾化、超声处理、化学裂解、酶促裂解、或物理剪切。然而，这些片段化方法中的任何一种都有可能引入DNA损伤，诸如使DNA产生切口。

因此，重要的是能够评估文库中的DNA损伤。例如，使用者不希望对具有广泛DNA损伤的文库进行进一步测序，因为测序质量将是差的。类似地，如果文库大量被损坏，则使用者可能难以确定待测序的文库产物的适当量。对于许多测序平台，文库分子需要片段两端的衔接子序列，以用于诸如结合至流动池或结合至测序引物。在不存在适当衔接子的情况下，诸如当文库分子具有DNA损伤时，文库分子(及其扩增子)将不会生成可分析的测序数据。

对DNA损伤的评估可允许使用者避免进一步使用受损的文库。以这种方式，如果低的文库质量排除了高质量数据的生成，则使用者可以节省用于诸如测序等应用的时间和试剂成本。在一些实施方案中，将具有低质量的文库从测序中排除。

在一些实施方案中，DNA损伤是一个或多个切口。在一些实施方案中，在进行QC测定之前，可将一个或多个切口转化为双链断裂。

1.切口

在一些实施方案中，DNA损伤包括文库分子中的一个或多个切口。如本文所用，一个或多个切口可以是单个切口或多个分开的切口。

在一些实施方案中，一个或多个切口在文库分子中包含的插入片段内。由于插入片段可以是双链插入片段，因此切口是指插入片段的一条链中的断裂，其中在该位置的另一条链中不存在断裂。如本文所用，切口因此可指双链DNA插入片段中的不连续性，其中在一条链的相邻核苷酸之间不存在磷酸二酯键。在一些实施方案中，在文库制备期间通过DNA损伤生成一个或多个切口。例如，移液期间的剪切可能导致文库分子中的切口。

在一些实施方案中，当文库中更大百分比的文库分子包含一个或多个切口时，在QC测定中生成的Cq值更大，如下文所讨论的。

在一些实施方案中，DNA损伤包括文库分子中的两个或更多个切口，其中该切口位于该双链DNA插入片段的相同链中。

在一些实施方案中，DNA损伤包括文库分子中的两个或更多个切口，其中该切口位于该双链DNA插入片段的两条链中。当两个或更多个切口在不同的链中时，这些切口可位于不同的位置处，以与下文描述的双链DNA断裂区分开。

当在扩增期间遇到切口时，DNA聚合酶可能无法使扩增子延伸通过切口。因此，一个或多个切口可导致生成不完整的扩增子，其不具有文库分子的全序列。在一些实施方案中，如果文库分子包含一个或多个切口，则正向引物和/或反向引物无法生成对应于文库分子的全序列的扩增子。这种没有文库分子的全序列的扩增子可能是不可测序的(由于缺少应位于插入片段一端或两端处的衔接子序列)。

在一些实施方案中，从包含切口的文库分子生成的扩增子缺乏用于结合至正向引物和/或反向引物的序列。

在一些实施方案中，与不包含切口的文库分子相比，包含切口的文库分子在扩增期间生成较少的扩增子。如下所述，本发明的QC方法可估计包含切口的文库分子的Cq值，并因此向使用者指示文库具有相对低的质量(具有高Cq值)或相对高的质量(具有低Cq值)。以此方式，Cq值可用于估计给定文库的质量以评估是否进一步评价该文库(诸如通过测序)，并避免与测序将产生不良数据的文库相关的时间和费用。

2.从切口生成的双链DNA断裂

在一些实施方案中，该方法还包括从切口生成双链断裂。在一些实施方案中，在QC方法中，在退火正向引物和反向引物之前从切口生成双链断裂。

在一些实施方案中，使用酶从切口制备双链断裂。换句话说，双链断裂的生成可以使用酶促反应来进行。在一些实施方案中，酶促反应通过核酸内切酶进行。在一些实施方案中，核酸内切酶是T7核酸内切酶。

在一些实施方案中，包含双链断裂的文库分子在扩增期间不生成对应于文库分子的全序列的扩增子。在一些实施方案中，双链断裂裂解插入片段内的文库分子，并且在裂解后无法生成文库分子的全长扩增子。

在一些实施方案中，从包含双链断裂的文库分子生成的扩增子缺乏用于结合至正向引物和/或反向引物的序列。在一些实施方案中，双链断裂裂解插入片段内的文库分子，并且包含在两个不同发夹衔接子(与文库插入片段的两个末端缔合)中的引物结合序列被分开。在一些实施方案中，裂解后，正向引物和反向引物都无法在结合至文库分子后生成全长扩增子。

B.发夹衔接子

如本文所用，“发夹”是指包含彼此至少部分互补的一对核酸序列的核酸。这两个至少部分互补的核酸序列可以彼此结合并且介导核酸的折叠。在一些实施方案中，至少部分互补的两个核酸序列生成具有发夹二级结构的核酸。

如本文所用，“发夹衔接子”是指包含至少一对彼此至少部分互补的核酸序列的衔接子。在一些实施方案中，发夹衔接子具有折叠的二级结构。

在一些实施方案中，发夹衔接子包含一个或多个衔接子序列。在一些实施方案中，衔接子序列包含引物序列、索引标签序列、捕获序列、条形码序列、裂解序列或测序相关序列或它们的组合。如本文所用，测序相关序列可以是与后续测序步骤相关的任何序列。测序相关序列可用于简化下游测序步骤。例如，测序相关序列可以是通过将衔接子连接到核酸片段的步骤掺入的序列。在一些实施方案中，衔接子序列包含P5或P7序列(或它们的互补序列)以促进在某些测序方法中与流通池结合。

在一些实施方案中，发夹衔接子包含扩增引物序列(即，结合至扩增引物的序列)。在一些实施方案中，发夹衔接子包含扩增引物序列和与衔接子序列至少部分互补的序列的全部或部分。在一些实施方案中，发夹中包含的扩增引物序列是通用引物序列。通用序列是两个或更多个核酸分子共同(即共有)的核苷酸序列区域。

在一些实施方案中，正向引物或反向引物结合至包含在一个或两个发夹衔接子中的一个或多个序列。在一些实施方案中，正向引物和反向引物两者都结合至包含在一个或两个发夹衔接子中的一个或多个序列。在一些实施方案中，正向引物结合至附着于双链DNA插入片段的第一末端的发夹衔接子中包含的序列，并且反向引物结合至附着于双链DNA插入片段的第二末端的发夹衔接子中包含的序列。

在一些实施方案中，文库分子包含含有双链核酸的插入片段和位于插入片段两端的发夹衔接子。在一些实施方案中，插入片段包含来自靶核酸的片段。掺入发夹衔接子的方法是本领域公知的，诸如通过连接或标签化。

例如，Multiplex Oligos for(New England BioLabs)提供发夹衔接子和引物，以增加文库产物的产率。在一些实施方案中，发夹衔接子包含使衔接子-二聚体的形成最小化的发夹环结构。在一些实施方案中，发夹衔接子与末端修复的、dA尾的DNA连接。在一些实施方案中，发夹衔接子包含含有尿嘧啶的环，该尿嘧啶通过用USER试剂处理而去除。在一些实施方案中，USER酶是尿嘧啶DNA糖基化酶(UDG)和DNA糖基化酶-裂解酶(诸如核酸内切酶VIII)的混合物。在一些实施方案中，USER处理可打开发夹衔接子的环，并使其可用作扩增的底物，以掺入索引引物和随后的测序。

在一些实施方案中，使用基因座特异性引物和USER试剂掺入发夹衔接子，以生成用于连接发夹衔接子的突出端。示例性方法将是SMRTbell文库制备(PacificBiosciences，参见SMRTbell文库制备和SMRT测序工作流程更新，2017)。

在一些实施方案中，发夹衔接子包含在具有相对大的插入片段的文库分子中，其中文库分子被设计用于长读段测序。

在一些实施方案中，每个发夹衔接子包含扩增引物结合位点。在一些实施方案中，位于插入片段的第一末端处的发夹衔接子包含与位于插入片段的第二末端处的发夹衔接子不同的扩增引物结合位点。在一些实施方案中，位于插入片段的第一末端处的发夹衔接子包含第一扩增引物结合位点，并且位于插入片段的第二末端处的发夹衔接子包含第二扩增引物结合位点。在一些实施方案中，第一扩增引物结合位点和第二扩增引物结合位点以相反方向介导扩增。

在一些实施方案(诸如图9所示的实施方案)中，位于插入片段的第一末端处的发夹衔接子可以包含正向扩增引物结合位点，并且位于插入片段的第二末端处的发夹衔接子可以包含反向扩增引物结合位点。

C.扩增

在一些实施方案中，该方法还包括使用与扩增引物序列结合的扩增引物扩增文库分子。在一些实施方案中，文库分子中包含的一个或两个发夹衔接子包含扩增引物。

在一些实施方案中，扩增被优化用于扩增5kb或更大、10kb或更大、15kb或更大、20kb或更大、25kb或更大、或30kb或更大的文库分子。

在一些实施方案中，该扩增用针对长扩增子的扩增而优化的聚合酶进行。在一些实施方案中，聚合酶被优化用于扩增20kb或更大或30kb或更大的扩增子。

针对长扩增子的扩增优化的许多示例性聚合酶是本领域已知的。一种示例性聚合酶是PrimeSTAR GXL DNA聚合酶(Takara)。

在一些实施方案中，该聚合酶与野生型Taq聚合酶相比具有更高的持续合成能力和/或延伸速率。在一些实施方案中，该聚合酶包含一个或多个突变或融合，该一个或多个突变或融合增加持续合成能力或延伸速率。

如本文所用，聚合酶的“持续合成能力”是指在从DNA模板解离之前，聚合酶在单个模板结合事件期间可掺入DNA中的核苷酸的数量。因此，具有相对高的持续合成能力的聚合酶可以在单个模板结合事件期间掺入大量的核苷酸。较高的持续合成能力可以增加在PCR循环期间生成完整扩增子的可能性。

如本文所用，聚合酶的“延伸速率”是其在一段时间内可掺入DNA中的核苷酸的数量。在一些实施方案中，具有相对高的延伸速率的聚合酶可在PCR循环期间生成文库分子的完整扩增子。在一些实施方案中，聚合酶具有2kb/min或更大、3kb/min或更大、或4kb/min或更大的延伸速率。

在一些实施方案中，聚合酶具有3kb/分钟或更大的延伸速率。

在一些实施方案中，扩增是指数式的。

在一些实施方案中，进行30个或更多个或者40个或更多个扩增循环。

在一些实施方案中，扩增引物可包含索引序列。这些索引序列可用于鉴定样品和在阵列中的位置。在一些实施方案中，索引序列包含独特分子标识符(UMI)。UMI描述于专利申请号WO 2016/176091、WO 2018/197950、WO 2018/197945、WO 2018/200380和WO 2018/204423中，这些专利申请中的每一篇以引用方式全文并入本文。

在一些实施方案中，在固体载体上扩增样品。

例如，在一些实施方案中，使用簇扩增方法扩增样品，如美国专利7,985,565和7,115,400的公开内容所例示，这些专利中的每一篇的内容以引用方式全文并入本文。美国专利7,985,565和7,115,400的并入材料描述了固相核酸扩增的方法，这些方法允许扩增产物固定在固体载体上以便形成由固定核酸分子的簇或“集群”构成的阵列。此类阵列上的每个簇或集群由多个相同的固定多核苷酸链和多个相同的固定互补多核苷酸链形成。如此形成的阵列在本文中通常被称为“簇阵列”。固相扩增反应的产物(诸如美国专利7,985,565和7,115,400中描述的那些)是所谓的“桥接”结构，这些结构通过对成对的固定多核苷酸链和固定互补链(两条链在一些实施方案中经由共价附接在5'末端固定在固体载体上)进行退火形成。簇扩增方法是其中固定核酸模板用于产生固定扩增子的方法的示例。也可使用其他合适的方法由根据本文提供的方法产生的固定化DNA片段产生固定化扩增子。例如，无论每对扩增引物中的一个或两个引物是否被固定，都可以经由固相PCR形成一个或多个簇或集群。

在其他实施方案中，在溶液中扩增样品。例如，在一些实施方案中，样品被裂解或以其他方式从固体载体释放，然后扩增引物在溶液中与释放的分子杂交。在其他实施方案中，扩增引物与期望样品杂交以进行一个或多个初始扩增步骤，然后在溶液中进行后续扩增步骤。在一些实施方案中，固定核酸模板可以用于产生溶液相扩增子。

应当理解，本文所述的或本领域通常已知的扩增方法中的任一种方法可与通用引物或靶标特异性引物一起用于扩增期望样品。合适的扩增方法包括但不限于聚合酶链反应(PCR)、链置换扩增(SDA)、转录介导的扩增(TMA)和基于核酸序列的扩增(NASBA)，如美国专利第8,003,354号中所述，该专利以引用方式全文并入本文。上述扩增方法可用于扩增一种或多种感兴趣核酸。例如，可利用PCR(包括多重PCR)、SDA、TMA、NASBA等扩增固定DNA片段。在一些实施方案中，在扩增反应中包括特异性针对感兴趣核酸的引物。

其他合适的核酸扩增方法可包括寡核苷酸延伸和连接、滚环扩增(RCA)(Lizardi等人，Nat.Genet.19:225-232(1998)，该文献以引用方式并入本文)和寡核苷酸连接测定(OLA)(通常参见美国专利7,582,420、5,185,243、5,679,524和5,573,907，EP 0 320 308B1，EP 0 336 731 B1，EP 0439 182B1，WO 90/01069，WO 89/12696和WO 89/09835，所有这些专利以引用方式并入)技术。应当理解，这些扩增方法可被设计成用于扩增固定DNA片段。例如，在一些实施方案中，扩增方法可包括连接探针扩增或含有特异性针对感兴趣核酸的引物的寡核苷酸连接测定(OLA)反应。在一些实施方案中，扩增方法可包括引物延伸-连接反应，该引物延伸-连接反应包含特异性针对感兴趣核酸的引物。作为可被特别设计用于扩增感兴趣的核酸的引物延伸和连接引物的非限制性示例，扩增可包括用于GoldenGate测定(Illumina,Inc.,San Diego,CA)的引物，如美国专利第7,582,420号和第7,611,869号所示例，这两篇专利中的每一篇专利全文均以引用方式并入本文。

在本公开的方法中可使用的示例性等温扩增方法包括但不限于由例如Dean等人，Proc.Natl.Acad.Sci.USA 99:5261-66(2002)所示例的多重置换扩增(MDA)，或由例如美国专利第6,214,587号所示例的等温链置换核酸扩增，这两篇文献中的每篇文献以引用方式全文并入本文。可用于本公开的其他非基于PCR的方法包括：例如链置换扩增(SDA)，其描述于例如Walker等人，Molecular Methods for Virus Detection,Academic Press,Inc.,1995年；美国专利5,455,166和5,130,238，以及Walker等人，Nucl.Acids Res，20:1691-96(1992)；或超支化链置换扩增，其描述于例如Lage等人，Genome Research 13:294-307(2003)中，这些文献中的每篇文献均全文以引用方式并入本文。等温扩增方法可与链置换Phi 29聚合酶或Bst DNA聚合酶大片段5’->3’exo-一起用于基因组DNA的随机引物扩增。这些聚合酶的使用利用了它们的高持续合成能力和链置换活性。高持续合成能力允许聚合酶产生长度为10kb-20kb的片段。如上所述，可使用具有低持续合成能力和链置换活性的聚合酶(诸如Klenow聚合酶)在等温条件下产生较小的片段。对扩增反应、条件和组分的附加描述在美国专利7,670,810的公开内容中详细阐述，该专利以引用方式全文并入本文。

D.测序

在一些实施方案中，该方法还包括对文库产物和扩增的文库产物(即，扩增子)进行测序。在一些实施方案中，QC测定后对文库的分析是测序。

在一些实施方案中，方法包括基于Cq值确定用于分析文库的条件。在一些实施方案中，QC测定用于确定用于测序文库的条件。在一些实施方案中，QC测定用于确定给定文库不应被测序。例如，QC测定可估计在给定文库中没有足够的文库分子，使得从该文库生成的测序数据将是低质量的。

在一些实施方案中，该方法允许对插入片段的完整序列进行测序。

一种示例性测序方法是边合成边测序(SBS)。在SBS中，监测核酸引物沿核酸模板的延伸，以确定模板中核苷酸的序列。基础化学过程可以是聚合(例如，由聚合酶催化)。在特定的基于聚合酶的SBS实施方案中，以模板依赖性方式将荧光标记的核苷酸添加到引物(从而使引物延伸)，使得对添加到引物中的核苷酸的顺序和类型的检测可以用于确定模板的序列。

流通池为测序提供了便利的固体支持物。例如，为了启动第一SBS循环，一个或多个标记的核苷酸、DNA聚合酶等可流入/通过容纳一个或多个扩增核酸分子的流通池。可以检测其中引物延伸引起标记核苷酸掺入的那些位点。任选地，核苷酸还可以包括一旦将核苷酸添加到引物就终止进一步的引物延伸的可逆终止属性。例如，可以将具有可逆终止子部分的核苷酸类似物添加到引物，使得后续的延伸直到递送解封闭剂以去除该部分才发生。因此，对于使用可逆终止的实施方案，可以将解封闭试剂递送到流通池(在检测发生之前或之后)。洗涤可以在各个递送步骤之间进行。然后可以重复该循环n次以使引物延伸n个核苷酸，从而检测长度为n的序列。可以容易地适于与通过本公开的方法产生的扩增子一起使用的示例性SBS程序、流体系统和检测平台在例如以下文献中描述：Bentley等人，Nature456:53-59(2008)、WO 04/018497、US 7,057,026、WO 91/06678、WO 07/123744、US 7,329,492、US 7,211,414、US 7,315,019、US 7,405,281和US 2008/0108082，这些文献中的每一篇均以引用方式并入本文。

可以使用利用循环反应的其他测序程序，诸如焦磷酸测序。焦磷酸测序检测当特定核苷酸掺入新生核酸链中时无机焦磷酸盐(PPi)的释放(Ronaghi等人，AnalyticalBiochemistry 242(1),84-9(1996)；Ronaghi,Genome Res.11(1),3-11(2001)；Ronaghi等人，Science 281(5375),363(1998)；US 6,210,891、US 6,258,568和US 6,274,320，这些文献中的每一篇均以引用方式并入本文。在焦磷酸测序中，所释放的PPi可通过ATP硫酸化酶立即转化成三磷酸腺苷(ATP)来检测，并且所产生ATP的水平可经由荧光素酶产生的光子来检测。因此，可经由发光检测系统来监测测序反应。用于基于荧光的检测系统的激发辐射源不是焦磷酸测序程序所必需的。可适于对根据本公开产生的扩增子应用焦磷酸测序的可用流体系统、检测器和程序在例如WIPO专利申请公布WO 2012058096、US2005/0191698 A1、US7,595,883和US 7,244,559中描述，这些文献中的每一篇均以引用方式并入本文。

一些实施方案可利用涉及DNA聚合酶活性的实时监测的方法。例如，可以通过带有荧光团的聚合酶与γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用或者利用零模式波导(ZMW)来检测核苷酸掺入。用于基于FRET的测序的技术和试剂在例如以下文献中描述：Levene等人，Science，299，682-686(2003)；Lundquist等人，Opt.Lett.33,1026-1028(2008)；Korlach等人，Proc.Natl.Acad.Sci.USA 105,1176-1181(2008)，这些文献的公开内容以引用方式并入本文。

一些SBS实施方案包括检测在核苷酸掺入延伸产物时释放的质子。例如，基于释放质子的检测的测序可使用可从Ion Torrent公司(Guilford,CT，它是Life Technologies子公司)商购获得的电检测器和相关技术或在US 2009/0026082A1、US2009/0127589 A1、US2010/0137143 A1或US 2010/0282617A1中所述的测序方法和系统，这些文献中的每一篇均以引用方式并入本文。本文阐述的使用动力学排阻来扩增核酸的方法可以容易地应用于用于检测质子的基板。更具体地，本文阐述的方法可以用于产生用于检测质子的扩增子克隆群体。

另一种有用的测序技术是纳米孔测序(参见例如Deamer等人，TrendsBiotechnol.18,147-151(2000)；Deamer等人，Acc.Chem.Res.35:817-825(2002)；Li等人，Nat.Mater.2:611-615(2003)，这些文献的公开内容以引用方式并入本文)。在一些纳米孔实施方案中，核酸或从靶核酸除去的单独核苷酸穿过纳米孔。当核酸或核苷酸穿过纳米孔时，可通过测量孔的电导率的波动来识别每种核苷酸类型。(美国专利7,001,792；Soni等人，Clin.Chem.53,1996-2001(2007)；Healy,Nanomed.2,459-481(2007)；Cockroft等人，J.Am.Chem.Soc.130,818-820(2008)，这些文献的公开内容以引用方式并入本文)。

可应用于根据本公开的检测的基于阵列的表达和基因分型分析的示例性方法描述于以下文献中：美国专利7,582,420、6,890,741、6,913,884或6,355,431或者美国专利公布2005/0053980 A1、2009/0186349 A1或US 2005/0181440 A1，这些文献中的每一篇均以引用方式并入本文。

本文阐述的方法的优点是它们并行提供了对多个核酸的快速且有效检测。因此，本公开提供了能够使用本领域已知的技术(诸如上文所例示的那些)来制备和检测核酸的整合系统。因此，本公开的整合系统可以包括能够将扩增试剂和/或测序试剂递送到一个或多个固定DNA片段的流体部件，该系统包括诸如泵、阀、贮存器、流体管线等的部件。流通池在整合系统中可以被配置用于和/或用于检测核酸。示例性流通池描述于例如US 2010/0111768 A1和美国专利公布2012/0270305 A1中，这些文献中的每一篇均以引用方式并入本文。如针对流通池所例示的，整合系统的一个或多个流体部件可以用于扩增方法和检测方法。以核酸测序实施方案为例，整合系统的一个或多个流体部件可以用于本文阐述的扩增方法以及用于在测序方法(诸如上文例示的那些)中递送测序试剂。另选地，整合系统可包括单独的流体系统以执行扩增方法并执行检测方法。能够产生扩增核酸并且还确定核酸序列的整合测序系统的示例包括但不限于MiSeq^TM平台(Illumina,Inc.,San Diego,CA)以及美国公开号2012/0270305中所述的设备，该美国公开以引用方式并入本文。

E.Cq值

在一些实施方案中，通过定量PCR(qPCR)估计产生的文库扩增子的数量。在一些实施方案中，通过测量定量循环(Cq，也称为定量循环)值来估计产生的文库扩增子的数量。

如本文所用，Cq值是样品的反应曲线与阈值线相交时的PCR循环数。因此，Cq值指示对于给定样品需要多少个PCR循环来检测高于噪声的信号。

这可以用荧光染料和探针来确定，并且该方法测量检测荧光所需的扩增循环的数量。使用这种方法，Cq值是PCR产物的荧光可在高于背景信号时被检测到的循环数。因此，较高的Cq值表明样品中存在较少的核酸。

如Bustin等人,Clinical Chemistry 55(4):611-622(2009)中所述，术语阈值循环(Ct)、交叉点(Cp)和分支点(TOP)都是指与Cq值相同的测量结果，并且命名上的差异仅基于不同的仪器。所有这些术语(Ct、Cp和TOP)都是指确定样品的反应曲线与阈值线相交时的PCR循环数的方法，因此所有这些值都是Cq值的同义词。

在一些实施方案中，更高数量的文库扩增子导致更低的Cq值。在一些实施方案中，具有较低Cq值的文库具有较少的DNA损伤。在一些实施方案中，具有较少DNA损伤的文库将产生更好的测序结果。

在一些实施方案中，包含切口的那些文库产物将不会生成对应于文库分子的全序列的扩增子。在一些实施方案中，扩增循环期间的延伸(即，扩增子的生成)在文库分子中的切口位点处停止。

例如，图9示出了具有切口的文库分子(即，受损的文库)将如何生成较少的信号，因为扩增不会产生具有正向扩增引物结合位点和反向扩增引物结合位点两者的文库分子的全序列。

在一些实施方案中，Cq值与文库中的损伤百分比有关。在一些实施方案中，在文库制备期间引入损伤。

在一些实施方案中，高Cq值与文库分子的更多DNA损伤有关。在一些实施方案中，具有高Cq值的文库显示出较低的测序性能。在一些实施方案中，通过总输出(Gb)或P1百分比测量较低的测序性能。

在一些实施方案中，非典型低(例如低于2.58)的Cq值也可能具有较低的测序性能。

在一些实施方案中，可以确定期望的Cq范围，其生成具有足够数据质量的测序运行，这取决于文库的下一次使用。在一些实施方案中，期望的Cq范围可以为2.58至5。Cq范围可基于所用文库的具体类型而变化。因此，使用者可以进行初始研究以确定导致足够质量的测序数据的期望Cq范围，然后仅选择具有该范围内的Cq值的序列文库进行测序。这种确定期望Cq范围的分析可由本领域技术人员容易地进行，并且这种确定不会被认为是过重的负担。

F.长读段测序

标准短读段测序提供准确的碱基水平序列以提供近程信息，但短读段测序可能不提供远程基因组信息。此外，因为没有保留测序基因组或短读段数据参考的单倍型信息，所以用标准方法重建远程单倍型具有挑战性。因此，标准测序和分析方法通常可称为单核苷酸变体(SNV)，但这些方法可能无法识别单个基因组中看到的结构变异的全谱。如本文所用，基因组的“结构变异”是指大于SNV的事件，包括50个碱基对或更多的事件。代表性的结构变体包括拷贝数变异、倒位、缺失和重复。

“连锁长读取测序”或“连锁读取测序”是指提供关于基因组序列的远程信息的测序方法。

在一些实施方案中，连锁读段测序使用分子条形码来标记来自相同长DNA片段的读段。当将独特条形码添加到从单个DNA分子生成的每个读段中时，读段可以将该DNA分子连接在一起。换句话说，共享条形码的读段可被分组为来源于单个长输入分子，从而允许从短读段组装长范围信息。

在一些实施方案中，连锁读取测序可用于单倍型重建。在一些实施方案中，连锁读取测序改善了结构变体的调用。在一些实施方案中，连锁读取测序改善了对具有有限可及性的基因组区域的访问。在一些实施方案中，连锁读取测序用于从头二倍体组装。在一些实施方案中，连锁读取测序改善了需要从头组装的高度多态性序列(诸如人白细胞抗原基因)的测序。

在一些实施方案中，测序是对5kb或更大、10kb或更大、15kb或更大、20kb或更大、25kb或更大、或30kb或更大的文库分子的长读段测序。

G.包括制备双链DNA断裂的方法

在一些实施方案中，切口被转化为双链DNA断裂。从切口生成双链DNA断裂的优点在于，在文库产物中生成双链断裂后，无法生成对应于完整文库分子的扩增子。以此方式，包含切口的文库分子将不会生成对应于文库产物的全序列的任何扩增子。相反，在双链插入片段的单链中包含切口的带切口的文库分子生成较少的扩增子，但可生成对应于文库产物的全序列的一些扩增子(如图9所示)。这是因为反向或正向引物可以产生对应于文库分子的全序列的扩增子。

从切口生成双链断裂的优点在于，具有双链断裂的文库分子无法生成具有与正向和反向引物的结合位点的任何全长扩增子。

在一些实施方案中，使用核酸内切酶将切口转化为双链断裂。在一些实施方案中，核酸内切酶是突变体T7核酸内切酶。在一些实施方案中，突变体核酸内切酶是麦芽糖结合蛋白(MBP)-T7 Endo I。在一些实施方案中，T7核酸内切酶产生反切口，以便在DNA中生成双链断裂，其中切口先前已位于单链中。这种从切口生成双链断裂可被称为跨切口裂解。

H.使用SMRTbell模板的方法

在一些实施方案中，文库分子包含连接到双链DNA片段末端的两个发夹衔接子。在一些实施方案中，此类衔接子形成闭环。

尽管本发明不限于该制备方法，但在一些实施方案中，文库分子是SMRTbell模板。SMRTbell模板在用于与单分子实时(SMRT)测序一起使用的领域中是公知的。在一些实施方案中，SMRT测序使用来自Pacific Biosciences(PacBio)的方法学(参见，例如，Rhoads和Au,Genomics Proteomics Bioinformatics 13:278-289(2015))。如本文所用，SMRT测序和PacBio测序可互换使用。

SMRT测序技术利用循环共识测序(circular consensus sequencing，CCS)来生成具有>99％准确度和≥3次通过的高度准确的、长的高保真度读段。为了在每次测序运行中生成最高输出的HiFi读段，应生成可允许恒定滚环扩增(RCA)的高质量SMRTbell模板。例如，PacBio Sequel系统可以使用平台上RCA对发夹衔接子连接的文库分子进行测序。因此，为了生成CCS读段，聚合酶应反复测序，以生成≥3倍插入片段长度的长聚合酶读段长度。

为了使SMRT系统中的聚合酶有效测序，输入文库必须是高质量的。在文库制备过程期间，可通过移液、储存或其他处理和/或技术错误将损伤引入DNA。如果将带切口的SMRTbell模板加载到Bio Sequel系统上进行测序，则聚合酶将在切口位点处脱落并终止RCA，并且因此，P1百分比将与来自该测序运行的CCS输出一起降低。

SMRT测序的优点是比某些其他测序方法更长的读段长度和更快的运行。例如，已知PacBio系统能够生成超过60千碱基的读段长度。这些较长的读段长度可允许重复区域在单个读段内的精确定位和测序，这在其他测序平台中可能是无法实现的。

总之，已知SMRT测序具有比一些其他方法更低的吞吐量、更高的错误率和更高的每碱基成本，并且使用者将希望将这些缺点最小化。在一些实施方案中，用于文库的质量控制的本发明方法允许使用者选择那些很有可能通过诸如SMRT测序等方法生成足够质量的测序运行的文库进行测序。以这种方式，使用者可以避免在具有DNA损伤的测序运行中花费的费用和时间，该DNA损伤限制了生成高质量测序数据的能力。

在一些实施方案中，本文所述的QC方法使来自SMRT测序运行的P1百分比和总输出最大化。在一些实施方案中，本文所述的qPCR QC方法允许客户避免将受损的文库加载到SMRT测序平台上，并且因此节省时间、金钱、试剂和消耗品。图13A-15C示出了使用SMRT测序进行的QC测定的一些代表性数据。

V.使用荧光确定DNA损伤的方法

包含DNA的样品中DNA损伤的量也可通过本文所述的方法使用荧光来测量。在一些实施方案中，可在制备文库之前使用荧光来定量样品DNA中的DNA损伤。这种工作流程可能是非常有吸引力的，以允许使用者确定样品中是否存在太多的DNA损伤，这将对下游测定(如测序)产生不利影响。例如，使用者可定量样品中的DNA损伤，然后仅在DNA损伤水平较低(诸如5％或更低)的情况下从样本中制备文库。以这种方式，使用者可以通过不从具有中等(诸如大于5％)水平的DNA损伤的样品中制备文库而节省时间和资源。

在一些实施方案中，使用荧光来定量包含DNA的样品中的DNA损伤的方法包括：

a.组合以下各项：

i.包含DNA的样品的等分试样；

ii.一种或多种DNA修复酶；以及

iii.dNTP，其中一种或多种dNTP是荧光标记的；

b.制备修复的DNA；

c.将来自dNTP的磷酸酯去磷酸化；

d.将所修复的DNA结合至羧酸酯或纤维素珠；

f.测量所修复的DNA的荧光以确定DNA损伤的量。

定量DNA损伤的方法的概述显示在图16中，使用该方法的代表性实验的结果显示在图17-21中。

在一些实施方案中，修复的DNA的荧光越大表明DNA损伤越大。换句话说，如果存在更高水平的DNA损伤，则将掺入更多荧光标记的dNTP。

在一些实施方案中，修复的DNA的荧光在不同量的DNA损伤范围内是线性的。以这种方式，改善了测定的动态范围(即，可以准确测量的DNA损伤的总范围)，因此使用者可以评价各种文库的损伤的相对差异。在一些实施方案中，如果使用者正在评价样品用于灵敏的下游测定，则宽的线性范围可有助于准确地确定相对少量的DNA损伤，其中该量的DNA损伤可不利地影响结果。

在一些实施方案中，该方法可以评估样品的等分试样中的DNA损伤。换句话说，使用者可以取少量样品，定量DNA损伤，然后基于DNA损伤的定量结果潜在地进行更多的测定(诸如文库制备或测序)。

在一些实施方案中，该方法可通过评估操作前和操作后的相同样品的等分试样来评估由样品的操作诱导的DNA损伤。以这种方式，使用者可以直接测量由操作引起的任何DNA损伤。

在一些实施方案中，该操作是样品的测序。例如，使用者可能希望评价不同的测序试剂对包含DNA的样品的影响以确定某些试剂是否诱导DNA损伤。

在一些实施方案中，测量修复的DNA的荧光包括制作修复的DNA的稀释液的标准曲线并测量修复的DNA的稀释液的荧光。在一些实施方案中，标准曲线的使用可增加测定的动态范围，以允许定量少量DNA损伤。当即使少量DNA损伤也可能对下游测定(诸如测序)的结果产生不利影响时，这种定量少量DNA损伤的方法学可能是有用的。

在一些实施方案中，测量修复的DNA的荧光包括将修复的DNA的荧光与仅荧光标记的一种或多种dNTP的稀释液的单独标准曲线进行比较，以确定包含在修复的DNA中的荧光染料分子的数量。

在一些实施方案中，该方法还包括通过将确定的荧光染料分子的数量除以修复的DNA的质量来计算包含在修复的DNA中的荧光染料分子的归一化数量。这种量度可以估计多少百分比的DNA被损坏。

在一些实施方案中，DNA是基因组DNA、cDNA或包含片段化的双链DNA的文库。如果DNA是基因组DNA或cDNA，则该方法可以在文库制备之前进行。

在一些实施方案中，DNA是基因组DNA或cDNA，并且该方法还包括在确定DNA损伤的量后制备文库。

在一些实施方案中，如果DNA损伤的量为总核苷酸的5％或更少、4％或更少、3％或更少、2％或更少、或1％或更少，则制备文库。换句话说，如果确定DNA损伤低，则可以制备文库。对于制备文库或其他下游测定可接受的DNA损伤的量将取决于下游测定的灵敏度和DNA损伤的类型。例如，即使具有中等水平的DNA损伤(例如5％或更少)，短读段测序也可以给出可接受的测序结果。相反，长读段测序可能需要较低水平的DNA损伤(例如，2％或更少)以获得可接受的结果，并且还可能对由切口诱导的损伤更敏感。

在一些实施方案中，如果本发明测定确定存在某些类型的损伤(诸如切口)，则可以在进一步的步骤(诸如文库制备或测序)之前修复该损伤。

在一些实施方案中，如果DNA损伤的量为总核苷酸的5％或更多、4％或更多、3％或更多、2％或更多、或1％或更多，则不制备文库。以这种方式，如果存在将不利地影响下游测定结果的DNA损伤水平，则使用者避免在制备文库(和进行进一步的下游测定，如测序)上浪费时间和资源。

在一些实施方案中，在测量荧光之前进行多于一轮的将修复的DNA结合至羧酸酯或纤维素珠并且洗脱。在一些实施方案中，多轮基于珠的纯化可改善该方法的结果。在一些实施方案中，多轮基于珠的纯化可减少非特异性信号。在一些实施方案中，在测量荧光之前进行多轮基于珠的纯化、两轮将修复的DNA结合至羧酸酯或纤维素珠并且洗脱。

羧酸酯珠(诸如SPRI珠)和纤维素珠可商购用于DNA纯化和大小选择用途，并且此类珠可用于本发明方法中。

在一些实施方案中，羧酸酯或纤维素珠是磁性的。这种性质可有助于在结合修复的DNA后洗涤珠。

在一些实施方案中，修复的DNA的制备在37℃下进行。在一些实施方案中，制备修复的DNA进行10分钟或更长、20分钟或更长、30分钟或更长、45分钟或更长或者60分钟或更长。

在一些实施方案中，将来自dNTP的磷酸酯去磷酸化可减少dNTP的非特异性结合并且改善测定结果。

在一些实施方案中，用酶进行来自dNTP的磷酸酯的去磷酸化。在一些实施方案中，用于将来自dNTP的磷酸酯去磷酸化的酶是虾碱性磷酸酶(SAP)或小牛肠碱性磷酸酶(CIP)。

多种不同的DNA修复酶可用于该方法中，并且如本文所用，“DNA损伤”可以指可存在于单个样品中包含的DNA中的多种不同类型的DNA修饰(例如切口和胸腺嘧啶二聚体)。

在一些实施方案中，一种或多种DNA修复酶包括DNA聚合酶。在一些实施方案中，DNA聚合酶具有5'-3'聚合酶活性但缺乏5'-3'核酸外切酶活性。在一些实施方案中，DNA聚合酶是Bst DNA聚合酶，大片段。在一些实施方案中，一种或多种DNA修复酶包括连接酶。在一些实施方案中，连接酶是Taq连接酶。在一些实施方案中，DNA损伤包括双链DNA中的切口。

在一些实施方案中，一种或多种DNA修复酶包括T4嘧啶二聚体糖基化酶(PDG)。在一些实施方案中，DNA损伤包括胸腺嘧啶二聚体。在一些实施方案中，该胸腺嘧啶二聚体是由紫外线辐射诱导的。

在一些实施方案中，一种或多种DNA修复酶包括尿嘧啶DNA糖基化酶(UDG)和无嘌呤或无嘧啶位点裂解酶。在一些实施方案中，DNA损伤包括尿嘧啶。

在一些实施方案中，一种或多种DNA修复酶包括甲酰胺嘧啶DNA糖基化酶(FPG)和无嘌呤或无嘧啶位点裂解酶。在一些实施方案中，DNA损伤包括氧化的碱基。

在一些实施方案中，使用多于一种DNA修复酶。在一些实施方案中，一种或多种DNA修复酶是多种DNA修复酶的混合物。如果使用者怀疑DNA损伤可能包括多于一种类型的对DNA的损伤修饰(即，胸腺嘧啶二聚体和切口或任何其他修饰组合)，则可以使用此类方法。

在一些实施方案中，dNTP包括dATP、dGTP、dCTP和dTTP或dUTP。任何或所有的dNTP可以是荧光标记的。在一些实施方案中，所有dNTP都是荧光标记的。在一些实施方案中，dUTP和dCTP是荧光标记的。

dNTP中可包含任何合适的荧光标记。在一些实施方案中，荧光标记是Alexa Fluor488、Alexa Fluor 546、Alexa Fluor 555、Alexa Fluor 633、异硫氰酸荧光素(FITC)或四甲基罗丹明-5-(和6)-异硫氰酸酯(TRITC)，但也可以使用跨激发光谱的一系列其他荧光标记。在一些实施方案中，荧光标记具有不损伤DNA的激发波长。

实施例

实施例1.使用标准品将LongAmp PCR反应的扩增子大小偏差归一化

图1呈现了代表性的LongAmp PCR反应，该反应随后进行片段化，诸如用Nextera产品(Illumina)进行。如本文所述，可以使用不同长度的核酸标准品的池将该实验中的扩增子大小偏差归一化。

可进行长扩增PCR以从样品内的靶核酸片段中所含的目标序列生成扩增子(如图1所示)。样品可以是由已经进行基因编辑的核酸构成的样品，其中使用者预期可能存在许多不同类型的indel突变。

在该PCR反应期间，如本文所述的不同长度的核酸标准品的池可包括在反应中。该池可以包括全长标准品(诸如图8A中所示的那些)、插入标准品(诸如图8B中所示的那些)和缺失标准品(诸如图8C中所示的那些)。以这种方式，标准品将在与目标序列相同的条件下扩增。

制作插入标准品的代表性方法如下：

步骤1)使用在限制性位点3(RS3)和限制性位点4(RS4)处切割的限制酶消化图2A中所示的包含N18 UMI的寡核苷酸；

步骤2)通过在限制性位点1(RS1)和限制性位点2(RS2)处切割的限制酶消化图3的PCR产物；

步骤3)通过RS1和RS2消化图4的PCR产物；

步骤4)将步骤2和3的产物连接；

步骤5)通过RS3和RS4消化图4的PCR产物；以及

步骤6)将来自步骤5的产物与步骤1的产物连接。

这些制备插入标准品的步骤预期生成图2B中所示的产物。RS消化的顺序不是固定的。进一步地，如果在RS处消化的所有限制酶都是缓冲液相容的，则可以合并所有消化步骤。可替代地，消化步骤可以在分开的步骤中进行。连接步骤(步骤4和6)也可以合并，作为制备插入标准品的方法中的最后步骤。

制作缺失标准品的代表性方法如下：

步骤1)通过RS3和RS4消化图6A中所示的寡核苷酸(其与图2A中所示的寡核苷酸相同并且包含N18 UMI)；

步骤2)通过RS3和RS4消化图5的PCR产物；以及

步骤3)将步骤2的产物与步骤1的产物连接。

这些制备缺失标准品的步骤预期生成图6B中所示的产物。

在将目标序列与标准品一起扩增后，扩增子(来自标准品和来自目标序列)然后可以经受用于制备测序文库的方法。图1A显示，这可能是Nextera片段化(即标签化)，其中转座酶在片段的两端掺入衔接子序列。然后可以使用包含在这些衔接子序列中的序列(诸如测序引物结合位点)对片段进行测序。

然后可对文库(由从目标序列和标准品生成的片段构成)进行测序。使用包含在各个标准品中的UMI，可以生成偏差谱图。这种偏差谱图将说明较大的标准品具有较少的独特重复的事实，因为可以使用该标准品的UMI来鉴定给定标准品的重复。这些数据可用于将扩增子大小偏差归一化。以这种方式，使用者可以估计有多少目标序列的原始拷贝具有给定的indel突变。换句话说，该方法可控制以下事实：与野生型目标序列或目标序列的缺失突变相比，目标序列的大插入突变(其中所得的目标序列的扩增子将显著更大)将生成更少的扩增子。

实施例2.文库的质量控制评估

进行定量PCR(qPCR)测定以用于文库的质量控制(QC)。QC qPCR测定使用PrimeStar GXL DNA聚合酶(Takara)(一种已知能够以高保真度扩增长靶标(例如大于30kb)的长程聚合酶)来扩增无切口的模板链。在扩增期间，对包含在文库分子中的发夹衔接子具有特异性的正向引物将延伸至相反的衔接子，并且只有在模板没有被切口破坏的情况下，才会为反向引物创建新的模板链。相反，如果聚合酶遇到切口，则来自新模板链的信号将不会生成(如图9所示)。

运行对照实验以确定切口如何影响Cq值。qPCR主混合物由0.5U长程聚合酶(PrimeStar GXL聚合酶)、各自经设计以结合至发夹衔接子内的特定序列的正向和反向引物、1X EvaGreen、200μM每种dNTP、1X PrimeStar缓冲液和约200pg/μl DNA输入(必要时可将输入降至fg范围)组成。

将20X EvaGreen在水中稀释至5X，然后包含在具有标准曲线(具有Nextera衔接子和P5/P7扩增引物的文库)的反应板上，该标准曲线与样品一起运行，以确认有效扩增。进行以下循环参数：在95℃下进行初始变性，持续2分钟，然后进行30个以下循环：95℃下30秒、50℃下30秒和68℃下15秒。一式两份地进行反应，并将Cq值取平均。

表2提供了qPCR主混合物的总结。

Dye和Plus Dye是绿色荧光核酸染料，它们本身基本上是无荧光的，但在与dsDNA结合后变成高荧光的。因此，EvaGreen可用于数字PCR和等温扩增应用。

对于10ng文库(图10A和10B)和20ng文库(图10C和10D)，切口酶处理引起DNA损伤和平均Cq的剂量依赖性增加。这些结果表明，来自该QC测定的qPCR结果对于较高质量的文库将生成较低的Cq，而对于受损的文库(例如，由含有切口的文库分子构成的那些文库)将生成较高的Cq。

在核酸内切酶处理(图11和图12A和12B)后观察到类似的结果，该核酸内切酶处理使用创伤弧菌核酸酶(VVN，一种非特异性核酸酶)和T7核酸内切酶突变体的组合从切口制备双链断裂。因此，从带切口的模板制备双链断裂，导致扩增所需的引物序列的分离，进一步证明了QC测定能够鉴定质量不足的文库。

实施例3.SMRTbell文库的质量控制

图13A-15C示出了使用实施例2中描述的方法对SMRTbell文库进行的附加实验，该文库在双链片段的两端均含有发夹衔接子。这些对不同文库的分析证实，对于具有较低Cq值的文库，总测序输出一致地增加。换句话说，在QC步骤中的qPCR结果与所测量的总测序输出(即，测序的千兆碱基)之间存在强相关性。通常，在QC测定中具有较低Cq值的文库具有较高的总测序输出。例如，对于在QC测定中具有大约3的Cq值的文库，观察到39％-67％之间的P1变化百分比，相比之下，当Cq值超过9时，P1变化百分比为17％(图13A-13C)。文库8被标注为该关系的离群值。

进一步地，图14A-14C中的数据表明，在3-4范围内的Cq值平均生成约366千兆碱基。相反，文库10根据其超过6的QC值而被预测为表现不佳(图14A)，并且测序结果显示出相对差的总输出和P1百分比(图14B和14C)。因此，QC测定能够预测将具有不良测序性能的文库。通常，观察到这样的关系：文库的平均Cq越低，P1百分比越高，但这对于文库14(对应于图13A-13C中的文库8)而言并非如此。

图15A-15C类似地显示，与具有较高Cq值的文库级分相比，在QC测定中对于具有较低Cq值的文库级分(即，从相同文库制备的不同级分，诸如F4、F5和F6)观察到最佳总测序输出(千兆碱基)。

因此，本发明的QC方法是对单个文库进行测序(或不测序)决策的有价值的工具。这种QC方法是特别有价值的，因为文库的质量可能会变化，而使用者仅根据现有的QC方法是无法预测的。例如，用于一个样品的移液力可能导致质量下降，这在由同一使用者生成的其他文库中是看不到的。只有能够评估已经产生的文库的质量的方法才能够控制影响测序数据质量的随机变量。因此，本领域技术人员可以基于所使用的特定文库，使用最初的实验生成一系列期望的Cq值，其可用于选择使用QC方法测序的文库。

实施例4.使用荧光测量DNA损伤

使用者还可能希望使用荧光来测量DNA损伤。例如，使用者可能希望在制备文库之前测量DNA损伤以确保样品中的DNA损伤水平是可接受的。例如，使用者可能希望使用一种定量DNA损伤的方法，该方法能够灵活地用于文库制备前的基因组DNA或cDNA或用于已经制备好的文库。然而，目前含有荧光标记的核苷酸和蛋白质的测定通常会受到未掺入的荧光核苷酸的高度非特异性结合的影响。

开发本发明的测定以改善荧光定量的信噪比。该方法采用虾碱性磷酸酶(SAP)消化和SPRI(羧酸酯珠)结合/洗脱步骤，以显著减少非特异性结合。根据使用者的偏好，在所述的任何方法中，可以使用纤维素珠代替羧酸酯珠，并且可以使用小牛肠碱性磷酸盐代替SAP。

图16概述了本发明方法，其包括在荧光标记的dNTP存在下的DNA修复步骤(在该实施例中使用Bst聚合酶和Taq连接酶)，随后用SAP处理，以及基于SPRI珠的纯化的两个步骤。然后测量包含修复的DNA的经处理的样品，以确定荧光的量。

最初的实验测试了用于减少dNTP非特异性结合的不同条件。图17显示，与没有SAP处理的测定相比，使用基于单个SPRI珠的纯化，对剪切和基因组DNA(gDNA)进行SAP处理显著减少了荧光核苷酸的非特异性结合。换句话说，基于珠的纯化步骤与SAP处理一起减少了非特异性荧光。

进一步地，图18显示，第二个基于SPRI珠的纯化步骤将荧光核苷酸的非特异性结合降低至与缓冲液相当的水平。这种低背景对于准确测量少量DNA损伤(即，当DNA中低百分比的核苷酸被损坏时)是重要的。

基于最初的实验，在进一步的实验中，在SAP处理之后进行基于SPRI珠的纯化的两个步骤。用本发明的方法对市售修复混合物与内部DNA修复酶混合物的功效进行比较。使用本发明方案将PreCR修复混合物(NEB)与Taq连接酶(40U)、Bst聚合酶大片段(8U)和T4 PDG(1U)的定制修复混合物进行比较。如图19A所示，尽管随着样品损伤的增加，PreCR混合物并未表现出预期的荧光增加，但定制修复混合物表现出这些预期的增加。PreCR混合物样品还具有较大的标准偏差和低信号，并且这种不一致性也可以在来自优化DNA损伤修复配制品的研究小组的文献中发现。相反，使用本发明方法的定制修复酶混合物具有低标准偏差和较高信噪比(图19B)。

具有由使用者确定的DNA修复酶的定制混合物的本发明方法还增加了工作流程的灵活性，因为使用者能够选择在测定中利用哪些修复酶。例如，本发明的测定可被设计成通过利用不同的DNA损伤修复酶来检测DNA中不同类型的损伤。在DNA修复酶混合物中掺入T4嘧啶二聚体糖基化酶(T4 PDG)可以允许修复和随后检测由UV辐射引起的损伤，诸如胸腺嘧啶二聚体。如图20所示，使用包含Taq连接酶、Bst聚合酶和T4 PDG(UV损伤特异性修复酶)的DNA修复酶混合物的方法可评估UV诱导的DNA损伤。随着UV光的量和暴露时间的增加，通过本发明的测定所测量的DNA损伤也增加，这显示了本发明的测定在宽范围内测量DNA损伤的能力。

图21还显示，当DNA样品暴露于不同量的切口酶(Nt.BspQI)时，DNA损伤测量的荧光信号增加。因此，本发明的测定可以在宽范围内灵敏地测量带切口的DNA的量。

如果使用者需要，在酶修复混合物中掺入尿嘧啶DNA糖基化酶(UDG)和脱嘌呤或脱嘧啶位点裂解酶和/或甲酰胺嘧啶DNA酶(FPG)和脱嘌呤或脱嘧啶位点裂解酶可以允许分别修复和随后检测尿嘧啶或氧化的碱基。

基于所用酶的活性和特异性，该测定的模块性使其成为用于检测双链DNA中不同类型损伤的灵活且可定制的工具。

实施例5.使用荧光测量DNA损伤

基于最初的实验，开发了用于与包含Taq连接酶、Bst聚合酶和T4 PDG的DNA修复酶混合物一起使用的示例性测定方案。表3提供了用于该测定的试剂，而表4提供了dNTP主混合物内容物，并且表5提供了DNA损伤测定内容物。

代表性的测定方案可如下进行：

1.如表4和5中所述制备dNTP稀释液和dNTP主混合物。放置在冰上。

2.使用Qubit定量样品和对照gDNA。将gDNA稀释至100ng/μl，并置于冰上。

3.在冰上的条状管中制备测定混合物，每个样品一式两份，并轻轻地用移液管进行混合。在具有加热盖的热循环仪中于37℃下温育30分钟。

4.30分钟后，从热循环仪中取出，并向每个样品中添加1μl虾碱性磷酸酶(SAP)。轻轻地用移液管进行混合，并在具有加热盖的热循环仪中于37℃下温育60分钟。

5.温育后，用重悬浮缓冲液(RSB)稀释至100μl。涡旋AMPure PB(SPRI)珠以进行混合，并添加100μl的SPRI珠。用移液管混合并在室温下轻轻摇动15分钟。

6.使用台式磁力架对珠进行磁化，并用100μl 80％乙醇将样品洗涤两次，而不扰动珠沉淀。确保在第二次洗涤后离心，并完全吸出所有乙醇。

7.将珠重悬在100μl的RSB中。在室温下轻轻摇动15分钟。

8.使用台式磁力架对珠进行磁化，并将上清液吸入新的条状管中。

9.任选地重复SPRI清除(步骤5-8)。

10.使用RSB中的AF-546dUTP制作100μl标准曲线，该曲线从5nM开始并且浓度降低一半。(5nM、2.5nM、1.25nM、625pM、312pM、156pM、78pM和39pM)

11.将45μl每个纯化样品一式两份地移液到96孔板中。将45μl标准曲线一式两份地移液到96孔板中。

12.将板置于Cytation 5多模式读取器(Agilent)的板固定器中。选择AlexaFluor 546作为荧光团，并在单次读取中测量样品和标准曲线的荧光。

13.在RSB中以1:10稀释剩余的样品和对照，并用Qubit定量所回收的DNA。使用标准曲线，计算掺入DNA中的染料分子。将染料分子的数量除以所回收的gDNA的质量以确定归一化的染料分子的数量。

本领域技术人员可以使用这种代表性的方案和他们偏好的DNA修复酶混合物来评价样品中的DNA损伤。

等同内容

上述书面说明书被认为足以使得本领域的技术人员能够实践实施方案。上述详细描述和实施例详述了某些实施方案，并且描述了发明人所设想的最佳模式。然而，应当理解，无论前述内容在文本中可能描述得多么详尽，该实施方案都可以多种方式实践，并且应当根据所附权利要求及所附权利要求的任何等同条款来解释。

如本文所用，术语“约”是指数值，包括例如整数、分数和百分比，无论是否明确指出。术语“约”通常是指本领域普通技术人员将认为等于所列举的值(例如，具有相同的功能或结果)的数值范围(例如，所列举范围的+/-5-10％)。当术语诸如“至少”和“约”在数值或范围的列表之前时，该术语修饰列表中提供的所有值或范围。在一些情况下，术语“约”可包括四舍五入到最近有效数字的数值。

Claims

1.一种不同长度的核酸标准品的池，其中所述核酸标准品包含独特分子标识符(UMI)和：

其中所述至少一个区域的长度决定所述标准品的长度。

2.根据权利要求1所述的标准品的池，其中所述池还包含另外的核酸标准品，所述另外的核酸标准品包含UMI和：

3.根据权利要求1所述的标准品的池，其中所述UMI与所述5'通用寡核苷酸之间和/或所述UMI与所述3'通用寡核苷酸之间的所述至少一个区域包含0.2kb-10kb。

4.根据权利要求1至3中任一项所述的标准品的池，其中所述5'通用寡核苷酸和/或所述3'通用寡核苷酸各自包含从目标序列扩增的扩增子。

5.根据权利要求1或3至4中任一项所述的标准品的池，其中所述UMI与所述5'通用寡核苷酸之间和/或所述UMI与所述3'通用寡核苷酸之间的所述至少一个区域各自包含从目标序列扩增的扩增子。

6.根据权利要求1或3至5中任一项所述的标准品的池，其中所述UMI与所述5'通用寡核苷酸之间和/或所述UMI与所述3'通用寡核苷酸之间的所述至少一个区域各自包含任意序列。

7.一种不同长度的核酸标准品的池，其中所述核酸标准品包含UMI和：

8.根据权利要求7所述的标准品的池，其中：

b.所述3'部分重叠的寡核苷酸包含目标序列的至少第二部分。

9.根据权利要求7至8中任一项所述的标准品的池，其中所述5'部分重叠的寡核苷酸和/或所述3'部分重叠的寡核苷酸各自包含比目标序列小20bp-1kb的序列。

10.根据权利要求7至9中任一项所述的标准品的池，其中所述5'部分重叠的寡核苷酸和/或所述3'部分重叠的寡核苷酸各自包含从目标序列扩增的扩增子。

11.根据权利要求1至10中任一项所述的标准品的池，其中所述标准品是双链的。

12.根据权利要求1至11中任一项所述的标准品的池，其中所述标准品包含双链DNA。

13.根据权利要求1至12中任一项所述的标准品的池，其中每个标准品包含不同的UMI。

14.根据权利要求1至13中任一项所述的标准品的池，其中所述标准品的池中包含的所述UMI是包含16个至20个碱基对的随机序列集。

15.根据权利要求14所述的标准品的池，其中所述标准品的池中包含的所述UMI是包含18个碱基对的随机序列集。

16.根据权利要求1至15中任一项所述的标准品的池，其中所述标准品的池包含1×10¹⁰个或更多个、10×10¹⁰个或更多个、或100×10¹⁰个或更多个标准品，其中每个标准品包含不同的UMI。

17.根据权利要求1至16中任一项所述的标准品的池，其中所述池中的标准品的数量大于通过扩增反应生成的扩增子的数量。

18.一种标准品的池，其中所述标准品的至少第一部分来自权利要求1至6或11至17中任一项，并且其中所述标准品的至少第二部分来自权利要求7至17中任一项。

19.一种生成核酸标准品的池的方法，所述方法包括：

a.提供包含核酸的至少一个目标序列的多个拷贝；

b.提供各自包含UMI的寡核苷酸的集合；

c.提供不同长度的插入寡核苷酸的集合；以及

20.根据权利要求19所述的方法，其中所述至少一个目标序列和/或插入寡核苷酸是通过扩增制备的。

21.根据权利要求19或权利要求20所述的方法，其中所述目标序列、各自包含UMI的所述寡核苷酸和/或所述插入寡核苷酸包含限制酶裂解位点。

22.根据权利要求21所述的方法，其中所述限制酶裂解位点邻近所述目标序列、各自包含UMI的所述寡核苷酸和/或所述插入寡核苷酸的5'和/或3'末端。

23.根据权利要求21或权利要求22所述的方法，其中所述方法还包括在所述连接之前用限制酶裂解所述目标序列、各自包含UMI的所述寡核苷酸和/或所述插入寡核苷酸。

24.根据权利要求23所述的方法，其中用限制酶进行所述裂解产生用于所述连接的粘性末端。

25.一种生成核酸标准品的池的方法，所述方法包括：

a.提供包含核酸的至少一个目标序列的多个拷贝；

b.提供各自包含UMI的寡核苷酸的集合；以及

26.根据权利要求25所述的方法，其中所述至少一个目标序列是通过扩增制备的。

27.根据权利要求25或26所述的方法，其中所述目标序列和/或各自包含UMI的所述寡核苷酸包含限制酶裂解位点。

28.根据权利要求27所述的方法，其中所述限制酶裂解位点邻近所述目标序列和/或各自包含UMI的所述寡核苷酸的5'和/或3'末端。

29.根据权利要求27至28所述的方法，其中所述方法还包括在所述连接之前用限制酶裂解所述目标序列和/或各自包含UMI的所述寡核苷酸。

30.根据权利要求29所述的方法，其中用限制酶进行所述裂解产生用于所述连接的粘性末端。

31.一种将扩增子大小偏差归一化的方法，所述方法包括：

e.使用所述偏差谱图将扩增子大小偏差归一化。

32.根据权利要求31所述的方法，其中所述核酸标准品的池中的所述标准品范围为0.2kb至20kb碱基对。

33.根据权利要求31或权利要求32所述的方法，其中所述核酸标准品的池中的每个标准品包含不同的UMI。

34.根据权利要求31至33所述的方法，其中所述标准品的池中包含的所述UMI是包含16个至20个碱基对的随机序列集。

35.根据权利要求31至34所述的方法，其中所述标准品的池中包含的所述UMI是包含18个碱基对的随机序列集。

36.根据权利要求31至35中任一项所述的方法，其中所述标准品的池包含1×10¹⁰个或更多个、10×10¹⁰个或更多个、或100×10¹⁰个或更多个标准品，其中每个标准品包含不同的UMI。

37.根据权利要求31至36中任一项所述的方法，其中所述标准品的池中的标准品的数量大于通过所述扩增生成的扩增子的数量。

38.根据权利要求31至37中任一项所述的方法，其中所述核酸标准品的池包含根据权利要求1至18中任一项所述的核酸标准品的池。

39.根据权利要求31至37中任一项所述的方法，其中所述核酸标准品的池包含第一部分和第二部分，所述第一部分包含根据权利要求1至6或11至17中任一项所述的核酸标准品的池，所述第二部分包含根据权利要求7至17中任一项所述的核酸标准品的池。

40.根据权利要求31至39中任一项所述的方法，其中所述目标序列包含限制酶裂解位点，所述限制酶裂解位点不位于或不紧邻所述目标序列的5'和/或3'末端。

41.根据权利要求31至40中任一项所述的方法，其中所述目标序列能够包含插入或缺失突变。

42.根据权利要求31至41中任一项所述的方法，其中已经对所述目标序列进行了基因编辑，任选地其中所述目标序列包含通过基因编辑引入的切割位点。

43.根据权利要求31至42中任一项所述的方法，其中扩增所述目标序列的扩增子包括用与所述目标序列的末端处的引物结合序列结合的一对PCR引物从所述靶核酸扩增扩增子。

44.根据权利要求31至43中任一项所述的方法，其中所述标准品包含与所述目标序列的末端处的那些引物结合序列相同的引物结合序列。

45.根据权利要求31至44中任一项所述的方法，还包括在所述扩增之后和所述测序之前生成片段文库。

46.根据权利要求31至45所述的方法，其中所述生成片段文库是通过标签化进行的。

47.根据权利要求31至46中任一项所述的方法，其中用于确定所述偏差谱图的来自所述标准品的所述测序数据是包含在所述标准品中的UMI的独特分子计数。

48.一种确定包含一个或多个文库分子的文库中DNA损伤的存在的方法，其中每个文库分子包含双链DNA插入片段，在所述插入片段的每个末端具有发夹衔接子，所述方法包括：

b.使正向引物和反向引物退火至文库分子；

c.扩增以产生文库扩增子；以及

d.基于所产生的文库扩增子的数量评估DNA损伤的存在。

49.根据权利要求48所述的方法，其中所述正向引物和/或所述反向引物结合至包含在一个或两个发夹衔接子中的一个或多个序列。

50.根据权利要求48或权利要求49所述的方法，其中所述正向引物结合至附着于所述双链DNA插入片段的第一末端的发夹衔接子中包含的序列，并且所述反向引物结合至附着于所述双链DNA插入片段的第二末端的发夹衔接子中包含的序列。

51.根据权利要求48至50中任一项所述的方法，其中通过测量定量循环(Cq)值来估计所产生的文库扩增子的数量。

52.根据权利要求48至51中任一项所述的方法，其中更高数量的文库扩增子导致更低的Cq值。

53.根据权利要求48至52中任一项所述的方法，其中具有较低Cq值的文库具有较少的DNA损伤。

54.根据权利要求51至53中任一项所述的方法，还包括基于所述Cq值确定用于分析所述文库的条件。

55.根据权利要求54所述的方法，其中所述分析是测序。

56.根据权利要求48至55中任一项所述的方法，其中所述扩增被优化用于扩增5kb或更大、10kb或更大、15kb或更大、20kb或更大、25kb或更大、或30kb或更大的文库分子。

57.根据权利要求48至56中任一项所述的方法，其中所述扩增用针对长扩增子的扩增而优化的聚合酶进行。

58.根据权利要求57所述的方法，其中所述聚合酶被优化用于扩增20kb或更大或30kb或更大的扩增子。

59.根据权利要求57或权利要求58所述的方法，其中所述聚合酶与野生型Taq聚合酶相比具有更高的持续合成能力或延伸速率。

60.根据权利要求59所述的方法，其中所述聚合酶包含一个或多个突变或融合，所述一个或多个突变或融合增加持续合成能力或延伸速率。

61.根据权利要求59或权利要求60所述的方法，其中所述聚合酶具有3kb/分钟或更高的延伸速率。

62.根据权利要求48至61中任一项所述的方法，其中所述扩增是指数式的。

63.根据权利要求48至62中任一项所述的方法，其中进行30个或更多个或者40个或更多个扩增循环。

64.根据权利要求48至63中任一项所述的方法，其中所述DNA损伤包括文库分子中的一个或多个切口。

65.根据权利要求64所述的方法，其中所述一个或多个切口位于所述插入片段内。

66.根据权利要求64或权利要求65所述的方法，其中当所述文库中更高百分比的文库分子包含一个或多个切口时，所述Cq值更大。

67.根据权利要求64至66中任一项所述的方法，其中所述DNA损伤包括文库分子中的两个或更多个切口，其中所述切口位于所述双链DNA插入片段的相同链中。

68.根据权利要求64至66中任一项所述的方法，其中所述DNA损伤包括文库分子中的两个或更多个切口，其中所述切口位于所述双链DNA插入片段的两条链中。

69.根据权利要求48至68中任一项所述的方法，其中如果所述文库分子包含一个或多个切口，则所述正向引物和/或所述反向引物无法生成对应于所述文库分子的全序列的扩增子。

70.根据权利要求69所述的方法，其中从包含切口的文库分子生成的扩增子缺乏用于结合至所述正向引物和/或反向引物的序列。

71.根据权利要求64至70中任一项所述的方法，其中与不包含切口的文库分子相比，包含切口的文库分子在所述扩增期间生成较少的扩增子。

72.根据权利要求64至71中任一项所述的方法，还包括在退火所述正向引物和所述反向引物之前从切口生成双链断裂。

73.根据权利要求72所述的方法，其中使用酶促反应进行双链断裂的生成。

74.根据权利要求73所述的方法，其中所述酶促反应通过核酸内切酶进行。

75.根据权利要求74所述的方法，其中所述核酸内切酶是T7核酸内切酶。

76.根据权利要求72至75中任一项所述的方法，其中包含双链断裂的文库分子在所述扩增期间不生成对应于所述文库分子的全序列的扩增子。

77.根据权利要求72至76所述的方法，其中从包含双链断裂的文库分子生成的扩增子缺乏用于结合至所述正向引物和/或反向引物的序列。

78.一种使用荧光来定量包含DNA的样品中的DNA损伤的方法，所述方法包括：

a.组合以下各项：

i.包含DNA的样品的等分试样；

ii.一种或多种DNA修复酶；以及

iii.dNTP，其中一种或多种dNTP是荧光标记的；

b.制备修复的DNA；

c.将来自dNTP的磷酸酯去磷酸化；

d.将所修复的DNA结合至羧酸酯或纤维素珠；

e.用重悬浮缓冲液从所述羧酸酯或纤维素珠洗脱所结合的修复的DNA；以及

f.测量所修复的DNA的荧光以确定DNA损伤的量。

79.根据权利要求78所述的方法，其中所述修复的DNA的荧光越大表明DNA损伤越大。

80.根据权利要求78或权利要求79所述的方法，其中所述修复的DNA的所述荧光在不同量的DNA损伤范围内是线性的。

81.根据权利要求78至80中任一项所述的方法，其中所述测定能够通过评估操作前和操作后的相同样品的等分试样来评估由所述样品的操作诱导的DNA损伤。

82.根据权利要求81所述的方法，其中所述操作是对样品进行测序。

83.根据权利要求81或权利要求82所述的方法，其中测量所述修复的DNA的荧光包括制作修复的DNA的稀释液的标准曲线并测量修复的DNA的稀释液的荧光。

84.根据权利要求78至83中任一项所述的方法，其中测量所述修复的DNA的荧光包括将所述修复的DNA的所述荧光与仅荧光标记的所述一种或多种dNTP的稀释液的单独标准曲线进行比较，以确定包含在所述修复的DNA中的荧光染料分子的数量。

85.根据权利要求84所述的方法，还包括通过将确定的荧光染料分子的数量除以所述修复的DNA的质量来计算包含在所述修复的DNA中的荧光染料分子的归一化数量。

86.根据权利要求78至85中任一项所述的方法，其中所述DNA是基因组DNA、cDNA或包含片段化的双链DNA的文库。

87.根据权利要求86所述的方法，其中所述DNA是基因组DNA和cDNA，并且所述方法还包括在确定DNA损伤的量后制备文库。

88.根据权利要求87所述的方法，其中如果所述DNA损伤的量为总核苷酸的5％或更少、4％或更少、3％或更少、2％或更少、或1％或更少，则制备文库。

89.根据权利要求78至88中任一项所述的方法，其中如果所述DNA损伤的量为总核苷酸的5％或更多、4％或更多、3％或更多、2％或更多、或1％或更多，则不制备文库。

90.根据权利要求78至89中任一项所述的方法，其中在测量所述荧光之前进行多于一轮的将所述修复的DNA结合至羧酸酯或纤维素珠并且洗脱。

91.根据权利要求90所述的方法，其中在测量所述荧光之前进行两轮的将所述修复的DNA结合至羧酸酯或纤维素珠并且洗脱。

92.根据权利要求78至91中任一项所述的方法，其中所述羧酸酯或纤维素珠是磁性的。

93.根据权利要求78至92中任一项所述的方法，其中所述制备修复的DNA在37℃下进行。

94.根据权利要求78至93中任一项所述的方法，其中所述制备修复的DNA进行10分钟或更长、20分钟或更长、30分钟或更长、45分钟或更长或者60分钟或更长。

95.根据权利要求78至94所述的方法，其中用酶进行来自dNTP的磷酸酯的去磷酸化。

96.根据权利要求78至95所述的方法，其中用于将来自dNTP的磷酸酯去磷酸化的所述酶是虾碱性磷酸酶(SAP)或小牛肠碱性磷酸酶(CIP)。

97.根据权利要求78至96中任一项所述的方法，其中所述一种或多种DNA修复酶包括DNA聚合酶。

98.根据权利要求97所述的方法，其中所述DNA聚合酶具有5'-3'聚合酶活性但缺乏5'-3'核酸外切酶活性。

99.根据权利要求97所述的方法，其中所述DNA聚合酶是Bst DNA聚合酶，大片段。

100.根据权利要求78至99中任一项所述的方法，其中所述一种或多种DNA修复酶包括连接酶。

101.根据权利要求100所述的方法，其中所述连接酶是Taq连接酶。

102.根据权利要求78至101中任一项所述的方法，其中所述DNA损伤包括双链DNA中的切口。

103.根据权利要求78至102中任一项所述的方法，其中所述一种或多种DNA修复酶包括T4嘧啶二聚体糖基化酶(PDG)。

104.根据权利要求78至103中任一项所述的方法，其中所述DNA损伤包括胸腺嘧啶二聚体。

105.根据权利要求104所述的方法，其中所述胸腺嘧啶二聚体是由紫外线辐射诱导的。

106.根据权利要求78至105中任一项所述的方法，其中所述一种或多种DNA修复酶包括尿嘧啶DNA糖基化酶(UDG)和无嘌呤或无嘧啶位点裂解酶。

107.根据权利要求78至106中任一项所述的方法，其中所述DNA损伤包括尿嘧啶。

108.根据权利要求78至107中任一项所述的方法，其中所述一种或多种DNA修复酶包括甲酰胺嘧啶DNA糖基化酶(FPG)和无嘌呤或无嘧啶位点裂解酶。

109.根据权利要求78至108所述的方法，其中所述DNA损伤包括氧化的碱基。

110.根据权利要求78至109中任一项所述的方法，其中所述dNTP包括dATP、dGTP、dCTP和dTTP或dUTP。

111.根据权利要求78至110中任一项所述的方法，其中所有dNTP均为荧光标记的。

112.根据权利要求78至111所述的方法，其中dUTP和dCTP是荧光标记的。

113.根据权利要求112所述的方法，其中所述荧光标记是AlexaFluor 488、AlexaFluor546、Alexa Fluor 555、Alexa Fluor 633、异硫氰酸荧光素(FITC)或四甲基罗丹明-5-(和6)-异硫氰酸酯(TRITC)。