CN108220392A

CN108220392A - 富集和确定靶核苷酸序列的方法

Info

Publication number: CN108220392A
Application number: CN201711459952.XA
Authority: CN
Inventors: 郑宗立
Original assignee: Shenzhen Heng T Gene Co Ltd
Current assignee: Shenzhen Heng T Gene Co Ltd
Priority date: 2017-08-01
Filing date: 2017-12-28
Publication date: 2018-06-29
Also published as: JP6998404B2; EP3545106B1; US20190078148A1; EP3545106A4; WO2019023924A1; JP2020508083A; US11326202B2; EP3545106A1

Abstract

本发明题为富集和确定靶核苷酸序列的方法。本发明提供了用于从包含核酸的样本富集和确定多个靶基因座的核苷酸序列的方法、组合物和试剂盒。所述方法包括一个或多个循环的引物延伸，然后使用巢式靶标特异性引物对靶序列进行PCR扩增的。

Description

富集和确定靶核苷酸序列的方法

技术领域

本发明涉及基因组学领域，具体地讲涉及富集和确定核苷酸序列的方法。

背景技术

下一代测序(NGS)技术在过去的十年里彻底改变了基因组学领域。每次NGS运行通常生成关于每次测序运行的并行数十万到数十亿个DNA模板的数千兆序列信息。目前用于人类基因组测序的成本已经达到1000美元的基准。NGS技术的低成本和高通量使得人们能够使用核酸测序作为临床工具。

然而，要达到NGS临床应用所需的期望成本、速度、分析灵敏度和准确度，仍然存在许多挑战。现今，主要的NGS平台具有相对较短的读段(35-700bp)、较高错误率(～0.1-15％)和平台依赖性偏差。临床样本，诸如活检样本和福尔马林固定石蜡包埋(FFPE)样本，仅提供了少量的起始材料。罕见的遗传变异可能需要高达100000×的检测覆盖范围。参见例如S.Goodwin等人，Nat.Rev.Genetics，2016年，第17期，第333页。

靶向测序提供了具有适当广度和深度的测序数据，从而允许检测临床相关的遗传变异。该方法的关键步骤是靶标富集，其在测序之前选择性地从核酸样本(诸如基因组DNA样本)中捕获靶区域。各种已知的靶标富集方法，包括基于微滴的PCR、分子倒位探针和杂交捕获方法，都需要大量的输入模板、专门的仪器或诱饵设计，以及偏倚的序列覆盖范围。参见Mamanova等人，Nat.Methods，2010年，第7卷第(2)期，第111页。

本文提及的所有出版物、专利、专利申请和已公开的专利申请的公开内容据此全文以引用方式并入本文中。

发明内容

本发明提供了用于富集和确定核苷酸序列的方法、组合物、试剂盒和分析系统。

本申请的一个方面提供了从包含含有靶核苷酸序列的核酸模板的核酸样本富集具有所关注基因座的靶核苷酸序列的方法，该方法包括：(a)将通用接头连接至核酸模板以提供连接的核酸，其中该通用接头是在第一末端包含双链部分并且在第二末端包含非双链部分的寡核苷酸，并且其中该核酸模板通过第一末端连接到通用接头；(b)将连接的核酸解离成第一链和第二链，其中第一链包含靶核苷酸序列；(c)将外部引物退火至连接的核酸的第一链中靶核苷酸序列附近；(d)使用DNA聚合酶将外部引物延伸达到连接的核酸的第一链的全长，以提供新生引物延伸双链体；(e)在足够高的温度下将新生引物延伸双链体解离成连接的核酸的第一链和单链引物延伸产物；(f)重复步骤(c)-(e)进行一个或多个引物延伸循环；(g)在足以对靶核苷酸序列进行PCR扩增的条件下，使单链引物延伸产物与DNA聚合酶、通用接头引物和内部引物接触，其中所述通用接头引物退火至单链引物延伸产物中的通用接头的非双链部分的互补序列，其中所述内部引物在3'末端包含特异性地退火至靶核苷酸序列的序列，并且其中所述内部引物针对所关注的基因座相对于外部引物是巢式的；以及(h)重复步骤(g)进行一个或多个PCR扩增循环，以提供靶核苷酸序列的扩增子，从而富集靶核苷酸序列。在一些实施方案中，靶核苷酸序列的扩增子用于下一代测序(NGS)。

在根据上述任一方法所述的一些实施方案中，该方法包括使用可特异性地退火至连接的核酸的第一链的第一组外部引物和内部引物，以及可特异性地退火至连接的核酸的第二链的第二组外部引物和内部引物，来富集具有所关注基因座的靶核苷酸序列。在一些实施方案中，第一组的外部引物和第二组的外部引物包含至少约13个核苷酸长的第一5'标签序列，并且其中第一组的内部引物和第二组的内部引物包含至少约13个核苷酸长的第二5'标签序列。在一些实施方案中，第一5'标签序列的GC含量与核酸模板的GC含量基本上相似。

在根据上述任一方法所述的一些实施方案中，该方法包括使用多组外部引物和内部引物来富集具有不同所关注基因座的多个靶核苷酸序列。在一些实施方案中，多个靶核苷酸序列中的至少2个存在于核酸模板的不同链中。在一些实施方案中，该方法包括富集具有约2-5000个不同所关注基因座的多个靶核苷酸序列。

在根据上述任一方法所述的一些实施方案中，重复步骤(c)-(e)进行约2-100个循环。在一些实施方案中，外部引物退火至比内部引物距离所关注的基因座远约1-100个核苷酸的区域。在一些实施方案中，外部引物和/或内部引物的至少最后12个核苷酸在核酸样本中具有少于约20个不同的退火基因座。

在根据上述任一方法所述的一些实施方案中，核酸模板是基因组DNA。在一些实施方案中，基因组DNA是染色体DNA。在一些实施方案中，基因组DNA是线粒体DNA或其他染色体外DNA。在一些实施方案中，核酸模板是外显子组DNA。在一些实施方案中，核酸模板是cDNA。在一些实施方案中，通过逆转录总RNA而获得cDNA。在一些实施方案中，通过mRNA、miRNA或其他非编码RNA的逆转录而获得cDNA。在一些实施方案中，核酸样本包含基因组DNA和cDNA两者。在一些实施方案中，核酸模板是无细胞DNA。

在根据上述任一方法所述的一些实施方案中，核酸样本来源于血液样本。在一些实施方案中，核酸样本来源于细胞或组织样本。在一些实施方案中，核酸样本来源于肿瘤活检样本。在一些实施方案中，核酸样本来源于福尔马林固定石蜡包埋(FFPE)样本。

在根据上述任一方法所述的一些实施方案中，所关注基因座与染色体重排相关联。在一些实施方案中，染色体重排是染色体易位。在一些实施方案中，所关注基因座与单核苷酸变异(SNV)相关联。在一些实施方案中，所关注基因座与插入缺失相关联。在一些实施方案中，所关注基因座与剪接变体相关联。

在根据上述任一方法所述的一些实施方案中，所关注基因座位于与癌症相关的基因中。在一些实施方案中，所关注基因座位于编码免疫细胞受体的基因中。在一些实施方案中，所关注基因座位于与遗传性疾病相关的基因中。在一些实施方案中，所关注基因座位于CRISPR基因编辑的脱靶位点(例如，先前已知或未知的脱靶位点)中。

在根据上述任一方法所述的一些实施方案中，核酸模板被片段化为适合下一代测序的尺寸。在一些实施方案中，该方法还包括在步骤(a)之前对核酸模板进行末端修复和A-加尾。

在根据上述任一方法所述的一些实施方案中，通用接头的非双链部分包含具有阻断部分的3'末端。在一些实施方案中，阻断部分是反向核苷酸。在一些实施方案中，阻断部分是具有一个或多个硫代磷酸酯修饰的一段扑翼状核苷酸(flapping nucleotides)。

在根据上述任一方法所述的一些实施方案中，通用接头的非双链部分包含含有简并设计的核碱基的分子条码。在一些实施方案中，通用接头的双链部分包含样本条码。在一些实施方案中，样本条码位于通用接头的第一末端。在一些实施方案中，样本条码由约4-13个核苷酸组成。在一些实施方案中，通用接头的第一末端包含足够短长度的恒定核碱基，以防止通过残留通用接头在步骤(b)-(f)中发生混杂引发。

在根据上述任一方法所述的一些实施方案中，足够高的温度是至少约90℃。在一些实施方案中，连接的核酸在步骤(b)之前经受净化工序。在一些实施方案中，引物延伸产物在步骤(g)之前经受净化工序。在一些实施方案中，重复步骤(g)进行约2-100次循环。

在根据上述任一方法所述的一些实施方案中，通用接头引物的5’末端或通用接头包含与用于NGS的第一测序引物的序列相同或互补的序列。在一些实施方案中，步骤(g)包括，在足以对靶核苷酸序列进行PCR扩增的条件下，使单链引物延伸产物与DNA聚合酶、通用接头引物、内部引物和测序接头引物接触，其中该测序接头引物在3'末端包含与内部引物的序列相同的序列，并且在5'末端包含与用于NGS的第二测序引物的序列相同或互补的序列。

本申请的一个方面提供了确定在核酸样本中具有所关注基因座的靶核苷酸序列的方法，所述核酸样本包括包含核酸模板的核酸样本，所述核酸模板包含靶核苷酸序列，该方法包括：(i)使用上述任一方法来富集具有所关注基因座的靶核苷酸序列；以及(ii)对靶核苷酸序列的扩增子进行下一代测序，由此提供靶核苷酸序列。在一些实施方案中，同时确定具有约2-5000个不同所关注基因座的靶核苷酸序列。在一些实施方案中，该方法还包括在步骤(ii)的下一代测序之前使用靶核苷酸序列的扩增子制备测序文库。

本申请的另一个方面提供了检测在核酸样本中所关注基因座处的序列变体的方法，所述核酸样本包括包含核酸模板的核酸样本，所述核酸模板包含具有所关注基因座的靶核苷酸序列，该方法包括：(1)使用上述确定靶核苷酸序列的任一方法来确定具有所关注基因座的靶序列；以及(2)检测靶核苷酸序列中的序列变体。在一些实施方案中，序列变体以不超过约1:100(诸如不超过约1:1000、1:10000或更低中的任一者)的等位基因频率存在。在一些实施方案中，序列变体在种系DNA中遗传。在一些实施方案中，序列变体是体细胞突变或染色体重排。在一些实施方案中，检测多种序列变体。在一些实施方案中，多种序列变体选自染色体重排、剪接变异、SNP、缺失、插入、拷贝数变异(CNV)以及它们的组合。在一些实施方案中，该方法同时检测基于cDNA序列的染色体重排或CNV和基于gDNA序列的突变。

本申请的另一个方面提供了诊断个体的疾病的方法，包括使用上述任一检测序列变体的方法检测在来自该个体的核酸样本中所关注基因座处的与疾病相关的序列变体，从而提供对疾病的诊断。

本申请还提供了一种试剂盒，其包含：(a)通用接头，其中该通用接头是在第一末端包含可连接双链部分并且在第二末端包含非双链部分的寡核苷酸；(b)通用接头引物，其中该通用接头引物能够退火至通用接头的非双链部分的互补序列；(c)外部引物；和(d)内部引物；其中内部引物针对所关注的基因座相对于外部引物是巢式的。在一些实施方案中，通用接头引物的5’末端或通用接头包含与兼容于NGS平台的第一测序引物的序列相同或互补的序列。在一些实施方案中，内部引物包含与兼容于NGS平台的第二测序引物的序列相同或互补的序列。在一些实施方案中，该试剂盒还包含测序接头引物，该测序接头引物在3’末端包含与内部引物相同的序列，在5’末端包含与兼容于NGS平台的第二测序引物的序列相同或互补的序列。在一些实施方案中，该试剂盒包含多组外部引物和内部引物。

在根据上述任一试剂盒所述的一些实施方案中，该试剂盒用于诊断癌症。在一些实施方案中，癌症是肺癌、乳腺癌或结肠直肠癌。在一些实施方案中，所关注基因座位于选自ALK、BRAF、EGFR、ERBB2、HRAS、KDR、KIT、KRAS、MET、NRAS、NTRK1、PDGFRA、PIK3CA、PTEN、RET、ROS1和TP53的基因中的任一者或多者中。

根据随后的具体实施方式和所附权利要求书，本发明的这些方面和其他方面以及优点将变得显而易见。应当理解，本文所述的各个实施方案的一种、一些或所有特性可以组合起来形成本发明的其他实施方案，就如同每个组合都被单独且明确地公开一样。

附图说明

图1是利用靶核苷酸序列富集来制备测序文库的示例性方法的示意图。

图2示出了用于在具有靶基因座的核酸模板的两条链上富集靶核苷酸序列的两组示例性外部引物和内部引物。

图3示出了在引物延伸循环中由于残留通用接头而带来的潜在副产物。

图4A示出了使用先前公开的用于靶标富集的AMP方法所获得的具有EGFR基因座的定位读段。

图4B示出了使用本申请实施例1中所述的方法所获得的具有EGFR基因座的定位读段。

图5A示出了使用实施例1所述的方法和50ng输入DNA所获得的EGFR基因座全长上的序列覆盖范围和序列深度。

图5B示出了使用实施例1所述的方法和5ng输入DNA所获得的EGFR基因座全长上的序列覆盖范围和序列深度。

图5C显式用AMP方法对不同起始量核酸进行测序的表现。

图6A-图6B示出了KIF5B外显子15c.1723和RET外显子12c.2138之间的同框架基因融合的基于RNA的检测。

图6C-图6D示出了EML4外显子4c.468和ALK外显子20c.3173之间的基因融合的基于RNA的检测。

图6E-图6F示出了EML4外显子17c.1880和ALK外显子20c.3173之间的同框架基因融合的基于RNA的检测。

图7A示出了X32-P732样本中EML4-ALK基因融合的基于RNA的检测。

图7B示出了X32-P732样本中KRAS中突变的基于gDNA的检测。

图7C示出了一例临床样本ctDNA被检测为EML4-ALK融合。

图8A示出了测序文库L17-00154至L17-00159的总体实验组合覆盖率统计。图8B示出了测序文库L17-00160至L17-00165的总体实验组合覆盖率统计。图8C示出了测序文库L17-00166至L17-00171的总体实验组合覆盖率统计。图8D示出了测序文库L17-00172至L17-00177的总体实验组合覆盖率统计。

图9A示出了来自测序文库L17-00154至L17-00159的定位读段对KRAS外显子2的覆盖范围。图9B示出了来自测序文库L17-00160至L17-00165的定位读段对KRAS外显子2的覆盖范围。图9C示出了来自测序文库L17-00166至L17-00171的定位读段对KRAS外显子2的覆盖范围。图9D示出了来自测序文库L17-00172至L17-00177的定位读段对KRAS外显子2的覆盖范围。

图10A示出了使用10纳克起始DNA检测点突变及插入缺失突变的结果。图10B示出了该分析中信号(深色)及噪音(浅色)的表观丰度。

图11A示出了使用10纳克起始DNA检测点突变及插入缺失突变的结果。图11B示出了该分析中信号(深色)及噪音(浅色)的表观丰度。

图12A示出了含高GC区域的CEBPA的测序结果。

图12B示出了含高AT区域的TP53的测序结果。

图13示出了30例肺癌组织样本的突变检测结果。

具体实施方式

本申请提供了用于富集和确定具有一个或多个所关注基因座的靶核苷酸序列的方法，该方法包括将核酸模板连接到通用接头，进行引物延伸步骤(或线性扩增步骤)，然后使用巢式靶标特异性引物进行PCR扩增步骤(或指数扩增步骤)。本文所述的方法提供了改进的靶标富集方法，即使使用非常少量的输入核酸样本，也能高效构建序列多样性提升的测序文库。本文所述方法的引物延伸步骤允许线性地扩增靶核苷酸序列，并且PCR扩增步骤允许呈指数地且靶标特异性地扩增来自引物延伸产物的靶核苷酸序列。此前，人们已经开发了锚定多重PCR(AMP)，使用巢式靶标特异性引物通过两步式PCR扩增来富集靶核酸。参见例如国际PCT申请公开No.WO2015112948。然而，由于在AMP方法的两个扩增步骤中扩增子均呈指数地增加，所以扩增偏差和误差可被传播，危害富集效率和精确度。本申请提供了使用本文所述方法所获的数据，这些数据证明了本方法具有超越AMP方法的优异效率、特异性和灵敏度。另外，与其他靶标富集方法相比，本文所述的方法能够同时进行基于RNA和基于gDNA的序列变体检测，以及对更大数目的靶基因座进行多重探察。这种性质对于本文所述方法的临床应用是特别理想的，其需要成本合算、从含有低质量核酸的稀有临床样本中快速且准确地检测疾病有关的通常罕见的遗传变异。

因此，本申请的一个方面提供了从包含含有靶核苷酸序列的核酸模板的核酸样本富集具有所关注基因座的靶核苷酸序列的方法(例如，用于下一代测序)，该方法包括：(a)将通用接头连接至该核酸模板以提供连接的核酸，其中该通用接头是在第一末端包含双链部分并且在第二末端包含非双链部分的寡核苷酸，并且其中该核酸模板通过第一末端连接到通用接头；(b)将连接的核酸解离成第一链和第二链，其中第一链包含靶核苷酸序列；(c)将外部引物退火至连接的核酸的第一链中靶核苷酸序列附近；(d)使用DNA聚合酶将外部引物延伸达到连接的核酸的第一链的全长，以提供新生的引物延伸双链体；(e)在足够高的温度下将新生的引物延伸双链体解离成连接的核酸的第一链和单链引物延伸产物；(f)重复步骤(c)-(e)进行一个或多个引物延伸循环；(g)在足以对靶核苷酸序列进行PCR扩增的条件下，使单链引物延伸产物与DNA聚合酶、通用接头引物和内部引物接触，其中所述通用接头引物退火至单链引物延伸产物中的通用接头的非双链部分的互补序列，其中所述内部引物在3'末端包含特异性地退火至靶核苷酸序列的序列，并且其中所述内部引物针对所关注的基因座相对于外部引物是巢式的；以及(h)重复步骤(g)进行一个或多个PCR扩增循环，以提供靶核苷酸序列的扩增子，从而富集靶核苷酸序列。

本申请的另一个方面提供了确定在包含含有靶核苷酸序列的核酸模板的核酸样本中具有所关注基因座的靶核苷酸序列的方法，该方法包括：(a)将通用接头连接至该核酸模板以提供连接的核酸，其中该通用接头是在第一末端包含双链部分并且在第二末端包含非双链部分的寡核苷酸，并且其中该核酸模板通过第一末端连接到通用接头；(b)将包含该基因座的每个连接的核酸解离成第一链和第二链，其中第一链包含靶核苷酸序列；(c)将外部引物退火至连接的核酸的第一链中靶核苷酸序列附近；(d)使用DNA聚合酶将外部引物延伸达到连接的核酸的第一链的全长，以提供新生的引物延伸双链体；(e)在足够高的温度下将新生的引物延伸双链体解离成连接的核酸的第一链和单链引物延伸产物；(f)重复步骤(c)-(e)进行一个或多个引物延伸循环；(g)在足以对靶核苷酸序列进行PCR扩增的条件下，使单链引物延伸产物与DNA聚合酶、通用接头引物和内部引物接触，其中所述通用接头引物退火至单链引物延伸产物中的通用接头的非双链部分的互补序列，其中所述内部引物在3'末端包含特异性地退火至靶核苷酸序列的序列，并且其中所述内部引物针对所关注的基因座相对于外部引物是巢式的；(h)重复步骤(g)进行一个或多个PCR扩增循环，以提供靶核苷酸序列的扩增子，从而富集靶核苷酸序列；以及(i)对靶核苷酸序列的扩增子进行下一代测序，从而提供靶核苷酸序列。

还提供了制备测序文库的方法、检测序列变体的方法、以及诊断和治疗疾病方法，以及用于这些方法的组合物、试剂盒、制品和分析软件。

I.定义

本文可互换使用的“多核苷酸”或“核酸”是指任何长度的核苷酸聚合物，并且包括DNA和RNA。核苷酸可以是脱氧核糖核苷酸、核糖核苷酸、经修饰的核苷酸或碱基，和/或其类似物，或者可以通过DNA或RNA聚合酶而掺入聚合物中的任何底物。多核苷酸可以包含经修饰的核苷酸，诸如甲基化的核苷酸及其类似物。

如本文所用的“寡核苷酸”通常是指较短的、通常为单链的、通常合成的多核苷酸，其长度一般但不一定不超过约200个核苷酸。术语“寡核苷酸”和“多核苷酸”并非相互排斥的。以上关于多核苷酸的描述同等地且完全适用于寡核苷酸。

术语“3’”通常是指多核苷酸或寡核苷酸中位于同一多核苷酸或寡核苷酸中另一区域或位置下游的区域或位置。

术语“5’”通常是指多核苷酸或寡核苷酸中位于同一多核苷酸或寡核苷酸中另一区域或位置上游的区域或位置。

如本文所用的“核酸模板”是指存在于用作靶标富集和测序的起始材料的核酸样本中的多核苷酸。

“模板核酸”是指在引物延伸反应或PCR扩增反应中用作模板的多核苷酸。模板核酸可以指其双链或单链。

“所关注的基因座”是指研究者所关注的多核苷酸，诸如基因或基因融合产物的片段。基因座可以具有任何数量的核苷酸，包括单个核苷酸。基因座可以与一个或多个不同的序列相关联。

“具有所关注基因座的靶核苷酸序列”是指包含所关注基因座或者被所关注基因座所包含的多核苷酸的核苷酸序列。靶核苷酸序列可以是多核苷酸的正链或负链上的序列。多核苷酸可以长于或短于所关注的基因座。

当例如第一核酸或引物的至少两个连续碱基可按反平行结合方式结合或与第二核酸的至少一个亚序列杂交形成双链体时，核酸或引物与另一个核酸“互补”。在一些实施方案中，互补是指核苷酸碱基G、A、T、C和U之间的氢键合碱基对形成偏好，使得当两个给定的多核苷酸或核苷酸序列彼此退火时，在DNA中A与T配对并且G与C配对，在RNA中G与C配对并且A与U配对。如本文所用，“基本上互补”是指核酸分子或其部分(例如引物)在该分子或其部分的全长上与第二核苷酸序列具有至少90％互补性(例如90％互补、95％互补、98％互补、99％互补或100％互补)。如本文所用，“基本上相同”是指核酸分子或其部分在该分子或其部分的全长上与第二核苷酸序列具有至少90％同一性(例如90％同一性、95％同一性、98％同一性、99％同一性或100％同一性)。

“引物”通常是较短的单链多核苷酸，通常具有游离的3'-OH基团，其通过与靶序列杂交而结合至所关注的靶标，然后促进与靶标互补的多核苷酸的聚合。

本文可互换使用的“杂交”和“退火”是指这样的反应：其中一个或多个多核苷酸反应以形成凭借核苷酸基团的碱基之间的氢键来稳定的复合物。氢键可以通过Watson-Crick碱基配对、Hoogstein结合或通过任何其他序列特异性方式而出现。

如本文所用，术语“特异性地杂交”或“特异性地退火”是指核酸与互补序列的核酸杂交。如本文所用，核酸分子的一部分可以与另一核酸分子上的互补序列特异性地杂交。也就是说，核酸序列的整个长度不一定需要与此类序列的一部分杂交以“与另一个分子特异性地杂交”，例如，在分子的5'末端可以存在一段未杂交的核苷酸，而同一分子的3'末端的一段序列与另一分子特异性地杂交。

本文可互换使用的多核苷酸或寡核苷酸的“部分”或“区域”是2个或更多个碱基的连续序列。在其他实施方案中，一个区域或部分是至少约3、5、10、15、20、25中的任一者的连续核苷酸。

如本文所用，当在对靶核酸具有特异性的引物的上下文中使用时，“特异性”是指引物和靶标之间的互补性水平，使得存在这样的退火温度，在该退火温度下，引物将退火至靶核酸并介导靶核酸的扩增，并且将不退火至样本中存在的非靶序列或介导该非靶序列的扩增。

“内部引物”和相应的“外部引物”是指设计用于进行巢式扩增反应(诸如第一引物延伸反应，然后在包含所关注基因座的靶多核苷酸上进行的聚合酶链反应)的两个巢式靶标特异性引物。针对所关注的基因座而言，“内部引物”相对于“外部引物”是“巢式的”是指，内部引物和外部引物与靶多核苷酸的相同链特异性地杂交，并且外部引物的杂交位点比内部引物的杂交位点距离所关注的基因座更远。“一组外部引物和内部引物”是指针对所关注的基因座相对于外部引物巢式的一个或多个内部引物。例如参见图1或图2。

本文使用的“接头”是指可连接至多核苷酸片段的寡核苷酸。

如本文使用的关于两个多核苷酸(诸如接头和多核苷酸片段)而言的术语“连接”是指两个单独的多核苷酸共价连接，以产生具有连续主链的单个更大的多核苷酸。

本文可互换使用的术语“变性”或“解离”是指将核酸双链体分离成两条单链。

“引物延伸”是指这样的分子反应，其中核酸聚合酶将一个或多个核苷酸添加到以模板特异性方式(即其中由引物延伸反应产生的子链与靶核苷酸序列互补)与靶核苷酸序列杂交的引物的3'末端。延伸不仅涉及添加到引物3'末端的第一个核苷酸，还包括由所延伸的引物形成的多核苷酸的任何进一步延伸。多个引物延伸循环可导致靶核苷酸序列线性扩增。“引物延伸双链体”是指引物延伸反应的双链产物，包括模板链和子链。“单链引物延伸产物”具体是指通过引物延伸反应产生的子链。

如本文所用的“扩增”通常是指产生期望序列的两个或更多个拷贝的过程。扩增反应的组分可以包括但不限于，例如引物、多核苷酸模板、聚合酶、核苷酸、dNTP等。

“聚合酶链反应扩增”或“PCR扩增”是指以几何级数扩增目标双链DNA的特定片段或亚序列的方法。PCR是本领域技术人员所熟知的；参见，例如美国专利No.4,683,195和4,683,202；和Innis等人1990年编辑的“PCR Protocols:A Guide to Methods”。PCR扩增导致靶核苷酸序列的数量呈指数增加。

“扩增的产物”、“扩增产物”或“扩增子”是指由PCR扩增反应产生的寡核苷酸，其为特定靶模板核酸链和/或其互补序列的一部分的拷贝，其在核苷酸序列中对应于模板核酸序列和/或其互补序列。扩增产物还可以包含对引物具有特异性的序列，并且该序列侧接靶核酸的序列和/或其互补序列。如本文所述的扩增子通常是双链DNA，但也可以引用为其单条链。

“反应混合物”是组分(例如一种或多种多肽、核酸和/或引物)的组合，其在合适的条件下反应以进行特定的反应，例如引物延伸反应或PCR扩增反应。

术语“富集”是指相对于在处理之前初始存在于所述样本中的整体核酸序列水平而言，增加样本中特定核酸序列的相对丰度的过程。因此，富集步骤提供了相对百分比或分数增加量，而不是直接增加量，例如所关注核酸序列的绝对拷贝数。在富集步骤之后，待分析的样本可以称为经富集的或经选择的多核苷酸。

如本文所用，术语“文库”是指核酸序列的集合。

术语“确定”、“检测”、“测量”、“评价”、“评估”、“验定”和“分析”在本文中可互换地使用以指代任何形式的测量，并且包括确定某一元素存在与否。这些术语包括定量确定和/或定性确定。

本文可互换使用的“序列变体”是指与参考序列相比所关注序列中的任何序列改变。参考序列可以是野生型序列，或人们希望将所关注序列与之进行比较的序列。序列变体包括但不限于，染色体重排、拷贝数目变异(CNV)、插入、缺失、剪接变异和单核苷酸突变。序列变体包括由于诸如取代、缺失、插入、结构重排和基因工程机制而造成的单核苷酸改变或序列中不止一个核苷酸的变化。

如本文所用，术语“单核苷酸变异”或简称的“SNV”是指基因组序列中特定位置处的单个核苷酸发生变化。当可供选择的等位基因以可观的频率出现在群体中(例如，在群体中至少1％)时，SNV也被称为“单核苷酸多态性”或“SNP”。

应当理解，本文所述的本发明的方面和实施方案包括“由…组成”和/或“基本由…组成”方面和实施方案。

如本文所使用的，除非另外指明，否则单数形式“一个”、“一种”和“该”包括复数引用。

如本领域技术人员所理解的那样，本文提及“约”的值或参数包括(并描述)涉及该值或参数本身的实施方案。例如，关于“约X”的描述包括对“X”的描述。

在提供数值范围的情况下，应当理解，该范围的上限和下限之间的每个中间值，以及在该范围内的任何其他规定值或中间值都包括在本公开的范围内。在所规定的范围包括上限或下限的情况下，排除那些所包括的界限中的任一个的范围，也包括在本公开中。

除非另有说明，否则本发明是使用如下参考文献所述的标准程序来进行的，例如Sambrook等人的“Molecular Cloning:A Laboratory Manual(第3版)”(美国纽约冷泉港出版社，2001年)；和Davis等人的“Basic Methods in Molecular Biology”(美国纽约Elsevier Science出版公司，1995年)，这些参考文献均全文以引用方式并入本文中。

II.靶标富集的方法

本申请的一个方面涉及用于下一代测序的靶标富集方法，即在使用下一代测序技术确定靶核苷酸序列之前，富集具有一个或多个所关注基因座的靶核苷酸序列的方法。

在一些实施方案中，提供了从包含含有靶核苷酸序列的核酸模板的核酸样本富集具有所关注基因座的靶核苷酸序列的方法(例如，用于下一代测序)，该方法包括：(a)将通用接头连接至核酸模板以提供连接的核酸，其中该通用接头是在第一末端包含双链部分并且在第二末端包含非双链部分的寡核苷酸，并且其中该核酸模板通过第一末端连接到通用接头；(b)将连接的核酸解离成第一链和第二链，其中第一链包含靶核苷酸序列(例如，正链序列或负链序列)；(c)将外部引物退火至连接的核酸的第一链中靶核苷酸序列附近；(d)使用DNA聚合酶将外部引物延伸达到连接的核酸的第一链的全长，以提供新生引物延伸双链体；(e)在足够高的温度下将新生引物延伸双链体解离成连接的核酸的第一链和单链引物延伸产物；(f)可选地重复步骤(c)-(e)进行一个或多个引物延伸循环；(g)在足以对靶核苷酸序列进行PCR扩增的条件下，使单链引物延伸产物与DNA聚合酶、通用接头引物和内部引物接触，其中所述通用接头引物退火至单链引物延伸产物中的通用接头的非双链部分的互补序列，其中所述内部引物在3'末端包含特异性地退火至靶核苷酸序列的序列，并且其中所述内部引物针对所关注的基因座相对于外部引物是巢式的；以及(h)重复步骤(g)进行一个或多个PCR扩增循环，以提供靶核苷酸序列的扩增子，从而富集靶核苷酸序列。在一些实施方案中，重复步骤(c)-(e)进行一个或多个循环。在一些实施方案中，不重复步骤(c)-(e)。

在一些实施方案中，使用多组外部引物和内部引物来富集具有所关注基因座的靶核苷酸序列。如本文所用，“靶核苷酸序列”通常是指双链靶标多核苷酸的序列，其可以指正链序列或负链序列。在一些实施方案中，该方法包括使用特异性地退火至连接的核酸的第一链的第一组外部引物和内部引物，以及特异性地退火至连接的核酸的第二链的第二组外部引物和内部引物，来富集具有所关注基因座的靶核苷酸序列。在一些实施方案中，第一组的外部引物和第二组的外部引物包含至少13个核苷酸长(诸如至少约15、20、25中的任一者或更多个核苷酸长)的第一5'标签序列，并且第一组的内部引物和第二组的内部引物包含至少13个核苷酸长(诸如至少约15、20、25中的任一者或更多个核苷酸长)的第二5'标签序列。外部引物中的5'标签序列可以抑制PCR扩增产物和引物二聚体的形成，从而导致线性扩增(或引物延伸)。在一些实施方案中，在相对于靶核苷酸序列的一个方向或两个方向上使用多组外部引物和内部引物，来提供拼接所关注基因座的扩增子。

因此，在一些实施方案中，提供了从包含含有靶核苷酸序列的核酸模板的核酸样本富集具有所关注基因座的靶核苷酸序列的方法(例如，用于下一代测序)，该方法包括：(a)将通用接头连接至核酸模板以提供连接的核酸，其中该通用接头是在第一末端包含双链部分并且在第二末端包含非双链部分的寡核苷酸，并且其中该核酸模板通过第一末端连接到通用接头；(b)将连接的核酸解离成第一链和第二链，其中第一链包含靶核苷酸序列的正链序列，第二链包含靶核苷酸序列的负链序列；(c)将第一外部引物退火至连接的核酸的第一链中靶核苷酸序列的正链序列附近，并且将第二外部引物退火至连接的核酸的第二链中靶核苷酸序列的负链序列附近；(d)使用DNA聚合酶将第一外部引物延伸达到连接的核酸的第一链的全长，并将第二外部引物延伸达到连接的核酸的第二链的全长，以提供新生引物延伸双链体；(e)在足够高的温度下将新生引物延伸双链体解离成连接的核酸的第一链和第一单链引物延伸产物，以及该核酸的第二链和第二单链引物延伸产物；(f)重复步骤(c)-(e)进行一个或多个引物延伸循环；(g)在足以对靶核苷酸序列及互补的靶核苷酸序列进行PCR扩增的条件下，使第一单链引物延伸产物和第二单链引物延伸产物与DNA聚合酶、通用接头引物、第一内部引物和第二内部引物接触，其中通用接头引物退火至第一单链引物延伸产物和第二单链引物延伸产物中的通用接头的非双链部分的互补序列，其中第一内部引物在3'末端包含特异性地退火至靶核苷酸序列的正链序列的序列，其中第二内部引物在3'末端包含特异性地退火至靶核苷酸序列的负链序列的序列，其中第一内部引物针对所关注的基因座相对于第一外部引物是巢式的，并且其中第二内部引物针对所关注的基因座相对于第二外部引物是巢式的；以及(h)重复步骤(g)进行一个或多个PCR扩增循环，提供靶核苷酸序列的正链序列和负链序列的扩增子，从而富集靶核苷酸序列。在一些实施方案中，第一组的外部引物和第二组的外部引物包含至少13个核苷酸长的第一5'标签序列，并且第一组的内部引物和第二组的内部引物包含至少13个核苷酸长的第二5'标签序列。

在一些实施方案中，该方法在靶标富集步骤期间并入与对NGS平台具有特异性的测序引物兼容的序列。在一些实施方案中，通用接头的非双链部分包含与NGS平台的第一测序引物的序列相同或互补的序列。在一些实施方案中，通用接头引物在5'末端包含与NGS平台的第一测序引物的序列相同或互补的序列。在一些实施方案中，内部引物在5'末端包含与NGS平台的第二测序引物的序列相同或互补的序列。在一些实施方案中，步骤(g)，即PCR扩增步骤包括，在足以对靶核苷酸序列进行PCR扩增的条件下，使单链引物延伸产物与DNA聚合酶、通用接头引物、内部引物和测序接头引物接触，其中该测序接头引物在3'末端包含与内部引物的序列相同的序列，并且在5'末端包含与第二测序引物的序列相同或互补的序列。在一些实施方案中，测序接头引物包含样本条码。在一些实施方案中，通用接头引物包含具有与测序接头引物的样本条码相同或互补序列的样本条码。

因此，在一些实施方案中，提供了从包含含有靶核苷酸序列的核酸模板的核酸样本富集具有所关注基因座的靶核苷酸序列的方法(例如，用于下一代测序)，该方法包括：(a)将通用接头连接至核酸模板以提供连接的核酸，其中该通用接头是在第一末端包含双链部分并且在第二末端包含非双链部分的寡核苷酸，并且其中该核酸模板通过第一末端连接到通用接头；(b)将连接的核酸解离成第一链和第二链，其中第一链包含靶核苷酸序列(例如，正链序列或负链序列)；(c)将外部引物退火至第一链中靶核苷酸序列附近；(d)使用DNA聚合酶将外部引物延伸达到连接的核酸的第一链的全长，以提供新生引物延伸双链体；(e)在足够高的温度下将新生引物延伸双链体解离成连接的核酸的第一链和单链引物延伸产物；(f)重复步骤(c)-(e)进行一个或多个(诸如约2-100个，例如约5-50个，或约10-30个)引物延伸循环；(g)在足以对靶核苷酸序列进行PCR扩增的条件下，使单链引物延伸产物与DNA聚合酶、通用接头引物、内部引物和测序接头引物接触，其中该通用接头引物退火至单链引物延伸产物中通用接头的非双链部分的互补序列，其中内部引物在3'末端包含特异性地退火至靶核苷酸序列的序列，其中内部引物针对所关注的基因座相对于外部引物是巢式的，其中通用接头(例如，非双链部分或双链部分)和/或通用接头引物的5’末端包含与NGS平台的第一测序引物的序列相同或互补的序列，其中该测序接头引物在3'末端包含与内部引物的序列相同的序列，并且在5'末端包含与NGS平台的第二测序引物的序列相同或互补的序列；以及(h)重复步骤(g)进行一个或多个(诸如约2-100个，例如约5-50个，或约10-30)PCR扩增循环，以提供靶核苷酸序列的扩增子，从而富集靶核苷酸序列。在一些实施方案中，该方法包括使用特异性地退火至连接的核酸的第一链的第一组外部引物和内部引物，以及特异性地退火至连接的核酸的第二链的第二组外部引物和内部引物，来富集具有所关注基因座的靶核苷酸序列。在一些实施方案中，第一组的外部引物和第二组的外部引物包含至少13个核苷酸长的第一5'标签序列，并且第一组的内部引物和第二组的内部引物包含至少13个核苷酸长的第二5'标签序列。

本文所述的方法可以用于从核酸样本中富集具有所关注基因座的靶核苷酸序列，该核酸样本包含任意数目的含有靶核苷酸序列的核酸模板，包括例如至少约2、5、10、20、50、100、200、500、1000、2000、5000、10000中的任一者或更多个含有靶核苷酸序列的核酸模板。本文所述的方法也可以是多重的。应用于本文所述方法的术语“多重”是指，使用多组外部和内部引物在同一反应中特异性地富集具有至少两个不同所关注基因座的靶核苷酸序列。在一些实施方案中，多组外部和内部引物均存在于单个反应混合物中，例如可以在同一反应混合物中产生多个不同的扩增子。在一些实施方案中，多个靶核苷酸序列中的至少2个存在于核酸模板的不同链中。

在一些实施方案中，具有多个不同的所关注基因座(诸如至少约2、5、10、20、50、100、200、500、1000、1500、2000、5000中的任一者或更多个所关注基因座)的靶核苷酸序列得到富集。在一些实施方案中，具有约2-5000个(例如，约2-100、5-200、100-2000、2-2000、101-5000或1500-5000个中的任一者)不同的所关注基因座的靶序列在单个反应中得到富集。

因此，在一些实施方案中，提供了从包含含有靶核苷酸序列的核酸模板的核酸样本富集具有多个(例如至少约1000、1500、2000或更多)不同所关注基因座的靶核苷酸序列的方法(例如，用于下一代测序)，该方法包括：(a)将通用接头连接至核酸模板以提供连接的核酸，其中该通用接头是在第一末端包含双链部分并且在第二末端包含非双链部分的寡核苷酸，并且其中每个核酸模板通过第一末端连接到通用接头；(b)将每个连接的核酸解离成第一链和第二链，其中第一链包含靶核苷酸序列(例如，正链序列或负链序列)；(c)将外部引物退火至第一链中每个靶核苷酸序列附近；(d)使用DNA聚合酶将外部引物延伸达到第一链的全长，以提供新生引物延伸双链体；(e)在足够高的温度下将新生引物延伸双链体解离成第一链和单链引物延伸产物；(f)重复步骤(c)-(e)进行一个或多个(诸如约2-100个，例如约5-50个，或约10-30个)引物延伸循环；(g)在足以对靶核苷酸序列进行PCR扩增的条件下，使单链引物延伸产物与DNA聚合酶、通用接头引物和内部引物接触，其中所述通用接头引物退火至单链引物延伸产物中的通用接头的非双链部分的互补序列，其中每个内部引物在3'末端包含特异性地退火至靶核苷酸序列的序列，并且其中内部引物针对每个所关注基因座相对于外部引物是巢式的；以及(h)重复步骤(g)进行一个或多个(诸如约2-100个，例如约5-50个，或约10-30)PCR扩增循环，以提供靶核苷酸序列的扩增子，从而富集靶核苷酸序列。在一些实施方案中，该方法包括使用可特异性地退火至连接的核酸的第一链的第一组外部引物和内部引物，以及可特异性地退火至连接的核酸的第二链的第二组外部引物和内部引物，来富集具有所关注基因座的靶核苷酸序列。在一些实施方案中，第一组的外部引物和第二组的外部引物包含至少13个核苷酸长的第一5'标签序列，并且第一组的内部引物和第二组的内部引物包含至少13个核苷酸长的第二5'标签序列。在一些实施方案中，通用接头引物的5’末端或通用接头包含与NGS平台的第一测序引物的序列相同或互补的序列。在一些实施方案中，内部引物在3'末端包含特异性地退火至靶核苷酸序列的序列，并且在5'末端包含与NGS平台的第二测序引物的序列相同或互补的序列。在一些实施方案中，步骤(g)包括在足以对靶核苷酸序列进行PCR扩增的条件下，使单链引物延伸产物与DNA聚合酶、通用接头引物、内部引物和测序接头引物接触。

在一些实施方案中，该方法具有高灵敏度，诸如至少约70％、80％、90％、95％中的任一者或更多靶核苷酸序列由一个或多个序列读段表示。在一些实施方案中，该方法具有高特异性，诸如至少约70％、80％、85％、90％、95％、98％中的任一者或更多读段序列定位到预期的靶核苷酸序列。在一些实施方案中，该方法具有高均匀性。在一些实施方案中，该方法具有高重现性。在一些实施方案中，该方法需要少量的输入核酸样本，诸如不超过约50ng、25ng、10ng、5ng、1ng中的任一者或更少的核酸。

图1示出了富集具有所关注基因座的靶核苷酸序列的示例性方法的示意图。在该非限制性示例中，首先将包含靶核苷酸序列的核酸模板连接至通用接头，在核酸模板的每个末端上都连接一个拷贝。在第一引物延伸循环中，外部引物特异性地退火至连接的核酸的第一链。根据外部引物的设计取向，位于正链和/或负链上的退火位点的上游或下游序列得到合成。外部引物池也可用于提供拼接引物延伸产物。新生单链引物延伸产物在3'末端具有与通用接头的一条链互补的全长序列。在每个随后的引物延伸循环中，原始连接的核酸链继续充当引物延伸的模板，使得单链引物延伸产物发生线性扩增。各个相反方向的外部引物包含相同的5'标签序列，其抑制PCR扩增产物的出现并促进连接的核酸的线性扩增。在随后的PCR扩增循环中，通用接头引物和内部引物特异性地退火至引物延伸产物或其PCR扩增产物的适当链，由此提供靶核苷酸序列的指数扩增。各个相反方向的内部引物包含相同的5'标签序列，其抑制引物二聚体和不期望的副产物的产生。PCR扩增循环可进一步涉及具有与测序引物相同或互补的序列的测序接头引物。对于双末端测序，通用接头或通用接头引物可以具有5'部分，所述5'部分具有与反向测序引物相同或互补的序列。由此，会获得包含准备好用于NGS测序的靶核苷酸序列的扩增子的测序文库。

可以使用多种方法来分析由本文所述方法制备的靶核苷酸序列的扩增子，所述方法包括但不限于核酸测序(例如，Sanger测序或下一代测序，本文也称为“NGS”)、微阵列分析、定量PCR和数字PCR。

连接

作为第一步骤，本文所述方法包括将通用接头连接至核酸样本中的一个或多个核酸模板。在一些实施方案中，核酸样本包含含有靶核苷酸序列和非靶核苷酸序列两者的核酸模板。在一些实施方案中，通用接头连接至核酸样本中基本上所有的核酸模板。在一些实施方案中，通用接头连接至包含靶核苷酸序列的靶核酸模板，以及不包含靶核苷酸序列的非靶核酸模板两者。

通用接头与核酸模板的连接可以通过本领域已知的任何方法来完成，例如，平端连接或TA连接。在一些实施方案中，在连接通用接头之前，对样本中的核酸模板进行核酸末端修复，以钝化核酸模板的末端。末端修复在本领域中是众所周知的，并且相关的试剂盒和/或酶可商购获得(例如，马萨诸塞州伊普斯威奇的新英格兰生物实验室公司的NEBNEXT^TM末端修复模块(NEBNEXT^TMEnd Repair Module,New England Biolabs；Ipswich,Mass.))。

在一些实施方案中，在通用接头连接之前，样本中的核酸模板可被磷酸化和/或腺苷酸化。腺苷酸化可以在核酸模板的3’末端上提供腺苷突出端。然后可以通过TA连接将具有3’胸苷(T)突出端的第二核酸与第一核酸连接。TA连接的方法在本领域中是众所周知的，并且相关的试剂盒和/或酶可商购获得，例如马萨诸塞州伊普斯威奇的新英格兰生物实验室公司的NEBNEXT^TMdA-加尾模块(NEBNEXT^TMdA-Tailing module,New England Biolabs；Ipswich,Mass.)可以用于腺苷酸化核酸的平端。在一些实施方案中，通用接头包括3’T突出端。

引物延伸

使用外部引物对连接的核酸进行一个或多个引物延伸循环或线性扩增循环。因为包含靶核苷酸序列的核酸模板在每个引物延伸循环中充当模板，所以引物延伸循环可以线性地增加靶核苷酸序列的丰度。在一些实施方案中，引物延伸循环重复一次或多次。在一些实施方案中，引物延伸循环不重复。在一些实施方案中，该方法包括至少2个或更多个引物延伸循环，诸如至少约5、10、15、20、25、30中的任一者或更多个反复的引物延伸循环。在一些实施方案中，该方法包括约2至100个引物延伸循环，例如约5-50、约5-30、约5-20、约10-20、约10-15、约15-30、约30-50或约10-30个中的任一者的引物延伸循环。每个引物延伸循环包括以下步骤：1)链分离(例如热变性)；2)外部引物退火至包含靶核苷酸序列的连接的核酸的第一链；以及3)退火引物的核酸聚合酶延伸。本领域的普通技术人员可以设计出这些步骤中每个步骤所需的条件和时间。引物延伸循环可以在热循环仪中进行，许多热循环仪是可商购获得的。

每个引物延伸循环包括通常涉及加热反应混合物的链解离或分离步骤。如本文所用，“链分离”、“链解离”或“解链”是指对核酸样本进行处理，使得互补双链分子被分成可用于退火至寡核苷酸引物的两条单链。在一些实施方案中，解离双链引物延伸产物是通过在足够高的温度下加热引物延伸反应混合物来实现的。在一些实施方案中，足够高的温度高于引物延伸链的解链温度(Tm)。在一些实施方案中，足够高的温度是至少约90℃，例如至少约91℃、92℃、93℃、94℃、95℃、96℃或97℃中的任一者。在一些实施方案中，足够高的温度是约90℃至97℃。在一些实施方案中，双链引物延伸产物在存在能够升高或降低该双链引物延伸产物的变性温度的试剂的情况下得到解离。可以升高或降低双链引物延伸产物的变性温度的示例性试剂包括但不限于盐和二甲亚砜(DMSO)。

在一些实施方案中，在外部引物与连接的核酸的第一链之间发生退火的条件，可根据引物的长度和序列而发生变化。在一些实施方案中，用于退火的条件基于外部引物的Tm(例如，所计算的Tm)。在一些实施方案中，引物延伸循环的退火步骤涉及在链分离步骤之后，将温度降低至基于外部引物的Tm(例如计算的Tm)的温度，持续足以允许发生此类退火的时间。

在一些实施方案中，在引物延伸循环期间允许发生引物退火的时间取决于反应体积，较大体积需要较长时间，但也取决于引物和模板浓度，较高的引物与模板的相对浓度比较低的相对浓度需要较短时间。在一些实施方案中，引物延伸循环包括逐渐加热至足够高的温度，例如，90℃-95℃)以解离双链核酸，然后在引物延伸之前逐渐冷却至用于引物延伸的温度(例如，60℃)。在一些实施方案中，以不大于约1℃/秒、0.8℃/秒、0.7℃/秒、0.6℃/秒、0.5℃/秒、0.4℃/秒、0.3℃/秒、0.2℃/秒、0.1℃/秒中的任一者或更低的连续温度差逐渐加热或冷却引物延伸反应。

聚合酶延伸步骤需要使用核酸聚合酶，其催化核苷三磷酸的模板依赖性聚合，以形成与模板核酸序列互补的引物延伸产物。核酸聚合酶在退火引物的3’末端开始合成，并朝向模板的5’末端方向进行合成。在一些实施方案中，核酸聚合酶是热稳定的，即它在经受足以使互补核酸的退火链发生变性的温度(例如94℃或更高)之后仍保持功能。在一些实施方案中，核酸聚合酶是DNA聚合酶。

许多核酸聚合酶在本领域中是已知的并且可商购获得。在一些实施方案中，核酸聚合酶是DNA聚合酶I、Taq聚合酶、Pheonix Taq聚合酶、聚合酶、T4聚合酶、T7聚合酶、克列诺(klenow)片段、Klenow exo-、phi29聚合酶、AMV逆转录酶、M-MuLV逆转录酶、HIV-1逆转录酶、VERASEQ^TMULtra聚合酶、VERASEQ^TMHF 2.0聚合酶、ENZSCRIPT^TM或另一合适的聚合酶。在一些实施方案中，核酸聚合酶不是逆转录酶。在一些实施方案中，核酸聚合酶作用于DNA模板。在一些实施方案中，Taq DNA聚合酶(例如，PLATINUM^TMTaq)用于引物延伸循环。

在一些实施方案中，核酸模板是RNA模板，并且替代DNA聚合酶或者除了DNA聚合酶之外，作用于RNA模板的核酸聚合酶被用于引物延伸循环中。在一些实施方案中，延伸反应涉及在RNA上进行逆转录，以生成互补DNA分子(“RNA依赖性DNA聚合酶活性”)。在一些实施方案中，逆转录酶是小鼠莫恩氏鼠白血病病毒聚合酶、AMV逆转录酶、RSV逆转录酶、HIV-1逆转录酶、HIV-2逆转录酶或另一合适的逆转录酶。

在一些实施方案中，聚合酶延伸在允许退火的寡核苷酸引物延伸的条件下进行。如本文所用，术语“聚合酶延伸”是指通过核酸聚合酶将至少一个互补核苷酸依赖于模板并入经退火引物的3’末端上。聚合酶延伸优选地添加一个以上的核苷酸，优选地至多并包括对应于模板全长的核苷酸。这些条件包括，例如合适的温度、盐和辅因子浓度、pH和酶浓度。在一些实施方案中，此类条件至少部分基于所使用的核酸聚合酶。在一些实施方案中，聚合酶可以在合适的反应制备物中进行引物延伸反应。在一些实施方案中，合适的反应制备物含有一种或多种盐(例如，1mM至100mM的KCl，0.1mM至10mM的MgCl₂)、至少一种缓冲剂(例如，1mM至20mM的Tris-HCL)、和载体(例如，0.01％至0.5％的BSA)以及一种或多种三磷酸核苷酸(例如，10μM至200μM的dATP、dTTP、dCTP和dGTP中的每一者)。用于聚合酶延伸的温度通常基于酶的已知活性性质。尽管要求退火温度低于例如酶的最佳温度，但使用较低的延伸温度通常是可接受的。通常，虽然酶在其最佳延伸温度以下保留了至少部分活性，但是最常用的热稳定聚合酶Taq聚合酶及其变体的聚合酶延伸是在60℃至75℃下进行。一组非限制性条件包括60℃下(该温度下，聚合酶例如PLATINUM^TMTaq聚合酶会催化引物延伸)的50mMKCl，10mM Tris-HCl(25℃下pH 8.8)，0.5mM至3mM MgCl₂，每种dNTP 200μM，和0.1％BSA。

引物延伸循环的聚合酶延伸步骤可以持续足够长的时间，以允许在连接的核酸的第一链的整个长度上进行引物延伸，例如延伸到达通用接头的第一链的5'末端。聚合酶延伸步骤的足够时间可以基于连接的核酸的平均长度和聚合酶速度来确定。在一些实施方案中，聚合酶延伸步骤的时间长短为至少约2分钟、4分钟、6分钟、8分钟、10分钟、15分钟中的任一者或更长时间。

使用Taq聚合酶(例如，PLATINUM^TMTaq)进行引物延伸的方案的一个非限制性示例可以在如下条件下进行：95℃持续5分钟；随后进行10-30个循环，以+0.2℃/秒的速度升温至95℃，在95℃下解链10秒，以-0.2℃/秒的速度降至60℃进行退火，并在60℃延伸10分钟；随后在4℃下保持反应。然而，也可以使用其他适当的反应条件。在一些实施方案中，可以对退火/延伸温度进行调整以解决盐浓度的差异(例如，高盐浓度下温度高3℃)。

PCR扩增

使用通用接头引物和内部引物以及可选的测序接头引物对单链引物延伸产物进行一个或多个聚合酶链反应(PCR)扩增循环。由于先前的聚合酶延伸产物用作连续循环延伸的模板，因此PCR扩增循环可按指数方式增加靶核苷酸序列的丰度。在一些实施方案中，该方法包括至少2个或更多个PCR扩增循环，诸如至少约5、10、15、20、25、30中的任一者或更多个反复的PCR扩增循环。在一些实施方案中，该方法包括约2个至100个PCR扩增循环，例如约5-50、约5-30、约5-20、约10-20、约10-15、约15-30、约30-50或约10-30个中的任一者的PCR扩增循环。每个PCR扩增循环包括以下步骤：1)链分离(例如热变性)2)将通用接头引物和内部引物退火至模板分子；以及3)经退火引物的核酸聚合酶延伸。本领域的普通技术人员可以设计出这些步骤中每个步骤所需的条件和时间。PCR扩增循环可以在热循环仪中进行，许多热循环仪是可商购获得的。

用于PCR扩增循环中每个步骤的条件(诸如酶、盐、缓冲液、温度等)可以与引物延伸循环中相应步骤的条件相同或基本相似。“引物延伸”章节中所述的任何一种核酸聚合酶、缓冲条件、链解离温度和聚合酶延伸时间均可用于PCR扩增循环。在一些实施方案中，PCR扩增循环中使用的核酸聚合酶与引物延伸循环中使用的核酸聚合酶相同。在一些实施方案中，PCR扩增循环中使用的核酸聚合酶与引物延伸循环中使用的核酸聚合酶不同。在一些实施方案中，核酸聚合酶是DNA聚合酶。在一些实施方案中，Taq聚合酶(例如，PLATINUM^TMTaq)用于PCR扩增循环。在一些实施方案中，PCR扩增循环的延伸时间与引物延伸循环的延伸时间相同。在一些实施方案中，PCR扩增循环的延伸时间与引物延伸循环的延伸时间不同。

扩增方案的一个非限制性示例涉及在如下条件下使用聚合酶(例如，PLATINUM^TMTaq聚合酶)：95℃持续5分钟，然后进行10-25个循环，包括在95℃下解链30秒，然后在60℃下退火并延伸5分钟，然后将反应保持在4℃下。然而，也可以使用其他适当的反应条件。在一些实施方案中，可以对退火/延伸温度进行调整以解决盐浓度的差异(例如，高盐浓度下温度高3℃)。

另外的步骤

本文所述的方法可以包括另外的步骤，包括但不限于片段化、酶消化和/或净化步骤。

适用于本文所述方法的许多NGS测序方法所提供的测序运行具有数十至数百个核苷酸碱基的最佳读段长度(例如ION TORRENT^TM技术可以产生200bp-400bp的读段长度)。例如，如果给定测序技术的最佳读段长度为200bp，则来自本文所述的方法的靶核苷酸序列的扩增子可具有不超过约800bp、700bp、600bp、500bp、400bp、300bp、约200bp中的任一者或更短的平均长度。在一些实施方案中，通用接头、外部和内部引物和/或通用接头引物被设计成提供用于特定测序技术中的合适长度的扩增子。在一些实施方案中，该方法包括在连接步骤之前将核酸模板片段化，或将引物延伸产物或靶核苷酸序列的扩增子片段化。本文使用的将多核苷酸“片段化”是指将多核苷酸分解成不同的多核苷酸片段。片段化可以通过例如剪切或酶促反应来实现。在一些实施方案中，将核酸模板片段化为适于下一代测序的尺寸。

在一些实施方案中，来自本文所述方法中的步骤(例如，引物延伸，PCR扩增，或在测序之前)的核酸模板或核酸产物被剪切，例如机械剪切或酶剪切，以产生任何所需尺寸的片段。在一些实施方案中，通过超声处理来机械剪切核酸模板。在一些实施方案中，核酸模板未被剪切或酶促消化。在一些实施方案中，来自本文所述方法中的步骤(例如，引物延伸、PCR扩增、或在测序之前)的核酸产物未受到剪切或酶消化。在一些实施方案中，核酸模板被片段化至不超过约1kb、800bp、700bp、600bp、500bp、400bp、300bp、约200bp中的任一者或更小的平均尺寸。

基因组DNA(例如染色体)、mRNA和cDNA的全长或长片段可受到剪切，例如机械剪切或酶剪切，从而在连接步骤之前产生具有任何所需尺寸的片段。机械剪切方法的非限制性示例包括超声处理、雾化和可从麻萨诸塞州沃本市的Covaris公司(Covaris,Woburn,Mass.)获得的AFA^TM剪切技术。在一些实施方案中，通过超声处理将基因组DNA机械剪切成合适长度的核酸模板。在一些实施方案中，当核酸模板是源自RNA的cDNA时，该RNA样本可以经受逆转录以产生cDNA，然后cDNA模板可受到剪切。在一些实施方案中，可以在进行逆转录之前剪切RNA。

在一些实施方案中，该方法包括一个或多个净化步骤，从而在连接步骤、引物延伸循环和/或PCR扩增循环之后去除未反应的接头和引物、聚合酶和核苷酸。在一些实施方案中，连接的核酸在引物延伸循环之前(例如步骤(b))经受净化工序。在一些实施方案中，引物延伸产物在PCR扩增循环(例如步骤(g))之前经受净化工序。核酸净化工序是本领域已知的，用于净化引物延伸产物和PCR扩增产物的试剂盒可以商购获得，例如，贝克曼库尔特公司(Beckman Coulter)的微珠。

在一些实施方案中，该方法还包括用于获得、加工或制备“核酸样本”章节中所述的生物样本和/或核酸样本的任何一个或多个步骤。

引物和接头

在本文所述的方法中使用了寡核苷酸接头和引物，包括通用接头、巢式靶标特异性引物(即，外部引物和内部引物)、通用接头引物和测序接头引物，以及适用于特定NGS平台的测序引物。本文描述的引物和接头可经特别设计和优化以获得高特异性、灵敏度、效率(例如，连接、引物延伸、PCR扩增或NGS测序)和/或对某些类型的序列(诸如具有高GC含量的序列)具有较低偏差。

本文所述的引物被设计成特异性地退火至模板核酸中已知的核苷酸序列。在一些实施方案中，引物包含与模板核酸中的链互补或基本上互补的序列，所述引物其特异性地退火至所述模板核酸。在一些实施方案中，引物中与模板核酸杂交的序列位于序列的3'末端。

本文使用的引物通常是单链的，并且引物及其互补物可以退火以形成双链多核苷酸。在一些实施方案中，引物的长度不超过约300个核苷酸，例如，长度不超过约300、250、200、150、100、90、80、70、60、50、40、30、20、15中的任一者或更少的核苷酸，但长度至少约10个核苷酸。

在一些实施方案中，本文公开的引物(例如，外部引物和内部引物、通用接头引物和/或测序接头引物)被设计成使得它们可以在为约55-72℃、60-72℃、约60-70℃、约62-69℃、约63-67℃或约64-66℃中的任一者的退火温度下特异性地退火至其互补序列。在一些实施方案中，本文公开的引物被设计成使得它们可以在小于约72℃、70℃、68℃、65℃或60℃中的任一者的退火温度下特异性地退火至其互补序列。引物的退火温度(也称为解链温度或Tm)可以使用许多算法中的任一种来确定(例如科罗拉多州分子生物学洞察公司(Molecular Biology Insights Inc.Colorado)的OLIGO^TM引物设计软件和加利福尼亚州英杰公司(Invitrogen,Inc.California)的VENTRO NTI^TM引物设计软件以及可得自网络的程序,包括Primer3、Oligo Calculator和加利福尼亚州帕洛阿尔托市Premier Biosoft公司(Premier Biosoft；Palo Alto,CA)的NetPrimer)。在一些实施方案中，引物的Tm可使用如下公式来计算：Tm＝AH/(AS+R*ln(C/4))+16.6log([K+]/(l+0.7[K+]))-273.15，其中ΔH是螺旋形成的焓；AS是螺旋形成的熵；R是摩尔气体常数(1.987cal/℃×mol)；C是核酸浓度；并且[K+]是盐浓度。参见Frieir等人的PNAS1986 83:9373-9377。

可以使用以下设计原则中的任何一个或多个来优化引物的设计。例如，对于低覆盖率，难以富集包含高GC含量序列的靶核苷酸序列，可以将引物设计为覆盖相邻的序列。还可以对引物序列进行修饰，以减少引物的二级结构并提高其杂交效率。可以修改引物长度或引物中与其模板特异性地杂交的那部分的长度，以平衡相同类别内不同引物的解链杂交动力学。可以对用于相同靶标区正向链和反向链的不同取向的引物进行修饰，以具有不同的结合效率。

接头和引物在该方法的每个步骤中均以合适的浓度使用。在一些实施方案中，优化了通用接头、外部引物、内部引物、通用接头引物和可选的测序接头引物中任两者或更多者的浓度之间的比率。例如，在一些实施方案中，通用接头和外部引物之间的浓度比率不超过约5000:1、1000:1、100:1、50:1、20:1、10:1、5:1、4:1、3:1、2:1、1:1中的任一者或更小。在一些实施方案中，两种不同的外部引物之间的浓度比率为约1:4至约4:1、约1:3至约3:1、约1:2至约2:1、约2:3至约3:2，或约1:1中的任一者。在一些实施方案中，两种不同的内部引物之间的浓度比率为约1:4至约4:1、约1:3至约3:1、约1:2至约2:1、约2:3至约3:2，或约1:1中的任一者。例如，较高浓度的内部和/或外部引物可用于相对较难富集的靶核苷酸序列。在一些实施方案中，通用接头引物和内部引物之间的浓度比率不超过约5000:1、1000:1、100:1、50:1、20:1、10:1、5:1、4:1、3:1、2:1、1:1中的任一者或更小。在一些实施方案中，每个外部引物与其相应的内部引物之间的浓度比率为约1:4至约4:1、约1:3至约3:1、约1:2至约2:1、约2:3至约3:2，或约1:1中的任一者。例如，可以对不同外部引物组和内部引物组的相对浓度进行调整，以增加或减少具有某些所关注基因座的靶核苷酸的覆盖范围。

在一些实施方案中，所富集的靶核苷酸序列准备用于NGS。在确定靶核苷酸序列、检测序列变体以及下述章节III和IV中所述的诊断的方法的一些实施方案中，该方法包括依赖于使用第一测序引物和第二测序引物的测序步骤。在一些实施方案中，对第一和第二测序引物进行选择，以使其与本文所述的下一代测序方法兼容。在一些实施方案中，第一测序引物包含用于基于测序技术的P5序列，并且第二测序引物包含用于基于测序技术的P7序列；或者第二测序引物包含用于基于测序技术的P5序列，并且第一测序引物包含用于基于测序技术的P7序列。在一些实施方案中，第一测序引物包含与ION TORRENT^TM测序技术兼容的PI序列，并且第二测序引物包含与ION TORRENT^TM测序技术兼容的A序列；或者第二测序引物包含与ION TORRENT^TM测序技术兼容的A序列，并且第一测序引物包含与ION TORRENT^TM测序技术兼容的PI序列。通用接头和/或通用接头引物可以包含与第一测序引物的序列相同或互补的序列。内部引物和/或测序接头引物可以包含与第二测序引物的序列相同或互补的序列。本领域技术人员可以对通用接头、通用接头引物、内部引物和/或测序接头引物中的序列相对于第一或第二测序引物的方向进行选择，以提供在适当的方向具有此类序列的扩增子以供双端测序。

在一些实施方案中，引物和/或接头不包含经修饰的或非天然存在的核苷酸。在一些实施方案中，引物和/或接头包含经修饰的或非天然存在的碱基。在一些实施方案中，引物和/或接头用能够直接或间接提供可检测信号的标记物修饰。这种标记物的非限制性示例包括放射性同位素、荧光分子、生物素等。在一些实施方案中，引物和/或接头含有生物素连接基或其他适合的连接基(例如，用于将引物缀合到支持物)。在一些实施方案中，引物和/或接头含有核酸酶切割位点，使得允许用适当的酶进行切割。在其他实施方案中，引物的5'末端包括与结合至微珠或其他支持物(例如，贯流分析池底物)的核酸互补的序列。在一些实施方案中，引物和/或接头包含经修饰的核苷间键合，诸如硫代磷酸酯。

可使用任何合适的方法来合成接头和引物。在一些实施方案中，商业来源能够提供适于提供用于本文所述的方法和组合物中的引物的寡核苷酸合成服务，例如纽约州格兰德艾兰生命技术公司(Life Technologies,Grand Island,NY)的INVITROGEN^TMCustom DNAOligos或爱荷华州克拉尔维尔IDT公司(IDT,Coralville,IA)的定制DNA Oligos。在一些实施方案中，接头和引物中的任一者可通过连接两个或更多个接头和引物部分来制备。

通用接头和通用接头引物

本文所用的通用接头是在第一末端包含可连接双链部分并且在第二末端包含非双链部分的寡核苷酸。在一些实施方案中，通用接头具有两条单独的链，即第一链和第二链。在一些实施方案中，通用接头包含第一链和第二链。通用接头的第一链是指其3'末端位于通用接头的第一末端(即，可连接末端)的链。通用接头的第二链是指其5'末端位于通用接头的第一末端(即，可连接末端)的链。

在一些实施方案中，第一链包含5'未配对部分、3'配对部分和3'T突出端。在一些实施方案中，第二链具有3'未配对部分和5'配对部分。在一些实施方案中，通用接头的非双链部分是单链的，例如第一链的5'未配对部分。在一些实施方案中，整个第二链是配对的。第一链和第二链的配对部分基本上互补并形成包含可连接双链部分和3'T突出端的第一末端，并且双链部分具有足够的长度以在连接温度下保持双链形式。

在一些实施方案中，通用接头具有“Y”形状，即未配对部分包含第一链和第二链的部分。第二链的未配对部分的长度可比第一链的未配对部分短、长或与其相等。在一些实施方案中，第二链的未配对部分可比第一链的未配对部分短。Y形通用接头具有以下优点：第二链的未配对部分在PCR扩增步骤中不会被扩增。

在一些实施方案中，通用接头的第二链包含与第一链的5'未配对部分基本上不互补的3'未配对部分，并且其中第二链的3'未配对部分与任何其他引物基本上不互补或基本上不相同。在一些实施方案中，通用接头的第二链包含在退火温度下不会特异性地退火至第一链的5'未配对部分的3'未配对部分，并且其中第二链的3'未配对部分在退火温度下不会特异性地退火至任何其他引物或其互补序列。

在一些实施方案中，通用接头是发夹结构，其中非双链部分是环结构。在一些实施方案中，扩增链的未配对5'部分和阻断链的未配对3'部分彼此连接。在一些实施方案中，环结构先被酶切割，然后连接的核酸在引物延伸步骤之前解离成两条单独的链。

在一些实施方案中，通用接头的双链部分(例如，任一条或两条链的配对部分)的长度为至少约7个碱基对，例如长度为至少约7bp、8bp、9bp、10bp、11bp、12bp、13bp、14bp中的任一者或更多。在一些实施方案中，通用接头的双链部分的长度不超过约18bp，例如长度不超过约17bp、16bp、15bp、14bp、13bp、12bp或中的任一者更少。在一些实施方案中，通用接头的双链部分的长度不超过约14bp。通用接头的双链部分不应过长以致于抑制所需扩增子的引物延伸和/或PCR扩增。另外，可限制通用接头的双链部分的长度，以减少如图3所示的虚增UMI复杂性问题。

在一些实施方案中，通用接头的非双链部分包含与NGS平台的第一测序引物的序列相同或互补的序列。在一些实施方案中，通用接头的第一链的未配对5'部分包含与NGS平台的第一测序引物的序列相同或互补的序列。在一些实施方案中，通用接头的双链部分的第一链包含与NGS平台的第一测序引物的序列相同或互补的序列。

在一些实施方案中，通用接头包含条码。在一些实施方案中，通用接头的双链部分包含条码。在下一代测序应用中使用条码在本领域中是众所周知的，并且例如在以下文献中有所描述：Margulies,M.等人“Genome Sequencing in Microfabricated.High-DensityPicoliter Reactors”,Nature,437,376-80(2005)；Mikkelsen,T.等人“Genome-Wide Mapsof Chromatin State in Pluripotent and Lineage-Committed.Cells”,Nature,448,553-60(200)；McLaughlin,S.等人“Whole-Genome Resequencing With Short Reads；Accurate Mutation Discovery With Mate Pairs and Quality Values”,ASHG AnnualMeeting(2007)；Shendure I.等人“Accurate Multiplex Polony Sequencing of anEvolved Bacterial Genome”,Science,309,1728-32(2005)；Harris,T.等人“Single-Molecule DNA Sequencing of a Viral Genome”Science,320,106-9(2008)；Simen,B.等人“Prevalence of LOW Abundance Drug Resistant Variants by Ultra DeepSequencing in Chronically HIV-infected Antiretroviral(ARV)Naive Patients andthe impact on Virologic Outcomes”,16th International HIV Drug ResistanceWorkshop,Barbados(2007)；Thomas,R.等人“Sensitive Mutation Detection inHeterogeneous Cancer Specimens by Massively Parallel Picoliter ReactorSequencing”,Nature Med.,12,852-855(2006)；Mitsuya,Y等人“Minority HumanImmunodeficiency Virus Type I Variants in Antiretroviral-Naive Persons WithReverse Transcriptase Codon 215Revertant Mutations”,I.Vir.,82,10747-10755(2008)；Binladen,J.等人“The Use of Coded PCR Primers Enables High-ThroughputSequencing of Multiple HomologAmplification Products by454ParallelSequencing”,PLoS ONE,2,e197(2007)；以及Hoffmann,C.等人“DNA Bar Coding andPyrosequencing to Identify Rare HIV Drug Resistance Mutations”,Nuc.AcidsRes.,35,e91(2007)，这些文献均以引用方式并入本文。

在一些实施方案中，通用接头包含含有随机和/或简并设计的核碱基的分子条码。分子条码也被称为“单一分子索引”或“UMI”。在包含含有分子条码的多个通用接头的组合物中，每个通用接头中的分子条码可以是不同的，因为其含有包含随机设计的(即，具有四种核碱基A、C、T、G中的任一者)或简并设计(即，具有一组至少两种类型的核碱基中的一种，例如B＝C/G/T、D＝A/G/T、H＝A/C/T、V＝A/C/G、W＝A/T、S＝C/G、R＝A/G、Y＝C/T)核苷酸的核苷酸序列。因此，可使用分子条码来对来源于相同核酸模板的扩增子的测序读段进行比对，从而允许校正由引物延伸和/或PCR扩增循环引起的错误。分子条码还可包含与组合物中的所有通用接头具有相同同一性的核苷酸(即，“恒定”或特异性设计的核苷酸)。可将恒定的核碱基置于随机或简并设计序列的任一侧上，或散布在随机或简并设计的核苷酸中。在一些实施方案中，分子条码包含至少约5个(例如，至少约10、15、20或25个中的任一者)随机和/或简并设计的核碱基。在一些实施方案中，分子条码包含至少约1、2、3、4、5、6、7、8、9、10中的任一者或更多个恒定(即，特异性设计)的核碱基。在一些实施方案中，分子条码是随机设计、简并设计或恒定的核碱基的混合物。分子条码中随机和/或简并设计的核碱基的数目取决于核酸样本的复杂性。在一些实施方案中，通用接头的非双链部分包含分子条码。在一些实施方案中，分子条码是单链的。在一些实施方案中，通用接头的第一链在未配对部分的3'末端包含分子条码。在一些实施方案中，分子条码是双链的。在一些实施方案中，通用接头的双链部分包含分子条码。

在一些实施方案中，通用接头的双链部分包含样本条码。样本条码可用于从每个核酸样本中靶标富集一个或多个所关注的基因座。在一些实施方案中，所述方法包括从多个核酸样本中富集靶核苷酸序列，其中每个核酸样本分别经受步骤(a)-(h)，并且每个核酸样本使用一个包含不同样本条码的通用接头。在一些实施方案中，将包含样本条码的通用接头连接至每个核酸样本中的核酸模板，并且将来自不同条码样本的连接产物合并，并使其同时经受引物延伸循环和PCR扩增样本，由此各自得到的扩增子包含标识扩增子来源于哪个核酸样本的样本条码。在一些实施方案中，样本条码包含至少约3、4、5、6、8、10、12、15中的任一者或更多个恒定的核苷酸。在一些实施方案中，样本条码包含约4-15、4-13、5-12、5-10或6-10中的任一者的恒定的核苷酸。在一些实施方案中，通用接头的非双链部分包含样本条码。在一些实施方案中，通用接头的双链部分包含样本条码。在一些实施方案中，样本条码位于通用接头的双链部分的可连接末端(即，第一链上包含配对部分的3'末端的双链末端)。在一些实施方案中，样本条码位于通用接头的第一末端。

样本条码可用于在相同NGS测序反应中对多个样本进行多重测序。不同的样本条码可用于不同的测序平台。例如，ION TORRENT^TM可在每个扩增子的一个末端上对具有样本条码的文库进行测序。然而，双重条码可用于在诸如的平台上构建用于NGS测序的双重索引测序文库。为了提供具有双重样本条码的扩增子，例如可在PCR扩增步骤中使用包含与通用接头中的样本条码相同或互补的序列的测序接头引物。

在一些实施方案中，通用接头包含样本条码和分子条码两者。在一些实施方案中，样本条码位于通用接头的第一末端，诸如双链部分的可连接末端。在一些实施方案中，分子条码位于非双链部分中，诸如位于通用接头的第一链上的未配对部分的3'末端。在一些实施方案中，通用接头在第一链上从5'至3'包含分子条码和样本条码，并且在第二链上从5'到3'包含样本条码。在一些实施方案中，通用接头在第一链上从5'至3'包含与第一测序引物的序列相同或互补的序列、分子条码和样本条码，并且在第二链上从5'到3'包含样本条码。在一些实施方案中，通用接头在第一链上从5'至3'包含分子条码、与第一测序引物的序列相同或互补的序列、分子条码和样本条码，并且在第二链上从5'至3'包含与第一测序引物的序列互补或相同的序列和样本条码。在一些实施方案中，通用接头在第一链上从5'至3'包含分子条码、样本条码以及与第一测序引物的序列相同或互补的序列、分子条码，并且在第二链上从5'至3'包含与第一测序引物的序列互补或相同的序列和样本条码。

可优化通用接头的序列以减少来自引物延伸循环的非特异性副产物。非特异性副产物的一个潜在来源可如图3所示产生。例如，在引物延伸的第一循环中，产生包含通用接头的第一链的互补序列的单链引物延伸产物，其中3'部分包含通用接头的5'未配对部分的反向互补序列。在随后的引物延伸循环中，残留通用接头可退火至具有通用接头的5'未配对部分的互补序列的单链引物延伸产物的3'部分。但是，残留通用接头通常将具有不同的分子条码或单一分子索引(UMI)。因此，UMI虚增产物可由引物延伸的这种非特异性副产物扩增。这一问题的严重性可取决于通用接头中具有恒定碱基(而不是包含简并设计的核苷酸的分子条码)的3'双链部分的长度。在一些实施方案中，通用接头的第一末端包含足够短长度的恒定核碱基，以防止通过残留通用接头在步骤(b)-(f)中发生混杂引发。在一些实施方案中，通用接头的第一末端在每条链上包含约5-15个，例如约5、6、7、8、9、10、11、12、13、14或15个中的任一者的恒定的核碱基。在一些实施方案中，通用接头的第一末端在每条链上包含约6-12个恒定的核碱基。在一些实施方案中，可通过使用具有第一(即，可连接)末端(其包含足够短长度的恒定的核碱基)的通用接头来减轻或避免UMI虚增问题。在一些实施方案中，通用接头的第一末端包含不超过约25、20、15、12、10中的任一者或更少的bp。

在一些实施方案中，通用接头的非双链部分包含具有阻断部分的3'末端。阻断部分在引物延伸循环期间防止通过核酸聚合酶延伸3'末端。在一些实施方案中，通用接头的第二链的3'末端具有阻断部分，并且在引物延伸循环期间被阻断延伸。在一些实施方案中，阻断部分是反向核苷酸。在一些实施方案中，通用接头的第二链的3'末端包含反向核苷酸。在一些实施方案中，阻断部分是具有一个或多个(诸如，约1、2、3、4中的任一者或更多个)硫代磷酸酯修饰的一段扑翼状核苷酸。在一些实施方案中，通用接头的第二链的3'末端包含具有一个或多个(例如，约1、2、3、4中的任一者或更多个)硫代磷酸酯修饰的一段扑翼状核苷酸。扑翼状核苷酸可阻断通过核酸聚合酶进行的引物延伸，而一个或多个硫代磷酸酯修饰足以防止核酸酶(诸如，核酸聚合酶的外切核酸酶功能)切除扑翼状核苷酸。在一些实施方案中，一段扑翼状核苷酸段具有约1、2、3、4中的任一者或更多个核苷酸。在一些实施方案中，通用接头的3'末端的阻断部分可防止由于连接的核酸中存在互补末端(例如，在不存在阻断部分时，一个通过连接而另一个通过引物延伸)而在模板DNA上形成发夹结构。在模板DNA上形成发夹结构将导致较低的引物退火，从而由于模板DNA“关闭”导致较低的引物延伸效率。

通用接头引物被设计成在PCR扩增循环中退火至单链引物延伸产物中通用接头的非双链部分的互补序列。在一些实施方案中，通用接头引物的3'部分包含与通用接头的非双链部分的第一链互补的序列。在一些实施方案中，通用接头引物在3'末端包含与通用接头的第一链上的至少约12个(诸如，至少约15、20、25、30中的任一者或更多个)最5'-核苷酸互补的序列。在一些实施方案中，通用接头引物的5'部分包含与NGS平台的第一测序引物的序列相同或互补的序列。在一些实施方案中，通用接头引物从5'至3'包含与NGS平台的第一测序引物的序列相同或互补的序列以及与通用接头的非双链部分的第一链互补的序列。

巢式靶标特异性引物

本文所述的方法使用一组或多组外部引物和内部引物来富集具有所关注的基因座的靶核苷酸序列。内部引物针对所关注的基因座相对于外部引物是巢式的。在一些实施方案中，使用一个外部引物和一个内部引物来扩增具有所关注的基因座的靶核苷酸序列。在一些实施方案中，使用多个(诸如，2、3、4、5、6、10、12、15个中的任一者或更多个)外部引物和多个(诸如，2、3、4、5、6、10、12、15个中的任一者或更多个)内部引物来扩增具有所关注的基因座的靶核苷酸序列。在一些实施方案中，一个所关注的基因座的外部引物和内部引物特异性地退火至模板核酸的同一链。在一些实施方案中，多个外部引物和相应的内部引物特异性地退火至模板核酸的一条链，并且多个外部引物和相应的内部引物特异性地退火至模板核酸的互补链。

在一些实施方案中，当多组外部和内部引物被用于一个所关注的基因座时，获得多个可区分的扩增子。在一些实施方案中，产生彼此重叠的扩增子以允许在长于每个靶序列的所关注的基因座上拼接靶序列。在一些实施方案中，可对这些多个扩增子进行测序，并且可将重叠序列读段彼此进行比较以检测在引物延伸和PCR扩增循环或测序过程期间引入的序列错误。在一些实施方案中，可对各个扩增子进行比对，并且在它们在特定碱基处存在的序列有所不同时，可能存在来自靶标富集步骤和/或测序的伪像或错误。

在一些实施方案中，使用特异性地退火至包含靶核苷酸序列的连接核酸的第一链的第一组外部引物和内部引物以及特异性地退火至包含互补靶核苷酸序列的连接核酸的第二链的第二组外部引物和内部引物来富集每个所关注的基因座。参见图2，了解两组示例性外部和内部引物，这两组引物可用于富集具有所关注的基因座的核酸模板的两条链上的靶核苷酸序列(即，靶核苷酸序列和互补靶核苷酸序列)。

在一些实施方案中，为了显著减少或消除来自相反方向的外部引物或内部引物的PCR扩增产物，具有相反方向的外部引物各自包含相同的5'核苷酸序列(在本文中称为“5'标签序列”)。在一些实施方案中，具有相反方向的内部引物也各自包含可与外部引物的5'标签序列相同或不同的5'标签序列。在一些实施方案中，5'标签序列具有足够的长度以抑制使用外部引物进行PCR扩增。例如，由具有相反方向的两个外部引物产生的双链PCR扩增子由于末端上存在互补序列(即，5'标签序列及其互补序列)而形成“锅柄”结构。在一些实施方案中，5'标签序列包含至少约13、15、20、25、30个中的任一者或更多个核苷酸。外部和内部引物中的5'标签序列还可减少引物二聚体的形成，从而提高引物延伸和/或PCR扩增循环的效率。

在一些实施方案中，根据以下设计原则中的任何一个或多个对外部引物和/或内部引物的5'标签序列进行优化：(i)5'标签序列本身不具有已知的基因组靶标或具有很少的基因组靶标；(ii)5'标签序列具有较高Tm(诸如，至少约65℃、70℃、75℃中的任一者或更高)；(iii)5'标签序列本身或与反应混合物中的其他引物不易形成引物二聚体；以及(iv)5'标签序列不具有稳定的二级结构。参见例如Diagnostics Z.等人“The elimination ofprimer-dimer accumulation in PCR,”Nuc.Acids Res.,1997,25(16):3235-3241。在一些实施方案中，对5'标签序列的GC含量进行优化，以避免引物延伸循环中的引物二聚体形成或非特异性引发。在一些实施方案中，通用接头的GC含量与核酸模板的GC含量基本上相似。在一些实施方案中，通用接头的GC含量为至少约40％、45％、50％、55％、60％、65％中的任一者或更高。

在一些实施方案中，每组外部和内部引物可特异性地退火至所关注的基因座附近的已知核苷酸序列。具有所关注的基因座的靶核苷酸序列在一个末端必须具有一个或多个已知核苷酸序列，以使得能够设计外部和内部引物。与常规PCR富集技术相比，本文所述的方法的一个强大优势是将巢式靶标特异性引物锚定在包含靶核苷酸序列的核酸模板的一侧上，而将另一末端与通用接头随机连接。与其他常规PCR技术相反，本文所述的方法能够在仅知晓目标区域末端的一个末端时富集该目标区域。在一些实施方案中，不同组的外部和内部引物被设计成富集基因的不同片段，诸如外显子。可基于来自公开数据库的参考基因组序列来获得已知的基因序列。也可使用用于从头确定序列的其他方法来提供所关注的基因座附近的已知序列，包括例如基因组或外显子组DNA测序。已知核苷酸序列的长度可为至少约10、20、30、40、50、100、200个中的任一者或更多个核苷酸。在一些实施方案中，已知核苷酸序列具有约10至100个核苷酸、约10至500个核苷酸、约10至1000个核苷酸、约100至500个核苷酸、约100至1000个核苷酸、约500至1000个核苷酸或约500至5000个核苷酸中的任一者的长度。已知核苷酸序列可以是所关注的基因座的上游或下游，并且可位于有义链或反义链上。

已知核苷酸序列和所关注的基因座之间的距离可为适于引物延伸和PCR扩增的任何长度。在一些实施方案中，已知核苷酸序列距离所关注的基因座不超过约1000、900、800、700、600、500、400、300、200、100、50、30、20个中的任一者或更少的bp。在一些实施方案中，外部和内部引物被设计成提供用于特定测序技术中的合适长度的扩增子。例如，如果给定测序技术的最佳读段长度为200bp，则来自本文所述的方法的靶核苷酸序列的扩增子可具有约400bp或更少的平均长度。

本文所述的方法允许富集与已知核苷酸序列的任一侧或两侧上的已知核苷酸序列邻接的靶核苷酸序列。无论核酸模板一般是作为单链核酸还是双链核酸存在，序列信息通常以5'至3'的单链形式(链A)表示。如果链A的已知靶核苷酸序列的序列5'是待确定的，则基因特异性引物可与链A互补(即，退火至链A)。如果链A的已知靶核苷酸序列的序列3'是待确定的，则基因特异性引物可与链A相同，使得它们将退火至双链核酸的互补链。引物设计的这种考虑对于本领域的普通技术人员来说是众所周知的。

具有所关注的基因座的靶核苷酸序列可包含所关注的基因座的序列(在有义链和/或反义链上)、所关注的基因座附近的已知核苷酸序列以及待确定的相邻核苷酸序列(其可被称为未知序列)。靶核苷酸序列可具有任何适当的长度。在一些实施方案中，靶核苷酸序列群体通过本文所述的方法富集，并且其中靶核苷酸序列群体具有与内部引物的序列相匹配的相同5'或3'末端序列。

在一些实施方案中，外部引物是包含3'部分的单链寡核苷酸，该3'部分包含可特异性地退火至所关注的基因座附近的已知核苷酸序列的一部分的序列。在一些实施方案中，外部引物在3'末端包含可特异性地退火至所关注的基因座附近的第一已知核苷酸序列(即，第一退火位点)的序列。在一些实施方案中，内部引物在3'末端包含可特异性地退火至所关注的基因座附近的第二已知核苷酸序列(即，第二退火位点)的序列。在一些实施方案中，第一已知核苷酸序列比第二已知核苷酸序列距离所关注的基因座远约1-100个核苷酸(诸如，约2-50、1-20或1-10个核苷酸中的任一者)。在一些实施方案中，外部引物退火至比内部引物距离所关注的基因座远约1-100个核苷酸的区域。在一些实施方案中，外部引物退火至比内部引物距离所关注的基因座远不超过约100、80、60、50、40、30、20、10、5中的任一者或更少的核苷酸的区域。

在一些实施方案中，内部引物相对于外部引物是巢式的。在一些实施方案中，内部引物相对于外部引物至少约1、2、3、4、5、6、7、8、9、10、15、20个中的任一者或更多个核苷酸是巢式的。

外部和内部引物可被设计成退火至高特异性的已知序列以减少或避免脱靶引发。在一些实施方案中，外部引物和/或内部引物的3'部分包含特异性地退火至所关注的基因座附近的已知核苷酸序列的至少10个(诸如，至少约12、13、14、15、20、25、30、35个中的任一者或更多个)核苷酸。在一些实施方案中，外部引物和内部引物的3'部分在核酸模板上具有不超过约20、15、10、5、4、3或2个中的任一者的不同退火基因座。“不同退火基因座”是指核酸模板中具有不同的已知基因组位置和/或属于不同的基因或基因融合产物的序列，并且所述序列与外部或内部引物的3'部分互补或基本上互补。

在一些实施方案中，外部和内部引物中特异性地退火至已知靶核苷酸序列的部分可在约55-72℃、约60-72℃、约60-70℃、约62-69℃、约63-67℃或约64-66℃中的任一者的温度下特异性地退火。在一些实施方案中，外部和内部引物中特异性地退火至已知靶核苷酸序列的部分可在引物延伸或PCR缓冲液中在约65℃的温度下特异性地退火。

外部引物、内部引物或其3'靶标特异性部分可特异性地退火至基因的外显子、基因的内含子、基因的内含子-外显子接合区或基因组的非编码区域。可根据所关注的基因座的性质以及核酸样本中的核酸模板的类型来设计外部和内部引物的退火位点的位置。例如，为了从基因组DNA样本中富集基因的外显子区域中的基因座，外部和内部引物可被设计成在进入外显子区域中的方向上特异性地退火至基因座附近的内含子中的已知序列。在一些实施方案中，为了从cDNA样本中富集融合基因中的基因座，第一组外部和内部引物可被设计成在进入融合点的方向上特异性地退火至第一融合基因的外显子中的已知序列，并且第二组外部和内部引物可被设计成在进入融合点的方向上特异性地退火至第二融合基因的外显子中的已知序列。

在一些实施方案中，外部引物和内部引物包含可抑制引物二聚体形成的相同5'部分。在一些实施方案中，内部引物在5'末端包含与NGS平台的第二测序引物的序列相同或互补的序列。

核酸样本

本文所述的方法可用于各种核酸样本。在一些实施方案中，核酸样本包含基因组DNA或其片段。在一些实施方案中，核酸样本包含RNA，例如mRNA、miRNA、lincRNA、rRNA等或其片段。在一些实施方案中，核酸样本包含cDNA或其片段。在一些实施方案中，核酸样本包含基因组DNA和RNA的混合物。在一些实施方案中，核酸样本包含基因组DNA和cDNA的混合物。

在一些实施方案中，核酸样本包含DNA模板。在一些实施方案中，核酸样本包含RNA模板。在一些实施方案中，核酸样本包含DNA模板和RNA模板两者。在一些实施方案中，核酸模板是基因组DNA。在一些实施方案中，核酸模板是染色体DNA。在一些实施方案中，核酸模板是线粒体DNA。在一些实施方案中，核酸模板是外显子组DNA。在一些实施方案中，核酸模板是cDNA。在一些实施方案中，核酸模板是RNA，例如mRNA、miRNA、lincRNA、rRNA等。在一些实施方案中，核酸模板来源(诸如，片段化)于长度超过NGS方法或平台的最佳读段长度的核酸，诸如全长染色体DNA或全长mRNA。

在一些实施方案中，核酸样本包含cDNA。在一些实施方案中，通过逆转录总RNA或其部分(诸如，mRNA、miRNA或其他非编码RNA)来获得cDNA。在一些实施方案中，cDNA是单链的，例如cDNA的至少约10％、20％、30％、40％、50％、60％、70％、80％、90％或95％中的任一者或更多是单链的。在一些实施方案中，核酸样本包含双链cDNA。

在一些实施方案中，核酸样本包含gDNA。在一些实施方案中，gDNA是单链的，例如gDNA的至少约10％、20％、30％、40％、50％、60％、70％、80％、90％、95％中的任一者或更多是单链的。在一些实施方案中，核酸样本包含双链gDNA。

在一些实施方案中，核酸样本包含cDNA和gDNA的混合物。在一些实施方案中，cDNA与gDNA之间的重量比为超过约1:5、1:3、1:2、1:1、2:1、3:1、5:1、10:1中的任一者或更大。

在一些实施方案中，核酸样本包含少量的核酸模板。在一些实施方案中，核酸样本包含不超过约1000ng、500ng、200ng、100ng、50ng、40ng、30ng、25ng、20ng、15ng、10ng、5ng、4ng、3ng、2ng、1ng或中的任一者更少的核酸模板(诸如，cDNA、gDNA、RNA、它们的组合或总核酸)。

在一些实施方案中，核酸样本来源于细胞或组织样本。在一些实施方案中，核酸样本来源于细胞系样本或来源于培养细胞。在一些实施方案中，核酸样本来源于基因工程细胞系。在一些实施方案中，核酸样本来源于用CRISPR基因编辑技术工程化的细胞。在一些实施方案中，核酸样本来源于免疫细胞，诸如T细胞、B细胞或PMBC。在一些实施方案中，核酸样本来源于肿瘤细胞。

在一些实施方案中，核酸样本从食物样本、环境样本或生物样本中获得。在一些实施方案中，核酸样本来源于来自个体的生物样本。在一些实施方案中，核酸样本来源于需要疾病(诸如，癌症)治疗的生物样本。在一些实施方案中，核酸样本是从个体中获得的诊断样本。在一些实施方案中，核酸样本来源于来自健康个体的生物样本。在一些实施方案中，核酸样本来源于基因工程动物(诸如，小鼠、大鼠或非人灵长类)。在一些实施方案中，核酸样本来源于使用CRISPR基因编辑技术工程化的动物。

在一些实施方案中，生物样本还包含蛋白质、细胞、流体、生物流体、防腐剂和/或其他物质。作为非限制性示例，样本可以是脸颊拭子、血液、血清、血浆、痰、脑脊液、尿液、泪液、肺泡分离物、胸膜液、心包液、囊肿液、肿瘤组织、组织、活体组织、唾液、抽吸物或它们的组合。在一些实施方案中，生物样本通过切除或活检获得。

在一些实施方案中，核酸样本来源于个体的血液样本。在一些实施方案中，核酸样本来源于个体的外周血单核细胞(PMBC)样本。在一些实施方案中，核酸样本来源于个体血液样本中的免疫细胞(诸如，T细胞、NK细胞或B细胞)的一部分。在一些实施方案中，核酸模板是无细胞DNA。在一些实施方案中，核酸模板是来源于个体血液样本的无细胞DNA。在一些实施方案中，核酸模板是循环肿瘤DNA(即，ctDNA)。在一些实施方案中，核酸模板来源于个体血液样本的循环肿瘤细胞。

在一些实施方案中，核酸样本来源于个体活检样本。在一些实施方案中，核酸样本来源于肿瘤活检，诸如未治疗的活检组织或治疗后的活检组织。在一些实施方案中，核酸样本来源于个体的福尔马林固定和/或石蜡包埋的活检组织。

在一些实施方案中，生物样本从需要治疗与遗传改变相关联的疾病(诸如，癌症或遗传性疾病)的个体中获得。在一些实施方案中，已知靶序列存在于疾病相关的基因中。在一些实施方案中，生物样本从需要治疗癌症的个体中获得。在一些实施方案中，生物样本包含个体中一个或多个肿瘤部位的肿瘤细胞。

在一些实施方案中，生物样本从个体中新鲜收集。在一些实施方案中，生物样本在用于本文所述的方法中之前被储存一段时间，诸如至少约1天、1周、1个月、3个月、6个月、1年中的任一者或更久。在一些实施方案中，生物样本是福尔马林固定石蜡包埋(FFPE)样本。在一些实施方案中，生物样本直接用作本文所述方法中的核酸样本。在一些实施方案中，生物样本通过在溶液中稀释和/或悬浮来进行预处理。在一些实施方案中，生物样本从受试者中获得并且在用于本文所述的方法中之前被保存或加工。例如，生物样本可被包埋在石蜡中、被冷藏或冷冻。冷冻的生物样本可在使用前解冻。生物样本的其他示例性处理或加工包括但不限于离心、过滤、超声处理、均化、加热、冻融、与防腐剂(例如，抗凝剂或核酸酶抑制剂)接触以及它们的任何组合。在一些实施方案中，生物样本用化学和/或生物学试剂处理。化学和/或生物学试剂可用于在处理和/或储存期间保护和/或维持包含在其中的生物样本或核酸模板的稳定性。在一些实施方案中，化学和/或生物学试剂可用于从生物样本的其他组分中释放核酸模板。作为非限制性示例，血液样本可在用于获得用于本文所述的方法中的核酸样本之前用抗凝剂处理。技术人员非常清楚用于加工、保存或处理生物样本的方法和过程，以及从生物样本或细胞样本中分离核酸以进行核酸分析的方法。在一些实施方案中，生物样本是例如通过离心而澄清的流体样本。在一些实施方案中，通过低速离心(例如，3000×g或更低)使生物样本澄清，然后收集包含澄清的流体样本的上清液。

在一些实施方案中，生物样本或核酸样本中的核酸模板可在用于本文所述的方法中之前被分离、富集或纯化。可使用从样本中分离、富集或纯化核酸的合适方法。例如，用于从各种样本类型中分离基因组DNA和RNA的试剂盒可商购获得(例如，美国马里兰州日耳曼敦凯杰公司(Qiagen,Germantown,MD)))。本文所述的靶标富集的方法可单独使用或与本领域已知的其他靶标富集方法组合使用。在一些实施方案中，所述方法不包含杂交富集。

在一些实施方案中，包含RNA模板的核酸样本可用于本文所述的方法中。核酸样本可包含从新鲜或降解的标本中提取的总核酸，而不需要移除基因组DNA用于cDNA测序。在一些实施方案中，包含RNA的核酸样本不被处理以消减核糖体RNA用于cDNA测序。在一些实施方案中，包含RNA的核酸样本在任何步骤中未被机械或酶剪切。在一些实施方案中，不使RNA经受使用随机六聚物的双链cDNA合成用于本文所述的方法中。

所关注的基因座

可使用本文所述的方法来研究许多所关注的基因座。在一些实施方案中，所关注的基因座与序列变体(包括但不限于染色体重排、单核苷酸变异(SNV)、插入缺失、剪接变异、拷贝数变异(CNV)以及它们的组合)相关联。在一些实施方案中，所关注的基因座与染色体重排(诸如，染色体融合或基因融合)相关联。在一些实施方案中，所关注的基因座与染色体易位相关联。在一些实施方案中，所关注的基因座与单核苷酸变异(SNV)相关联。在一些实施方案中，所关注的基因座与插入突变或缺失突变(统称为“插入缺失”突变)相关联。在一些实施方案中，所关注的基因座与置换突变相关联。在一些实施方案中，所关注的基因座与拷贝数变异相关联。在一些实施方案中，所关注的基因座与剪接变异相关联。所关注的基因座可以是任何长度，包括例如至少1、2、5、10、20、50、100、200、300、400、500、1000、2000中的任一者或更多bp。

在一些实施方案中，所关注的基因座位于天然存在的基因中。在一些实施方案中，所关注的基因座可以是所关注的基因的任何一个或多个连续外显子、内含子、内含子-外显子接合区、5'UTR、3'UTR或其他非编码区，以及它们的片段。在一些实施方案中，所关注的基因座位于工程化的基因或基因组位点中。在一些实施方案中，所关注的基因座位于与遗传性疾病相关的基因中。在一些实施方案中，所关注的基因座位于与癌症相关的基因(诸如，癌基因)中。在一些实施方案中，所关注的基因座与免疫细胞受体，诸如T细胞受体，包括重组T细胞受体相关联。在一些实施方案中，所关注的基因座与基因工程位点(诸如CRISPR基因编辑的脱靶位点，例如以前已知或未知的脱靶位点)相关。

与疾病或病症“相关”的基因或基因座是指与健康个体中的野生型序列相比其改变诸如缺失、插入、SNV、染色体重排(诸如，基因融合)至少部分地引起疾病或病症或者与疾病或病症相关的基因或基因座。例如，如果改变增加个体发展疾病的风险、增加受试者对疾病(包括感染性疾病或具有感染性组分的疾病)的易感性、引起疾病相关的分子产生或引起细胞患病或异常(例如，癌细胞中细胞周期调控的丧失)，则疾病可至少部分地由个体的基因或基因座的改变引起。疾病可能与多个基因改变相关联。

在一些实施方案中，所关注的基因座与由染色体或基因重排产生的融合序列相关联。在一些实施方案中，本文所述的方法适于确定基因重排的存在和/或身份。在一些实施方案中，基因重排的一部分的身份是先前已知的(例如，外部和内部引物将要靶向的基因重排部分)，并且可使用本文公开的方法来确定其他部分的序列。在一些实施方案中，基因重排涉及癌基因。在一些实施方案中，基因重排包含融合癌基因。

III.确定靶核苷酸序列的方法及其应用

本申请还提供了通过使用如上所述的任何一种靶标富集方法对靶核苷酸序列的扩增子进行测序来确定在核酸样本中具有一个或多个所关注的基因座的靶核苷酸序列的方法。

因此，在一些实施方案中，提供了确定在包含含有靶核苷酸序列的核酸模板的核酸样本中具有所关注的基因座的靶核苷酸序列的方法，该方法包括：(a)将通用接头连接至该核酸模板以提供连接的核酸，其中该通用接头是在第一末端包含双链部分并且在第二末端包含非双链部分的寡核苷酸，并且其中该核酸模板通过第一末端连接到通用接头；(b)将连接的核酸解离成第一链和第二链，其中第一链包含靶核苷酸序列；(c)将外部引物退火至连接的核酸的第一链中靶核苷酸序列附近；(d)使用DNA聚合酶将外部引物延伸达到连接的核酸的第一链的全长，以提供新生的引物延伸双链体；(e)在足够高的温度下将新生的引物延伸双链体解离成连接的核酸的第一链和单链引物延伸产物；(f)重复步骤(c)-(e)进行一个或多个引物延伸循环；(g)在足以对靶核苷酸序列进行PCR扩增的条件下，使单链引物延伸产物与DNA聚合酶、通用接头引物和内部引物接触，其中该通用接头引物退火至单链引物延伸产物中的通用接头的非双链部分的互补序列，其中该内部引物在3'末端包含特异性地退火至靶核苷酸序列的序列，并且其中该内部引物针对所关注的基因座相对于外部引物是巢式的；(h)重复步骤(g)进行一个或多个(诸如约2-100个，例如约5-50个或约10-30个)PCR扩增循环，以提供靶核苷酸序列的扩增子；以及(i)对靶核苷酸序列的扩增子进行下一代测序，从而提供靶核苷酸序列。在一些实施方案中，步骤(a)-(h)使用特异性地退火至连接的核酸的第一链的第一组外部引物和内部引物，以及特异性地退火至连接的核酸的第二链的第二组外部引物和内部引物。在一些实施方案中，第一组的外部引物和第二组的外部引物包含至少13个核苷酸长的第一5'标签序列，并且第一组的内部引物和第二组的内部引物包含至少13个核苷酸长的第二5'标签序列。

本文所述的方法可以多重格式使用。在一些实施方案中，所述方法用于确定具有多个不同所关注的基因座的靶核苷酸序列和/或检测序列变体。在一些实施方案中，同时确定具有至少约1500个(诸如，至少约2000、2500、3000、4000、5000个或更多)不同所关注的基因座的靶核苷酸序列。在一些实施方案中，同时确定具有约2-5000个(诸如，约2-100、5-200、100-2000、2-2000、101-5000、1500-5000个中的任一者)所关注的基因座的靶核苷酸序列。在一些实施方案中，每个靶核苷酸序列的读段平均覆盖范围为至少约2×、10×、20×、50×、100×、200×、500×、1000×、10000×中的任一者或更高。

在一些实施方案中，具有所关注的基因座的靶核苷酸序列来自单个核酸样本。在一些实施方案中，具有所关注的基因座的靶核苷酸序列来自多个(诸如，至少约2、3、4、5、6、7、8、10个中的任一者或更多个)核酸样本。不同的核酸样本可使用包含样本条码的通用接头来进行条码化，并且在引物延伸循环之前将其合并，或者可在靶标富集步骤结束时将其扩增子合并，以允许对来自多个核酸样本的靶核苷酸序列进行同时测序。

在一些实施方案中，在靶标富集步骤期间，将适于在特定NGS平台中使用的测序引物的序列引入靶核苷酸序列的扩增子中。在一些实施方案中，通用接头(诸如，非双链部分或双链部分)包含与步骤(i)中使用的第一测序引物的序列相同或互补的序列，或通用接头引物在5'末端包含与第一测序引物的序列相同或互补的序列。在一些实施方案中，其中步骤(g)包括在足以对靶核苷酸序列进行PCR扩增的条件下，使单链引物延伸产物与DNA聚合酶、通用接头引物、内部引物和测序接头引物接触，其中所述测序接头引物在3'末端包含与内部引物的序列相同的序列，并且在5'末端包含与步骤(ii)中使用的第二测序引物的序列相同或互补的序列。

在一些实施方案中，所述方法还包括在步骤(ii)的下一代测序之前使用靶核苷酸序列的扩增子制备测序文库。在一些实施方案中，所述方法包括在PCR扩增循环之后净化靶核苷酸序列的扩增子。在一些实施方案中，所述方法包括片段化扩增子。在一些实施方案中，所述方法包括对来自多个样本的靶核苷酸序列的扩增子进行定量，并将靶核苷酸序列的扩增子在一起合并为单个测序文库。在一些实施方案中，使靶核苷酸序列的扩增子经受另外的过程，以添加接头和/或对引物序列进行测序，从而构建用于测序步骤的测序文库。

如本文所用，“下一代测序”或“NGS”是指由于执行并读出数千至数百万并行测序反应而能够以高于常规测序方法(例如，Sanger测序)的可能速度对寡核苷酸进行测序的寡核苷酸测序技术。下一代测序方法/平台的非限制性示例包括大规模平行签名测序(LynxTherapeutics公司)、454焦磷酸测序(454Life Sciences/Roche Diagnostics公司)、固相可逆染料终止子测序(Solexa/Illumina公司)、SOLiD技术(Applied Biosystems公司)、离子半导体测序(ION TORRENT^TM)、DNA纳米球测序(Complete Genomics公司)，以及可由Pacific Biosciences公司、Intelligen Bio-systems公司、Oxford NanoporeTechnologies公司和Helicos Biosciences公司提供的技术。

在一些实施方案中，测序引物可包含与所选择的下一代测序方法兼容的部分。下一代测序技术以及相关测序引物的约束和设计参数在本领域中是众所周知的(参见例如Shendure等人“Next-generation DNA sequencing,”Nature,2008,vol.26,No.10,1 135-1145；Mardis,“The impact of next-generation sequencing technology on genetics,”Trends in Genetics,2007,vol.24,No.3,pp.133-141；Su等人“Next-generationsequencing and its applications in molecular diagnostics”,Expert Rev MolDiagn,2011,1 1(3):333-43；Zhang等人“The impact of next-generation sequencingon genomics”,J Genet Genomics,2011,38(3):95-109；Nyren,P.等人，Anal Biochem208:17175(1993)；Bentley,D.R.Curr Opin Genet Dev16:545-52(2006)；Strausberg,R.L.等人，Drug Disc Today 13:569-77(2008)；美国专利No.7,282,337；美国专利No.7,279,563；美国专利No.7,226,720；美国专利No.7,220,549；美国专利No.7,169,560；美国专利No.6,818,395；美国专利No.6,91 1,345；美国公布No.2006/0252077、No.2007/0070349和No.20070070349，这些参考文献全文以引用方式并入本文)。

一些实施方案包括焦磷酸测序技术。焦磷酸测序在特定核苷酸被掺入新生链中时检测无机焦磷酸盐(PPi)的释放(Ronaghi,M.、Karamohamed,S.、Pettersson,B.、Uhlen,M.和Nyren,P.(1996)“Real-time DNA sequencing using detection of pyrophosphaterelease.”Analytical Biochemistry 242(1),84-9；Ronaghi,M.(2001)“Pyrosequencingsheds light on DNA sequencing.”Genome Res.11(1),3-11；Ronaghi,M.、Uhlen,M.和Nyren,P.(1998)“A sequencing method based on real-time pyrophosphate.”Science281(5375),363；美国专利No.6,210,891；美国专利No.6,258,568和美国专利No.6,274,320，这些文献的公开内容全文以引用方式并入本文)。在焦磷酸测序中，释放的PPi可通过由ATP硫酸化酶立即转化为三磷酸腺苷(ATP)来检测，并且产生的ATP水平通过荧光素酶产生的光子来检测。

在另一个示例性边合成边测序(SBS)技术中，循环测序通过逐步添加可逆的终止子核苷酸来完成，所述终止子核苷酸包含例如可切割或可光漂白的染料标签，所述染料标签例如在美国专利No.7,427,67、美国专利No.7,414,1163和美国专利No.7,057,026中有所描述，这些专利的公开内容以引用方式并入本文。这种方法正在由Solexa公司(现在的Illumina公司)商业化，并且还在WO 91/06678和WO 07/123,744(在美国专利和商标局提交为美国序列No.12/295,337)，这些专利中的每一篇全文以引用方式并入本文。荧光标记的终止子的可用性(其中终止可被逆转并且荧光标记可被切割)促进了有效的循环可逆终止(CRT)测序。聚合酶也可被共同工程化以有效地结合这些经修饰的核苷酸并从其延伸。

可与本文所述的方法和系统一起使用的另外的示例性SBS系统和方法在美国专利申请公布No.2007/0166705、美国专利申请公布No.2006/0188901、美国专利No.7,057,026、美国专利申请公布No.2006/0240439、美国专利申请公布No.2006/0281109、PCT公布No.WO05/065814、美国专利申请公布No.2005/0100900、PCT公布No.WO06/064199和PCT公布No.WO07/010,251，这些文献的公开内容全文以引用方式并入本文。

一些实施方案可利用连接技术进行测序。这类技术利用DNA连接酶结合短寡核苷酸并鉴定这类短寡核苷酸的结合。可与本文所述的方法和系统一起使用的示例性SBS系统和方法在美国专利No.6,969,488、美国专利No.6,172,218和美国专利No.6,306,597，这些专利的公开内容全文以引用方式并入本文。

一些实施方案可包括诸如下下一代技术的技法。一个示例可包括纳米孔测序技术(Deamer,D.W.和Akeson,M.“Nanopores and nucleic acids:prospects for ultrarapidsequencing.”Trends Biotechnol.18,147-151(2000)；Deamer,D.和D.Branton,“Characterization of nucleic acids by nanopore analysis”.Acc.Chem.Res.35:817-825(2002)；Li,J.、M.Gershow、D.Stein、E.Brandin和J.A.Golovchenko,“DNA moleculesand configurations in a solid-state nanopore microscope”Nat.Mater.2:611-615(2003)，这些文献的公开内容全文以引用方式并入本文)。在此类实施方案中，靶核酸穿过纳米孔。纳米孔可以是合成孔或生物膜蛋白，诸如α-溶血素。当靶核酸穿过纳米孔时，可通过测量孔的电导率波动来识别每个碱基对(美国专利No.7,001,792；Soni,G.V.和Meller,“A.Progress toward ultrafast DNA sequencing using solid-state nanopores.”Clin.Chem.53,1996-2001(2007)；Healy,K.“Nanopore-based single-molecule DNAanalysis.”Nanomed.2,459-481(2007)；Cockroft,S.L.,Chu,J.,Amorin,M.&Ghadiri,M.R.“A single-molecule nanopore device detects DNA polymerase activity withsingle-nucleotide resolution.”J.Am.Chem.Soc.130,818-820(2008)，这些文献的公开内容全文以引用方式并入本文)。在一些此类实施方案中，纳米孔测序技术可用于确认由本文所述的方法生成的序列信息。

一些实施方案可利用涉及DNA聚合酶活性的实时监测的方法。核苷酸掺入可通过在带有荧光团的聚合酶和γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用来检测，例如在美国专利No.7,329,492和美国专利No.7,211,414中有所描述(所述专利的每一篇全文以引用方式并入本文)，或者核苷酸掺入可通过零模式波导来检测，例如在美国专利No.7,315,019中有所描述(其全文以引用方式并入本文)，并使用荧光核苷酸类似物和经工程改造的聚合酶，例如在美国专利No.7,405,281和美国专利申请公布No.2008/0108082中有所描述(所述专利的每一篇全文以引用方式并入本文)。可以将照明限制在表面束缚聚合酶(surface-tethered polymerase)周围的仄升量级体积，使得在低背景下可以观察到掺入荧光标记的核苷酸(Levene,M.J.等人“Zero-mode waveguides for single-molecule analysis at high concentrations.”Science 299,682-686(2003)；Lundquist,P.M等人“Parallel confocal detection of single molecules in realtime.”Opt.Lett.33,1026-1028(2008)；Korlach,J.等人“Selective aluminumpassivation for targeted immobilization of single DNA polymerase molecules inzero-mode waveguide nanostructures.”Proc.Natl.Acad.Sci.USA 105,1176-1181(2008)，这些专利的公开内容全文以引用方式并入本文)。在一个示例中，由美国太平洋生物科学公司(Pacific Biosciences Inc.)提供的单分子实时(SMRT)DNA测序技术可与本文所述的方法一起使用。在一些实施方案中，可使用SMRT芯片等(美国专利No.7,181,122、No.7,302,146、No.7,313,308，上述专利全文以引用的方式并入本文)。SMRT芯片包括多个零模式波导(ZMW)。每个ZMW均包括直径几十纳米的圆柱形孔，该孔贯穿由透明基板支撑的薄金属膜。当通过透明基板对ZMW照明时，衰减的光可穿透每个ZMW的较低的20-30nm，形成约1×10-21L的检测体积。较小的检测体积通过减少可观察到的背景量来增加检测荧光信号的灵敏度。

SMRT芯片和类似技术可与在核苷酸末端磷酸根上荧光标记的核苷酸单体结合使用(Korlach J.等人，“Long,processive enzymatic DNA synthesis using 100％dye-labeled terminal phosphate-linked nucleotides.”Nucleosides,Nucleotides andNucleic Acids,27:1072-1083,2008；该文献全文以引用方式并入)。在将该核苷酸掺入多核苷酸中时，标签从核苷酸单体切割下来。因此，标签不被掺入多核苷酸中，增加了信背比。此外，对从标记的核苷酸单体切割标签的条件的需求降低。

Helicos Biosciences公司提供了可与本文所述的一些实施方案结合使用的测序平台的另外的示例。在一些实施方案中，可使用真实单分子测序(Harris T.D.等人，“Single Molecule DNA Sequencing of a viral Genome”Science 320:106-109(2008)，该文献全文以引用方式并入本文)。在一个实施方案中，靶核酸的文库可通过向每个靶核酸添加3'聚(A)尾来制备。聚(A)尾与锚定在盖玻片上的聚(T)寡核苷酸杂交。聚(T)寡核苷酸可用作用于延伸与靶核酸互补的多核苷酸的引物。在一个实施方案中，荧光标记的核苷酸单体，即A、C、G或T，在存在DNA聚合酶的情况下一次一个递送至靶核酸。检测与靶核酸互补的多核苷酸中标记核苷酸的掺入，并且荧光信号在盖玻片上的位置指示已经延伸的分子。在加入下一个核苷酸之前去除荧光标签以继续测序循环。跟踪每条多核苷酸链中的核苷酸掺入可为每个单独的靶核酸提供序列信息。

本文所述的方法还可包括一个或多个数据分析步骤。可使用各种方法分析测序读段。在一些实施方案中，使用自动化过程诸如计算机软件分析测序读段，以检测靶基因座处的等位基因(例如，野生型等位基因，或突变诸如染色体重排、SNV、插入缺失、CNV或剪接变异)。在一些实施方案中，基于测序读段中分子条码的序列，鉴定来源于相同模板核酸的扩增子的测序读段并将其合并到单个序列中。在一些实施方案中，同时分析来源于DNA模板和RNA模板的核苷酸序列以检测突变。本文还提供了用于确定多个靶基因座的核苷酸序列的计算机软件和系统。

将测序读段与基因组和/或cDNA序列的已知序列数据库比对的方法在本领域中是众所周知的，并且用于该过程的软件可商购获得。在一些实施方案中，未整体定位到野生型序列数据库的读段(除去测序引物和/或接头核苷酸序列)可以是基因组重排或大的插入缺失突变。在一些实施方案中，包含定位到基因组中的多个位置的序列的读段(除去测序引物和/或接头核苷酸序列)可以是基因组重排。

本文所述的一些实施方案包括将核苷酸样本中的靶核苷酸序列与参考序列进行比较，以及/或者将一个样本的靶核苷酸序列与参考样本的靶核苷酸序列进行比较。可从数据库获得参考序列和参考值。参考样本可来源于来自健康或野生型个体、组织或细胞的样本。例如，在一些实施方案中，分析来自个体的肿瘤细胞的靶核苷酸序列，并将其与来自相同个体的健康细胞的靶核苷酸序列进行比较以提供诊断。

检测序列变体的方法

还提供了检测在包含核酸模板的核酸样本中所关注基因座处的序列变体的方法，包括使用本文所述的确定靶核苷酸序列的方法中的任一种确定在核酸样本中具有一个或多个所关注基因座的靶核苷酸序列，并检测靶核苷酸序列中的序列变体。

在一些实施方案中，提供了检测在包含核酸模板的核酸样本中所关注基因座处的序列变体的方法，所述核酸模板包含具有所关注基因座的靶核苷酸序列，该方法包括：(a)将通用接头连接至该核酸模板以提供连接的核酸，其中该通用接头是在第一末端包含双链部分并且在第二末端包含非双链部分的寡核苷酸，并且其中该核酸模板通过第一末端连接到通用接头；(b)将连接的核酸解离成第一链和第二链，其中第一链包含靶核苷酸序列；(c)将外部引物退火至连接的核酸的第一链中靶核苷酸序列附近；(d)使用DNA聚合酶将外部引物延伸达到连接的核酸的第一链的全长，以提供新生的引物延伸双链体；(e)在足够高的温度下将新生的引物延伸双链体解离成连接的核酸的第一链和单链引物延伸产物；(f)重复步骤(c)-(e)进行一个或多个引物延伸循环；(g)在足以对靶核苷酸序列进行PCR扩增的条件下，使单链引物延伸产物与DNA聚合酶、通用接头引物和内部引物接触，其中该通用接头引物退火至单链引物延伸产物中的通用接头的非双链部分的互补序列，其中该内部引物在3'末端包含特异性地退火至靶核苷酸序列的序列，并且其中该内部引物针对所关注的基因座相对于外部引物是巢式的；(h)重复步骤(g)进行一个或多个(诸如约2-100个，例如，约5-50个或约10-30个)PCR扩增循环，以提供靶核苷酸序列的扩增子；(i)对靶核苷酸序列的扩增子进行下一代测序；以及(j)检测在测序读段中的序列变体。在一些实施方案中，步骤(a)-(h)使用特异性地退火至连接的核酸的第一链的第一组外部引物和内部引物，以及特异性地退火至连接的核酸的第二链的第二组外部引物和内部引物。在一些实施方案中，第一组的外部引物和第二组的外部引物包含至少13个核苷酸长的第一5'标签序列，并且第一组的内部引物和第二组的内部引物包含至少13个核苷酸长的第二5'标签序列。

可使用本文所述的方法检测多种序列变体。在一些实施方案中，序列变体在种系DNA中遗传。在一些实施方案中，序列变体来源于体细胞突变或染色体重排。在一些实施方案中，序列变体来源于体细胞高频突变，例如，用于提供多种免疫受体诸如T细胞或B细胞受体。在一些实施方案中，序列变体是经工程改造的序列变体。在一些实施方案中，序列变体是由于基因工程改造诸如CRISPR基因编辑而导致的脱靶突变。

在一些实施方案中，检测多种序列变体。本文所检测的序列变体不限于单一类型。在一些实施方案中，所述多种序列变体选自染色体重排、剪接变异、点突变、缺失、插入以及它们的组合。在一些实施方案中，所述多种序列变体包括基因融合。在一些实施方案中，所述多种序列变体包括染色体重排。在一些实施方案中，所述多种序列变体包括染色体易位。在一些实施方案中，所述多种序列变体包括单核苷酸突变。在一些实施方案中，所述多种序列变体包括SNV。在一些实施方案中，所述多种序列变体包括插入缺失，诸如插入或缺失。在一些实施方案中，该方法同时检测基于RNA序列(或cDNA序列)的基因融合和基于基因组DNA序列的突变(诸如SNV或插入缺失)。在一些实施方案中，该方法使用来源于FFPE样本的核酸样本，用于基于RNA和DNA的同时检测。在一些实施方案中，该方法使用ctDNA样本。

本文还提供了用于分析靶核酸(诸如基因组DNA)的甲基化状态的亚硫酸氢盐测序的方法。DNA甲基化是一种广泛的表观遗传修饰，在多种生物的基因组调控中起关键的作用。哺乳动物基因组中最普遍和广泛研究的DNA甲基化形式出现在胞嘧啶残基的5碳位置，通常在CpG二核苷酸的背景下。已描述了可用于检测5mC的全基因组亚硫酸氢盐测序的方法。用亚硫酸氢钠处理基因组DNA可比5mC快得多地将胞嘧啶化学脱氨基，优先将它们转化成尿嘧啶。使用NGS，这些可在全基因组范围内以单个碱基对的分辨率进行检测。可将任何已知的亚硫酸氢盐测序工作流程应用于本文所述的方法，以高精度和高效率提供具有一个或多个所关注基因座的靶核苷酸序列的甲基化分析方法。

在一些实施方案中，序列变体以低等位基因频率存在。例如，序列变体可以不超过约每5个核酸模板1个拷贝、每10个核酸模板1个拷贝、每50个核酸模板1个拷贝、每100个核酸模板1个拷贝、每500个核酸模板1个拷贝、每1000个核酸模板1个拷贝、每10000个核酸模板1个拷贝中的任一者或更低的频率存在。

IV.应用

上述方法可用于多种应用，包括但不限于临床诊断和预后以及用于基因工程的工具。在一些实施方案中，提供了诊断个体的疾病(诸如遗传性疾病或癌症)的方法，包括使用本文所述方法中的任一种检测在来自个体的核酸样本中所关注基因座处的与疾病相关的序列变体，从而提供对疾病的诊断。

因此，在一些实施方案中，提供了诊断个体的疾病(诸如遗传性疾病或癌症)的方法，包括：(a)从个体获得包含含有靶核苷酸序列的核酸模板的核酸样本；(b)将通用接头连接至该核酸模板以提供连接的核酸，其中该通用接头是在第一末端包含双链部分并且在第二末端包含非双链部分的寡核苷酸，并且其中该核酸模板通过第一末端连接到通用接头；(c)将连接的核酸解离成第一链和第二链，其中第一链包含靶核苷酸序列；(d)将外部引物退火至连接的核酸的第一链中靶核苷酸序列附近；(e)使用DNA聚合酶将外部引物延伸达到连接的核酸的第一链的全长，以提供新生的引物延伸双链体；(f)在足够高的温度下将新生的引物延伸双链体解离成连接的核酸的第一链和单链引物延伸产物；(g)重复步骤(d)-(f)进行一个或多个引物延伸循环；(h)在足以对靶核苷酸序列进行PCR扩增的条件下，使单链引物延伸产物与DNA聚合酶、通用接头引物和内部引物接触，其中该通用接头引物退火至单链引物延伸产物中的通用接头的非双链部分的互补序列，其中该内部引物在3'末端包含特异性地退火至靶核苷酸序列的序列，并且其中该内部引物针对所关注的基因座相对于外部引物是巢式的；(i)重复步骤(h)进行一个或多个(诸如约2-100个，例如，约5-50个或约10-30个)PCR扩增循环，以提供靶核苷酸序列的扩增子；(j)对靶核苷酸序列的扩增子进行下一代测序；以及(k)检测测序读段中与疾病相关的序列变体，从而提供对疾病的诊断。在一些实施方案中，步骤(b)-(i)使用特异性地退火至连接的核酸的第一链的第一组外部引物和内部引物，以及特异性地退火至连接的核酸的第二链的第二组外部引物和内部引物。在一些实施方案中，第一组的外部引物和第二组的外部引物包含至少13个核苷酸长的第一5'标签序列，并且第一组的内部引物和第二组的内部引物包含至少13个核苷酸长的第二5'标签序列。在一些实施方案中，该方法还包括确定与疾病相关的基因的表达水平。

在一些实施方案中，该方法提供与治疗疾病诸如遗传性疾病或癌症有关的信息。在一些实施方案中，该方法用于帮助治疗疾病。在一些实施方案中，检测与疾病相关的多种序列变体。在一些实施方案中，序列变体是与遗传性疾病或癌症相关的已知序列变体。在一些实施方案中，序列变体与癌基因或肿瘤抑制子相关。在一些实施方案中，序列变体是融合癌基因。

在一些实施方案中，该方法用于癌症的诊断。在一些实施方案中，癌症是肺癌、乳腺癌或结肠直肠癌。在一些实施方案中，癌症是非小细胞肺癌。在一些实施方案中，该方法检测与癌症相关的SNV、插入缺失、CNV、基因融合和/或异常RNA表达。在一些实施方案中，该方法使用无细胞DNA样本，诸如循环肿瘤DNA(ctDNA)样本。在一些实施方案中，该方法使用来源于FFPE样本的核酸样本。在一些实施方案中，该方法基于cDNA(或RNA)和gDNA序列两者来检测序列变体。

在一些实施方案中，序列变体与肺癌相关联。在一些实施方案中，序列变体位于ALK、ROS1、RET和/或Ras中。涉及ALK、ROS1和RET基因并产生融合癌基因的基因重排在本领域中是众所周知的(参见，例如Soda等人Nature 2007 448561-6；Rikova等人Cell 2007131:1190-1203；Kohno等人Nature Medicine 2012 18:375-7；Takouchi等人NatureMedicine 2012 18:378-81)。然而，基因重排的确切位置(例如，在ALK、ROS1和/或RET基因中发生重排的位置)以及参与重排的第二基因的身份可变化。在本文所述的方法中，可检测这种重排的存在和身份，而不必知道重排的位置或参与基因重排的第二基因的身份。

本文所述方法的应用的非限制性示例包括：检测血液恶性肿瘤标记物及其组合(例如，包括用于检测淋巴瘤和白血病中染色体重排的那些应用)；检测肉瘤相关染色体重排及其组合；检测用于淋巴瘤测试的IGH/TCR基因重排及其组合；检测与肺癌、乳腺癌或结肠直肠癌相关的基因组合。

对癌症的某些治疗对于包含某些癌基因的肿瘤特别有效，例如靶向给定融合癌基因的作用或表达的治疗剂可以有效地抵抗包含该融合癌基因的肿瘤，而不抵抗缺乏该融合癌基因的肿瘤。本文所述的方法可允许确定揭示癌基因状态的特定序列(例如，突变和/或染色体重排)。如本文所述，本文所述的方法还可允许在仅已知一个翼侧的序列时便能确定特定序列，例如，本文所述的方法可确定涉及已知癌基因的基因重排的存在和身份，其中在执行本文所述的方法之前不知道精确的位置和/或重排配偶体。

在一些实施方案中，该方法用于对多个样本和/或基因组合或所关注基因座的多重分析。在一些实施方案中，该方法用于对与遗传性疾病相关的基因组合进行测序。在一些实施方案中，该方法用于对癌症相关基因组合(诸如，癌基因或肿瘤抑制基因)进行测序。

下表1示出了可使用本文所述的用于癌症诊断的方法检测的序列变体和基因的非限制性示例性列表，以及可用于治疗具有序列变体的癌症的示例性试剂。

表1.用于癌症诊断和治疗的示例性基因组合。

“个体”是指人或动物。在一些实施方案中，个体是脊椎动物，例如灵长类动物、啮齿动物、家畜或狩猎动物。灵长类动物包括黑猩猩、食蟹猴、蜘蛛猴，以及猕猴例如恒河猴。啮齿动物包括小鼠、大鼠、土拨鼠、雪貂、兔子和仓鼠。家畜和狩猎动物包括牛、马、猪、鹿、野牛、水牛，猫科动物例如家猫，犬科动物例如狗、狐狸、狼，禽鸟类例如鸡、鸸鹋、鸵鸟，以及鱼类例如鳟鱼、鲶鱼和鲑鱼。在一些实施方案中，个体是哺乳动物，诸如人、非人灵长类动物、小鼠、大鼠、狗、猫、马或牛。术语“个体”、“患者”和“受试者”在本文中可互换使用。个体可以是先前已经诊断或确定患有或具有需要治疗的病症(例如癌症)或与这种病症相关的一种或多种并发症，并且可选地已经历了对该病症或者与该病症相关的一种或多种并发症的治疗的个体。或者，个体也可以是先前未被诊断为具有该病症(例如癌症)或与该病症相关的一种或多种并发症的个体。例如，个体可表现出对该病症或者与该病症相关的一种或多种并发症的一种或多种风险因素，或者为不表现出风险因素的个体。

在一些实施方案中，提供了治疗癌症的方法，包括：在从需要治疗癌症的个体获得的肿瘤样本中，根据本文所述方法中的任一种检测与癌症相关的一种或多种序列变体(诸如融合癌基因或致癌突变)的存在；以及施用对具有所检测到的与癌症相关的任何序列变体的肿瘤有效的癌症治疗剂。在一些实施方案中，提供了确定需要治疗癌症的个体是否将对治疗方案有响应的方法，包括：在从受试者获得的肿瘤样本中，根据本文所述方法中的任一种检测与癌症相关的序列变体(诸如融合癌基因或致癌突变)的存在，其中如果检测到与癌症相关的序列变体的存在，则确定受试者对治疗方案有响应。

在一些实施方案中，该方法用于其中输入核酸的量少并且/或者输入核酸的质量低的应用中。在一些实施方案中，该方法用于对临床样本诸如肿瘤活检样本，例如FFPE样本进行测序。在一些实施方案中，该方法用于对古代样本测序。

在一些实施方案中，该方法用于其中靶核苷酸序列在核酸样本中以非常低的水平存在的应用。例如，该方法用于微生物群测序，以及对新的变异病毒基因分型。

在一些实施方案中，该方法用于从例如通过CRISPR基因编辑技术得到经基因工程改造的细胞群或动物中鉴定克隆。在一些实施方案中，该方法用于表征CRISPR基因编辑的脱靶位点(例如，先前已知或未知的脱靶位点)。在一些实施方案中，该方法用于评估用于基于细胞的疗法的经工程改造细胞。在一些实施方案中，该方法用于改善细胞疗法的安全性，其中使用CRISPR基因编辑技术工程改造施用于个体的细胞。

在一些实施方案中，该方法用于鉴定编码免疫细胞受体的基因。在一些实施方案中，免疫细胞受体是T细胞受体。在一些实施方案中，该方法用于鉴定经工程改造的免疫细胞受体，例如嵌合抗原受体(CAR)或重组T细胞受体(TCR)。在一些实施方案中，该方法用于免疫分析，例如通过确定TCR序列(诸如CDR3序列)的多样性。在一些实施方案中，该方法用于鉴定对肿瘤抗原有响应的TCR序列。在一些实施方案中，该方法用于评估个体对于针对肿瘤抗原的免疫疗法的免疫应答。

IV.试剂盒和制品

本申请进一步提供了用于增强和确定具有一个或多个所关注基因座的核苷酸序列的组合物、试剂盒和制品，或者本文所述的各种应用。所述组合物、试剂盒和制品可包含本文所述的通用接头、巢式靶标特异性引物、通用接头引物、测序接头引物和测序引物中的任一种或多种。

在一些实施方案中，提供了一种试剂盒，该试剂盒包含：(a)通用接头，其中该通用接头是在第一末端包含可连接双链部分并且在第二末端包含非双链部分的寡核苷酸；(b)通用接头引物，其中该通用接头引物能够退火至通用接头的非双链部分的互补序列；(c)外部引物；和(d)内部引物；其中内部引物针对所关注的基因座相对于外部引物是巢式的。在一些实施方案中，该试剂盒还包含DNA聚合酶和核苷酸。在一些实施方案中，所关注的基因座位于选自ALK、BRAF、EGFR、ERBB2、HRAS、KDR、KIT、KRAS、MET、NRAS、NTRK1、PDGFRA、PIK3CA、PTEN、RET、ROS1和TP53的基因中的任一者或多者中。

在一些实施方案中，提供了一种试剂盒，该试剂盒包含：(a)通用接头，其中该通用接头是在第一末端包含可连接双链部分并且在第二末端包含非双链部分的寡核苷酸；(b)通用接头引物，其中该通用接头引物在3'末端包含能够特异性退火至通用接头的非双链部分的互补序列的序列，并且其中该通用接头引物的5’末端或该通用接头包含与兼容于NGS平台的第一测序引物的序列相同或互补的序列；(c)外部引物；和(d)内部引物，其中内部引物针对所关注的基因座相对于外部引物是巢式的。在一些实施方案中，内部引物包含与兼容于NGS平台的第二测序引物的序列相同或互补的序列。在一些实施方案中，该试剂盒还包含测序接头引物，其中该测序接头引物在3'末端包含与内部引物的序列相同的序列，在5'末端包含与兼容于NGS平台的第二测序引物的序列相同或互补的序列。在一些实施方案中，试剂盒还包含第一测序引物和第二测序引物。在一些实施方案中，该试剂盒还包含DNA聚合酶和核苷酸。在一些实施方案中，所关注的基因座位于选自ALK、BRAF、EGFR、ERBB2、HRAS、KDR、KIT、KRAS、MET、NRAS、NTRK1、PDGFRA、PIK3CA、PTEN、RET、ROS1和TP53的基因中的任一者或多者中。

在一些实施方案中，该试剂盒用于富集具有所关注基因座的靶核苷酸序列。在一些实施方案中，该试剂盒用于制备测序文库。在一些实施方案中，该试剂盒用于确定具有所关注基因座的靶核苷酸序列。在一些实施方案中，该试剂盒用于检测具有所关注基因座的序列变体。在一些实施方案中，该试剂盒用于诊断疾病或病症。在一些实施方案中，该试剂盒用于治疗疾病或病症。在一些实施方案中，该试剂盒用于诊断癌症，诸如肺癌、乳腺癌或结肠直肠癌。在一些实施方案中，该试剂盒用于治疗癌症，诸如肺癌、乳腺癌或结肠直肠癌。

在一些实施方案中，该试剂盒包含可特异性地退火至包含所关注基因座的核酸模板的第一链的第一组外部引物和内部引物，以及可特异性地退火至核酸模板的第一链的互补链的第二组外部引物和内部引物。在一些实施方案中，第一组的外部引物和第二组的外部引物包含至少约13个核苷酸长的第一5'标签序列，并且其中第一组的内部引物和第二组的内部引物包含至少约13个核苷酸长的第二5'标签序列。在一些实施方案中，该试剂盒包含多组外部引物和内部引物(诸如，至少约2、5、10、20、50、100、200、500、1000、2000、5000、10000、20000中的任一者或更多组)。在一些实施方案中，可使用多组外部引物和内部引物来富集或确定具有多个不同所关注基因座的靶序列。在一些实施方案中，所述多组外部引物和内部引物可用于富集或确定具有至少约2、5、10、20、50、100、200、500、1000、2000、5000中的任一者或更多个不同所关注基因座的靶序列。在一些实施方案中，多组外部引物和内部引物可用于富集或确定具有约2-200，诸如约2-100、2-50、5-100、10-100或50-150个中的任一者的不同的所关注基因座的靶序列。在一些实施方案中，多组外部引物和内部引物可用于富集或确定具有约100-5000，诸如约100-500、500-1000、100-2000、1000-2000、2000-3000或3000-5000个中的任一者的不同的所关注基因座的靶序列。在一些实施方案中，根据用户的需要，试剂盒是针对所关注基因座而定制设计的。

在一些实施方案中，该试剂盒还包含用于制备核酸样本的试剂和酶。在一些实施方案中，该试剂盒包含用于由血液样本制备核酸样本的试剂。在一些实施方案中，该试剂盒包含用于由肿瘤活检样本制备核酸样本的试剂。在一些实施方案中，该试剂盒包含用于由FFPE样本制备核酸样本的试剂。在一些实施方案中，该试剂盒包含用于由无细胞DNA样本，诸如循环肿瘤DNA样本制备核酸样本的试剂。在一些实施方案中，该试剂盒提供足够的试剂、引物和接头以用于制备至少1、2、4、10、15、20、100、500、1000个中的任一者或更多个测序文库。

在一些实施方案中，该试剂盒还包含药物组合物，所述药物组合物包含适于基于某种序列变体的检测来治疗癌症的试剂。例如，参见表1。

该试剂盒可包含一种或多种附加组成部分诸如容器、缓冲液、试剂、辅因子，或者附加试剂诸如变性剂。试剂盒组分可被包装在一起，并且包装可包括或者附有关于使用试剂盒用于本文所述的任一种方法的说明书。在一些实施方案中，该试剂盒还包含用于诊断和/或治疗疾病或病症诸如癌症的说明书。

本领域技术人员将会理解，可以对所示的本发明进行各种变型、组合和/或修改，而不脱离如广泛描述的本发明的实质。

实施例

以下实施例旨在仅对本发明进行举例说明并且因此不应被视为以任何方式限制本发明。提供以下实施例和详细描述是为了举例说明而非限制。

实施例1：用于灵敏检测癌症相关序列变体的高效靶标富集和测序方法。

该实施例描述了检测癌症相关序列变体的示例性方法。八个通用接头各自具有用于制备多重测序文库的样本条码。从每个核酸样本富集具有总共246个基因座的靶序列。使用起始输入人类DNA样本的两种不同量，即5ng和50ng。以KAPA酶为例。图1示出了该方法的示意图。

引物

通过将一个含有随机标识的上链寡核苷酸(Y-TOP-01至Y-TOP-08,第一链)和一个匹配的下链寡核苷酸(Y-BOT-01至Y-BOT-08,第二链)退火来制备每个通用接头。通用接头引物(P5)、测序引物(I7-01至I7-08)和十组用于TP53基因中多个所关注基因座的外部引物和内部引物池。

可以使用具有或不具有阻断部分的通用接头。例如，第二链中具有阻断部分的通用接头(如，具有硫代磷酸酯修饰的扑翼状核苷酸)可通过将Y-TOP-01与Y-BOT-01退火来制备。第二链中没有阻断部分的相应通用接头可通过将Y-TOP-01与未阻断的Y-BOT-01退火进行制备。并确定使用阻断和未阻断的通用接头的文库构建效率。

步骤1.在一个管中进行片段化、末端修复、A-加尾和连接

1)片段化：在冰上，通过混合2.5μL片段化缓冲液(10X)、5.0μL片段化酶(FragEnzyme)(KAPA Bio)和DNA样本制备片段化主混合物，并且使用无核酸酶的水将主混合物调整至17.5μL。将反应物在37℃下温育15分钟；在4℃下保温

2)末端修复和A-加尾：在冰上，通过混合3.5μL的末端修复和A-加尾缓冲液、1.5μL的末端修复和A-加尾酶混合物来制备主混合物。将5.0μL的这种主混合物加入到上述片段化反应物中，轻轻涡旋并短暂离心。立即将反应物返回到热循环仪中，通过在37℃下温育15分钟、在65℃下温育15分钟、然后在4℃下保温，进行末端修复和A-加尾，然后立即进行下一步骤。

3)接头连接：在冰上，通过混合15.0μL的连接缓冲液和5.0μL的DNA连接酶来制备主混合物。将5.0μL的10μM通用接头(带有样本条码)加入到上述末端修复和A-加尾反应中，通过移液5次轻轻混合，然后将20.0μL主混合物添加到来自2的每个上述反应中)，轻轻涡旋并短暂离心，然后在16℃下温育30分钟，在30℃下温育30分钟，并在12℃下保温。

4)连接后净化(在PCR前区域中进行)：根据制造商方案使用1.5X体积(即，82.5μL)的微珠来净化连接反应，该反应在最终的20μL 1X Tris-缓冲液中洗脱。将微珠带入下一步(引物延伸)。

步骤2.靶标富集1–引物延伸

通过混合4.4μL无核酸酶的水、3.0μL Taq聚合酶缓冲液(10X，无镁，ThermoFisher)、0.6μL dNTP混合物(10mM)、1.2μL Mg2+(50mM)、0.3μL的PLATINUM^TMTaq聚合酶(5U/μL)和0.5μL外部引物池(50μM)来制备引物延伸主混合物。将20.0μL的连接后净化样本加入到30.0μL的引物延伸主混合物中。将所得混合物在热循环仪中温育，以使用如下程序进行引物延伸反应：在95℃下5分钟；进行如下的20个循环[以+0.2℃/秒的速度升温至95℃；在95℃下10秒；以-0.2℃/秒的速度降温至60℃；在60℃下10分钟]；以及在4℃下保温。

在PCR后区域中根据制造商方案使用1.2X体积(36.0μL)的微珠净化引物延伸产物，并在20μL 1X Tris-缓冲液中洗脱。

步骤3.靶标富集2–PCR

通过混合1.9μL无核酸酶的水、3.0μL Taq聚合酶缓冲液(10X，无镁，ThermoFisher)、0.6μL dNTP混合物(10mM)、1.2μL Mg2+(50mM)、0.3μL的PLATINUM^TMTaq聚合酶(5U/μL)、1.0μLP5引物(10μM)和1.0μL内部引物池(50μM)来制备PCR主混合物。将20.0μL的后引物延伸净化样本加入到9.0μL的PCR主混合物中，并向每个样本中加入1.0μL每种相应的I7引物(带有条码，10μM)。将所得混合物在热循环仪中温育，以使用如下程序进行聚合酶链反应：在95℃下5分钟；进行如下的15个循环[在95℃下30秒；在60℃下5分钟]；以及在4℃下保温。

在PCR后区域中根据制造商方案使用1.2X体积(36.0μL)的微珠净化PCR产物，并在20μL 1X Tris-缓冲液中洗脱。

步骤4.测序。

使用KAPA qPCR试剂盒定量所净化的PCR产物，并根据标准方案使用Illumina测序系统进行测序。

步骤5.数据分析。

使用bcl2fq软件包将BCL格式的测序数据转换为FASTQ格式，使用I7条码对样本去多重化。使用定制脚本将经初始处理的FASTQ文件基于接头条码进一步去多重化，所述接头条码被整合在读段1中，然后剪除接头序列。使用BWA-MEM将双重去多重化的FASTQ文件定位到人类基因组(hg19)。基于分子条码序列鉴定来源于相同核酸模板的扩增子序列并将其合并。使用BEDtools、目标BED文件和定制脚本计算测序规格。使用可知晓单一分子索引的脚本调用SNV和插入缺失来调用变体。

结果

图4A至图4B是来自IGV软件的定位读段的视图，显示了在EGFR基因内具有所关注基因座的读段堆叠。图4A是图S5的复制样，根据Zheng Z.等人Nature Medicine20:1479-1484(2014)，示出了使用名为“锚定多重PCR”或“AMP”的方法的结果。在AMP方法中使用5ng的输入DNA，所定位的读段在所关注的基因座周围具有块状读段堆叠，表明使用少量的输入DNA得到较差的文库复杂性，因而得到较低的文库构建效率。

相反，图4B示出了使用在本实施例中描述的方法的结果。使用与AMP方法相同量的输入DNA(如，比较如在图4A和图4B中以圆圈突出显示的5ng组合中的定位读段)，本发明的方法产生更平滑的读段堆叠，表明使用少量的输入DNA得到更高的文库复杂性和更高的文库构建效率。

图5A和图5B分别示出了两个测序文库Y01-P749(使用50ng输入DNA)和Y02-P750(使用5ng输入DNA)的总体实验组合覆盖率统计。原始数据表示定位到靶标的所有测序读段。合并数据表示在鉴定和合并属于相同核酸模板的测序读段之后合并的测序读段。结果表明在本文所述的方法中使用50ng和5ng输入DNA二者无偏倚地富集靶核苷酸序列。图5C是Zheng Z.等人Nature Medicine 20:1479-1484(2014)的复制样，显示AMP方法在使用微量核酸时均一性下降。

实施例2：在单个反应中同时进行基于RNA的基因融合检测和基于gDNA的突变检测。

本实施例描述了在单个测序反应中检测来自RNA和gDNA的序列变体。

步骤1.从FFPE样本纯化RNA。

简而言之，首先使用FFPE试剂盒对FFPE样本进行RNA提取。使用RNA试剂盒测定RNA浓度。将总共约15ng的总核酸(包括10ng提取的RNA和5ng gDNA)用于下一步骤。

步骤2.双链cDNA合成

1)RNA变性：使用经DEPC处理的水在PCR管中将各RNA样本调整至11.0μL，随后添加1.0μL随机六聚体(300ng/μL)和1.0μL dNTP(10mM)。通过移液5次来混合混合物，并且通过在65℃下温育5分钟(启用103℃热盖)进行RNA变性。温育后，立即将样本板在冰水上冷冻至少1分钟，短暂离心，然后放回冰上。

2)逆转录(第一链cDNA合成)：通过混合5.0μL的IV缓冲液(5X,ThermoFisher)、1.0μL的1.0μL的IV(ThermoFisher)和2.0μL的DTT(新鲜的0.1M)制备主混合物。将9.0μL的主混合物加入到PCR板中的每个反应物中，并通过移液5次充分混合。将PCR板在热循环仪中温育，以使用以下程序进行逆转录：在25℃下10分钟，在42℃下30分钟，在70℃下15分钟，在4℃下保温(启用103℃热盖)。

3)第二链cDNA合成：通过混合18.0μL的经DEPC处理的水、5.0μL的10x第二链反应缓冲液、4.0μL的DNA聚合酶I和1.0μL的RNase H来制备主混合物。将28μL主混合物加入到来自以上的每个反应中，通过移液5次轻轻混合。使混合的反应温度不能升至超过16℃。将反应混合物在16℃下温育2小时，然后在4℃下保温(停用热盖)。

按照SPRI制造商净化方案，用1.8X体积(即，90μL)的微珠净化反应混合物，并在最终的15μL 1X Tris-缓冲液中洗脱。

由净化的反应混合物制备测序文库，按照与实施例1中所述相同的步骤(步骤1-5)进行测序和分析，

图6A至图6F示出了使用本文所述的示例性方法对与癌症相关的各种基因融合进行了基于RNA的成功检测。图7A至图7B示出了在一个单一测序样本中同时进行对EML4-ALK基因融合的基于RNA的检测(图7A)和对KRAS突变的基于gDNA的检测(图7B)。在此检测到的EML4-ALK突变和KRAS突变(如，G12D、G13C和G13D)两者均暗示肺癌。

与常规多重扩增法需要两个相向的特异引物不同，本申请中的方法只需要单端特异引物即可实现扩增，因而无需预知融合伙伴或断点。对组织样本，既可利用其中的DNA,也可利用RNA做为模版。如图7C所示，本方法可以检测出临床样本ctDNA中的EML4-ALK融合。当不具备使用RNA模版的条件时(如ctDNA样本或长期常温保存核酸降解严重的组织样本)，本方法可以使用DNA为模版准确地找到融合断点。

实施例3：靶标富集方法的比较。

本实施例比较了各种靶标富集方法，该方法涉及在靶标富集1(即，实施例1的步骤2)中的指数扩增(即，AMP方法)与线性扩增(即，本申请的示例性方法)，在引物延伸循环期间的快速温度梯度模式与慢速温度梯度模式，以及不同起始量的DNA样本。

如表2所示，制备了具有总共24个靶标富集样本的多重测序文库来评估三个不同的实验因素，每个因素具有两种不同的设置，并且一式三份地测试每种实验条件组合。除了三个实验因素外，进行与实施例1中所述相同的实验步骤。这三个因素是：(1)DNA输入量(50ng还是5ng)；(2)靶标富集1步骤：引物延伸(即，线性扩增)还是PCR扩增(即，指数扩增)；以及(3)引物延伸温度梯度模式(常规梯度：在95℃下3分钟；进行如下的20个循环[在95℃下30秒，以0.5℃/秒降温至60℃，并在60℃下保温10分钟，在72℃下30秒]；在4℃下保温；以及缓慢梯度：在95℃下3分钟；进行如下的20个循环[在95℃下30秒，以0.2℃/秒降温至60℃，并在60℃保温10分钟，以0.2℃/秒升温至95℃]；在4℃下保温)。

表2.实验条件。

如图8A至图8D和表3所示，在靶标富集1(即，实施例1的步骤2)中使用引物延伸循环(即，线性扩增)的方法与使用PCR扩增循环(即，PCR扩增)的方法相比，以及温度梯度模式与常规梯度模式相比，在使用50ng DNA和5ng DNA两者时可得到更高的文库构建效率。图9A至图9D进一步示出了来自12个测序文库的定位读段对KRAS外显子2的覆盖率。

表3.总体实验组合覆盖率统计。

实施例4：标准样本中突变的检测

本实施例测试基于本申请的靶核酸富集示例性方法的下一代测序技术对HorizonDiscovery公司一个标准样本中不同丰度突变的检测率。用本申请的示例性方法分别从50纳克或10纳克核酸标准样本中富集包括BRAF,EGFR,KIT,KRAS,MET,NRAS,PDGFRA,和PIK3CA等靶基因片段，并采用下一代测序技术对富集和扩增的样本进行测序以检验这些靶基因的突变。该标准样本含有43个实体肿瘤的突变，其中39个为低频率突变位点(等位基因突变频率为约1％)，4个为中、高丰度位点(>8％)。本申请的方法检出全部43个突变位点(100％灵敏度)，并且未出现假阳性(100％特异性)，且所检出突变丰度值和标准值高度吻合。

图10A显示使用10纳克起始DNA检测点突变及插入缺失突变的结果。所有等位基因频率(MAF)2.5％所对应的灵敏度与均一性均为100％。图10B显示检出突变和过滤掉的噪声。

图11A显示使用10纳克起始DNA检测点突变及插入缺失突变的结果。该核酸标准样本通过掺入A549细胞系DNA的方式稀释至约0.3-1％MAF。MAF超过0.33％的所有12个突变均可靠检出，对应灵敏度100％；MAF低于0.33％的5个突变因统计学不够显著未报出；未发现假阳性结果(特异性100％)。图11A显示检出突变和过滤掉的噪声。

实施例5：均一性

本发明所公开的方法可以用以扩增高GC或高AT含量区域。高GC含量及二级结构经常造成扩增困难，可能形成检测盲区。而血液肿瘤多发的CEBPA基因具有极高的GC含量。如图12A所示，本发明中的方法可以完整覆盖该基因，最浅区域也达到0.4倍平均值的覆盖程度。而抑癌基因TP53为高AT含量基因。如图12B所示，本发明中的方法也可达到均匀覆盖。这些结果体现了本方法的均一性。

实施例6：临床样本中突变的检测

使用本申请中的方法，对30余例肺癌组织样本(FFPE切片)检测。如图13所示，发现EGFR突变多例，基因融合3例，及少量其它基因突变。本例体现本方法的多功能(各种突变类型同时检测)、高通量(多个样本多个位点同时检测)、表现稳定(所有样本一次检测成功)。

同样地，本方法用以检测多个急性髓系白血病(AML)临床样本，该样本经荧光原位杂交(FISH)检测为融合阴性的正常核型。本方法在所有样本中均检出至少一个突变，突变集中在ASXL1、DNMT3A、NPM1三个基因上，符合对该疾病突变的认识。

本文提及的所有出版物，专利，专利申请和公开的专利申请的公开内容在此通过引用整体并入本文。

Claims

1.一种从包含含有靶核苷酸序列的核酸模板的核酸样本富集具有所关注基因座的所述靶核苷酸序列的方法，所述方法包括：

(a)将通用接头连接至所述核酸模板以提供连接的核酸，其中所述通用接头是在第一末端包含双链部分并且在第二末端包含非双链部分的寡核苷酸，并且其中所述核酸模板通过所述第一末端连接到所述通用接头；

(b)将所述连接的核酸解离成第一链和第二链，其中所述第一链包含所述靶核苷酸序列；

(c)将外部引物退火至所述连接的核酸的第一链中所述靶核苷酸序列附近；

(d)使用DNA聚合酶将所述外部引物延伸达到所述连接的核酸的第一链的全长，以提供新生的引物延伸双链体；

(e)在足够高的温度下将所述新生的引物延伸双链体解离成所述连接的核酸的第一链和单链引物延伸产物；

(f)重复步骤(c)-(e)进行一个或多个引物延伸循环；

(g)在足以对所述靶核苷酸序列进行PCR扩增的条件下，使所述单链引物延伸产物与DNA聚合酶、通用接头引物和内部引物接触，其中所述通用接头引物退火至所述单链引物延伸产物中的所述通用接头的所述非双链部分的互补序列，其中所述内部引物在3'末端包含特异性地退火至所述靶核苷酸序列的序列，并且其中所述内部引物针对所述所关注的基因座相对于所述外部引物是巢式的；以及

(h)重复步骤(g)进行一个或多个PCR扩增循环，以提供所述靶核苷酸序列的扩增子，从而富集所述靶核苷酸序列。

2.根据权利要求1所述的方法，其中：

(1)所述靶核苷酸序列的所述扩增子用于下一代测序(NGS)；

(2)所述的方法包括使用能够特异性地退火至所述连接的核酸的第一链的第一组外部引物和内部引物，以及能够特异性地退火至所述连接的核酸的第二链的第二组外部引物和内部引物，来富集具有所述所关注基因座的靶核苷酸序列，可选地，其中所述第一组的外部引物和所述第二组的外部引物包含至少约13个核苷酸长的第一5'标签序列，并且其中所述第一组的内部引物和所述第二组的内部引物包含至少约13个核苷酸长的第二5'标签序列，例如其中所述第一5'标签序列的GC含量与所述核酸模板的GC含量基本上相似；

(3)所述的方法包括使用多组外部引物和内部引物来富集具有不同所关注基因座的多个靶核苷酸序列,可选地，其中：

(a)所述多个靶核苷酸序列中的至少2个存在于所述核酸模板的不同链中；和/或，

(b)所述的方法包括富集具有约2-5000个不同所关注基因座的多个靶核苷酸序列；和/或

(4)重复步骤(c)-(e)进行约2-100个循环；

(5)所述外部引物退火至比所述内部引物距离所述所关注基因座远约1-100个核苷酸的区域；和/或

(6)所述外部引物和/或所述内部引物的至少最后12个核苷酸在所述核酸样本中具有少于约20个不同的退火基因座。

3.根据权利要求1或2中所述的方法，其中：

(1)所述核酸模板是基因组DNA,可选地，所述基因组DNA是染色体DNA，或所述基因组DNA是线粒体DNA或其他染色体外DNA；

(2)所述核酸模板是外显子组DNA；或

(3)所述核酸模板是cDNA,可选地，其中所述cDNA通过逆转录总RNA获得，或其中所述cDNA通过逆转录mRNA、miRNA或其他非编码RNA获得；或

(4)所述核酸样本包含基因组DNA和cDNA两者；或

(5)所述核酸模板是无细胞DNA；和/或

(6)所述核酸样本来源于血液样本；和/或

(7)所述核酸样本来源于细胞或组织样本，可选地，其中所述核酸样本来源于肿瘤活检样本，和/或其中所述核酸样本来源于福尔马林固定石蜡包埋(FFPE)样本。

4.根据权利要求1至3中任一项所述的方法，其中：

(1)所述所关注基因座与染色体重排相关联；

(2)所述染色体重排是染色体易位；

(3)所述所关注基因座与单核苷酸变异(SNV)相关联；

(4)所述所关注基因座与插入缺失相关联；或

(5)所述所关注基因座与剪接变异相关联。

5.根据权利要求1至4中任一项所述的方法，其中：

(1)所述所关注基因座位于与癌症相关的基因中；

(2)所述所关注基因座位于编码免疫细胞受体的基因中；

(3)所述所关注基因座位于与遗传性疾病相关的基因中；或

(4)所述所关注基因座位于CRISPR基因编辑的脱靶位点中。

6.根据权利要求1至5中任一项所述的方法，其中：

(1)所述靶核苷酸序列的所述扩增子用于下一代测序(NGS)，且所述核酸模板被片段化为适于所述下一代测序的尺寸；

(2)所述方法还包括在步骤(a)之前对所述核酸模板进行末端修复和A-加尾；

(3)所述通用接头的所述非双链部分包含具有阻断部分的3'末端，可选地，其中所述阻断部分是反向核苷酸，例如，其中所述阻断部分是具有一个或多个硫代磷酸酯修饰的一段扑翼状核苷酸；

(4)所述通用接头的所述非双链部分包含含有简并设计的核碱基的分子条码，可选地，其中所述样本条码位于所述通用接头的第一末端，例如，其中所述样本条码由约4-13个核苷酸组成；

(5)所述通用接头的所述双链部分包含样本条码，可选地，其中所述样本条码位于所述通用接头的第一末端，例如，其中所述样本条码由约4-13个核苷酸组成；

(6)所述通用接头的第一末端包含足够短长度的恒定核碱基，以防止通过残留通用接头在步骤(b)-(f)期间发生混杂引发；

(7)所述足够高的温度是至少约90℃；

(8)所述连接的核酸在步骤(b)之前经受净化工序；

(9)所述引物延伸产物在步骤(g)之前经受净化工序；

(10)重复步骤(g)进行约2-100个循环；和/或

(11)所述靶核苷酸序列的所述扩增子用于下一代测序(NGS)，且其中所述通用接头引物的5’末端或所述通用接头包含与用于所述NGS的第一测序引物的序列相同或互补的序列，可选地，其中步骤(g)包括在足以对所述靶核苷酸序列进行PCR扩增的条件下，使所述单链引物延伸产物与DNA聚合酶、通用接头引物、内部引物和测序接头引物接触，其中所述测序接头引物在3'末端包含与内部引物的序列相同的序列，并且在5'末端包含与用于所述NGS的第二测序引物的序列相同或互补的序列。

7.一种确定在核酸样本中具有所关注基因座的靶核苷酸序列的方法，所述核酸样本包含核酸模板，所述核酸模板包含所述靶核苷酸序列，所述方法包括：

(i)使用根据权利要求1至6中任一项所述的方法富集具有所述所关注基因座的所述靶核苷酸序列；以及

(ii)对所述靶核苷酸序列的所述扩增子进行下一代测序，由此提供所述靶核苷酸序列，

可选地，其中：

(a)同时确定具有约2-5000个不同所关注基因座的靶核苷酸序列；

(b)所述的方法还包括在步骤(ii)的所述下一代测序之前使用所述靶核苷酸序列的所述扩增子制备测序文库。

8.一种检测在核酸样本中所关注基因座处的序列变体的方法，所述核酸样本包含核酸模板，所述核酸模板包含具有所述所关注基因座的靶核苷酸序列，所述方法包括：

(1)使用根据权利要求7中所述的方法确定具有所述所关注基因座的所述靶序列；以及

(2)检测所述靶核苷酸序列中的所述序列变体，

可选地，其中:

(a)所述序列变体以不超过约1:100的等位基因频率存在；

(b)所述序列变体在种系DNA中遗传；

(c)所述序列变体是体细胞突变或染色体重排；

(d)多种序列变体被检测，例如其中所述多种序列变体选自染色体重排、剪接变异、SNP、缺失、插入、拷贝数变异(CNV)以及它们的组合；和/或

(e)所述方法同时检测基于cDNA序列的染色体重排和基于gDNA序列的突变。

9.一种诊断个体的疾病的方法，包括使用根据权利要求8中所述的方法检测在来自所述个体的核酸样本中所关注基因座处的与所述疾病相关的序列变体，从而提供对所述疾病的诊断。

10.一种试剂盒，包含：

(a)通用接头，其中所述通用接头是在第一末端包含可连接双链部分并且在第二末端包含非双链部分的寡核苷酸；

(b)通用接头引物，其中所述通用接头引物能够退火至所述通用接头的非双链部分的互补序列；

(c)外部引物；以及

(d)内部引物；

其中所述内部引物针对所关注的基因座相对于所述外部引物是巢式的,

可选地，其中:

(1)所述通用接头引物的5’末端或所述通用接头包含与兼容于NGS平台的第一测序引物的序列相同或互补的序列,例如，

(i)其中所述内部引物包含与兼容于所述NGS平台的第二测序引物的序列相同或互补的序列；和/或

(ii)所述试剂盒还包含测序接头引物，所述测序接头引物在3'末端包含与所述内部引物的序列相同的序列，并且在5'末端包含与兼容于所述NGS平台的第二测序引物的序列相同或互补的序列；

(2)所述试剂盒包含多组外部引物和内部引物；

(3)所述试剂盒用于诊断癌症，例如，其中所述癌症是肺癌、乳腺癌或结肠直肠癌；和/或

(4)所述所关注基因座位于选自ALK、BRAF、EGFR、ERBB2、HRAS、KDR、KIT、KRAS、MET、NRAS、NTRK1、PDGFRA、PIK3CA、PTEN、RET、ROS1和TP53的基因中的任一者或多者中。