CN105392897B

CN105392897B - 靶序列的富集

Info

Publication number: CN105392897B
Application number: CN201480029041.1A
Authority: CN
Inventors: C·L·理查德
Original assignee: Directed Genomics LLC
Current assignee: Directed Genomics LLC
Priority date: 2013-03-19
Filing date: 2014-03-19
Publication date: 2020-03-20
Anticipated expiration: 2034-03-19
Also published as: WO2014153408A1; JP2016515384A; US20140287468A1; EP2976435A1; JP6441893B2; US9708658B2; CN105392897A; EP3312295A1; US9567632B2; US20160002720A1; EP2976435B1

Abstract

提供用于从核酸群体中富集靶序列的方法和组合物，其包括在溶液中使核酸群体和靶分离探针组合，其中所述靶分离探针包括亲和结合结构域；允许靶分离探针的单链区与核酸群体中的靶序列的全部或部分杂交；通过将靶分离探针与捕获结构域结合并去除非结合物质而从含靶序列的群体中选择性地固定杂交核酸；以及通过一个或多个3’单链特异性外切核酸酶从靶序列的3’端去除非靶序列。靶富集可用于检测核甘酸序列中的变异，用于检测与健康或疾病有关的表型变化。

Description

靶序列的富集

背景

已经证明下一代测序(Next Generation Squencing)(NGS)是多种疾病的诊断和治疗中的宝贵工具，所述疾病包括癌症(Dancey等人，Cell,48:409-420(2012)；Dawson等人，NEJM,368:1199-1209(2013))、心肌病(Meder等人，Circ.Cardiovasc.Genet.,4:110-122(2011)；Norton等人，Curr.Opin.Cariol.,27:214-20(2012))、遗传性疾病(Boycott等人，Nature Genetics,14:681-691(2013)),产前筛查(Nepomnyashchaya等人，Clin ChemLab Med.,51:1141-54(2013)；Papgeorgiou等人，Genome Medicine,4:46(2012))以及神经紊乱(Nemeth等人，Brain,136:3106-180(2013))。然而，尽管NGS能够在数天内对整个人类基因组进行测序，但是测序的成本以及数据分析的负担严重抑制了将全基因组测序转移到临床。结果，期望靶序列的富集促进依赖于NGS(Agilent,(Santa Clara,CA),Roche/NimbleGen(Madison,WI),Illumina(San Diego,CA),LifeTechnologies(Grand Island,NY))、多重PCR(LifeTechnologies,Illumina,Qiagen(Valencia,CA),Kailos Genetics(Huntsville,AL))、分子倒置探针(Hiatt等人，Genome Res.,23,843-54(2013))、高度并行PCR(highly-parallel PCR)(Fluidigm(San Francisco,CA),Raindance(Billerica,MA))和单引物扩增法(Enzymatics/ArcherDx(Beverly,MA),NuGen(San Carlos,CA))的分子诊断。

用于富集的现有方法包括来自制备DNA文库的杂交捕获(Albert等人，NatureMethods,4:903-905(2007)；Okou等人，Nature Methods,4:907-909(2007))。杂交捕获需要大量的固定化探针。理论上，溶液中的片段化核酸与这些固定化探针杂交——如果它们具有互补序列的话。除可以捕获双链体的两条链之外，这些方法具有与溶液杂交相同的缺点。然而，这些方法的其它缺点包括当探针在杂交之前结合至表面时杂交效率降低。其它缺点包括漫长的2-3天方案、多个步骤增加测试成本、需要大量的初始输入DNA(1μg-5μg)；宽的文库大小分布、仅55％-65％的特异性、80％+/-200-500个碱基对(bp)以及不能捕获重复或不能处理含非靶序列内的重复序列的核酸。

由于对靶末端处人工序列的依赖，现有方法不适于指定读取起始位点(核酸分子测序开始的位置)。而且，现有方法不适于捕获两条靶链。由于无能力具体限定读取起始位点，当前杂交方法通常捕获大于外显子平均大小——如Sakharkar等人，In SilicoBiology,4：387-393(2004)所述的小于200bp——的核酸片段，从而实质上导致非靶测序。基于杂交的外显子组捕获技术的性能比较已经由Clark等人，Nature Biotechnology,29:908–914(2011)评论。

多重PCR是捕获杂交的可选方案。多重PCR方法相当快速并且在富集之前不需要文库制备，但存在由于引物相互作用导致的每个反应的有限可量测性，由于使用以不同效率扩增的引物组引起的扩增偏差而导致贯穿靶扩增的不同均一性，不能滤除复制品，以及将用于退火的引物序列添加至靶包括在扩增子的末端上。在测序过程中这些序列必须被读取，因此增加了测序时间和成本。而且，除了产生不必要的序列复杂性的靶序列以外，合成引物的序列包含在序列报告中。分子倒置探针和高度并行PCR解决了多重PCR遇到的一些问题，但两种方法都明显地更为昂贵。分子倒置探针需要对长的寡核苷酸合成，并且存在与高度并行PCR法相关的设备成本。此外，两种方法还在扩增子的末端上引入合成引物序列。单一引物法仅在扩增子的一端处引入引物序列，降低了测序引物的一半量，但牺牲了由于使用两个引物富集正确靶序列而应用的附加选择性。因此，仍需要以高的可量测性、特异性和均一性最小化离靶(off-target)或引物区的测序的靶富集方法。

概述

一般而言，提供用于从核酸群体富集靶序列的方法和组合物。方法包括：在溶液中组合核酸群体和靶分离探针，其中靶分离探针包括亲和结合结构域；允许靶分离探针的单链区与核酸群体中靶序列的全部或部分杂交；通过使靶分离探针与捕获结构域相结合并去除非结合物质来选择性地固定来自包含靶序列的群体的杂交核酸；以及通过一个或多个3’单链特异性外切核酸酶将非靶序列从靶序列的3’端去除。

在多个方面，群体中的一些或者全部核酸包含重复序列，而核酸群体可与可去除封闭寡核苷酸组合，所述寡核苷酸在靶分离探针之前或者同时与重复序列杂交。可能有利的是，使用过多的可去除封闭寡核苷酸并允许在双链变性步骤之后杂交。然后可以在用3’单链特异性外切核酸酶(一种或多种)降解3’非靶序列之前或同时使核酸中的可去除封闭寡核苷酸/可去除寡核苷酸双链体选择性地降解。如果可去除封闭寡核苷酸是RNA，则可通过核糖核酸酶实现可去除封闭寡核苷酸的降解，或如果例如可去除封闭寡核苷酸是包含多个尿嘧啶的DNA，则通过尿嘧啶去糖基化酶和核酸内切酶实现可去除封闭寡核苷酸的降解，或通过特异性剪切可去除封闭寡核苷酸的任何其它合适的技术来实现可去除封闭寡核苷酸的降解。

在多个方面，上述靶分离探针的单链区可与靶序列的3’端和5’端杂交。在这些情况中，亲和结构域优选与与靶分离探针在位于靶分离探针的3’端和5’端之间但不是在3’端和5’端处的位点处结合。在杂交的适度严格条件下，与靶序列的杂交可沿着靶分离探针的长度发生。如果方法的用途是检测单核甘酸多态性，则这些条件可允许单个碱基对不匹配如所预期的发生。可选地，杂交可在具有显著不匹配的内部区域的靶分离探针的末端处发生，所述不匹配可能是由于可表征不同来源所选靶序列的插入或缺失产生。一旦通过将亲和结构域与固定的捕获结构域结合来固定靶序列/靶分离探针并在已经去除3’非靶序列之后或在使用一种或多种3’外切核酸酶去除的同时，可通过一种或多种5’单链特异性外切核酸酶将5’非靶序列从靶序列的5’端去除。在靶序列的3’和5’端处的外切核酸酶消化之后，产生适合于连接衔接子的平末端或交错端，将衔接子连接到靶序列，以便靶序列可被容易地鉴定、分离、扩增、测序、表征和/或分析，用于表型显著的序列变异。

方法的多个方面利用靶分离探针的不同构型，并且可用于与本文所述的第二探针结合。不论探针如何，方法的某些共同特征被保留，即，用与亲和结构域结合的靶分离探针对群体中核酸杂交，然后进行富集的第一步骤，所述富集发生在靶分离探针被固定允许非杂交核酸和试剂通过洗涤被去除，然后通过外切核酸酶消化去除3’非靶序列时。

在方法的方面中，靶分离探针可以是瓣探针(flap probe)，其中瓣探针具有从单链区3’端延伸的非杂交双链区。非杂交双链区可在一条链的5’端被连接到探针单链区的3’端上，或者可以是3’-5’寡核苷酸退火的单链探针的部分，其构成非杂交双链区中的第二条链。可选地，非杂交双链区可以由单链探针3’端处的发夹序列形成，所述发夹序列向后折叠并与自身杂交形成双链区。在瓣探针与靶序列的5’端杂交后，5’非靶序列可以通过5’瓣核酸内切酶消化去除，并且在切口步骤后3’-5’寡核苷酸或发夹序列可被连接到靶序列的5’端，以充当5’衔接子。3’衔接子可被连接到靶序列的3’端。3’和5’衔接子可各自包含测序引物位点、文库扩增引物位点、独特样品标识符和独特分子标识符序列中的一种或多种。

在方法的另一方面，靶分离探针的单链区与靶序列的第一部分杂交。例如，靶分离探针的末端与处于或接近靶序列的3’端或5’端处的序列形成双链体。进一步允许在临近、接近或远离靶分离探针的位置——其中该位置导致第二探针限定与靶分离探针相对的靶序列末端——处将第二探针的单链区与靶序列第二部分杂交。在一个方面，第二探针具有靶序列中核甘酸的不多于90％、70％、50％、30或10％的非随机序列，并且相应地，其中靶分离序列具有靶序列的不多于10％、30％、50％或70％或90％的核甘酸序列。

在方法的多个方面，在3’靶分离探针上的亲和结构域可位于靶分离探针的3’端内或靶分离探针的3’端处的任何位置但不包括5’端，而在5’靶分离探针上的亲和结构域可位于靶分离探针的5’端内或靶分离探针的5’端处的任何地方但不包括3’端。

在方法的多个方面，在靶分离探针与靶序列中的部分——例如靶序列的3’端——杂交的情况下，可使用长度范围为4-10个核甘酸的随机序列的寡核苷酸，其中该寡核苷酸充当用于聚合酶延伸以产生适于衔接子连接的双链5’端的引物。

在方法的另一方面，靶分离探针或位于靶序列5’部分的第二探针是与上述具有杂交单链区和从单链区3’端延伸的非杂交双链区的探针相似的瓣探针。5’非靶序列可通过5’外切核酸酶消化去除，以在靶序列的5’端使用线性探针的情况下提供适合于衔接子连接至靶序列的平末端或交错端，或在使用活瓣探针的情况下，提供适合于衔接子连接至5’活瓣核酸内切酶的平末端或交错端。例如，提供封闭部分、修饰的核甘酸以防止衔接子连接至靶分离探针或第二探针。在5’端的外切核酸酶消化去除多于或小于5’非靶序列的情况下，在5’衔接子连接之前可使用填充交错端的附加步骤。

在上面描述的方法的任何方面，3’衔接子以及任选地5’衔接子可以是发夹衔接子。发夹衔接子的使用提供了另外的优势——其中限定靶序列末端的靶分离探针或第二探针可共价连接至发夹衔接子的一端，同时靶序列共价连接至发夹衔接子的另一端。在变性条件下，单链核酸产生可用于开始靶序列进行引物扩增的衔接子序列。

在方法的方面中，靶分离序列的3’端可通过聚合酶延伸以在5’外切核酸酶消化后取代5’探针。

在方法的方面中，衔接子直接或在扩增后被连接到靶序列和测序的靶序列的每一端。测序反应中的读取起始位点发生在或接近靶序列的3’端，并以允许对靶序列中的每个核甘酸进行测序而不关注遮掩靶序列或遮掩靶序列中显著突变的引物的方式，终止于接近靶序列的5’端或接近靶序列的5’端终止。突变的实例包括插入、缺失或核甘酸多态性或单核甘酸多态性中的一种或多种。以这种方式，在有机体的突变和表型之间的相关性可以被如实记录。

由于在靶序列的一端或两端处去除非靶序列，避免了对非靶序列的不必要测序和分析。一般而言，提供了用于分析动物或植物提取物的方法，其包括：从提取物中得到核酸样品；按上面所述富集靶序列；和获得富集的靶分子的核甘酸序列。一方面，从富集的靶分子获得的核甘酸序列：在3’端处包括少于5个非靶核甘酸；或占靶序列的至少90％。在测序之前，可使用引物序列对靶序列进行扩增，所述引物序列与位于衔接子内的序列杂交，所述衔接子位于靶序列的3’和5’端。一旦获得靶序列，其可用于建立序列变化与来自原核生物或真核细胞的改变表型的相关性。

附图简述

图1显示用于靶选择和富集的方法的示意图。(1)描述单链核酸或热变性双链核酸的一条链。(2)描述在靶分离探针的3’和5’端之间而不在3’和5’端处的位置共价连接至亲和结构域

与(1)杂交的靶分离探针。在此处，靶分离探针与靶核酸序列的整个长度杂交。靶分离探针可以包括在3’和5’端中任一端或两端上的修饰以防止外切核酸酶降解、连接和/或聚合酶延伸。修饰可包括以下中的一种或多种：反向碱基(inverted bases)；碳连接体；硫代磷酸键；和双脱氧核甘酸。此外，可包括内部修饰以防止靶分离探针扩增，如另一个(one more)dUs或一个或多个核糖核苷酸。(3)描述了将(2)结合至捕获结构域

通过洗涤将不与捕获结构域结合的核酸去除。(4)相应于通过一个或多个3’和5’单链DNA外切核酸酶或RNA外切核酸酶消化的产物，从而在靶分子/靶分离探针双链体的3’和5’端上产生双链平末端。可以同时或先后进行3’和5’消化。经消化后，酶(一种或多种)和缓冲液被洗掉。(5)描述了衔接子已连接到靶序列每一端的靶核酸。与靶分离探针的连接被阻断。在此使用的衔接子可以是：使用用于DNA靶的DNA连接酶诸如T4DNA连接酶或用于RNA靶的RNA连接酶诸如T4RNA连接酶2连接到末端的NGS平台-特异性衔接子；含有单核甘酸突出端(连接至通过单核甘酸延伸的3’端，如用Klenow(exo-)将dA添加到DNA靶上)的衔接子；Y结构或具有可裂解位点的发夹衔接子，以使特定序列可以被特异性地添加至靶DNA或RNA的3’和5’端；完全互补的双链DNA(dsDNA)衔接子，或在与连接接点的相对末端处具有单链DNA(ssDNA)突出端的dsDNA衔接子。这些衔接子可以含有一个或多个修饰，如双脱氧核甘酸、反向核甘酸、或在衔接子末端上的5’磷酸酯缺失，所述衔接子末端不意图连接至靶核酸以避免连接至靶分离探针和/或连环化(concatamerization)。确实连接至靶DNA3’端的衔接子链可包含用于连接的5’-磷酸酯。可选地，该衔接子链可以缺少5’-磷酸酯，如果探针的3’端和其衔接子的5’端未进行修饰以抑制连接。在这种情况下，在将探针连接至衔接子之后，可以通过切口平移将衔接子序列添加至靶的3’端。然后将未连接的衔接子、酶和缓冲液洗掉。一种或两种衔接子可包含识别靶序列产自的核酸样品的独特DNA序列(UID)，或识别核酸样品或样品来源的单个有机体的条码。UID和/或条码的使用促进多重反应中的样品确认和识别。(6)相应于在从固体载体洗脱之后衔接子-连接的靶分子的任选PCR扩增的产物。如果使用PCR或RT-PCR，则PCR引物可添加额外的序列，如测序平台所需的序列，或可只包含与衔接子互补的序列。可选地，如果通过反过来与捕获结构域相联的亲和结构域固定衔接子连接的靶分子，则可以将固定的靶分子直接添加至扩增反应而不需要从固体或半固体基质洗脱到溶液中。然后可以对所得文库进行定量和测序。

图2A-C显示图1中所描述的用于靶选择和富集的方法的变化。

图2A(7)–(11)接着图1中的(1)-(3)。(7)描述单链核酸或与具有亲和结构域的靶分离探针相联的并随后结合至捕获结构域的热变性随机核酸片段的一条链，其中3’非靶核酸已经被一种或多种3’单链DNA外切核酸酶或保留3’双链平末端的RNA外切核酸酶消化。消化后，酶(一种或多种)和缓冲液被洗掉。然后将3’衔接子添加至3’端(8)。衔接子的结构与(5)所述的相同。(9)描述在由一种或多种5’单链DNA外切核酸酶(一个或多个)或保留双链平末端的RNA外切核酸酶(一个或多个)在靶核酸的5’端或靶核酸凹缺或呈现突出端的末端消化的产物。消化后，酶(一种或多种)和缓冲液被洗掉。如果靶分子的部分包含交错端，则可以通过DNA聚合酶、RNA聚合酶或反转录酶延伸或消化探针的3’端而使末端平端化(blunted)。标准的脱氧核苷酸或核糖核苷酸可以用于延伸，或者含有一种或多种修饰的核苷三磷酸(NTP)如脱氧三磷酸尿苷(dUTP)的混合物可以用于随后消化任何延伸的序列。平端化后，酶(一种或多种)和缓冲液被洗掉。上面(5)所描述的5’衔接子连接到靶分子(10)的5’端以能够进行上面(6)所描述的PCR(11)。可选地，可以首先通过去除5’单链核酸并连接5’衔接子，然后去除3’单链核酸并连接3’衔接子而进行图2A中所示的方法。

图2B显示图1中所述的用于靶选择和富集的方法的变化。(12)接着(1)，其描述了作为活瓣探针、共价连接至亲和结构域的活瓣靶分离探针，其中靶分离探针的3’端包含不与靶互补并且含有NGS平台-特异性衔接子序列的部分或全部的双链DNA区。该双链区可以在靶分离探针与靶核酸杂交之前、期间或之后通过将靶分离探针单链区的3’端和与与NGS衔接子序列互补的第二寡核苷酸杂交而产生。可选地，靶分离探针可形成或被连接到具有可裂解位点的发夹序列，产生跨越部分或全部衔接子序列的双链区。双链区的3’端终止于靶分离探针的3’端，或延伸一个或多个碱基进入靶分离探针。亲和结构域可位于靶分离探针内的任何位置，除了在发夹探针的3’端。(12)的分子被固定在捕获结构域(13)上。(14)显示3’非靶核酸的消化产物随后进行图2A中所描述实现的衔接子连接。靶分子上的5’单链DNA被活瓣核酸内切酶诸如FEN-1切割，产生靶核酸和诱饵(bait)双链区之间的切口。用连接酶诸如T4DNA连接酶将切口连接。(15)描述如图1所示的靶的任选PCR产物。

图2C显示图1中所述的方法的变化。不能连接至靶分离探针的3’衔接子(例如，参见图1中所描述的衔接子)连接到(4)的3’端以产生(16)。(17)描述了衔接子3’端的延伸产物，其如下进行：通过具有3’外切核酸酶活性并能够去除抑制修饰的连接的DNA聚合酶或反转录酶，如双脱氧核甘酸，随后延伸3’衔接子以形成平末端，并从固定的靶分离探针中释放靶。标准的脱氧核苷酸或核糖核苷酸可以用于延伸，或者含有一种或多种修饰的核苷三磷酸(NTPs)如脱氧三磷酸尿苷(dUTP)的混合物可以用于随后消化任何衍生的序列。延伸后，酶(一种或多种)和缓冲液被洗掉。(18)中，5’衔接子(例如，参见图1)连接到(17)的5’端。

图3显示用于靶选择和富集的双探针法，其利用作为一个探针——靶分离探针和作为第二探针——小的可变(随机)寡核苷酸。(19)描述了单链核酸，其可以是由对较大核酸进行机械或酶断裂而产生的热变性片段的一条链。(20)是与靶序列的3’端杂交并共价连接至亲和结构域的3’靶分离序列，其中亲和结构域位于不在靶分离探针5’端的位置。靶分离探针可以包括在3’端上的修饰，以防止外切核酸酶降解、连接和/或聚合酶延伸。修饰的实例包括反向碱基、碳连接体、硫代磷酸键和双脱氧核甘酸。靶分离探针可以包括在5’端上的修饰以防止外切核酸酶降解，如硫代磷酸键。此外，内部修饰也被包括以防止探针扩增，如另一种dUs或一种或多种核糖核苷酸。(21)描述将(20)固定至捕获结构域。通过洗涤将不与捕获结构域结合的核酸去除。(22)是通过3’单链DNA外切核酸酶(一种或多种)或保留双链平末端的RNA外切核酸酶(一种或多种)在靶核酸/靶分离探针双链体的3’端上消化的产物。消化后，酶(一种或多种)和缓冲液被洗掉。(23)描述具有可裂解位点(X)、共价连接至3’靶序列和靶分离探针的5’端的发夹衔接子。(24)描述与(23)的靶核酸的5’区杂交的随机寡核苷酸。(25)是通过DNA聚合酶、RNA聚合酶或反转录酶延伸随机引物的3’端以形成平末端的产物。标准的脱氧核苷酸或核糖核苷酸可以用于延伸，或者含有一种或多种修饰的dNTP如dUTP的混合物可以用于随后消化任何延伸的序列。平端化后，酶(一种或多种)和缓冲液被洗掉。(26)是与5’衔接子相联的(25)(例如，如图1中所述)。(27)是(26)的扩增产物。

图4显示使用两种探针的用于靶分离和富集的方法，其中第二探针具有非随机序列。

(28)是(19)-(23)的产物，其中第二探针与靶核酸的5’部分，而不是具有随机序列的4-10个核甘酸的寡核苷酸杂交。5’探针可以包括在5’端上的修饰以防止外切核酸酶降解，如硫代磷酸键。此外，可包括内部修饰以防止探针扩增，如另一种dUs或一种或多种核糖核苷酸。(29)中，5’非靶核酸已通过一种或多种5’单链DNA或RNA外切核酸酶(一种或多种)去除，并随后进行第二探针3’端的任选延伸或消化。(30)描述将5’衔接子添加至(29)。(31)相应于(30)的扩增产物。在可选方面中，通过以下可以进行图4所描述的方法：首先在靶核酸的5’部分杂交含有亲和结构域的5’靶分离序列，然后捕获并去除非结合的探针、5’外切核酸酶消化，以去除5’非靶序列并连接5’衔接子，之后3’第二探针与靶核酸的3’部分杂交并用一种或多种3’外切核酸酶去除非靶序列。

图5A-C是图4中所描述的双探针法的变化。

图5A显示由步骤(19)-(23)开始然后进行步骤(28)-(29)的方法。(32)相应于具有连接到靶核酸序列3’端的衔接子的靶核酸。靶核酸与3’靶分离探针杂交，其中亲和结构域共价连接在靶分离探针内但不是在3’或5’端处。3’靶分离探针可以包括在3’和/或5’端上的修饰以防止外切核酸酶降解，如硫代磷酸键。可包括内部修饰以防止靶分离探针扩增，如另一种dUs或一种或多种核糖核苷酸。(33)显示(32)中的3’靶分离探针的延伸产物，其取代5’探针并产生与5’衔接子连接的平端。(35)显示扩增产物。

图5B显示涉及两种探针的用于靶选择和富集的方法的变化。

在步骤(19)-(23)之后，(35)相应于活瓣探针(图2B中所描述的)——无亲和结构域——与靶区域的5’端杂交的(23)。(36)相应于在通过活瓣核酸内切酶诸如FEN-1切割靶分子上的5’单链核酸之后，产生靶核酸和探针双链区之间的切口的(35)。(37)中，用连接酶诸如T4DNA连接酶将(36)中的切口连接。(37)是在洗脱后靶核酸的扩增产物。

5B的变化包括杂交含有亲和结构域的5’靶分离探针，如图2B中所述，然后在杂交缺少亲和结构域的3’靶分离探针、去除3’单链核酸并连接3’衔接子之前，通过活瓣核酸内切酶捕获和去除5’单链核酸并连接切口。

图5C显示涉及两种探针的用于靶选择和富集的方法的变化。

(38)是(19)的产物，其中含有亲和结构域的3’靶分离探针和含有亲和结构域的5’探针或3’探针和5’靶分离探针两者在单个反应中与靶核酸序列杂交。(39)中，靶分离序列上的亲和结合结构域结合至固定靶序列的捕获结构域。(40)是通过3’和5’单链DNA外切核酸酶(一种或多种)或保留双链平末端的RNA外切核酸酶(一种或多种)在靶核酸/靶分离探针双链体的3’和5’端上的消化产物。3’和5’消化可以同时或先后进行。消化后，酶(一种或多种)和缓冲液被洗掉。(41)是已添加3’和5’衔接子的(40)。(42)是(41)的扩增产物。

图6A-D显示在ABI测序仪上的片段分析，其表明3’平末端的功效。

图6A示意性地显示与3’-生物素化探针杂交并结合至链霉亲和素珠的5’-FAM-标记的寡核苷酸，形成20nt的3’突出端。

图6B显示来自用于片段分析的ABI测序仪的色谱图上的相应峰。

图6C示意性地显示3’ssDNA外切核酸酶处理后的平末端5’-FAM-标记的寡核苷酸。

图6D显示对应于图1C的峰，其中单峰与平末端DNA的存在关联。

图7A-D显示在ABI测序仪上的片段分析，其表明使用3’-FAM标记的寡核苷酸的5’平末端的功效。3’-FAM-标记的寡核苷酸与5’-生物素化探针杂交并结合至链霉亲和素珠，形成20nt的5’突出端。在用5’ssDNA外切核酸酶温育之后，随后洗涤珠以去除酶，FAM-标记的寡核苷酸在NaOH中进行洗脱并在用于片段分析的ABI测序仪上运行。

图7A和图7B显示起始物质。

图7C和图7D显示突出端的消化结果，其中观察到与平末端dsDNA、4-碱基突出端和8-碱基突出端相关联的三个峰。

图8显示血小板衍生生长因子受体α基因(PDGFRA)中外显子的捕获。生物素化靶特异性探针与剪切的Jurkat基因组DNA杂交。靶序列通过结合至链霉亲和素珠来捕获然后在BW缓冲液中洗涤。添加3’外切核酸酶以去除探针的gDNA3’、gDNA双链体，使得探针的5’端限定靶的3’端。在3’dA-加尾和衔接子连接之后，将随机引物杂交并延伸以形成5’平端，然后连接5’衔接子。通过PCR对文库进行扩增并在

系统(Illumina,San Diego,CA)上进行测序。显示出在正链和负链上对具有固定的3’端和随机5’端的PDGFRA靶的捕获。

图9显示成纤维细胞生长因子受体基因(FGFR2)中外显子的捕获。生物素化靶特异性探针与剪切的Jurkat gDNA杂交。靶通过结合至链霉亲和素珠捕获然后在Bind和Wash(BW)缓冲液中进行洗涤。3’核酸外切酶被加入以除去非靶gDNA——其中探针的5’段限定靶的3’段。在3’dA-加尾和衔接子连接之后，靶特异性5’探针与靶序列杂交，并且5’ssDNA通过保留平端或小5’突出端的外切核酸酶消化。探针通过DNA聚合酶延伸而形成平端，然后连接5’衔接子。通过PCR对靶序列进行扩增并在Illumina MiSeq上进行测序。显示出在正链和负链上具有固定的3’端和5’端的FGFR2靶的捕获。

实施方式详述

除具体说明，本文所述的方法和组合物并不意在限制于本文所述的具体的方法学，或者试剂，而是仅作为实例而提供。参考用于举例说明的示例性应用在下面描述了许多方面。在方法步骤涉及对于本领域普通技术人员来说标准熟知的方法的情况下，不对这些方法步骤进行详细描述。在本申请中，单数的使用包括多数，除另有具体说明。“包括(included)”不受限制并且具有与“包含(comprising)”相等的意义。术语“约”或“近似”可以意指在本领域普通技术人员确定的特定值的可接受误差范围内，其将部分取决于该数值如何被测量或测定。在申请和权利要求中描述特定值的情况下，术语“约”意指在特定值的可接受误差范围内，除另有说明。术语“接近”是指临近或在指定特征附近的位置。例如，在探针与靶序列的定义末端杂交处的位置的情况下使用“接近”，术语接近可以指相距指定特征少于10个核甘酸。术语“远离”是指不接近指定特征但位于比位置接近的情况要更遥远的位点处的位置。

一般而言，中本文提供用于从核酸样品中富集靶核酸序列以生成靶富集的核酸文库的方法。对于核酸而言，术语“靶富集”意在指增加样品中特定核酸种类的相对浓度。

可以用本文所述的富集方法实现以下特征中的一种或多种：分析双链核酸的两条靶链以在稀有SNP中增加置信度(confidence)；指定读取起始位点的能力，不管GC含量产生标准化探针池，靶向重复区域的能力，提升检测靶位点的总效率，避免捕获前损失靶，不依赖于靶区域外部DNA损害进行靶文库制备，降低对横跨靶区域的多重探针的需求，捕获在探针对之间的较大插入和缺失(插入缺失)，产生用于最佳簇集的窄尺寸分布内的文库，减少在靶序列中包含的非靶碱基的百分数；使所需测序读取长度和所需覆盖深度最小化；与基于杂交的靶富集的现有方法相比，增加均一性并减少富集和文库制备的时间和复杂性。

可能已经被纯化但在其他方面未经处理或修饰的核酸在此称为核酸样品。可将核酸样品任选地碎裂成核酸群体或群体中的核酸分子，从其中富集靶序列或靶分子。

本文所使用的术语"核酸样品"是指DNA或RNA或DNA和RNA分子的混合物或从任何含有靶序列和非靶序列的任何来源中得到的序列。例如，核酸样品可以从人工来源或通过化学合成，或从病毒、包括微生物原核细胞或真核細胞获得。生物样品可以是包括人或不包括人的脊椎动物、无脊椎动物、植物、微生物、病毒、支原体、真菌或古物(ancient)。生物流体包括血液、唾液、脑脊液、胸膜液、乳、淋巴液、痰(sputum)、精液、骨髓、针吸物(needleaspirate)等，固体(例如，粪便)。真核細胞样品包括胚胎组织、活组织检查或尸体组织、组织、组织培养物、活组织检查、器官或其它生物、农业或环境来源。细胞首先可以使用例如物理方式——例如，在高速下使用小珠——或使用化学方式——例如，洗涤剂及其它表面活性剂——打破或分裂开，以得到核酸样品。醇或其它化学制品可以用于沉淀核酸。

核酸样品可包括全基因组序列、部分基因组序列、染色体序列、叶绿体序列、线粒体序列、聚合酶链反应(PCR)产物、全基因组扩增产物或“扩增”下面所列出的其它扩增方法的产物：cDNA序列、mRNA序列、非编码RNA序列(ncRNA)或全转录组序列、外显子、长末端重复区(LTR)、内含子区以及调节序列。不应将这些实例解释成对适用于本发明方面的样品类型的限制。

核酸样品可产生核酸群体，其中群体中核酸分子的子集可包含用于富集的靶序列。例如，核酸群体可以是：使用酶法、机械法或化学方法的随机切割的产物；通常用酶诸如限制性酶实现的非随机或偏向(biased)切割的产物；合适的尺寸，使得不需要切割或分裂；或环境破坏的产物。核酸群体与用于靶富集的靶分离探针组合使用。

可以通过酶法实现随机切割，所述酶法包括：核酸酶诸如片段化

(New EnglandBiolabs,Ipswich,MA)、脱氧核糖核酸酶I和

(EMD,Gibbstown,NJ)，或其它类型的核酸酶的单一种或组合。片段化酶是以时间依赖方式产生dsDNA断裂而生产100bp-800bpDNA片段的核酸内切酶。

(EMD Millipore，MA)是来自粘质沙雷菌(Serratiamarcescens)的基因工程核酸内切酶，其可以有效切割DNA和RNA。其它酶法包括单独使用Vvn核酸酶或沙雷氏菌核酸酶或脱氧核糖核酸酶I，或本领域中的其它核酸酶，如Shearase^TM(Zymo Research,Irvine,CA)或离子剪切(Ion Shear)^TM(LifeTechnologies,GrandIsland,NY)。可以使用切口酶，因为DNA在片段化后变性。

化学方法包括使用镁离子或锌离子来分割RNA。可以使用物理方法，如例如，超声处理、雾化、物理剪切和加热。商业上的机械剪切方法的实例由Covaris(Woburn,MA)提供。

环境性核酸破坏可发生在，例如储存期间或通过老化或通过应用裂解法，如化学诱导的切割，酶诱导的切割或施加温度或时间的切割。术语“损伤的DNA”，除另外指出，意指指对靶DNA的任何插入/缺失、任何SNP、不与表观遗传调控相关的任何修饰的碱基、任何附加修饰。各种类型的DNA损伤被描述在通过引用并入的US 7,700,283和US 8,158,388中。DNA损伤的实例是从存储组织或细胞中分离的福尔马林固定石蜡包埋(FFPE)诱导的降解DNA。群体中的核酸可以是也可以不是较大核酸的片段。

靶序列可发生在核酸群体中。术语"靶序列"通常是指具有特定科学、医学或农学相关性的核酸中感兴趣的区域。"靶分子"是与探针等杂交的独立化学实体。术语有时可以交互性地使用，并且它们的含义将通过术语使用的上下文而变得清晰。在靶核酸是DNA时，大的DNA片段如gDNA可部分或基本上形成靶序列从其富集的核酸群体。在该实施例中，感兴趣的靶序列仅是核酸样品的子集，因此富集的期望性。

靶序列可以是全部核酸分子或部分核酸分子。靶序列可包括外显子序列中的一个或多个、突变周围的一小段核酸序列、一个或多个重复序列、cDNA序列、内含子序列和调控序列。感兴趣的特征的实例包括单核甘酸多态性(SNP)、基因融合、拷贝数变异和/或插入/缺失。在统计意义上，这些特征可以与生物学意义的表型相关。靶分子可具有与一种或多种疾病、感兴趣的表型、代谢途径的调节或其它相关的核酸或在其他方面相关的序列。靶分子可包括DNA序列的连续区域或DNA序列的集合(例如，cDNA序列)。靶分子可以是RNA分子，如mRNA或ncRNA。RNA靶分子的实例包括：核糖体RNA(rRNA)、信使RNA(mRNA)、沉默RNA(siRNA)、小核RNA(snRNA)、微RNA(miRNA)、短干扰RNA(siRNA)或长非编码RNA(lncRNA)。

核酸群体中的单个核酸通常具有相同的大小或大于包含在核酸群体中的靶序列。靶序列群体中或靶序列中的核酸的大小没有上限。然而，处理大分子的效率和对富集的靶序列进行测序的测序平台的能力可以是具有大小限制的。大核酸中的靶序列，例如来自活组织样品的病毒基因组，可以大至5000个核甘酸(nts)或10,000nt或更大。靶序列的长度可以小于存在于基因组或大mRNA中的500个核甘酸。例如，靶序列在100nts-200nts范围内时，核酸群体的个体成员可能大约是500nts。完整的gDNA或RNA可以被分割成合适的大小用于靶富集。靶序列长度是测定片段尺寸的一个标准。例如，靶序列可以至少达到100bp-1000bp，例如200bp-800bp，例如300bp-700bp，例如100bp-300bp或100bp-400bp，或100bp-500bp的长度，其有利于捕获完整的靶区域。大多数外显子小于200bp。本文所述的方法利用修饰的核苷实现以下特征中的至少一种：增强杂交特异性或双链体稳定性、增加核酸酶抗性、引导酶切位点、抑制酶连接、抑制酶延伸或防止聚合酶扩增以及其它特征。

根据其预期目的选择的修饰的核苷的使用的实例被描述在表1中。本文所使用的术语"核苷"包括天然核苷，例如包括Kornberg等人，DNA Replication,2nd Ed.Freeman,San Francisco(1992)中所描述2'-脱氧和2'-羟基形式。涉及核苷的"类似物"或“修饰的核苷”包括具有修饰碱基部分和/或修饰糖部分的合成核苷，例如Scheit,NucleotideAnalogs,John Wiley,New York(1980)；Uhlman等人，Chemical Reviews,90:543-584(1990)，Crooke等人Exp.Opin.Ther.Patents,6:855-870(1996)；Mesmaeker等人，CurrentOpinion in Structual Biology,5:343-355(1995)；等所描述的。使用包括几个或多个类似物并具有增强的双链体稳定性的探针或衔接子包括寡核苷酸N3'-→P5'氨基磷酸酯(本文中称为"酰胺化物")、肽核酸(本文中称为"PNA")、寡-2'-O-烷基核糖核苷酸、含C-5丙烯基嘧啶的多核苷酸、锁定的核酸("LNA")等化合物。这种寡核苷酸或是商业可获得的，也可以使用文献所述的方法合成。修饰的核苷(如dUs或8-Oxo-Gs)可以被选择以允许通过特异性酶(尿嘧啶去糖基化酶或具有核酸内切酶VIII的fpg)在类似物位点处切割寡核苷酸或通过DNA聚合酶(如rNMP)防止扩增。修饰的核苷可放置在探针或衔接子的末端以允许连接或阻断连接。例如，不需要连接时，探针或衔接子或两者的5’端可以是非磷酸化的或脱磷酸化的，并且3’端可以用双脱氧核苷、反向核苷或有或无附加部分的碳连接体加帽。用磷酸盐对寡核苷酸5’端修饰使得能够连接。此外，3’修饰——包括但不限于双脱氧核苷、反向核苷或碳连接体——可以并入到探针或衔接子中以防止通过聚合酶的3’延伸。可以利用在衔接子、引物、靶分离探针或第二探针上的3’和/或5’修饰，如一个或多个硫代磷酸酯，以保护免于外切核酸酶消化。

在该方法方面中使用修饰的核苷的具体实例包括使用双脱氧核苷以阻断衔接子3’端处的连接，如图1、2A、2B、2C或5C中所述。可以将阻断连接的3’修饰添加至图1和5C中的靶分离探针。对第二探针的3’修饰可阻断如图4和5A-C中所述的连接。在图2C中的衔接子3’端和图5A中显示的靶分离探针的3’端添加双脱氧-修饰的核苷抑制连接，但允许用具有3’外切核酸酶活性的DNA聚合酶或反转录酶使3’端随后延伸。此外，亲和结构域和捕获结构域是连接到靶分离序列3’端核甘酸的大的实体(参见，图3、4、5B和5C)。3’端处的亲和结合分子可充当防止探针连接和延伸的单独阻断实体。此外，结合至捕获结构域的亲和结合分子空间上阻止衔接子连接到部分靶序列，如图3、4和5B-C中所述。在方法的一个方面，3'探针并不需要除了任选地双探针法中的5’磷酸化作用之外的5'修饰，因为在5’外切核酸酶处理之前其可以连接到衔接子，并因此受到保护而不受5'外切核酸酶活性。相反，期望在单探针法中防止在探针3’端上连接，以防止将探针转换为可扩增的文库。

靶序列的边界优选由一个或多个探针限定。本方法使用靶分离探针并且还可包括可以是单链分子或活瓣探针的第二探针。该方法还可使用小的随机序列寡核苷酸和/或可去除的阻断寡核苷酸。本文所使用的术语“探针”是指具有与识别富集的靶序列区互补的已知序列的单链多核苷酸。探针可以是寡核苷酸，其中“寡核苷酸”是指能够通过核酸合成仪合成的一定长度的合成核酸。可选地，寡核苷酸可以是天然存在的、分离的和纯化的并任选地分割的单链核酸或者是部分单链和部分双链的。寡核苷酸可以是DNA、RNA或两者。

探针的大小可以和靶序列一样长或者短于靶序列。例如，探针可包括多达10,000nts，尽管更常见的探针的长度小于500nts。探针长度的实例包括10nts-200nts、25nts-200nts、10nts-150nts、10nts-100nts、10nts-75nts或10nts-50nts。探针可优选具有25nts-200nts的长度。在单一富集中使用的探针池的大小将优选为相同或相似。

本文所使用的术语“靶分离探针”是指限定长度和序列的核酸，并且其可以是合成的。靶分离探针与亲和结合分子相结合，并且能够经由在固体或半固体基底上或它们之中的捕获结构域而被固定。靶分离探针以一个探针法和双探针法限定靶区域的至少一端。在图1和2A-C中描述的一个探针法中，靶分离探针限定靶序列的两端。靶分离探针可以是DNA、RNA或两者，并且还可包含一个或多个修饰的核苷(例如，参见表1)。靶分离探针可在5’端缺少磷酸盐(例如，参见图1、2A-C和图5C)，以抑制双链衔接子连接至探针的5’端同时允许在3’靶序列和衔接子之间的连接。靶分离探针可包括5’磷酸盐以促进连接至双链衔接子(例如，参见图3、4、5B)。靶分离探针的3’端可被修饰以阻断3’探针末端和衔接子5’端之间的连接。靶分离探针还可包含LNA以增加Tm并使探针与靶序列的杂交稳定。

与3’靶分离探针相结合的亲和结构域可位于3’端或在3’端和5’端之间，但优选不在3’靶分离探针的5’端。与5’靶分离探针相结合的亲和结构域可位于5’端或在3’端和5’端之间，但优选不在5’靶分离探针的3’端。如果靶分离探针限定靶序列的3’和5’端的边界，则亲和结构域优选位于探针末端之间而不是在末端处。

如果靶分离探针与靶序列的3’端杂交，则可以使用由与靶序列的5’端互补的序列表征的第二探针来限定靶序列的5’端。可选地，如果靶分离探针与5’端杂交，则第二探针可与3’端杂交。

在一个实例中，在靶分离探针与靶序列的3’端杂交之后，优先添加第二探针，然后进行外切核酸酶消化和去除与靶分离探针互补的序列临近的非靶核酸。将第二探针与靶序列杂交的优势在于，以所描述的方式通过使用两个靶特异性探针降低错误阳性的可能性。可以同时将靶分离探针和第二探针可选地添加至核酸群体，从而在靶序列的一端或两端处非靶核酸序列的外切核酸酶消化之前限定靶区域的3’端和5’端。

术语“活瓣探针”是指这样的合成核酸，其包含与靶核酸杂交的单链部分和从单链区3’端延伸的非杂交双链区。靶分离探针可以是活瓣探针，如果其在图2B中所例举的一个探针法中限定靶区域的两端的情况下，或者其在图5B中所例举的双探针法中限定靶区域的5’端情况下。活瓣探针的双链3’端可以通过发夹结构或通过短的3’-5’互补寡核苷酸形成。活瓣核酸内切酶诸如Fen-1切割活瓣探针单链区3’端相对位点处的靶5’端，并还去除5’非靶序列。切口的连接导致3’发夹序列的添加或与活瓣探针3’区互补的链的连接。双链3’区当连接到靶序列的5’端时可充当衔接子，并且可包括常规并入到衔接子的序列元件，如NGS平台特异性测序引物位点、文库扩增引物位点和/或条码和/或用于样品识别的UID。

除了使用上面所述的一个或两个探针，可去除的阻断寡核苷酸可用于在核酸群体中有可能存在重复序列的情况。术语“可去除的阻断寡核苷酸”是指短的核酸序列，如可由RNAeH消化处理的RNA，或贯穿其长度具有修饰碱基的DNA，其中阻断核酸在与靶序列或非靶序列杂交时能够被消化。在使用阻断RNA时，这可以是由从重复序列富集的DNA(即，COT-1DNA)复制的cRNA或编码重复DNA序列的合成RNA得到。罕见情况下，重复区包含在靶核酸序列内。更常见地，重复序列或多重重复序列发生在整个非靶DNA。可以对可去除的阻断寡核苷酸加热以允许变性，然后冷却以允许与核酸群体杂交。在与靶分离探针和任选的第二探针杂交之后，可去除的阻断寡核苷酸被RNAeHI或其它合适的可在反应混合物中与5’和/或3’外切核酸酶任选地结合的酶切割。

除了靶分离探针并且代替第二探针，具有的随机序列(NNNN等)长度小于10nts，例如4nts、5nts,6nts、7nts、8nts或9nts的寡核苷酸可与靶序列的单链区杂交。该短寡核苷酸可以在3’端延伸以形成适于将衔接子连接至此的平端或交错端。

在将核酸群体内的靶序列与靶分离探针中的互补序列杂交以后，可以通过与固体或半固体基质相结合的捕获结构域将双链体固定。一旦固定，任何非杂交核酸可以通过洗涤去除，结果是，固定的核酸富集靶序列。

需要去除非靶DNA的洗涤步骤没商业上可获得的杂交富集方法采用的洗涤步骤严格，因为这些方法依赖于杂交温度、洗涤温度、和排除非靶分子和富集靶分子的洗涤缓冲液的严格性。结果，这些方法需要很小的探针Tm范围和严格控制的洗涤条件。这里提出的方法容许大得多的探针Tm范围和较不严格的洗涤，因为洗涤仅对于完全去除未结合的文库片段是需要的。通过在随后的步骤(一个或多个)中使用外切核酸酶(一种或多种)来实现方法的高度特异性，如果正确的靶序列与探针杂交，将只产生可以连接的平端。

“互补”或“基本上互补”是指能够杂交或碱基配对以在核甘酸或核酸之间——如，例如在双链DNA分子的两条链之间或在寡核苷酸探针或引物和探针或在核酸单链区上的引物结合位点之间——形成双链体的核酸分子序列，通常，互补的核甘酸是A和T(或A和U)，或C和G。当一条链的核甘酸与另一条链的核甘酸的至少约50％或至少80％，或至少约90％至95％，并且更优选约98％至100％配对——任选地比对和比较并且具有适当的、潜在的、公认的或表型有意义的核甘酸插入或缺失时，两个单链RNA或DNA分子被称为是基本上互补的。可选地，当RNA或DNA链将在选择性杂交条件下与其补体杂交形成稳定的双链体时存在基本上互补。通常，当在至少14nts至25nts的区段上存在至少约65％互补，优选至少约75％，更优选至少约90％互补(参见，Kanehisa,Nucleic Acids Res.,12:203(1984))时选择性杂交将发生。特异性杂交可以在探针和核酸样品之间实现，其中至少部分核酸样品和探针是单链的并且可用于杂交。探针中的一部分可以是双链的，因此不可用于与靶序列杂交。单链区可以以双链体或从热变性双链体或本领域熟知的其它方式形成。

在方法的方面中，靶分离探针的杂交优选在溶液中进行。在可以耐受在杂交序列内的错配的意义上，杂交条件可以是相对松的。例如，可以使用如Tiquia等人，BioTechniques,6:664-675(2004)；或John等人，BioTechniques,44:259-264(2008)所描述的标准方法。此外，在反应条件下具有以AT/U碱基对、GC碱基对或平衡混合物为主的片段都可进行有效杂交。杂交的范围可以从3天至30分钟，例如1小时-16小时，其中温度的范围很重要(range significantly)，并且杂交混合物可以变化。然而，在其它实施方式中这种杂交周期可能更大或更小，这取决于杂交条件。

通过将亲和结构域与捕获结构域结合而使与靶核酸杂交的靶分离分子的杂交产物固定，所述捕获结构域可以涂覆在固体或半固体载体上或如下面所描述的其自身可以是固体或半固体载体。群体中核酸的固定化有助于杂交、外切核酸酶消化、衔接子连接和任选扩增的后续步骤以及允许通过洗涤去除非反应性物质、残余试剂和切割产物，从而避免交叉污染并因此提升靶序列富集的容易性及效力。

本文所使用的术语“捕获结构域”是指用于结合亲和结构域、与固体载体(见下文)或半固体载体(如琼脂糖或丙烯酰胺)结合的化学结构或部分，亲和结构域反过来与靶分离探针结合。亲和结构域可包括小分子，如生物素、抗原、半抗原、修饰的核甘酸或配体，其中小分子能够与捕获结构域直接或间接结合或交联(例如，光化学或化学地，通过胺硫醇(aminethiol)、交联、马来酰亚胺交联、N-羟基琥珀酰亚胺或N-羟基硫代琥珀酰亚胺、Zenon或SiteClick进一步例举)。

已知多种方法用于将DNA附加到固体载体，其中任何一种方法都可用于本发明的方面。这些方法包括共价结合至载体表面以及DNA表面的非共价相互作用(通过吸附结合，例如，阳离子表面)。通常，共价固定涉及DNA上的活性官能团(亲和结构域)与固体表面上的活性官能团(捕获结构域)的反应。反应性官能团的实例包括胺、羟胺、肼、酰肼、硫醇、磷化氢、异硫氰酸酯(isothiocyanates)、异硫氰酸酯(isocyanates)、N-羟基琥珀酰亚胺(NHS)酯、碳二亚胺、硫酯、卤代乙酰基衍生物、磺酰氯、硝基和二硝基苯基酯、甲苯磺酸酯、甲磺酸酯、三氯甲磺酸酯、马来酰亚胺、二硫化物、羧基、羟基、羰基二咪唑、环氧化物、醛、酰基-醛、酮、叠氮化物、炔、链烯、硝酮、四嗪、异氰化物、四唑和硼酸盐。这种反应的实例包括胺和形成酰胺的活化羰基之间的、硫醇和形成硫醚键的马来酰亚胺之间的、叠氮化物和经历1,3-偶极环加成反应的炔衍生物之间的、胺和环氧基之间的、胺和与添加的活化双二羧基酸衍生物类型的双官能团连接体试剂反应产生两个酰胺键的另一个胺官能团之间的反应，或本领域已知的其它组合。其它反应，如UV-介导的交联可以用于将DNA共价结合至固体载体。

官能团可固有地存在于用于固体载体的材料中，或者它们可通过以合适的物质处理或涂覆载体而被提供。还可通过使固体载体表面与合适的化学试剂反应来引入官能团。本文所使用的活化意指对固体载体表面上的官能团的修饰，以能够将粘合剂结合至表面。本文所使用的固体载体意指包括在其上期望捕获和固定DNA的任何固体(弹性或刚性)材料。

固体载体可以是生物的、非生物的、有机的、无机的或其组合，并且可以是颗粒、条、沉淀物、凝胶、片、管、球体、容器、毛细管、衬垫、切片、膜、板、载玻片的形式，并具有任何方便的形状，包括平面、圆片、球、圆形等。固体载体的表面可以由多种物质组成，例如，聚合物、塑料、树脂、多糖、二氧化硅或二氧化硅基材料、碳、金属、无机玻璃、膜等，条件是表面可支撑官能团。方便的固体载体的实例是例如玻璃表面，如载玻片、微量滴定板以及合适的传感元件，尤其是功能化聚合物(例如，以珠的形成)、化学改性的氧化表面，例如二氧化硅、五氧化二钽或二氧化钛，或也是化学改性的金属表面，例如贵金属表面，如金或银、铜或铝表面、磁表面，例如Fe、Mn、Ni、Co及其氧化物、量子点，例如，III-V(GaN、GaP、GaAs、InP或InAs)或II-VI(ZnO、ZnS、CdS、CdSe或CdTe)半导体或Ln-掺杂的氟化纳米晶体、稀土-掺杂的氧化纳米材料。

“固体载体”是指一种物质或具有刚性或半刚性表面(一个或多个)的一组物质。固体载体可以是基本上平的固体载体中的至少一个表面，尽管在一些实施方式中可能需要如孔、凸起区、针、蚀刻、雕刻(trench)等物理分离合成区域用于不同的化合物。可选地，固体载体可以是珠、树脂、凝胶、微球体或其它几何构型。珠的实例包括链霉亲和素珠、琼脂糖珠、磁珠、

(Life Technologies,Grand Island,NY)、

微珠(MiltenyiBiotech,Auburn,CA)，抗体结合的珠(例如，抗免疫球蛋白微珠)、蛋白A结合的珠、蛋白G结合的珠、蛋白A/G结合的珠、蛋白L结合的珠、寡dT结合的珠、二氧化硅珠、二氧化硅样珠、抗生物素微珠、抗荧光染料微珠以及BcMag^TM(Bioclone,San Diego,CA)羧端基磁珠。将标记的核酸连接至载体可包括将生物素连接至多个多核苷酸和使一个或多个磁珠涂有链霉亲和素。

固体载体表面可提供有聚合物层。在这种情况下，聚合物将携带将要待激活的官能团。聚合物可选自任何合适种类的化合物，例如，聚乙二醇、聚乙烯亚胺、多糖、多肽或多核苷酸，仅列举几个。可通过对于本领域技术人员来说是显而易见的多种方法来实现将聚合物连接至载体表面。例如，承载三氯甲硅烷基团或三烷氧基团的聚合物可与基底表面上的羟基反应形成硅氧烷键。连接至金或银表面可通过聚合物上的硫醇基团发生。可选地，聚合物可通过中间物质如烷基硫醇的自组装单层连接。所选的聚合物类型和用于将聚合物连接至表面的所选方法将因此取决于具有合适反应性的、用于连接至基底表面的聚合物，和取决于关于非特异性吸附至——特别地——DNA的聚合物的性质。官能团可存在于聚合物上或可通过添加单个或多重官能团添加至聚合物。任选地，间隔臂可用于提供对结合DNA的灵活性，从而允许其以最小化与固体载体空间位阻的方式与其环境相互作用。

为了将核酸固定在固体载体的表面上，在表面上的活化官能团可以只存在于预先确定的区域上，或可选地在整个表面上，并与存在于DNA分子中的官能团选择性地进行反应。必要的反应条件——包括时间、温度、pH、溶剂(一种或多种)、添加剂等——将尤其取决于所使用的具体种类，并且对于每种具体情况，合适条件对技术人员将是显而易见的。可以合成寡核苷酸以并入期望的官能团。为了提供期望的反应活性，可以用任何类型的官能团对单核甘酸进行化学或酶修饰。这种化学或酶功能化可以被延伸到DNA分子。

对具有生物材料的表面的功能化还可以用于将DNA连接至固体载体。可以用结合剂(binder)如抗体(或抗体片段)或另一种亲和结合剂如链霉亲和素对固体载体如微孔板进行修饰。在这种情况下，用相应的亲和配体如生物素和另一种亲和结合剂如识别生物分子部分序列的抗体来修饰DNA分子。本文所使用的结合剂意指作为特异性结合对的成员的任何试剂，其包括，例如多肽，如其蛋白质或片段；核酸，例如寡核苷酸、多核苷酸，或能够与其互补链经历碱基配对的其衍生物。结合剂的实例包括细胞膜的激动剂和拮抗剂、毒素和毒液、病毒表位、抗原决定簇、激素和激素受体、类固醇、肽、酶、底物、辅因子、药物、凝集素、糖、寡核苷酸、寡糖、蛋白质、糖蛋白、细胞、细胞膜、细胞器、细胞受体、维生素、病毒表位和免疫球蛋白，例如单克隆抗体和多克隆抗体。结合对的实例包括生物素-链霉亲和素/抗生物素蛋白、半抗原/抗原-抗体、碳水化合物-凝集素、或本领域技术人员已知的其它。

允许DNA共价结合至固体载体的特异性结合对的其它实例是例如SNAP-

(New England Biolabs，Ipswich，MA)/AGT和苄基鸟嘌呤衍生物(美国专利号7,939,284；8,367,361；7,799,524；7,888,090；和8,163、479)或嘧啶衍生物(美国专利号8,178,314)、CLIP-标记^TM(New England Biolabs，Ipswich，MA)/ACT和苄基胞嘧啶衍生物(美国专利号8,227,602)、Halo

(Promega,Madison,WI)和氯化烷烃衍生物(Los等人，Methods MolBiol.,356:195-208(2007))、丝氨酸-β-内酰胺酶和β-内酰胺衍生物(国际专利申请公开号WO2004/072232)。如在实施例中，可以分别用苄基鸟嘌呤、嘧啶、苄基胞嘧啶、氯化烷烃或β-内酰胺衍生物对DNA进行功能化，并随后在用SNAP-标记/AGT、CLIP-标记/ACT、Halo标记或丝氨酸-β-内酰胺酶修饰的固体载体中进行捕获。可选地，DNA可以特异地或非特异地连接至SNAP-标记/AGT、CLIP-标记/ACT、Halo标记或丝氨酸-β-内酰胺酶，并随后分别在用苄基鸟嘌呤、嘧啶、苄基胞嘧啶、氯化烷烃或β-内酰胺衍生物功能化的固体载体中进行捕获。允许DNA共价结合至固体载体的特异性结合对的另外的实例是酰基载体蛋白及其修饰物(结合剂蛋白)，其通过合酶蛋白结合至来自辅酶A(结合剂底物)的磷酸泛酰硫基乙胺亚基(美国专利号7,666,612)。允许DNA共价结合至固体载体的蛋白质或其片段的实例是例如几丁质结合结构域(CBD)、麦芽糖结合蛋白(MBP)、糖蛋白、转谷氨酰胺酶、二氢叶酸还原酶、谷胱甘肽-S-转移酶(GST)、FLAG标记、S-标记、His-标记以及本领域技术人员已知的其它。通常，用作为特异性结合对的一部分并且能够特异性结合至共价或非共价连接至固体载体的配偶体的分子对寡核苷酸、DNA或其片段进行修饰。

当如上所述固定靶DNA时，可以添加一种或多种合适的3’单链DNA外切核酸酶(一种或多种)如3’外切核酸酶I和外切核酸酶T，以去除非靶DNA，从而在靶DNA的指定读取起始位点形成平端。“读取起始位点”是指核酸分子测序开始的位置。测序读取的起始位点可通过使用一种或多种核酸酶消化单链核酸而产生，以形成具有探针的平端然后连接衔接子，使得测序引物位点立即毗邻靶核酸序列。结果，所选探针序列限定读取起始位点。优选地，核酸酶是可以形成双链DNA(dsDNA)平端的单链3’外切核酸酶，无核酸内切酶活性。可以添加辅助蛋白，如单链结合蛋白(SSB蛋白)。可以添加Klenow exo-和dATP以在3’端提供dA尾。对于与T-突出端3’衔接子一起使用，dA-尾加步骤是任选的，并且对于平端衔接子不是必要的。对于dA加尾，所使用的酶、其浓度、温育时间和温度并不是关键性的。然而，酶应添加未模板化的单核苷酸，如dA至dsDNA3’端，用于T-突出端衔接子。

5’外切核酸酶可用于去除5’非靶单链核酸。如果5’外切核酸酶需要热变性温度来使核酸酶失活，则可添加重杂交以使探针与模板再杂交。如果5’外切核酸酶保留5’凹缺末端或5’突出端，则聚合酶可用于消化3’突出端或填充探针的3’凹缺末端，以形成平端或由一个核甘酸延伸的末端。具有3’外切核酸酶的聚合酶可优选用于形成平端，其可以连接到平端5’衔接子。可选地，3’外切核酸酶，如Klenow(3’->5’exo-)或Bst可以被取代以形成可连接到具有T-突出端内的5’衔接子的末端。另外，可以使用dATP、dCTP、dGTP和dUTP的dNTP混合物来代替dATP、dCTP、dGTP和dTTP。如果靶是RNA，则反转录酶可以与dNTP一起使用，或者可以使用RNA聚合酶和riboNTP。可以按本领域教导的改变填充聚合酶、聚合酶浓度、探针浓度、温育时间和温度(例如，参见Tabor等人，DNAdependent DNA polymerases inAusebel等人，Current protocols in Molecular Biology,3.5.10-3.5.12(1989),NewYork,John Wiley and Sons；Sambrook等人，(1989)Molecular Cloning,A laboratoryManual(2^nd ed),p 5.44-5.47,CSH press)。

在靶富集之后或期间，可能需要将衔接子序列连接到靶序列的一端或两端。"连接"是指通过两种或更多种核酸——例如寡核苷酸和/或多核苷酸——的共价键(bond)或键合(linkage)在末端之间的衔接。键或键合的性质可以变化很大，并且可以以酶法或以化学方法进行连接。本文所使用的，连接通常是以酶法进行，以在一个寡核苷酸的末端核甘酸的5'碳与另一个寡核苷酸的3'碳之间形成磷酸二酯键。在下述参考文献中描述了多种模板驱使的连接反应，其通过引用并入：Whiteley等人，US 4,883,750；Letsinger等人，US 5,476,930；Fung等人，US 5,593,826；Kool，U.S。5,426,180；Landegren等人，US 5,871,921；Xu和Kool，Nucleic Acids Research,27:875-881(1999)；Higgins等人，Methods inEnzymology,68:50-71(1979)；Engler等人，The Enzymes,15:3-29(1982)；和Namsaraev，美国专利申请2004/0110213。

可以连接到靶序列末端的各种类型的衔接子将在下面讨论。术语“衔接子”是指这样的核酸，其至少部分为双链且包含适合作为用于扩增相邻靶序列的引物位点的序列、由测序平台指定并位于与连接位点临近的序列的测序引物，所述连接位点具有靶序列和用于追踪核酸源同一性的单一标识符和/或用于追踪样品同一性的条码。衔接子的实例及其在测序反应中的用途可以在以下公开中找到，如US 5,888,737、US 6,013、445、US 6,060,245、US 6,175,002、US 7,741,463、US 7,803,550、US 8,029,993、US 8,288,097、US 2004/0209299、US 2007/0172839和US 2012/0238738。

然后可以将可裂解的单链发夹衔接子、双链Y衔接子、完整双链衔接子或本领域已知适于在商业DNA测序平台上进行下游测序的衔接子的任何其它形式连接到靶DNA的3’和/或5’端。发夹衔接子内的可裂解位点(一个或多个)可以是dU(一个或多个)、其它修饰的核甘酸(一个或多个)、一个或多个RNA核甘酸或以化学方法可裂解的位点(一个或多个)。这些仅作为可裂解位点的实例，其可包括在US 2012/0238738中描述的任何修饰碱基。使用发夹衔接子的优势在于，这些衔接子比本领域的其它衔接子短，并且可有效用于连接。而且，这些衔接子更抵抗残余单链外切核酸酶活性。此外，靶分子和靶分离探针到发夹衔接子的连接将靶分子共价连接至亲和结构域。在将发夹衔接子切割并使任何双链区变性之后，包含切割发夹序列上的引物位点的单链区可用于扩增靶序列。

衔接子可包括T-突出端但可以是平端的。衔接子包含具有在NGS平台表面上扩增所需的附加序列的短衔接子序列，或可提供NGS平台所需的完整3’或5’序列。

在一端或两端处的衔接子任选地包含独特的标识符(UID)或适合于在测序平台中测序的分子条码，如

(Illumina,San Diego,CA)、

(AppliedBiosystems(Carlsbad,CA)、基于纳米孔的测序仪(Oxford Nanopore,Oxford,UK)或PacBioRS II(Pacific Biosciences,Menlo Park,CA)。本文所使用的术语"独特的识符"(UID)是指与多核苷酸相结合的标签或标签的组合，其同一性(例如，标签DNA序列)可以用于区分样品中的多核苷酸。在某些实施方式中，多核苷酸上的UID用于识别多核苷酸衍生的来源。来源标识符还可称作条码。例如，核酸样品可以是衍生自不同来源的多核苷酸库(例如，衍生自不同个体、不同组织或细胞的多核苷酸，或在不同时间点分离的多核苷酸)，其中用独特的UID对各种不同来源的单多核苷酸进行标记。正因为此，UID提供了多核苷酸和其来源之间的相关性。在某些实施方式中，UID被用于独特地标记样品中的每个多核苷酸。对样品中独特UID数量的识别可以提供多少单多核苷酸存在于样品中或操作的多核苷酸样品衍生自多少原始多核苷酸的读数。本文中使用的标识符的实例包括在Brenner等人，Proc.Natl.Acad.Sci.,97:1665-1670(2000)；Church等人，Science,240:184-188(1988)；Shoemaker等人，Nature Genetics,14:450-456(1996)；和Hardenbol等人，NatureBiotechnology,21:673-678(2003)中提出的实例。

可以改变衔接子浓度、连接酶浓度、连接酶反应量、反应缓冲液、反应体积、温育时间和温育温度。此外，连接后的洗涤步骤使未连接的衔接子和衔接子二聚体的去除成为可能。

本文所使用的术语“引物”是指天然或合成的寡核苷酸，当与多核苷酸模板形成双链体时，其能够作为合成的起始点起作用并沿着模板从其3'端延伸，以便形成延伸的双链体。在延伸过程中添加的核甘酸序列是通过模板多核苷酸序列检测。通常，引物通过DNA聚合酶延伸。引物通常具有与其在引物延伸产物合成中的应用相容的长度，并且通常具有相似或相同的选自长度在8nts-100nts之间范围内大小的长度，如10nts-75nts、15nts-60nts、15nts-40nts、18nts-30nts、20nts-40nts、21nts-50nts、22nts-45nts、25nts-40nts等，更典型地在18nts-40nts、20nts-35nts、21nts-30nts长之间的范围中，以及在规定范围之间的任何长度。典型的引物可以在10nts-50nts长之间的范围，如15nts-45nts,18nts-40nts,20nts-30nts,21nts-25nts等，以及在规定范围之间的任何长度。

对于扩增中的最大效率的而言，引物通常是单链的，但可选地可以是双链的。如果是双链的，则引物通常首先在用于制备延伸产物之前进行处理以分离其链。该变性步骤通常受热的影响，但可选地可使用碱进行，然后进行中和。因此，"引物"至少具有与模板互补的3’序列，和通过氢键结合产生的复合物或与模板杂交以产生引物/模板复合物，用以开始通过聚合酶的合成，其在DNA合成的过程中通过添加在其与模板互补的3’端处连接的共价结合的碱基而延伸

与传统的PCR富集方法相比，在方法的实施方式中的引物使用导致对靶序列的更均匀扩增。在PCR富集中，每个引物对对靶序列都是特异的，而单个引物对在此用于核酸群体中的所有靶序列。

正义单链和反义链优选由结合至靶分离序列的捕获结构域固定，所述靶分离序列反过来与靶区域的3’端杂交以形成适合于连接至衔接子的双链DNA区。此时，优选通过外切核酸酶切割将在靶序列3’端外的任何3’单链DNA区去除。在靶模板的5’端杂交5’探针和去除靶区域外的外源DNA并添加5’衔接子之后，可以对核酸靶模板进行扩增和测序。

在3’衔接子和5’衔接子与靶序列共价相联时，部分双链分子的变性在两端产生具有衔接子序列的单链序列。这些衔接子序列现在充当引物位点，用于通过PCR或本领域已知的依赖于两个启始序列的其它扩增方法的DNA扩增。富集的靶DNA可以从捕获结构域洗脱出，例如，使用热、NaOH或甲酰胺，或可选地可依然与珠相联，如果这些用于捕获结构域。扩增后，可以使用珠(例如，参见

beads,Beckman Coulter(Brea,CA))或通过柱纯化(例如来自Qiagen,Valencia,CA的纯化产物)或本领域已知的其它DNA纯化方法对扩增文库进行清理。然后可以对所得文库进行定量和测序。

在靶富集之后，本文可选使用的扩增方法可包括聚合酶链反应(PCR)、反转录酶PCR(RT-PCR)、滚环扩增、实时PCR"连接酶链反应(LCR)，转录扩增，Qβ复制酶介导的RNA扩增或等温扩增法诸如转录介导的扩增、信号介导的RNA扩增技术、链置换扩增、滚环扩增、环介导等温扩增(LAMP)或依赖解旋酶的扩增中的任何一种(例如，参见Gill等人，NucleosidesNucleotides核酸Acids,27:224-43(2008)；US 5,242,794,US 5,494,810,US 4,988,617,and US 6,582,938:US 4,683,195；US 4,965,188；US 4,683,202；US 4,800,159(PCR)；US5,210,015(real-time PCR withTaqMan^TM(LifeTechnologies,CA))；US 6,174,670；日本专利公告JP 4-262799(rolling circle amplification)；Leone等人，Nucleic AcidsResearch,26:2150-2155(1998))。

下一代测序(NGS)是指具有以使用传统测序方法(例如，标准Sanger或Maxam-Gilbert测序法)所前所未有的速度对多核苷酸进行测序能力的测序技术。这些前所未有的速度是通过并行进行和读取成千上万个测序反应而实现。NGS测序平台包括但不限于下列：大规模平行标记测序(LynxTherapeutics,Hayward,CA)；454焦磷酸测序(pyrosequencing)(454Life Sciences/Roche Diagnostics,Branford,CT)；固相可逆的染料终止物测序(Solexa/Illumina,San Diego,CA)；

技术(Applied Biosystems/LifeTechnologies,Grand Isle,NY)；离子半导体测序(IonTorrent^TM,LifeTechnologies,Grand Isle,NY)；和DNA纳米球测序(Complete Genomics,Mountain View,CA)。对某些NGS平台的描述可以在以下文章中找到：Shendure等人，Nature,26:1135-1145(2008)；Mardis,Trends in Genetics,24:133-141(2007)；Su等人，Expert Rev Mol Diagn,11(3):333-43(2011)；和Zhang等人，J Genet Genomics,38(3):95-109(2011)。

上面描述的本方法的实施方式可总结如下：可通过将核酸样品分割成预定的大小范围而产生靶富集的核酸文库，例如，来自真核生物的gDNA或RNA转录成核酸群体，添加含用于结合基质的亲和标记的靶分离探针，其中靶分离探针跨越核酸片段中的靶序列，并同时(例如组合)或在不同步骤使用一个或多个3’和5’特异的核酸酶(一种或多种)或一种或多种3’外切核酸酶和任选地一种或多种5’外切核酸酶，如ExoVII，以去除非靶核酸。可将3’衔接子和任选地5’衔接子同时(例如组合)或在方法中的不同步骤添加至靶DNA的末端。然后可以进行对富集DNA的扩增和测序。条码和独特标识符序列可任选地包括在衔接子序列或探针序列中。

在另一方面，3’和5’靶探针——其中至少一个探针是包括亲和结合结构域的靶分离探针——同时(例如组合)或在不同步骤杂交，其中靶长度被两个探针限定，并且通过外切核酸酶除去单链非靶序列。可选地，特异性靶分离探针和3’外切核酸酶(一种或多种)可用于限定靶的3’端，然后在缺少5’核酸酶的情况下延伸非特异性探针，以形成靶序列的非限定5’端。

本文所述的方法的实施方式由于包括指定起始位点而优于相对于先前基于杂交的方法是有优势的，因此限定了靶序列并且不存在离靶序列(off target sequence)，在其它杂交方法中，靶序列保留在群体中的核酸内，具有非靶序列和未限定的边界。此外，两条链可以被捕获并且容许比传统杂交方法更多的靶内的AT或GC富集序列。

本实施方式与现有技术中基于PCR的方法相比优势在于，人工序列不被引入到靶的末端上。此外，本实施方式是可调整的、具有更少的扩增偏好并且允许将独特的UID添加至靶分子。UID允许对相同靶分子的PCR复制进行识别。结果，在分析过程中可以对PCR复制进行过滤，从而能够精确定量突变或转录物。

术语"试剂盒"是指实施本发明方法、用于递送物质或试剂的任何递送系统。在反应分析的情况下，这种递送系统包括允许存储、运输或递送反应试剂(例如，在合适容器中的探针、酶、衔接子、引物等)和/或支撑物质(例如，缓冲液、用于进行分析的书面指示等)从一个位置到另一个位置的系统。例如，试剂盒包括一种或多种包含相关反应试剂和/或支撑材料的封入物(例如，盒子)。这些内含物可以一起或分别被递送至预期的容器。例如，第一容器可包含用于分析的酶，而第二容器包含探针。试剂盒可以被配制用于从包含非靶序列和靶序列的核酸样品中选择并富集靶模板。试剂盒可包括含由创造者或试剂盒厂商或研究人员限定的第一亲和结合结构域的3’探针(靶分离探针)；5’探针；衔接子；引物：核酸酶；连接酶；聚合酶(一种或多种)；缓冲液；核甘酸；可去除的阻断寡核苷酸和/或与基质相结合的捕获结构域。试剂盒可进一步包括一种或多种缓冲溶液和用于产生DNA文库的标准溶液。

本文引用的所有文件通过引用明确地整体并入到本文，用于相同程度的任何目的，如同每一个单独文本具体而单独指明通过引用整体并入到本文中一样。

表1：在申请中描述了在方法的方面中使用修饰的核甘酸的实例。附图提供了可以在哪和如何使用修饰的实例，但附图并不意在限制于确定的目的。修饰的使用能够使表中描述的用途本领域是熟悉的。

实施例

下面的实施例描述了具体的温度、温育时间和缓冲液。然而，这些条件不意在被限制。本领域普通技术人员知道，在此作为用于从其中富集各种序列的起始物质所举例的人gDNA不意在被限制，也不应是pH、缓冲液和盐条件和温育时间可以改变而实现杂交或扩增的相似程度被限制于下面指定的条件。同样地，将生物素描述为亲和结构域也不意在被限制。用实施例的方式对具有具体可切割位点的具体衔接子描述如下，并且不意在被限制。步骤的顺序被描述为实施例。将理解的是，可以更改步骤的顺序。此外，可以临时添加或删除某些步骤。

实施例1：用一个靶分离探针富集测序用靶序列的方法。

遵循生产商的方案用Covaris装置将人gDNA(1μg)剪切为300bp片段(图1(1))。将剪切的DNA添加至25微升杂交反应缓冲液，所述缓冲液含20nmol长度为100个碱基并且与生物素相结合的靶分离探针，其中100个碱基序列与100nt靶序列互补(图1(2))。根据John等人，BioTechniques,44,259-264(2008)进行杂交反应。杂交后，将靶分离探针/靶DNA双链体结合至50μl亲水性链霉亲和素珠(New England Biolabs,Ipswich,MA)30分钟(图1(3))并用标准BW缓冲液(5mMTris-HCI(pH 7.5)、0.5mM EDTA、1M NaCI)洗涤。

如贯穿全文所使用的，"反应混合液"意指包含所有进行反应的必要反应剂的溶液，其可包括但不限于，在反应过程中将pH维持在所选水平的缓冲剂、酶、底物、盐、辅因子、清除剂(scavengers)等。

将珠重悬于含1×NEBuffer 4、2.5U外切核酸酶T(New England Biolabs,Ipswich,MA)和2.5U外切核酸酶I(New England Biolabs,Ipswich,MA)的50μl反应混合物中，并于37℃温育10分钟。洗涤磁珠并重悬于含30个单位的RecJf(New England Biolabs,Ipswich,MA)的50μl 1×NEBuffer 2中，并于20℃温育10分钟(图1(4))。

洗涤磁珠并重悬于50μl dA-加尾反应混合物(New England Biolabs，Ipswich，MA)中，并于37℃温育30分钟。然后洗涤磁珠并重悬于45μl的1×快速连接缓冲液(QuickLigation buffer)(New England Biolabs,Ipswich,MA)和用于Illumina的

衔接子(New England Biolabs,Ipswich,MA)中。将5μl快速T4 DNA连接酶(New EnglandBiolabs,Ipswich,MA)添加至连接混合物，并在室温下温育15分钟(图1(5))。

然后洗涤磁珠并重悬于含5μl USER^TM酶(New England Biolabs,Ipswich,MA)和用于Illumina的

引物(New England Biolabs,Ipswich,MA)的1×HotStart One

PCR Master混合物(New England Biolabs,Ipswich,MA)中。将PCR混合物于37℃温育15分钟，并使用以下PCR循环条件：95℃温育2分钟，然后进行25次循环：95℃ 30秒、60℃ 30秒和72℃ 1分钟(图1(6))。在25次循环结束时，PCR混合物于72℃温育5分钟。然后使用常规方法对从靶序列中得到的PCR产物进行测序。

实施例2：用一个靶分离探针富集测序用靶序列的方法的变化。

遵循实施例1和图1中的方案通过结合至链霉亲和素珠(1)-(3)，然后进行图2A(7)-(11)中所示的步骤。

将珠重悬于含1×NEBuffer 4、2.5U外切核酸酶T和2.5U外切核酸酶I的50μl反应混合物中，并于37℃温育10分钟(7)。

洗涤磁珠并重悬于50μl dA-加尾反应混合物中，并于37℃温育30分钟。然后洗涤珠并重悬于45μl 1×快速连接(Quick Ligation)和用于Illumina的NEBNext衔接子中。将5μl Quick T4DNA连接酶添加至连接混合物，并在室温下温育15分钟(图2A(8))。

洗涤磁珠并重悬于含20个单位的外切核酸酶VII(Epicentre,Madison,WI)的50μl1×外切核酸酶VII缓冲液中，并于30℃温育10分钟。按照生产商的方案对酶进行热失活。洗涤珠并重悬于含15U T4DNA聚合酶(New England Biolabs,Ipswich,MA)和100μM dNTP的50μl 1×NEBuffer 2中。反应于20℃温育30分钟。

然后洗涤磁珠并重悬于45μl 1×快速连接缓冲液和用于Illumina的NEBNext衔接子中。将5μl QuickT4DNA连接酶添加至连接混合物并在室温下温育15分钟(10)。

按实施例1中所述进行衔接子的USER切割和PCR扩增。

实施例3：用一个活瓣探针富集测序用靶序列的方法。

遵循实施例1中所述的方案通过使用活瓣靶分离探针连接3’衔接子(参见，图2B)。活瓣靶分离探针的特征在于单链3’区对于靶序列的5’端、内部生物素-dT、含可裂解dU的5’发夹序列、NGS平台特异性测序引物位点、文库扩增引物位点和独特的样品标识符序列(1-3,12-13)是特异的。在连接3’衔接子之后，洗涤珠并重悬于含5μl 10X BSA添加剂(Trevigen,Gaithersburg,MD)和0.5U人Fen-1(Trevigen,Gaithersburg,MD)的50μl 1×REC反应缓冲液12(Trevigen,Gaithersburg,MD)中，并于30℃温育30分钟(14)。然后洗涤珠并重悬于45μl 1×快速连接缓冲液和5μl Quick T4DNA连接酶中，并在室温下温育15分钟。

按实施例1中所述进行衔接子的USER切割和PCR扩增。

实施例4：用一个靶分离探针富集测序用靶序列的方法的变化。

遵循实施例1中的方案通过使用具有3’-双脱氧核苷酸的靶分离探针的单链3’和5’消化(图1(1)-(4)和图2C(16)-(18))。洗涤珠并重悬于45μl 1×快速连接缓冲液和10μl50μM 3’平末端发夹DNA衔接子中，并将5μl QuickT4DNA连接酶添加至连接混合物，并在室温下温育15分钟(16)。3’衔接子序列含有NGS平台特异的测序引物位点、5’磷酸盐和3’-双脱氧核苷酸。

在洗涤珠之后，使靶/探针双链体末端平端化，将dA-加尾和5’衔接子连接到靶，并使用用于Illumina的NEBNext Ultra DNA文库制备试剂盒(New England Biolabs,Ipswich,MA)对靶进行扩增，遵循用于文库制备的生产商方案而没有大小选择(17)、(18)。

实施例5：使用靶分离探针和随机寡核苷酸富集测序用靶序列的方法。

遵循生产商的方案用Covaris装置将人gDNA(1μg)剪切为500bp片段(图3(19))。使用Tiquia等人，(2004)所述的技术将剪切的DNA添加至25微升的杂交反应混合物，所述混合物含20nmol 3’靶分离探针，50个碱基长，与500bp gDNA片段内的100bp-300bp核甘酸靶序列的3’端特异性互补(图3(20))。杂交后，遵循生产商的方案将3’靶分离探针/靶DNA双链体结合至50μl亲水性链霉亲和素珠30分钟(图3(21))。

将珠重悬于含1×NEBuffer 4、2.5U外切核酸酶T和2.5μl外切核酸酶I的50μl反应混合物中，并于37℃温育10分钟(图3(22))。洗涤磁珠并重悬于50μl dA-加尾反应混合物中，并于37℃温育30分钟。然后洗涤珠并重悬于45μl 1×快速连接缓冲液和10μl含dU可裂解核酸碱基、具有3’T突出端的50μM发夹衔接子中，并将5μl QuickT4DNA连接酶添加至连接混合物，并在室温下温育15分钟(图3(23))。3’衔接子序列含有NGS平台特异的测序引物位点、文库扩增引物位点和独特的链标识符序列以及3’dT-突出端。

连接后，洗涤珠并重悬于50μl含附加的20nmol随机六聚体的1×NEBuffer 2中。将反应在95℃下加热5分钟，然后在添加15个单位Klenow(exo-)DNA聚合酶(New EnglandBiolabs,Ipswich,MA)和100μM dNTPs之前转移至冰(图3(24))。将反应于20℃温育10分钟，然后在37℃ 20分钟(图3(25))。

然后洗涤珠并重悬于45μl 1×快速连接缓冲液(New England Biolabs,Ipswich,MA)和含dU可裂解核酸碱基的5’单链发夹衔接子，并将5μl Quick T4DNA连接酶(NewEngland Biolabs,Ipswich,MA)添加至连接混合物，并在室温下温育15分钟(图3(26))。5’衔接子序列含有NGS平台特异的测序引物位点、文库扩增引物位点和用于样品识别的条码序列。

然后洗涤磁珠并重悬于含5μl USER酶和各2.5μl的与3’和5’文库扩增位点互补的10μM扩增引物的1×HotStart OneTaq PCR Master混合物中。将PCR混合物于37℃温育15分钟，并使用以下PCR循环条件：95℃ 2分钟，然后进行25次循环，95℃ 30秒、60℃ 30秒和72℃ 1分钟(图3(27))。在25次循环结束时，PCR混合物于72℃温育5分钟。然后使用常规方法对从靶序列中得到的PCR产物进行测序。

实施例6：使用靶分离探针和第二探针富集测序用靶序列的方法的变化。

遵循实施例5中所述的方案通过连接3’衔接子((19)-(23))。连接后，洗涤磁珠并重悬于50μl具有20nmol 5’靶分离探针，50个碱基长，与靶序列的5’端互补的1×外切核酸酶VII缓冲液中。通过在95℃下加热5分钟使靶分离探针退火至靶，然后缓慢冷却至30℃(图4(28))。将10U外切核酸酶VII添加至反应，并于37℃温育另外的10分钟(图4(29))。按照生产商的方案对酶进行热失活。洗涤珠并重悬于50μl含另外的20nmol 5’靶分离探针的1×NEBuffer 2(New England Biolabs,Ipswich,MA)中。将反应在95℃下加热5分钟，然后在添加15UT4DNA聚合酶(New England Biolabs,Ipswich,MA)和100μM dNTP之前缓慢冷却至30℃。将反应在20℃下温育30分钟。

在洗涤珠之后，使用具有3’-T突出端的发夹衔接子按实施例4中所述进行5’衔接子的连接、衔接子的USER切割和PCR扩增((图4(30)、(31))。

实施例7：用两种探针富集测序用靶序列的方法的变化。

遵循实施例4中所述的方案使用具有内标(internal)而不是3’生物素的3’靶分离探针通过5’外切核酸酶消化和热失活((19)-(23)，(28)-(29))。热失活后，洗涤珠并重悬于50μl含15单位Klenow(exo-)DNA聚合酶和100μM dNTP的1×NEBuffer 2中。将反应在20℃下温育10分钟，然后在37℃下温育20分钟(32)。

在洗涤珠之后，按实施例5((26)，(27))中所述进行衔接子的连接、衔接子的USER切割和PCR扩增。

实施例8：用靶分离探针和5’活瓣探针富集测序用靶序列的方法。

遵循实施例6中所述的方案通过连接3’发夹衔接子(图3(19)-(23))。在3’衔接子连接之后，洗涤珠并重悬于50μl含20nmol活瓣5’探针的1×REC反应缓冲液12中。活瓣探针由与靶5’端互补的单链3’-区和包含可裂解dU的5’发夹序列、NGS平台特异的测序引物位点、文库扩增引物位点和独特的样品标识符序列组成。通过在95℃下加热5分钟使探针退火至靶序列的5’端，然后缓慢冷却至30℃(35)。

退火后，添加5μl 10X BSA添加剂和0.5单位人Fen-1以去除5’单链区，并将反应在30℃下温育30分钟(36)。然后洗涤珠并重悬于45μl 1×快速连接缓冲液和5μl QuickT4DNA连接酶，用于修复活瓣探针第二条链和靶DNA之间的切口，并在室温下温育15分钟。

然后洗涤珠并重悬于含5μl USER酶和扩增引物的1×HotStart OneTaq PCRMaster混合物中。将PCR混合物于37℃温育15分钟，并使用以下PCR循环条件：95℃ 2分钟，然后进行25次循环：95℃ 30秒、60℃ 30秒和72℃ 1分钟(图1(6))。在25次循环结束时，PCR混合物于72℃温育5分钟(37)。然后使用常规方法对从靶序列中得到的PCR产物进行测序。

实施例9：用两种探针富集测序用靶序列的方法的变化。

遵循生产商的方案用Covaris将人gDNA(1μg)剪切为500bp片段(19)。将剪切的DNA添加至25μl杂交反应，其包含20nmol 3’靶分离探针和20nmol 5’探针、每种50个碱基长并且指定100个靶的3’和5’端(38)。杂交后，按实施例2中所述对杂交靶序列进行捕获(39)。

将珠重悬于含1×NEBuffer 4、2.5单位外切核酸酶T和2.5μl外切核酸酶I的50μl反应混合物中，并在37℃下温育10分钟。洗涤磁珠并重悬于50μl含30单位RecJf(NewEngland Biolabs,Ipswich,MA)的1×NEBuffer 2中，并在20℃下温育10分钟(图4)。

洗涤磁珠并重悬于50μl dA-加尾反应混合物中，并在37℃下温育30分钟。然后洗涤珠并重悬于45μl 1×快速连接缓冲液和用于Illumina的NEBNext衔接子。将5μl QuickT4DNA连接酶添加至连接混合物并在室温下温育15分钟。

按实施例1中所述进行衔接子的USER切割和PCR扩增(42)。

Claims

1.用于从核酸群体富集用于衔接子连接的靶序列的方法，其包括：

(a)在溶液中组合核酸群体和靶分离探针，其中所述靶分离探针包括亲和结合结构域；

(b)允许所述靶分离探针的单链区与所述核酸群体中的靶序列的全部或部分杂交；

(c)通过将所述靶分离探针与捕获结构域结合并去除非结合物质从包含所述靶序列的所述群体中选择性地固定(b)的杂交的核酸而富集所述靶序列；

(d)通过一种或多种3’单链特异性外切核酸酶从(c)的所述固定的靶序列的3’端去除非靶序列以允许在所述靶序列的指定读取起始位点形成平端；和

(e)将衔接子的5’端连接到所述靶序列的3’端。

2.根据权利要求1所述的方法，其中在所述群体中所述核酸中的一些或全部包含重复序列，并且其中(a)进一步包括将与所述重复序列杂交的可去除阻断寡核苷酸与所述核酸群体组合。

3.根据权利要求2所述的方法，其中(d)进一步包括选择性地降解所述可去除阻断寡核苷酸。

4.根据权利要求1所述的方法，其中在(b)中所述靶分离探针的所述单链区与所述靶序列的第一部分杂交。

5.根据权利要求4所述的方法，其中所述靶分离探针的末端与在所述靶序列的3’端或5’端处或接近所述靶序列的3’端或5’端的序列形成双链体。

6.根据权利要求4所述的方法，在(b)之后进一步包括：允许第二探针的单链区与所述靶序列的第二部分杂交。

7.根据权利要求6所述的方法，其中所述第二探针与临近、接近或远离所述靶分离探针的所述靶序列的部分杂交。

8.根据权利要求7所述的方法，其中所述第二探针的末端与在所述靶序列的5’端或3’端或接近所述靶序列的5’端或3’端但不是两者处的序列形成双链体。

9.根据权利要求8所述的方法，其中所述靶分离探针在所述靶序列的一端杂交，并且所述第二探针与所述靶序列的相对端杂交，使得所述靶分离探针和所述第二探针的杂交限定所述靶序列的末端。

10.根据权利要求4所述的方法，其中所述亲和结合结构域位于所述靶分离探针的3’端。

11.根据权利要求4所述的方法，其中所述亲和结合结构域位于所述靶分离探针的3’端和5’端之间。

12.根据权利要求6所述的方法，其中所述靶分离探针或位于所述靶序列5’部分的所述第二探针是活瓣探针，所述活瓣探针具有杂交单链区和从所述单链区3’端延伸的非杂交双链区。

13.根据权利要求1所述的方法，进一步包括(f)通过一种或多种5’单链特异性外切核酸酶从所述靶序列的5’端去除非靶序列。

14.根据权利要求12所述的方法，其中所述非杂交双链区包括3’-5’寡核苷酸或与自身杂交的探针中的一部分，以形成发夹序列，并且其中所述方法进一步包括在所述靶分离探针或所述第二探针与所述靶序列杂交之后将所述3’-5’寡核苷酸或发夹序列连接到所述靶分子的5’端。

15.根据权利要求13所述的方法，其进一步包括步骤(g)：将衔接子的3’端连接到所述靶序列的5’端。

16.根据权利要求13所述的方法，其进一步包括通过聚合酶延伸所述靶分离序列的3’端，以在5’单链特异性外切核酸酶消化后取代所述5’探针。

17.根据权利要求15所述的方法，其中所述方法进一步包括(h)：测定所述靶序列。

18.根据权利要求17所述的方法，其中所述方法进一步包括(i)：检测所述靶序列中的突变，但是仅从通过富集靶序列检测突变不诊断疾病。

19.根据权利要求18所述的方法，其中所述突变是核甘酸多态性。

20.根据权利要求18所述的方法，其中所述突变选自插入或缺失。

21.根据权利要求20所述的方法，其包括：将所述靶序列中的突变与有机体表型中的变异相关联。

22.根据权利要求1所述的方法，其中所述靶分离探针的所述单链区与所述靶序列3’端和5’端杂交。

23.根据权利要求22所述的方法，其中所述亲和结合结构域与在所述靶分离探针的3’端或5’端之间但不是在其3’端或5’端处的所述靶分离探针结合。

24.根据权利要求22所述的方法，其进一步包括(f)通过一种或多种5’单链特异性外切核酸酶从所述靶序列的5’端去除非靶序列。

25.根据权利要求1所述的方法，其中所述靶分离探针是活瓣探针，所述活瓣探针具有从所述单链区的3’端延伸的非杂交双链区。

26.根据权利要求24所述的方法，其中(f)进一步包括将衔接子分子连接到所述靶序列的5’端。

27.根据权利要求1或26所述的方法，其中用于连接到所述靶分子的3’端或用于连接到所述靶序列的5’端的所述衔接子包括测序引物位点、文库扩增引物位点、独特样品标识符和独特分子标识符序列中的至少一种。

28.分析动物或植物的提取物的方法：包括

(i)从所述提取物中获得核酸样品；

(ii)根据权利要求1富集靶序列；和

(iii)获得富集的靶分子的核甘酸序列，

其中所述方法不用于疾病的诊断。

29.根据权利要求28所述的方法，其中(iii)中获得的所述核甘酸序列在所述3’端处包括少于5个非靶核甘酸，或者其中(iii)中获得的所述核甘酸序列占所述靶序列的至少90％。

30.根据权利要求28或29所述的方法，其中(ii)进一步包括在步骤(ii)和(iii)之间扩增所述富集的靶序列。

31.根据权利要求28或29所述的方法，进一步包括使所述富集的靶分子或所述富集的扩增的靶分子的所述核苷酸序列的特征与原核生物或真核生物的表型相关联。

32.根据权利要求30所述的方法，进一步包括使所述富集的靶分子或所述富集的扩增的靶分子的所述核苷酸序列的特征与原核生物或真核生物的表型相关联。