CN105980574A

CN105980574A - 使用专门捕获探针(heatseq)的序列捕获方法

Info

Publication number: CN105980574A
Application number: CN201480043472.3A
Authority: CN
Inventors: T.艾伯特; J.诺顿; J.帕特尔; D.布格斯; V.莱米切夫; M.布罗克曼
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2013-08-02
Filing date: 2014-07-31
Publication date: 2016-09-28
Also published as: CA2917782A1; JP6374964B2; WO2015014962A1; EP3027766A1; JP2016525363A; US20150141257A1

Abstract

本发明是用于大量平行生产改进的MIP的新方法。对MIP的分子改进涵盖探针的制备、工作流、意味着样品特异性的独特序列元件的添加、和独特地鉴别存在于最初样品群体中的特定分子的序列标签。最后，本发明还与克服了基因座呈现和等位基因偏差二者的问题的经验优化策略组合。该改进的技术是可缩放的，且可以用于将包含单个基因座的扩增子的靶标扩大至靶向超过100万基因座。

Description

使用专门捕获探针(HEATSEQ)的序列捕获方法

背景技术

本发明涉及用于捕获基因组或复杂DNA样品的目标区域以实现在所述目标区域内发现的遗传多态性的有效测试和/或检测的方法的领域。有效地捕获基因组的目标区域的方法可以实现与疾病或其它性状有关的遗传多态性或其它特性的快速的测序介导的发现和检测。目前，利用双链连接物连接的测序文库作为靶标捕获的输入的基于杂交的技术是耗时的和资源集中的。传统的实现靶标捕获的基于分子倒置探针(MIP)的方法可以缩减测序之前的工作流时间，但是由于基因座扩增/呈现偏差、等位基因偏差和与特定测序平台关联的系统伪像（systematic artifact）而受到限制。

发明概述

本发明是用于大量平行生产改进的MIP的新方案。对MIP的分子改进涵盖探针的制备、工作流、意味着样品特异性的独特序列元件的添加、和独特地鉴别存在于最初样品群体中的特定分子的序列标签。最后，本发明还与克服了基因座呈现和等位基因偏差二者的问题的经验优化策略组合。该改进的技术是可缩放的，且可以用于将包含单个基因座的扩增子的靶标扩大至靶向超过100万基因座。

附图说明

通过结合附图参考本公开内容的实施方案的以下描述，本公开内容的特征和实现它们的方式将变得更明显，并且将更好地理解公开内容本身。

图1的示意图描述了MIP前体、扩增的MIP前体和扩增产物的限制酶切消化。

图2是酶消化产物的琼脂糖凝胶纯化。

图3描绘了与基因组DNA的目标链杂交的70-merMIP探针和所述MIP探针的延伸/连接。

图4是延伸/连接(即，具有“捕获的”产物)以后MIP探针的凝胶纯化。

图5的图显示了具有20-mer靶区域的探针的熔点范围和具有可变长度靶区域的探针的熔点范围(平衡过Tm的)。

图6的图显示了固定长度探针(插图)和平衡过Tm的可变长度探针(主图)的序列覆盖。

图7的示意图描述了具有UID的MIP前体、所述MIP前体的扩增、扩增产物的切割和在序列捕获过程中使用的封闭寡核苷酸。

图8描绘了具有UID序列的MIP探针与DNA靶标的杂交和MIP探针的环化。

图9显示了延伸/连接以后MIP探针的凝胶纯化。

图10描绘了UID序列的用途。

图11的示意图描绘了MIP探针的合成。

图12 (12A和12B)是使用MIP探针的工作流的描绘。

图13描绘了样品索引(MID)用于鉴别样品来源的用途。

图14描绘了UID序列用于事件计数的用途。

图15显示了来自一个探针的UID标签的分布。

图16证实了探针重新平衡的结果。

尽管附图代表本公开内容的实施方案，但是附图不一定按比例绘制，并且可以放大某些特征以便更好地图解和解释本公开内容。本文中阐述的例证以一种形式说明了本公开内容的一个示例性实施方案，并且这样的例证不应解释为以任何方式限制本公开内容的范围。

发明详述

传统上，分子倒置探针(MIP)是在它们的末端处或附近具有与单链靶核苷酸序列的两个单独部分特异性地互补的区域的单链核酸探针。所述探针“倒置”，因为它们基本上呈现圆形构型，使得末端靶标特异性的部分与靶序列适当地对齐且互补，或相反，所述靶标“倒置”以便允许靶区域和靶标特异性的部分之间的相同相互作用。本发明提供了通过提供有用序列用于分析数据而对MIP的改进、用于制备这样的MIP的改进的合成方法、和用于优化MIP探针库的有用方法。

本发明包括用于减小核酸样品的复杂性的核酸捕获探针集合，其中所述集合中的每个探针含有：第一末端序列，其与存在于复杂样品中的第一靶序列特异性地杂交；第二末端序列，其与存在于复杂样品中的第二靶序列特异性地杂交，其中所述第一靶序列和第二靶序列都位于相同靶链上；和连接所述第一末端序列和所述第二末端序列的接头序列，所述接头序列含有唯一标识符（Unique Identifier (UID)）序列，其中所述UID是随机地产生的标签序列，其在探针形成过程中通过随机核苷酸合成针对探针集合中的每个单个探针产生。

本发明包括MIP探针，其具有改进的用于确定等位基因偏差、基因座扩增/呈现偏差和与特定测序平台关联的系统伪像的特征。此外，本发明还包括使用阵列作为制备MIP探针的模板来制备这样的改进的MIP探针的某些方法。在一些实施方案中，使用阵列作为MIP探针的模板来制备MIP探针。在某些实施方案中，本发明包括用无掩膜阵列合成（Maskless Array Synthesis (MAS)）制备MIP探针(参见Singh-Gasson等人, Nature Biotechnology, 17: 974-978, 1999，在此通过引用并入)。

在一些实施方案中，使用用于优化探针设计的方法设计MIP探针。在某些实施方案中，使用探针再分布来设计探针库。通过在合成过程中增加或降低特定探针的相对浓度（通过在阵列表面上合成相同探针的多个副本）来执行探针再分布。在一些实施方案中，使用探针长度优化来设计探针库中的探针。在一些实施方案中，使用探针动力学优化来设计探针，例如使用Tm (熔化温度)来确定最佳探针设计。

在一些实施方案中，所述MIP探针含有分子ID标签(MID)。这样的MID基本上是用于鉴别捕获核酸来源的样品的目的的“条形码”核酸序列。因而，所述MID序列允许通过样品特异性的标识符来鉴别原始样品，其中来自特定样品的每个捕获序列共有一个共同的条形码序列。可以以许多不同的方式将MID序列加给样品，所述方式包括与含有MID序列的衔接子序列连接，或通过使用含有MID序列的引物扩增。

在某些实施方案中，所述MID条形码不存在于MIP探针中，直到所述引物使用含有引物位点和含有MID条形码的单独位点复制和延伸探针之后。在一些实施方案中，没有添加所述MID条形码，直到所述MIP探针已经与靶序列接触以后。当MIP探针(没有MID条形码)接触它的靶序列且特异性地杂交时，发生该实施方案的一个例子。通过延伸和连接，使所述MIP探针环化（circularized），然后使用具有另外MID条形码序列的引物复制/扩增环化的MIP探针。

本发明包括用于降低核酸样品的复杂性的核酸捕获探针集合，其中所述集合中的每个探针。所述探针包含：第一末端序列，其与存在于复杂样品中的第一靶序列特异性地杂交，和第二末端序列，其与存在于复杂样品中的第二靶序列特异性地杂交。在该实施方案中，所述第一靶序列和第二靶序列都位于相同靶链上。所述探针还具有连接所述第一末端序列和所述第二末端序列的接头序列，所述接头序列包含唯一标识符(UID)序列。所述UID是随机地产生的标签序列，其在探针形成过程中通过化学衍生的随机核苷酸合成针对探针集合中的每个单个探针产生。

在某些实施方案中，所述探针进一步包含MID条形码，其中为特定核酸样品使用的探针都含有相同的MID条形码序列。以此方式，可以追踪得自特定样品的所有结果。

本发明的某些实施方案也涉及包括以下的方法：a)在阵列上合成MIP前体，其中所述前体包含一个或多个引物、一个或多个限制位点以及在MIP前体的一个末端附近的第一末端靶序列和在相对末端附近的第二末端靶序列；b)在溶液中扩增MIP前体；c)收集所述溶液；和d)使用一种或多种限制性酶消化扩增的前体以形成MIP探针。在某些实施方案中，所述MIP前体进一步包含唯一标识符(UID)序列。

本发明的某些实施方案也涉及这样的方法，其中改变第一末端靶序列和/或第二末端靶序列的长度，以便紧密地接近或匹配两个靶序列的熔化温度。熔点温度的这种匹配会增加MIP探针库的序列覆盖。

在一个实施方案中，在有封闭寡核苷酸存在下执行所述杂交步骤，所述封闭寡核苷酸被设计成阻止MIP探针与MIP前体或其扩增产物的元件重新杂交。

将使用切口酶(或其它对于该过程有用的酶，诸如可以建立链断裂的酶，例如，UDG/UNG)从MIP前体产生的MIP探针用于由区域X和Y限定的区域的靶向捕获。MIP是带切口的，但是是双链的，使得当在杂交步骤中变性时，将从双链MIP释放有活性的单链MIP。为了阻止该单链有活性的MIP与它的补体重新杂交从而形成原始双链MIP，加入30-mer封闭寡物(300-24-1)。由于以较高摩尔过量加入，该寡物(300-24-1)将优先杂交双链MIP盒，从而阻止以前释放的有活性的单链MIP形成双链体。所述有活性的单链MIP现在可用于后续延伸+连接反应中的靶向捕获，所述反应将产生环状MIP。

本发明还包括这样的实施方案，其中如下使用MIP探针来鉴别靶序列的某些部分：a)使MIP探针与核酸样品杂交；b)用聚合酶环化MIP探针，使得所述核酸样品的一部分被复制并掺入环化的MIP探针中；c)使用核酸外切酶基本上消化直链核酸；和d)确定所述MIP探针的序列。测序后，可以将UID序列(如果用在特定实施方案中)用于确定任何UID序列是否相对于预期的结果过表达或低表达。

在本发明的方法的一个实施方案中，使用无掩膜阵列合成进行阵列合成。MAS具有是核酸合成的经济的且高度灵活的平台的优点，且因此MAS的应用可以比其它合成方法更有利。

在本发明的某些实施方案中，探针选择可能仅需要一个探针进行单个外显子的覆盖，例如，在靶向的外显子较小(通常小于150碱基对)的情况下。在其它实施方案中，探针选择将需要多个探针来覆盖较大靶标，诸如较大外显子，并且将使用测序步骤来确定靶向的重叠序列和组装所述靶序列。在一些实施方案中，靶向大区域和小区域二者，因而需要两个方法的混合物。

在本发明公开内容中，某些术语具有在以下段落中描述的含义。

术语”一个”、“一种”和“所述”通常包括复数指示物，除非上下文另外清楚地指出。

术语“扩增”通常表示从靶核酸生产多个核酸分子，其中引物与靶核酸分子上的特定位点杂交，从而提供通过聚合酶延伸的起始位点。可以通过本领域普遍已知的任意方法进行扩增，所述方法例如但不限于：标准PCR、长PCR、热启动PCR、qPCR、RT-PCR和等温扩增。本文中使用的术语“扩增”通常表示从靶核酸生产多个核酸分子，其中至少一个引物与靶核酸分子上的特定位点杂交，从而提供通过聚合酶延伸的起始位点。可以通过本领域普遍已知的任意方法进行扩增，所述方法例如但不限于：标准PCR、长PCR、热启动PCR、qPCR、RT-PCR和等温扩增。其它扩增反应尤其包括连接酶链式反应、聚合酶连接酶链式反应、Gap-LCR、修复链式反应、3SR、NASBA、链置换扩增(SDA)、转录介导的扩增(TMA)和Qb-扩增。

术语“互补”通常表示在适当的温度和离子缓冲液条件下，在两个核苷酸的碱基之间形成有利的热力学稳定性和特异性配对的能力。该配对依赖于每个核苷酸的氢键合性能。这方面的最基本的例子是胸腺嘧啶/腺嘌呤和胞嘧啶/鸟嘌呤碱基之间的氢键对。在本发明中，用于扩增靶核酸的引物可以在它们的整个长度上与靶核酸分子完全互补，或是“半互补的”，其中所述引物含有最低限度地能够或不能与靶核酸杂交的额外非互补序列。

本文中使用的术语“检测”涉及一种定性测试，其目的在于评估靶核酸在样品中的存在或不存在。

本文中使用的术语“富集”涉及处理包含靶核酸的样品的任何方法，其允许将靶核酸与存在于样品中的其它材料的至少一部分分离。因而，“富集”可以理解为与其它材料相比更高量的靶核酸的生产。

术语“过量”通常表示与另一种试剂相比，量或浓度更大的某一种或多种试剂。

术语“杂交”通常表示与它们的核苷酸序列一致的不同核酸分子之间的碱基配对。术语“杂交”和“退火”可以互换使用。

术语“核酸”或“多核苷酸”可以互换使用，且表示可以与核糖核酸(RNA)或脱氧核糖核酸(DNA)聚合物对应的聚合物，或其类似物。这包括核苷酸（诸如RNA和DNA）的聚合物，以及它们的合成形式、修饰(例如，化学修饰或生化修饰)形式，和混合的聚合物(例如，包括RNA和DNA亚基两者)。示例性修饰包括甲基化、用类似物置换一个或多个天然存在的核苷酸、核苷酸间修饰诸如不带电荷的键(例如，膦酸甲酯、磷酸三酯、氨基磷酸酯（phosphoamidate）、氨基甲酸酯等)、单键延伸的部分(例如，多肽)、嵌入剂(例如，吖啶、补骨脂素等)、螯合剂、烷基化剂和经修饰的键(例如，α端基异构的核酸等)。也包括合成的分子，其在它们的通过氢键合和其它化学相互作用结合指定序列的能力方面模仿多核苷酸。通常，经由磷酸二酯键连接核苷酸单体，尽管合成形式的核酸可以包含其它键(例如，如在Nielsen等人(Science 254:1497-1500, 1991)中所述的肽核酸)。核酸可以是或可以包括，例如，染色体或染色体段、载体(例如，表达载体)、表达盒、裸露DNA或RNA聚合物、聚合酶链式反应(PCR)的产物、寡核苷酸、探针和引物。核酸可以是，例如，单链的、双链的、或三链的，且不限于任何特定长度。除非另有说明，除了明确地指出的任何序列以外，特定核酸序列包含或编码互补序列。

除了表示天然存在的核糖核苷酸或脱氧核糖核苷酸单体以外，术语“核苷酸”在本文中应当理解为表示其有关的结构变体，包括衍生物和类似物，它们就在其中使用所述核苷酸(例如，与互补碱基杂交)的特定背景而言在功能上等同，除非上下文另外清楚地指出。

术语“寡核苷酸”表示包括至少两个核酸单体单元(例如，核苷酸)的核酸。寡核苷酸通常包括约6至约175个核酸单体单元，更通常地约8至约100个核酸单体单元，且还更通常地约10至约50个核酸单体单元(例如，约15个、约20个、约25个、约30个、约35个或更多个核酸单体单元)。寡核苷酸的确切大小取决于许多因素，包括寡核苷酸的最终功能或用途。任选地通过任意合适的方法制备寡核苷酸，所述方法包括、但不限于，现有或天然序列的分离、DNA复制或扩增、倒置录、适当序列的克隆和限制酶切消化、或通过以下方法的直接化学合成：诸如Narang等人的磷酸三酯方法(Meth. Enzymol. 68:90-99, 1979)；Brown等人的磷酸二酯方法(Meth. Enzymol. 68:109-151, 1979)；Beaucage等人的二乙基氨基亚磷酸酯方法(Tetrahedron Lett. 22:1859-1862, 1981)；Matteucci等人的三酯方法(J. Am. Chem. Soc. 103:3185-3191, 1981)；自动化合成方法；在Singh-Gasson等人, Nature Biotechnology, 17: 974-978, 1999中公开的无掩膜阵列合成，或美国专利号4,458,066的固体支持方法，或本领域技术人员已知的其它方法。

术语“引物”表示这样的多核苷酸：当置于在其中起始多核苷酸延伸的条件下(例如，在包括存在于适当缓冲液中的必要核苷三磷酸(由要拷贝的模板决定)和聚合酶和在合适温度或温度循环(例如，在聚合酶链式反应中)的条件下)时，其能够充当模板指导的核酸合成的起始点。为了进一步解释，引物还可以用在多种其它的寡核苷酸介导的合成方法中，包括作为从头RNA合成和体外转录相关的过程(例如，基于核酸序列的扩增(NASBA)、转录介导的扩增(TMA)等)的引发剂。引物通常是单链寡核苷酸(例如，寡脱氧核糖核苷酸)。引物的适当长度取决于引物的预期用途，但是通常在6-40个核苷酸范围内，更通常地在15-35个核苷酸范围内。短引物分子通常需要更冷的温度以与模板形成充分稳定的杂交复合物。引物不需要反映模板的确切序列，但是必须充分互补以与模板杂交从而发生引物延伸。在某些实施方案中，术语“引物对”是指引物的集合，其包括与要扩增的核酸序列的5' 末端的补体杂交的5' 同义引物(有时称作“正向”)和与要扩增的序列的3' 末端杂交的3' 反义引物(有时称作“反向”) (例如，如果靶序列被表达为RNA或是RNA)。如果需要的话，通过掺入可通过光谱方式、光化学方式、生化方式、免疫化学方式或化学方式检测的标记，可以标记引物。例如，有用的标记包括32P、荧光染料、电子密度试剂、酶(如在ELISA测定中常用的)、生物素或可得到其抗血清或单克隆抗体的半抗原和蛋白。

在本发明意义上，核酸的“纯化”、“分离”或“提取”涉及以下：在可以例如通过扩增在诊断测定中分析核酸之前，所述核酸通常必须从含有不同组分的复杂混合物的生物样品中纯化、分离或提取。对于第一步，可以使用允许富集核酸的方法。本文描述了这样的富集方法。

本文中使用的术语“定量”涉及存在于样品中的靶核酸的量或浓度的确定。

“靶核酸”在本文中用于表示要分析的样品中的核酸，即要确定所述核酸在样品中的存在、不存在、核酸序列和/或其量。靶核酸可以是基因组序列，例如特定基因、RNA、cDNA或任意其它形式的核酸序列的一部分。在一些实施方案中，所述靶核酸可以是病毒或微生物。

术语“靶核酸”和“靶分子”可以互换使用，且表示是扩增反应的对象的核酸分子，其可以任选地通过测序反应来探究以便导出它的序列信息。

术语“靶标特异性区域”或“目标区域”可以互换使用，且表示具有科学兴趣的特定核酸分子的区域。这些区域通常具有至少部分地已知的序列，以便设计用在扩增反应中的侧接一个或多个目标区域的引物，并由此回收含有这些目标区域的靶核酸扩增子。

术语“热稳定的聚合酶”表示这样的酶：其是对热稳定的，是热抗性的，且保留足够的活性以实现随后的多核苷酸延伸反应，并且当遭受高温持续实现双链核酸的变性所需的时间时不会变得不可逆地变性(灭活)。核酸变性所需的加热条件是本领域众所周知的，且在例如美国专利号4,683,202、4,683,195和4,965,188中举例说明。本文中使用的热稳定的聚合酶适合用在温度循环反应诸如聚合酶链式反应(“PCR”)中。用于本文中的目的的不可逆变性表示酶活性的持久的且完全的丧失。对于热稳定的聚合酶，酶活性表示以适当方式催化核苷酸的组合，以形成与模板核酸链互补的多核苷酸延伸产物。得自嗜热细菌的热稳定的DNA聚合酶包括，例如，得自海栖热袍菌（Thermotoga maritima）、水生栖热菌（Thermus aquaticus）、嗜热栖热菌（Thermus thermophilus）、黄栖热菌（Thermus flavus）、丝状栖热菌（Thermus filiformis）、栖热菌属种（Thermus species）Sps17、栖热菌属种Z05、Thermus caldophilus、热坚芽孢杆菌（Bacillus caldotenax）、那不勒斯栖热袍菌（Thermotoga neopolitana）和非洲栖热腔菌（Thermosipho africanus）的DNA聚合酶。

术语“无掩膜阵列合成”(MAS)表示在没有物理掩蔽物存在下在作为阵列的衬底的表面上光指导的寡核苷酸合成，诸如Singh-Gasson等人, Nature Biotech, 17: 974-978 (Oct. 1999)所述的方法，其教导在此通过引用并入。简而言之，MAS技术通常使用由微镜组成的数字微阵列镜装置(DMD)来形成虚拟掩蔽物。这些镜可个别地寻址，且可以用于在宽波长范围内建立任何给定的模式或图像。DMD在衬底的表面上形成图像，其中所述衬底含有被光活化的化学部分。然后用含有给定核苷酸的溶液洗涤衬底的表面并结合至活化的区域。所述溶液中的核苷酸被光不稳定的保护基光保护。在第二轮合成中，DMD在选定的衬底区域上形成第二个图像，由此选择性地活化那些区域中的衬底，并用第二种给定的核苷酸(还被光保护)在衬底上洗涤。该第二种核苷酸结合至在第二轮照射中已经被活化的那些区域。因而，可以将选择的核苷酸加入选择的区域，从而允许在没有掩蔽物存在下通过光指导的合成来合成寡核苷酸阵列。将该过程重复多次，以便在逐个单体基础上构建寡核苷酸序列。

其它构建阵列的方法也可以用在本发明中，诸如铬掩蔽物的应用或寡核苷酸在阵列上的点滴（spotting）。当用在本发明中时MAS会提供改进的灵活性和简单性，但是形成阵列的其它方式同样是有用的。除了MAS以外，可以用在本发明中的合成系统的例子是Affymetrix、Oxford Gene Technologies和Agilent使用的那些众所周知的方法。

本发明涉及在阵列表面上合成MIP前体分子，然后在溶液中扩增那些MIP前体，然后可以在所述溶液中执行其它制备步骤。在某些实施方案中，通过扩增系统诸如PCR，扩增所述MIP前体。在这样的实施方案中，通常合成MIP前体，使得它们含有可用于这样的以后扩增步骤的引物位点。

在本发明的某些方面，在阵列上制备探针，使得它们含有UID区域。UID区域是单个探针独有的探针区段，且基于存在的特定UID序列可以鉴别探针。可以以几种不同的方式设计UID序列，所述方式包括：预先计划要用于探针的特定UID序列，通过计算机或其它方式随机产生UID序列并随后合成探针以将UID序列掺入探针中，或化学衍生的随机合成。“化学衍生的随机合成”是指，将几种核苷酸混合，并在探针合成过程中同时暴露于合成表面，并允许随机地形成序列，而没有预先计划或先前随机序列确定。在一个实施方案中，将可用于光指导的合成(例如，掩蔽阵列或无掩膜阵列合成)的所有四种常见核苷酸(A、C、T、G)的混合物混合，并在几个连续的合成循环中加入，并允许随机地结合至表面或阵列的光活化的部分。在该实施方案中，在没有预先计划序列的情况下，A、C、T或G的次序将是随机的。化学衍生的随机合成会提供使探针生产方法流线化的优点，因为没有步骤被加入工作流中以预先计划序列。

实施例

实施例 1: MIP探针库生产和纯化

在图1中详述了将MIP-前体转化成MIP的方案。图1A显示了关于MIP-前体分子的一个实施例。在该实施例中，如下形成MIP前体：在MAS单元上合成，使得所述前体在阵列表面上形成。在该实施例中的MIP前体分子在5’和3’末端上含有两个15 mer引物位点。在末端引物位点附近有两个是靶标特异性区域的20 mer位点X20和Y20，它们与作为样品中的特定靶区域的边框的特定位点互补。在X20和Y20之间是接头区域，在该情况下，是30 mer序列，其将两个靶标特异性的序列连接在一起。

然后使用两种引物对MIP前体进行扩增，在该情况下，所述引物显示在图1B中。存在正向引物和反向引物两者。正向引物含有与在MIP前体分子的5’末端段上所见相同的序列，而反向引物含有与在MIP前体的3’末端处的序列互补的序列，如在图1B中所示。因而，在第一个扩增步骤中，反向引物与MIP前体杂交并延伸，从而提供正向引物可以在以后扩增步骤中与其结合的互补序列。在本实施例中，将具有入口和出口的腔室(Grace Bio-Lab, 部件05876702001或05871158001)附着于MIP-前体阵列，从而形成在其中进行扩增的腔室，所述扩增使用MIP-前体分子作为扩增模板。使用Slide Griddle Adaptor (BioRad, SGP0196)在热循环仪中进行所述扩增。制备含有以下组分的原位PCR主混合物:

。

将含有主混合物的试管放在95℃加热块中保持5分钟以脱气。将HotStartTaq酶(11 uL [5U/ul])加入混合物中并开始扩增方案。在该实施例中，在涉及的步骤中使用的方案如下：1)加热阵列至97℃/15 min，在该时间结束时将1 mL PCR混合物加载进腔室中，将加载孔密封，除去任何气泡，并将第二个孔密封；2)通过100℃/1 min、48℃/1.5 min、78℃/1 min的加热步骤，将腔室循环30次；3)将腔室保持在72℃/15 min；和4)作为最终的步骤，将腔室冷却至4℃。

扩增以后，除去一个密封件，并从腔室取出液体和使用Qiaquick PCR纯化试剂盒(Qiagen)根据说明书进行纯化。纯化以后，使用光密度测量来确定纯化的MIP-前体的浓度。在所述过程的该时点，MIP前体已经被扩增且呈双链形式，如在图1C中证实的。

进行MIP前体的进一步加工。具体地，使用两种切割限制性酶，进一步消化双链前体分子。具体地，用在100µl 1X NeB2中的5µl Nt.Alw1 (10 U/µl, New England Biolabs)在37℃消化5µg (21.3µl) PCR产物3小时。将产物在2%琼脂糖溴化乙锭凝胶上泳动。该最初消化以后，将产物用5µl Nb.BsrD1 (10U/µl, New England Biolabs)在65℃进一步消化6小时，随后在80℃消化20分钟。温育时间可以几乎确定地变化，使用的酶、浓度、反应条件等也是如此。消化反应结束后，用Qiagen核苷酸除去试剂盒纯化样品。使用30µl标准洗脱缓冲液进行洗脱。确定DNA浓度(106 ng/µl)，并将样品在4%琼脂糖凝胶上泳动，如在图2中所示。

凝胶的泳道1（显示在图2中）含有0.5µl 25碱基对梯度分子量标准品。在泳道2中，泳动0.7µl 235 ng/µl PCR产物(即，在扩增以后、但是在限制性酶消化以前的产物)。泳道3显示了当泳动3µl 2-酶消化物时的凝胶产物。因此，泳道3含有用于与样品杂交的最终MIP探针库。

实施例 2 ：MIP探针库用于捕获目标区域的用途

来自上面实施例1的方案会产生可用于与基因组DNA杂交的70-merMIP。为了这些实施例的目的，将该集合命名为MIP480混合物。还容易认识到，可以制备这样的MIP用于与其它形式的核酸靶标（包括cDNA、RNA等）一起使用。在图3中描绘了杂交和延伸步骤，其中使MIP探针与基因组DNA接触。

在本实施例中，使用大约750 ng hgDNA或2.25 x 105个hgDNA拷贝。保持MIP:基因组等同物比率为大约100:1，每个探针(500 pg = 0.5 ng MIP480混合物)使用1 pg。这些MIP计算假定仅存在70个核苷酸MIP片段。对于杂交反应，使用下述试剂：

试剂	体积
		263 ng/µl基因组DNA (女性, Promega)	3µl 790 ng
10X Ampligase缓冲液	2.5µl
		10 uM封闭寡物300-24-1 (300-20-3，在第一个设计中)	1µl
1 ng/µl MIP480 70-核苷酸	0.5µl
		加水至25µl	18µl
矿物油	30µl

作为对照，用H2O替换gDNA。在95℃变性10 min，在60℃温育36 h。

然后将捕获的DNA序列(在该情况下，外显子)环化。制备10µl连接酶和聚合酶的混合物，并加入每个25µl捕获反应物中。连接酶/聚合酶混合物具有下述试剂:

试剂	体积
		10X ampligase缓冲液	1µl (1X)
5 U/µl ampligase	1.75µl (0.25 U/µl)
		2 U/µl Phusion聚合酶(NEB)	0.7µl (0.04 U/µl)
25 mM dNTP	0.2µl (143µM)
		100X NAD	0.35µl (1X)
5M 甜菜碱	2.6µl (0.375 M)
		水	3.4µl

将共计10µl加入25µl捕获反应物中，在60℃温育24小时。延伸/环化步骤描绘在图3中。

用下述试剂(都得自New England Biosciences)制备核酸外切酶的混合物：

试剂	体积
		Exo I	8.75µl (20 U/µl)
Exo III	9µl (100 U/µl)
		Exo T7	20µl (10 U/µl)
Exo T	4µl (5 U/µl)
		RecJf	5µl (30 U/µl)
Lambda exo	2µl (5 U/µl)

为了除去线性DNA，将2 ul核酸外切酶混合物加入每个35 ul ampligase反应物中。将样品在37℃温育1小时，在80℃温育10 min，和在95℃温育5 min。

除去线性DNA以后，将剩余的产物在25 ul反应物中进行PCR扩增和纯化。对于该PCR扩增(倒置PCR)，使用下述试剂：

试剂	体积
		5X Phusion GC缓冲液	5µl (1X)
5µM MIP PCR引物300-24-2	2.5µl (500nM)
		5µM多重引物, Index 1 300-24-3	2.5µl (500 nM)
10 mM dNTP (Promega)	0.5µl (200 nM)
		样品(延伸/连接/外切循环)	2.5µl
2 U/µl Phusion聚合酶	0.125µl (0.02 U/µl)
		水	12.5µl

在该反应中，多重引物含有用于样品鉴别的MID序列。对于PCR扩增，将反应物在98℃保持30分钟，然后循环30次(98℃保持10分钟/60℃保持30分钟/72℃保持1 min)，然后在72℃保持2 min。在4%琼脂糖凝胶中分析PCR产物(图4)。在图4中，泳道1含有在20 ul TE中的5 ul gDNA MIP捕获PCR产物，泳道2含有对照物(水替换gDNA)，泳道3含有0.5 ul 25碱基对梯度物。将来自泳道1的DNA浓度测量为23.5 ng/ul或130 nM。然后可以将该扩增和纯化产物用于测序，例如使用Illumina TruSeq测序。

实施例 3 ：用经平衡的熔化温度(Tm)使用474个具有X和Y的可变长度(20-30个核苷酸)的MIP进行外显子捕获的MIP方案.

在该实施例中，利用的MIP探针具有可变的X和Y区域长度，在20-30个核苷酸之间。在该实施方案中，使用标准公式计算Tm，使得X和Y熔化温度几乎相等。

在以前的实施例中，制备具有如下表示的固定长度的20-核苷酸靶标特异性区域的MIP探针：

5’- (X20)AGATCGGAAGAGCACATCCGACGGTAGTGT(Y20)，其中X和Y代表两个20个核苷酸长的靶标特异性区域。在本实施方案中，MIP探针具有可以如下表示的可变区：

5’- (X20-30) AGATCGGAAGAGCACATCCGACGGTAGTGT(Y20-30)，其中所述X区域和所述Y区域不一定具有相同长度。在图5中描绘了固定长度20-核苷酸探针的Tm分布和Tm平衡的20-30-核苷酸探针。在图5中，X-轴代表探针的熔化温度，而Y轴代表探针的数目。可以看出，与当固定X和Y区域长度时相比，改变探针的Tm会将该群体浓缩在更小的熔点范围中。下表含有在图5中使用的数据：

。

运行实验以确定20-核苷酸固定的MIP探针库相对于20-30-核苷酸可变的MIP探针库表现出的序列覆盖。在图6中可见这些实验的结果。图6表示了将用固定Tm设计的MIP探针(插图)与Tm平衡的设计进行对比的序列覆盖的频率分布(读出的数目)。插图表明45%的MIP不具有任何覆盖(0覆盖)，而对于Tm平衡的设计，不具有覆盖的MIP的数目下降至3%，从而代表对于由474个MIP代表的目标区域而言捕获的约15倍改善。对于Tm平衡的设计中的大多数MIP，序列覆盖相对较高，对一些MIP检测到多达数百万的读出。在图6中，X-轴描绘了序列覆盖，它是针对每种MIP在Illumina HiSeq上的该特异性运行所检测到的读出的数目的量度。将覆盖表示为二进制化的（binned）频率分布。

在该图(参见插图)中，固定长度MIP探针库表现出集合群体的大部分，其没有有效地表现出任何序列覆盖。实际上，215/474探针(45%)没有有效地覆盖靶序列。相反，该图的主要部分显示了当将Tm平衡时的序列覆盖。容易看出，没有表现出序列覆盖的探针的数目急剧下降，低至15/474 (3%)。因而，其中X和Y靶区域的Tm几乎相同的实施方案会赋予相对于其它实施方案（其中X和Y区域具有设定的长度）的改善。

实施例 4 ：用平衡的Tm和N6 UID使用474个具有在20-30个核苷酸之间的X和Y区域可变长度的MIP进行外显子捕获的MIP方案.

在图7A中描绘了MIP前体、UID序列的一般形式。在该实施例中，MIP探针具有可变长度靶区域X和Y，它们由含有UID区域（表示为NNNNNN (N6)）的接头区域连接。当然可以合成具有除了6个核苷酸以外的其它链长度的UID区域，且仅需要足够长以衍生出特定实验或应用所需的随机性。该段是在每个探针中合成的随机地产生的序列(即，每个探针具有它自身的随机UID序列)。该序列可以在测序工作流末端附近使用，以确定任何特定探针靶标是否通过扩增偏差、基因座扩增/呈现偏差和与特定测序平台关联的系统伪像而过表达。在如上所述的类似工作流中，合成MIP探针，然后使用引物扩增(参见图7B)，然后用限制性酶切割，并释放为单链MIP库(参见图7C)。

使单链MIP与DNA (例如，基因组DNA，但是可以使用任意核酸分子)杂交。使用封闭寡核苷酸封闭单链MIP的互补链，所述封闭寡核苷酸的一个例子描绘在图7D中。

在该实施方案中，使用无掩膜阵列合成(MAS)在阵列上合成MIP前体模板。如在以上实施例中，将MIP前体阵列附着于Grace Biolab Chamber，并制备原位PCR主混合物。所述原位PCR主混合物与在以上实施例1中基本上相同，但是将dNTP浓度降低至10mM，并在所述主混合物中使用更大的体积(13.75µl)。通过正向引物和反向引物的体积的减小(从20µl至18µl)和使用的水的体积的减小，补偿dNTP试剂的增加的体积。将含有主混合物的试管放在95℃加热块中保持5分钟以脱气。将HotStartTaq酶(11 uL [5U/ul])加入所述混合物中，并开始扩增方案。在该实施例中，使用的方案涉及以下步骤：1)加热阵列至97℃/15 min，在该时间结束时将1 mL PCR混合物加载进腔室中，将加载孔密封，除去任何气泡，并将第二个孔密封；2)通过100℃/1 min、48℃/1.5 min、78℃/1 min的加热步骤，将腔室循环15-18次；3)将腔室保持在72℃/15 min；和4)作为最终的步骤，将腔室冷却至4℃。

扩增以后，除去一个密封件，并从腔室取出液体和使用Qiaquick PCR纯化试剂盒(Qiagen)根据说明书进行纯化。纯化以后，使用光密度测量来确定纯化的MIP-前体的浓度。使用在一个载玻片上的15个扩增循环产生了0.3µg MIP-前体，而使用在另一个载玻片上的18个循环产生了2.3µg。在1 ml PCR中执行低扩增样品的额外扩增：5X HF缓冲液(200µl)、50µM引物300-20-1 (10µl)、50µM引物300-22-2 (10µl)、10 mM dNTP (20µl)、MIP前体、5 ng/µl (5µl)、水(750µl)、Phusion聚合酶(5µl)。将样品加热至98℃，然后循环10次(98℃保持20分钟，60℃保持1 min，72℃保持1 min)。在50µl H20中纯化PCR产物(Qiagen)。该额外扩增以后，确定DNA浓度为117 ng/µl。

扩增以后，用限制性酶处理MIP前体：在100µl 1X NEB2中用5µl Nt.AlwI (10 u/µl, NEB)在37℃消化2.5µg PCR产物3h。加入5µl Nb.BsrDI (10 u/µl, NEB)。在65℃温育3h，随后在80℃温育20 min。将消化反应物用Qiagen核苷酸除去试剂盒纯化，并在30µl洗脱缓冲液中洗脱。将DNA浓度测量为47 ng/µl，86个核苷酸Tm平衡的N6 MIP的浓度是47*86/(126+86)=19 ng/µl。

酶处理以后，使MIP探针与基因组DNA杂交，如图8中所示。为了清楚起见，应当指出，图8以环化的方式描绘了基因组DNA，这不同于先前以环化构型描绘MIP的图。技术人员容易在概念上认识到，任一种排列适当地起作用，并且因为显影的特定偏好仅选择任一种构型。

在该实施例中，使用下述试剂使探针与基因组DNA杂交：

试剂	体积
		263 ng/ul基因组DNA (女性, Promega)	3µl (790 ng)
10X Ampligase缓冲液	2.5µl
		10 uM封闭寡物300-24-1	1µl
2 ng/ul MIP480 86-核苷酸400:1比率	1µl
		水补至25 ul	17.5µl
矿物油	30µl

作为对照，用水替换gDNA。将样品在95℃变性10 min，并在61℃温育36小时。

在该实施方案中，在用Phusion聚合酶填补间隙以后，用Ampligase环化与基因组DNA杂交的MIP。用下述试剂制备连接酶/聚合酶混合物:

将共计10µl连接酶/聚合酶混合物加入每个25µl捕获反应物中，并在60℃温育24小时。

为了消化线性DNA，对样品施加由下述试剂组成的核酸外切酶混合物:

试剂	浓度	体积	单位
				Exo I	20 U/µl	8.75µl	175 U
Exo III	100 U/µl	9µl	900 U
				Exo T7	10 U/µl	20µl	200 U
Exo T	5 U/µl	4µl	20 U
				RecJf	30 U/µl	5µl	150 U
Lambda exo	5 U/µl	2µl	10 U

为了消化线性DNA，将2µl核酸外切酶混合物加入每个35µl Phusion/ampligase反应物中。将样品在37℃温育1小时，在80℃温育10 min，在95℃温育5 min。

然后将捕获后样品在50µl反应物中扩增和纯化:

试剂	体积
		5X Phusion GC缓冲液	10µl (1X)
5 uM MIP PCR引物300-24-2	5µl (500 nM)
		5 uM MIP多重引物, Index 1, 300-24-3	5µl (500 nM)
10 mM dNTP (Promega)	1µl (200 nM)
		样品(延伸/连接/外切循环)	5µl
H₂O	25µl
		2 U/µl Phusion聚合酶	0.25µl (0.02 U/µl)

然后用热循环扩增样品：98℃保持30分钟，然后是28个热循环(98℃保持10 min/60℃保持30 min/72℃保持1 min)。扩增以后，在4%琼脂糖凝胶中分析5µl PCR产物, 30 min。结果呈现在图9中。泳道1显示了25-碱基对梯度物，泳道2显示了PCR产物。

然后将扩增的样品在Illumina测序仪上测序。

实施例 5 ：用于外显子组捕获的MIP设计

在该实施例中，使用与在上面实施例4中所述相同的方案，但是替代性地合成474个MIP探针的库，将所述库增加至包括437,202个MIP探针(“437K库”)，其具有在20-30个核苷酸之间的X和Y靶区域的可变长度，具有经平衡的Tm和在各个探针上的N6 UID序列。

使用437K库执行测序分析以确定捕获成功率。经确定，437K集合具有大约82%捕获成功率(即，该集合中82%的探针成功地捕获靶向序列)。

实施例 6 ：UID的应用

可以使用UID来确定测序结果中特定探针的过表达或低表达，并且也可用于其中追踪与各个探针有关的特定读出对于数据分析而言具有重要性的其它目的。在一个实施方案中，使用UID来确定在有扩增诱导的潜在等位基因偏差存在下的接合性，如图10中所示。对于每种MIP探针，测序读出将揭示为该探针合成的UID序列(可能出现在读出1、读出2或二者)中，且也含有预期的捕获序列(参见图10A)。

图10B表明，MIP是基于引物的探针，并且所以将产生比对的序列在预期靶标上的‘堆叠’。使用探针特异性的UID来区分分子捕获事件。一个UID由于扩增可能具有多个测序读出对。为了变体发现的目的，从每个含有相同UID的读出对集合选择代表性的读出对或共有序列。如果优先扩增捕获事件，还已经一起携带UID。该基于UID的副本读出对减少会除去该潜在扩增偏差(参见图10C)。

图11举例说明了本发明的MIP探针的制备方法的一个实施方案。使用无掩膜阵列合成，在阵列（在该实施例中，2.1M特征微阵列）上逐个单体地合成前体分子。所述前体分子可以锚定在阵列表面的3’末端处。合成后，对阵列进行原位PCR以溶解、扩增和掺入单个尿嘧啶到一个探针链上。扩增后，前体是在溶液中的双链分子，其含有单个尿嘧啶碱基。扩增后，对双链分子进行消化，在该实施例中，用尿嘧啶-DNA糖基化酶(UDG)和核酸内切酶VIII，且Nb.DSRDI仅在探针链上建立单链切口，从而精确地脱离两种原位引物连接物。变性PAGE凝胶电泳证实探针的形成，并且还显示探针补体。

图12A和12B举例说明了关于MIP探针的工作流的一个实施方案。在图12A1中，将单链MIP探针以适当的比率与靶DNA混合。使MIP探针和靶标杂交适当的时间量(图12A2)，所述时间依赖于探针和靶标的复杂性和比率。杂交以后，将MIP探针延伸并连接以拷贝靶序列和环化探针/靶序列(图12A3)。使用DNA聚合酶和DNA连接酶的混合物完成延伸和连接。

延伸/连接以后，消化单链模板和探针(图12B1)。在一些实施方案中，将核酸外切酶（诸如ExoI和ExoIII）的混合物用于单链分子的消化。一旦消化单链分子，扩增探针/靶标。在某些实施方案中，掺入测序连接物和样品索引条形码(MID)序列(在图12B2中表示为“N”)。所述MID代码为每种试验的样品利用不同的序列，并允许在测序之前进行扩增后合并，因为所述样品可以通过它们的MID代码来鉴别。图12B3证实了扩增后的双链产物的结构，其然后准备好测序。

图13举例说明了使用本发明的样品跟踪的一个实施方案。样品跟踪的目的是允许来自多个实验（每个测定不同的基因组DNA样品）的捕获的、扩增的DNA序列在测序之前合并。这允许在通常的第二代仪器上运行的每个测序所产生的极大量的测序数据与关于任何单个样品的捕获序列分析通常低得多的序列数据要求更有效匹配，由此降低成本、增加效率和允许更高的样品处理量。

通过将样品跟踪指标(通常6-14核苷酸序列)包括在用于扩增环化的MIP探针的PCR引物之一中，完成样品跟踪。源自相同DNA样品的捕获产物的所有扩增子将具有相同的跟踪指标，尽管它们靶向该DNA样品的基因组内的许多不同区域。将合并的捕获产物测序以后，通过读出有关的指标序列，可以弄清每个读出对的起源。

图14举例说明了使用掺入MIP探针中的UID序列，来自事件计数的一个实施方案的模拟数据。事件计数的目的是，除去扩增偏差或其它错误的影响以后，鉴别变体调用的独特捕获事件。UID是掺入每个探针中(没有掺入PCR引物本身中)的随机序列，并且在扩增后复制。每个探针分子（即使它用于精确地靶向与另一个探针分子相同的样品中的相同外显子）应当具有不同的UID序列。测序以后，除了一个(具有最高序列质量评分的那个)以外，具有相同UID序列的所有读出对被抛弃，因为可能是PCR副本。假定所有保留的序列携带相等的信息价值，并代表样品的真实复杂性。该能力可用于确定突变事件（诸如样品中的体细胞突变，或混合群体中的任何变体）的真实频率。在图14中，描绘了经过和不经过UID校正的得自单个外显子的模拟数据。在不经过UID校正的数据中，由于突变体等位基因的偏差扩增，在样品DNA中以50%的频率不准确地测量突变(X)。对于UID校正，样品DNA中的突变的实际频率被揭示为17%。

图15显示了与较大MIP探针库设计内的单个探针靶标(PTEN外显子4)对应的23,517个读出对的分析。该分析揭示了729种独特的6-merUID标签。一些标签的高(>300)频率证实了强扩增偏差的潜力，而UID会促进代表重复信息的96.4%的读出的消除。

图16显示了探针重新平衡的结果。用6个HEAT-Seq探针(得自IDT)靶向EGFR基因的4个外显子。使50 pM探针与500 ng gDNA退火，并环化4小时，然后扩增。然后将探针/靶标构建体测序。将99%的映射的读出与靶向的外显子比对，具有至多~100,000X的可变覆盖深度(在UID deduplification之前)。在EGFR实验中得到的高度可变的序列覆盖深度例证了大多数高度多重的、基于扩增的、靶向的测序方法固有的重大无效。探针比率的重新平衡(右)可以改变靶标之间的序列分布，但是以不能预见的方式。探针设计的经验和迭代方法目前是最有效的解决方案(对照= 210,634个读出; MIP条件1 = 429,202个读出; MIP条件2 = 313,346个读出)。

Claims

1.核酸捕获探针的集合，其用于降低核酸样品的复杂性，其中所述集合中的每个探针包含：

-第一末端序列，其与存在于复杂样品中的第一靶序列特异性地杂交；

-第二末端序列，其与存在于复杂样品中的第二靶序列特异性地杂交，其中所述第一靶序列和第二靶序列都位于相同靶链上；和

-连接所述第一末端序列和所述第二末端序列的接头序列，所述接头序列包含唯一标识符(UID)序列，

其中所述UID是随机地产生的标签序列，其在探针形成过程中通过随机核苷酸合成针对探针集合中的每个单个探针产生。

2.根据权利要求1所述的核酸探针，其中所述探针进一步包含MID条形码，其中特定核酸样品所用的探针都含有相同的MID条形码序列。

3.根据权利要求1所述的核酸探针，其中通过化学衍生的随机合成产生UID序列。

4.根据权利要求1所述的核酸探针，其中所述第一末端序列和/或所述第二末端序列的序列长度是不同的长度。

5.一种方法，其包括：

a)在阵列上合成MIP前体，其中所述前体包含一个或多个引物、一个或多个限制位点、以及在所述MIP前体的一个末端附近的第一末端靶序列和在相对末端附近的第二末端靶序列；

b)在溶液中扩增MIP前体；

c)收集所述溶液；和

d)使用一种或多种限制性酶消化扩增的前体以形成MIP探针。

6.根据权利要求5所述的方法，其中所述MIP前体进一步包含唯一标识符(UID)序列。

7.根据权利要求5所述的方法，所述方法进一步包括

e)使MIP探针与核酸样品杂交；和

f)用聚合酶环化MIP探针，使得所述核酸样品的一部分被复制并掺入环化的MIP探针中；

g)使用核酸外切酶基本上消化直链核酸；和

h)确定所述MIP探针的序列。

8.根据权利要求6所述的方法，所述方法进一步包括，评价所述MIP探针的序列，和确定任何UID序列与预期的结果相比是否过表达或低表达。

9.根据权利要求5所述的方法，其中使用无掩膜阵列合成执行所述阵列合成。

10.根据权利要求5所述的方法，其中改变所述第一末端靶序列和/或第二末端靶序列的长度，以便紧密地接近两个靶序列的熔化温度。

11.根据权利要求7所述的方法，其中在有封闭寡核苷酸存在下执行所述杂交步骤，所述封闭寡核苷酸被设计成阻止MIP探针与MIP前体或其扩增产物的元件重新杂交。