发明内容
本文提供了用于产生钩探针产物和用于从包含含有不同核酸序列的核酸片段的不均一混合物(heterogeneous mixture)的样品中富集一种或多种核酸序列的组合物、方法和试剂盒。所述方法包括提供连接酶、一个或多个5’钩探针和/或一个或多个3’钩探针,在允许钩探针选择性结合到一个或多个感兴趣核酸片段的条件下,和在形成一个或多个钩产物的条件下,将样品、连接酶和钩探针混合,每个钩产物(hook product)包含钩探针和一个或多个感兴趣的核酸序列。
本发明还提供了实施方式1):一种用于制备包含感兴趣的核酸序列的钩探针产物的方法,所述方法包括将以下物质混合:(i)核酸片段的不均一混合物,其中所述混合物中至少第一片段包含所述感兴趣的核酸序列,(ii)一个或多个5’钩探针,其包含钩区域和与第一片段中的序列互补的靶区域;(iii)一个或多个3’钩探针,其包含钩区域和与第一片段中的序列互补的靶区域,和(iv)连接酶,
其中(i)-(iii)在其中至少一个5’钩探针和至少一个3’钩探针选择性结合第一片段的条件下混合;并且
其中(i)-(iv)在其中5’钩探针末端连接到第一片段的5’末端并且3’钩探针末端连接到第一片段的3’末端的条件下混合,
从而制备钩探针产物,
其中所述钩探针产物包含所述感兴趣的核酸序列。
实施方式2):根据实施方式1)所述的方法,其中所述5’钩探针的钩区域包含通用引物结合位点、独特的分子标记、样品条形码、细胞条形码或它们的任何组合。
实施方式3):根据实施方式1)所述的方法,其中所述3’钩探针的钩区域包含通用引物结合位点、独特的分子标记、样品条形码、细胞条形码或它们的任何组合。
实施方式4):根据实施方式1)-3)中任一项所述的方法,其中所述方法还包括将所述核酸片段变性。
实施方式5):根据实施方式1)-3)中任一项所述的方法,其中所述核酸片段通过将所述样品中的较大核酸片段化产生。
实施方式6):根据实施方式5)所述的方法,其中所述样品中的核酸片段具有100至500个核苷酸的平均长度。
实施方式7):根据实施方式5)所述的方法,其中所述不均一混合物中的核酸片段具有100至200个核苷酸的平均长度。
实施方式8):根据实施方式5)所述的方法,其中所述不均一混合物中的核酸片段具有400至500个核苷酸的平均长度。
实施方式9):根据实施方式1)-8)中任一项所述的方法,其中所述接触包括使所述不均一混合物与包含所述一个或多个5’钩探针的反应混合物接触。
实施方式10):根据实施方式9)所述的方法,其中所述反应混合物还包含所述一个或多个3’钩探针。
实施方式11):根据实施方式9)所述的方法,其中所述反应混合物还包含所述连接酶。
实施方式12):根据实施方式1)-8)中任一项所述的方法,其中所述混合包括使所述样品与包含所述一个或多个5’钩探针和所述一个或多个3’钩探针的反应混合物接触,并且还包括使所述样品与所述连接酶接触。
实施方式13):根据实施方式1)-12)中任一项所述的方法,其中所述5’钩探针包括包含结合到感兴趣的相同核酸序列的不同靶特异性区域的多个5’钩探针。
实施方式14):根据实施方式1)-12)中任一项所述的方法,其中所述3’钩探针包括包含结合到相同感兴趣的核酸序列的不同靶区域的多个3’钩探针。
实施方式15):根据实施方式1)-12)中任一项所述的方法,其中所述5’钩探针包括第一5’钩探针和第二5’钩探针,第一5’钩探针包含结合到第一感兴趣的核酸序列中的第一位置的第一靶特异性区域,第二5’钩探针包含结合到第一感兴趣的核酸序列中的第二位置的第二靶特异性区域。
实施方式16):根据实施方式1)-12)中任一项所述的方法,其中所述3’钩探针包括第一3’钩探针和第二3’钩探针,第一3’钩探针包含结合到第一感兴趣的核酸序列中的第一位置的第一靶特异性区域,第二3’钩探针包含结合到第一感兴趣的核酸序列中的第二位置的第二靶特异性区域。
实施方式17):根据实施方式1)-16)中任一项所述的方法,其中所述5’钩探针的靶特异性区域在5’末端处、或在距所述感兴趣的核酸序列的5’末端1至200个核苷酸的位置处结合感兴趣的核酸序列。
实施方式18):根据实施方式1)-17)中任一项所述的方法,其中所述3’钩探针的靶特异性区域在5’末端处、或在距所述感兴趣的核酸序列的3’末端1至200个核苷酸的位置处结合感兴趣的核酸序列。
实施方式19):根据实施方式1)-18)中任一项所述的方法,其还包括使所述钩产物与一个或多个外切核酸酶接触。
实施方式20):根据实施方式19)所述的方法,其中所述外切核酸酶消化单链核酸。
实施方式21):根据实施方式19)所述的方法,其中所述外切核酸酶不消化一个或多个钩产物。
实施方式22):根据实施方式1)-18)中任一项所述的方法,其中所述方法还包括纯化所述钩产物。
实施方式23):根据实施方式22)所述的方法,其中所述钩产物使用磁珠或纯化柱纯化。
实施方式24):根据实施方式1)-23)中任一项所述的方法,其中所述反应混合物包含1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50或更多个5’钩探针。
实施方式25):根据实施方式1)-24)中任一项所述的方法,其中所述反应混合物包含1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50或更多个3’钩探针。
实施方式26):根据实施方式1)-25)中任一项所述的方法,其中所述5’钩探针包含3’OH基团。
实施方式27):根据实施方式1)-26)中任一项所述的方法,其中所述5’钩探针包含5’封端基团。
实施方式28):根据实施方式1)-27)中任一项所述的方法,其中所述3’钩探针包含3’封端基团。
实施方式29):根据实施方式1)-28)中任一项所述的方法,其中所述3’钩探针包含5’磷酸酯。
实施方式30):根据实施方式1)-29)中任一项所述的方法,其中所述钩探针包含限制酶结合位点。
实施方式31):根据实施方式30)所述的方法,其中所述方法还包括使所述钩产物与限制酶接触。
实施方式32):根据实施方式31)所述的方法,其中所述限制酶从所述钩产物切割所述靶特异性区域的至少一部分。
实施方式33):根据实施方式1)-32)中任一项所述的方法,其中所述方法还包括扩增所述感兴趣的核酸序列。
实施方式34):根据实施方式1)-33)中任一项所述的方法,其中所述核酸片段包含游离DNA。
实施方式35):根据实施方式1)-33)中任一项所述方法,其中所述核酸片段包含RNA。
实施方式36):根据实施方式1)-33)中任一项所述的方法,其中所述核酸片段包含来自细胞、组织、FFRE样品或全血的基因组DNA。
实施方式37):根据实施方式1)-36)中任一项所述的方法,其中所述连接酶为选自TS2126RNA连接酶环化连接酶、TS2126RNA连接酶的腺苷酸化形式、和MthRn1连接酶的环化连接酶。
实施方式38):一种用于富集包含核酸的样品中的一种或多种感兴趣核酸序列的方法,所述方法包括:
(a)提供包含靶特异性区域和钩区域的一个或多个5’钩探针;
(b)提供连接酶;和
(c)在允许所述5’钩探针选择性结合到一个或多个感兴趣的核酸序列的条件下并且在形成一个或多个钩产物的条件下,使包含所述核酸的所述样品与所述一个或多个5’钩探针和环化连接酶接触,
每个钩产物包含连接到所述感兴趣的核酸序列的5’末端的5’钩探针;
其中所述方法富集所述样品中的所述一个或多个感兴趣的序列。
实施方式39):根据实施方式38)所述的方法,其中所述5’钩探针的钩区域包含通用引物结合位点、独特的分子标记、样品条形码、细胞条形码或它们的任何组合。
实施方式40):根据实施方式38)或39)所述的方法,其中所述接触包括使所述样品与包含所述一个或多个5’钩探针的反应混合物接触。
实施方式41):根据实施方式40)所述的方法,其中所述反应混合物还包含所述连接酶。
实施方式42):根据实施方式38)-41)中任一项所述的方法,其中所述5’钩探针包含含有结合到相同感兴趣核酸序列的不同靶特异性区域的多个5’钩探针。
实施方式43):一种用于富集包含核酸的样品中的一种或多种感兴趣核酸序列的方法,所述方法包括:
(a)提供包含靶特异性区域和钩区域的一个或多个3’钩探针;
(b)提供连接酶;和
(c)在允许所述3’钩探针选择性结合到所述一个或多个感兴趣的核酸序列的条件下并且在形成一个或多个钩产物的条件下,使包含所述核酸的所述样品与所述一个或多个3’钩探针和所述环化连接酶接触,每个钩产物包含连接到所述感兴趣的核酸序列的3’末端的3’钩探针;
其中所述方法富集所述样品中的所述一种或多种感兴趣的序列。
实施方式44):根据实施方式43)所述的方法,其中所述3’钩探针的钩区域包含通用引物结合位点、独特的分子标记、样品条形码、细胞条形码或它们的任何组合。
实施方式45):根据实施方式43)或44)所述的方法,其中所述3’钩探针包含含有结合到相同感兴趣核酸序列的不同靶特异性区域的多个3’钩探针。
实施方式46):根据实施方式42)-44)中任一项所述的方法,其中所述接触包括使所述样品与包含所述一个或多个5’钩探针的反应混合物接触。
实施方式47):根据实施方式46)所述的方法,其中所述反应混合物还包含所述连接酶。
实施方式48):根据实施方式38)-47)中任一项所述的方法,其还包括使所述钩产物与一个或多个外切核酸酶接触。
实施方式49):根据实施方式48)所述的方法,其中所述外切核酸酶消化单链核酸。
实施方式50):根据实施方式48)所述的方法,其中所述外切核酸酶不消化所述一个或多个钩产物。
实施方式51):根据实施方式38)-47)中任一项所述的方法,其中所述钩探针包含限制酶结合位点。
实施方式52):根据实施方式51)所述的方法,其中所述方法还包括使所述钩产物与限制酶接触。
实施方式53):根据实施方式52)所述的方法,其中所述限制酶从所述钩产物切割所述靶特异性探针的至少一部分。
实施方式54):根据实施方式38)-53)中任一项所述的方法,其中所述方法还包括扩增所述富集的感兴趣的核酸序列。
实施方式55):一种将接头寡核苷酸加入不同单链DNA(ssDNA)分子群中的方法,所述方法包括:
a)将以下物质与所述ssDNA分子混合:(i)各自具有一个足够长度的简并区域的接头寡核苷酸和(ii)用于连接两个ssDNA末端的连接酶;
b)当通过所述接头寡核苷酸的简并接头区域与所述ssDNA中的序列杂交而使所述末端非常接近时,将非简并接头末端连接至ssDNA末端。
实施方式56):一种用于环化长单链DNA(ssDNA)分子的方法,所述方法包括:
a.提供长ssDNA分子,其在所述长ssDNA分子的5’末端处从5’至3’包含(i)接头特异性或非特异性部分和(i)互补部分,并且在所述长ssDNA分子的3’末端处从5’至3’包含(i)互补部分和(ii)接头特异性或非特异性部分,
其中所述互补部分和/或接头特异性区域或非特异性区域可通过接头连接添加并且其中所述长ssDNA分子的末端处的互补区域将杂交所述长ssDNA分子的5’末端和3’末端并使所述长ssDNA分子的5’末端和3’末端接近适用于连接;
b.提供连接酶,其将邻近的所述末端连接以形成长ssDNA环的产物。
实施方式57):一种用于富集包含核酸的样品中的至少一种感兴趣核酸序列的方法,所述方法包括:
(a)提供将邻近的核酸末端连接的连接酶;
(b)提供至少一个5’钩探针,其包含靶特异性区域和钩区域,其中所述探针适用于在所述探针的靶特异性区域与所述核酸中的互补序列杂交时将所述钩区域连接至所述核酸,并且其中所述5’钩探针的靶特异性区域选自特异性序列、特异性序列组和随机序列;
(c)提供至少一个3’钩探针,其包含靶特异性区域和钩区域,其中所述探针适用于在所述探针的靶特异性区域与所述核酸中的互补序列杂交时将所述钩区域连接至所述核酸,并且其中所述3’钩探针的靶特异性区域选自特异性序列、特异性序列组和随机序列;
(d)在允许所述钩探针选择性结合到所述一个或多个感兴趣核酸序列的条件下并且在形成一个或多个钩产物的条件下,使包含所述核酸的所述样品与所述5’钩探针、所述3’钩探针和所述连接酶接触,每个钩产物包含连接至所述感兴趣的核酸序列的5’末端的5’钩探针和/或连接至所述感兴趣的核酸序列的3’末端的3’钩探针;其中所述方法富集所述样品中的所述一种或多种感兴趣的序列。
实施方式58):一种靶富集的方法,所述方法包括:
(a)提供包含作为ssDNA的基因组片段的样品,所述基因组片段包含为所述样品中基因组片段总数中少数的靶DNA片段,
(b)将包含探针钩的靶特异性单链探针与所述靶ssDNA杂交;
(c)将靶ssDNA的末端与杂交到所述靶ssDNA的靶特性单链探针的探针钩的末端连接,所述连接通过两个末端的紧密相邻实现;和
(d)通过移除缺乏连接的探针的ssDNA基因组片段富集靶DNA。
具体实施方案
富集特定的多核苷酸序列通常是有用的。例如,在包含代表整个基因组的多核苷酸的样品中,富集包含外显子组序列或转录组序列的多核苷酸可能是有用的。富集的多核苷酸可以比未富集的样品更有效、更准确和/或以更低的成本测定(例如,测序)。又如,在包含cDNA或基因组DNA的样品中,对于测定而言,富集包含特定标记、多态性区域、SNP、插入、缺失、重复或其它变异的多核苷酸可能是有用的。例如,可对患者样品进行包含预定肿瘤标记序列组的基因组DNA或cDNA片段的富集用于诊断或预后。
可提供包含外显子组序列、转录组序列、特定标记、多态性区域、SNP、插入、缺失、重复或其它变异的钩产物并测定以提供诊断、预后或其它信息。本文提供了用于制备钩探针产物的方法以及使用钩探针以产生钩产物来富集样品中的一种或多种感兴趣的核酸序列的方法。
在一个方案中,用于制备钩探针产物的方法包括将以下物质混合:(i)核酸片段的不均一混合物,其中混合物中至少第一片段包含感兴趣的核酸序列,(ii)一个或多个5’钩探针,其包含钩区域和与第一片段中的序列互补的靶区域,(iii)一个或多个3’钩探针,其包含钩区域和与第一片段中的序列互补的靶区域,以及(iv)连接酶(诸如ssDNA或RNA连接酶),其中(i)-(iii)在其中至少一个5’钩探针和至少一个3’钩探针选择性结合第一片段的条件下混合,并且其中(i)-(iv)在其中5’钩探针末端连接至第一片段的5’末端并且3’钩探针末端连接至第一片段的3’末端的条件下混合,从而制备钩探针产物,其中钩探针产物包含感兴趣的核酸序列。可进行混合和添加连接酶的多个步骤。任选地,连接酶为环化连接酶(circular ligase)。
在一个方案中,所述方法包括提供连接酶(诸如ssDNA或RNA连接酶),包含靶特异性区域和钩区域的一个或多个5’钩探针,和/或包含靶特异性区域和钩区域的一个或多个3’钩探针,并且在允许钩探针选择性结合到一个或多个感兴趣的核酸序列的条件下并且在导致一个或多个钩产物形成的条件下,使包含核酸的样品与一个或多个5’钩探针、一个或多个3’钩探针和连接酶接触。任选地,所述连接酶为环化连接酶。
每个钩产物包含连接到含感兴趣的核酸序列的核酸片段的5’末端的5’钩探针,和/或连接到含感兴趣的序列的核酸片段的3’末端的3’钩探针。钩探针的形成可包括多个连接步骤。例如,在一个步骤中可将5’钩探针连接到含感兴趣的核酸序列的核酸片段的末端,并在后续步骤中,可将3’钩探针连接到含感兴趣的核酸序列的核酸片段的末端。
如本文所用,术语“感兴趣的核酸序列”或“感兴趣的靶序列”是指待分析、测定(例如,测序)或定量的多核苷酸序列。通常,由单个样品同时分析、测定或定量许多不同的感兴趣的核酸序列。感兴趣的核酸序列包括但不限于感兴趣的编码区、内含子区、基因、外显子、cDNA、启动子、增强子或其片段。感兴趣的核酸序列可以是包括例如单核苷酸多态性(SNP)、插入缺失(indel)(插入或缺失)、融合、拷贝数变异或它们的任何组合的序列。
如本文所用,术语“靶核酸”和“靶多核苷酸”在本文中用于指包含感兴趣的核酸序列(或“靶序列”)或感兴趣的靶序列的多核苷酸(例如,基因组片段)。如本文所用,“非靶核酸”是不包含感兴趣的核酸序列的样品或混合物中的多核苷酸。该方法可用于从包含靶核酸和非靶核酸两者的样品中富集靶核酸。
如本文所用,术语“核酸片段”是指多核苷酸的不均一混合物中的多核苷酸。例如,基因组DNA可片段化以产生核酸片段的混合物。术语“片段”出于方便使用而不规定制备的特定方法。例如,片段化的基因组DNA、由mRNA产生的cDNA、和游离(cf)DNA全部均可被称为核酸片段。根据本发明,样品可包含核酸的不均一混合物,其中一些核酸为包含感兴趣的核酸序列的“靶核酸”。
钩探针
钩探针可以为5’钩探针或3’钩探针。本文提供的钩探针包括靶特异性区域(TSR)和钩区域(HR)。靶特异性区域被设计成与样品中靶核酸中的互补序列杂交。5’钩探针的钩区域可包括通用引物结合位点、独特的分子标记、样品条形码、细胞条形码、其它有用元件或它们的任何组合。类似地,3’钩探针的钩区域可包括通用引物结合位点、独特的分子标记、样品条形码、细胞条形码、其它有用元件或它们的任何组合。一般来讲,有利的是钩区域不与样品中的靶核酸杂交并且可被设计成用于该目的。
靶特异性区域(TSR)
钩探针中的靶特异性区域可具有用于靶向特异性杂交到包含靶核酸和非靶核酸两者的反应混合物中的靶核酸或核酸片段的任何合适的长度和序列。靶特异性区域的长度通常小于200个核苷酸。例如,靶特异性区域的长度可以为10至100个核苷酸、18至200个核苷酸、20至200个核苷酸、25至200个核苷酸、30至200个核苷酸、50至200个核苷酸、18至100个核苷酸、20至100个核苷酸、25至100个核苷酸、30至100个核苷酸、35至100个核苷酸、40至100个核苷酸、50至100个核苷酸、60至100个核苷酸、10至75个核苷酸、18至75个核苷酸、20至75个核苷酸、25至75个核苷酸、30至75个核苷酸、35至75个核苷酸、40至75个核苷酸、50至75个核苷酸、60至75个核苷酸、18至50个核苷酸、20至50个核苷酸、25至50个核苷酸、30至50个核苷酸、35至50个核苷酸、40至50个核苷酸、18至40个核苷酸、20至40个核苷酸、25至40个核苷酸、30至40个核苷酸、35至40个核苷酸、18至35个核苷酸、20至35个核苷酸、25至35个核苷酸、30至35个核苷酸、18至30个核苷酸、20至30个核苷酸、或25至30个核苷酸。
如图2所示,钩探针可被设计成使得多于一个钩探针可用于产生具有感兴趣的给定序列的钩产物。被设计成捕获相同感兴趣序列的钩探针的组合可被称为钩探针组。钩探针组可包含一个5’钩探针和一个3’钩探针。在另一个实施方案中,钩探针组可包含多于一个5’钩探针和/或多于一个3’钩探针。在其它实施方案中,钩探针组可包含多于两个5’钩探针和两个3’钩探针,如图2所示。
在一些实施方案中,钩探针可被设计成侧接感兴趣的序列。例如,一对钩探针可与核酸片段中的序列互补,所述核酸片段中的序列侧接片段中的感兴趣的序列。例如,一对钩探针可侧接包含单核苷酸多态性的序列。在另一示例中,探针结合位点可侧接连接到(即,在LD中)SNP或其它多态性的序列。在一些实施方案中,感兴趣的序列可以为包含在,或部分地包含在钩探针结合位点中。
钩区域(HR)
钩探针的钩区域被设计成使得其在杂交、模板依赖性引物延伸、或引物介导的扩增条件或它们的组合下不与靶核酸杂交。在一些情况下,钩区域的序列可被选择成使得其不与包含靶多核苷酸的样品中的任何预期序列互补(例如,完全互补或充分互补以杂交)。例如,在样品为人基因组DNA的样品的情况下,钩区域的序列可被选择成使得其不与人基因组中的任何区域互补。又如,在样品为人基因组DNA的样品的情况下,钩区域的序列可被选择成使得钩区域的部分都不与人基因组的多于6、7、8、9、10、11、12、13、14、15、16、17或18个连续核苷酸完全互补。又如,在样品为人基因组DNA的样品的情况下,钩区域的序列可被选择成使得其在至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17或18个位置处与人基因组DNA的任何连续序列(例如,具有与钩区域相同的长度的任何连续序列)不同。
钩区域的长度可以为任何适宜长度。通常,钩区域被选择成使得钩区域的总长度为、小于或小于约200、175、125、100、75、70、60、55、50、45、40、35、30或25个核苷酸。例如,钩区域可具有约4至50个核苷酸、4至40个核苷酸、4至35个核苷酸、4至30个核苷酸、4至25个核苷酸、4至20个核苷酸、4至18核苷酸、4至15个核苷酸、4至12个核苷酸、4至10个核苷酸、4至8个核苷酸、4至6个核苷酸的长度。在一些情况下,钩区域具有7至30个、7至25个核苷酸、7至20个核苷酸、7至18个核苷酸、7至15个核苷酸、7至12个核苷酸、或7至10个核苷酸的长度。在一些情况下,钩区域的长度为4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核苷酸。
在各种实施方案中,钩区域可包含选自下列的一种或多种元件:引物结合位点或通用引物结合位点,独特的分子标记(UMI),条形码,诸如细胞条形码、样品条形码、或其它条形码,其它可用元件或它们的任何组合。
通用引物结合位点
钩区域可包含通用引物结合位点或通用引物结合位点的互补序列。如本文所用,“通用引物结合位点”具有其在本领域中的通常含义,并且是指具有在反应混合物中的全部或大部分5’钩探针和/或3’钩探针中共享的序列的核酸区域,其可在引物杂交条件下(例如,PCR引物退火条件或连接条件)与通用引物杂交。任选地,多核苷酸为连接到包含通用引物结合位点的钩探针的多核苷酸的部分。在一些实施方案中,3’钩探针包含与5’钩探针不同的通用引发位点(priming site)。因此,5’钩探针和3’钩探针可一起包含正向通用引物结合位点或其互补序列和反向通用引物结合位点或其互补序列。不依赖于感兴趣的区域的序列,可使用单个正向通用引物和单个反向通用引物来扩增定位于不同靶多核苷酸的正向和反向通用引物结合位点之间的任何感兴趣的区域。此外,可使用多个不同的通用引物组来扩增包含多个不同通用引物结合位点组的钩产物。在使用两种不同的正向通用引物和两种不同的反向通用引物的情况下,反应混合物中约25%的钩区域可共享相同的通用引物结合位点序列。
此类通用引物结合位点(或其互补序列)可用于提供钩产物,所述钩产物可通过通用PCR进一步扩增。因此,钩产物可用于例如由复合混合物(complex mixture)靶特异性选择和/或扩增,并且所选的靶可在后续或同时的步骤中普遍扩增。通用引物结合位点(或其互补序列)可以是整个钩区域或其部分。通用引物结合位点(或其互补序列)可包括钩区域的3’-最多核苷酸、钩区域的5’-最多核苷酸或钩区域的3’-最多核苷酸和5’-最多核苷酸。通常,通用引物结合位点(或其互补序列)被选择成具有足以允许通用引物的靶特异性杂交的长度。因此,通用引物结合位点可具有10至25个核苷酸、10至20个核苷酸、10至18个核苷酸、10至15个核苷酸或10至12个核苷酸的长度。在一些情况下,通用引物结合位点具有7至30个、7至25个核苷酸、7至20个核苷酸、7至18个核苷酸、7至15个核苷酸、7至12个核苷酸或7至10个核苷酸的长度。在一些情况下,通用引物结合位点的长度为4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个核苷酸。通常,通用引物结合位点(或其互补序列)被选择成具有在1、2、3、4、5、6、7、8、9、10或更多个位置处与相同长度的一个或多个、或全部靶多核苷酸序列的序列不同的序列。
独特的分子标记(UMI)
每个5’和/或3’钩探针可包括一个或多个独特的分子标记(UMI)。独特的分子标记可位于钩探针的钩区域中。在一些实施方案中,钩区域可包含对于每个钩探针均不同的分子标记。在一些实施方案中,独特的分子标记的长度为约3-12个核苷酸,或长度为3-5个核苷酸。在一些情况下,每个独特的分子标记的长度为约3-12个核苷酸,或长度为3-5个核苷酸。因此,独特的分子标记的长度可以为3、4、5、6、7、8、9、10、11、12、13、14、15或更多个核苷酸。
条形码
在一些实施方案中,钩区域可包括识别具有共同特征的一组靶序列的条形码。例如,染色体条形码可识别靶序列的染色体位置(例如,Y-染色体靶序列可具有共同条形码,并且X-染色体靶序列可具有不同的共同条形码)。又如,钩区域可包含细胞条形码,其对于单细胞反应中的每个钩探针是相同的(例如,其中样品中的靶核酸全部来自单个细胞的反应),但对于针对来自不同细胞的靶核酸的不同反应中的钩探针而言是不同的。任选地,钩区域可包括样品条形码。作为另一示例,钩区域可包含细胞条形码、染色体条形码和样品条形码或它们的任何组合。在一些实施方案中,条形码区域的长度为约3-12个核苷酸、或长度为3-5个核苷酸。在一些情况下,条形码区域的每个条形码的长度为约3-12个核苷酸、或长度为3-5个核苷酸,因此,条形码(无论样品条形码、细胞条形码还是其它条形码)的长度可以为3、4、5、6、7、8、9、10、11、12、13、14、15或更多个核苷酸。
钩探针的裂解位点和经修饰核苷酸
任选地,钩探针包含可以用限制酶切割的限制酶结合位点。因此,本发明所提供的方法可包括使钩产物与限制酶接触。任选地,限制酶从钩产物切割靶特异性探针。参见例如,图3。
在一些实施方案中,钩探针包含能够被切割的一个或多个经修饰的核苷酸。钩探针在经修饰核苷酸处的切割还从钩产物中移除靶特异性探针,从而产生适用于通过通用引物扩增的产物,或适用于通过滚环扩增进行环化和扩增的产物。经修饰核苷酸/酶组合的适宜示例包括但不限于(i)脱氧尿苷和大肠杆菌尿嘧啶DNA糖基化酶(UDG)或闪烁古生球菌(A.fulgidis)UDG(Afu UDG)与可移除AP位点的一种或多种酶的组合,所述一种或多种酶为诸如人无嘌呤/无嘧啶(AP)内切核酸酶(APE1)、内切核酸酶III(Endo III)、内切核酸酶IV(Endo IV))、核酸内切酶VIII(Endo VIII)、甲酰胺嘧啶[fapy]-DNA糖基化酶(Fpg)(formamido pyrimidine[fapy]-DNA glycosylase)、人8-氧代鸟嘌呤糖基酶(hOGG1)、或人Nei样糖基化酶1(hNEIL1)核酸内切酶VIII(Endo VIII);(ii)用于产生AP位点的脱氧肌苷和内切核酸酶V,或人3-烷基腺嘌呤DNA糖基化酶(hAGG)和一种或多种可移除AP位点的酶,诸如APE 1、Endo III、Endo IV、Endo VIII、Fpg、hOGG1或hNEIL1;(iii)氧化的嘧啶核苷酸(例如,5,6-二羟基胸腺嘧啶、胸腺嘧啶二醇(thymine glycol)、5-羟基-5-甲基乙内酰脲、尿嘧啶二醇(uracil glycol)、6-羟基-5,6-二氢胸腺嘧啶或甲基羟丙二酰脲(methyltartronylurea))和Endo VIII、Endo III、hNEIL1、或它们的组合;(iv)氧化的嘌呤核苷酸(例如,8-氧代鸟嘌呤、8-羟基鸟嘌呤、8-氧代腺嘌呤、fapy-鸟嘌呤、甲基-fapy-鸟嘌呤或fapy-腺嘌呤)和Fpg、hOGG1、hNEIL1或它们的组合;(v)用于产生AP位点的烷基化嘌呤(例如,3-甲基腺嘌呤、7-甲基鸟嘌呤、1,N6-亚乙烯基腺嘌呤和次黄嘌呤)和hAGG以及一种或多种可移除AP位点的酶,诸如APE1、Endo III、Endo IV、Endo VIII、Fpg、hOGG1或hNEIL1;和(vi)用于产生AP位点的5-羟基尿嘧啶、5-羟基甲基尿嘧啶或5-甲酰尿嘧啶和人单链选择性单官能尿嘧啶-DNA糖基化酶SMUG1(hSMUG1)和一种或多种可移除AP位点的酶,诸如APE1、Endo III、Endo IV、Endo VIII、Fpg、hOGG1或hNEIL1。
钩探针的可连接末端
钩探针包含能够连接到靶核酸的单链末端的可连接末端。
5’钩探针具有能够与靶核酸的5’末端连接的官能化3’OH基团。任选地,5’钩探针的5’末端包含封端基团。
3’钩探针包括能够与靶核酸的3’末端连接的官能化5’磷酸酯。任选地,3’钩探针的3’末端包含3’封端基团。封端基团是已知的,并且包括例如,3’磷酸酯,3’开环糖,诸如3’-磷酸-α,β-不饱和醛(PA),3’氨基修饰剂,3’双脱氧核苷酸,3’硫代磷酸酯(PS)键或3’磷酸酯。如本文所用,“被封端”末端(即,具有封端基团的核酸末端)即使在与靶核酸杂交时也不能连接到另一核酸。
在一些实施方案中,5’钩探针具有结构:5’-(靶特异性区域)-(钩区域)-3’。任选地,5’钩探针具有结构5’-(靶特异性区域)-(独特的分子标记)-(通用引物结合位点)-3’。在一些实施方案中,3’钩探针具有结构5’-(钩区域)-(靶特异性区域)-3’。任选地,3’钩探针具有以下结构:5’-(通用引物结合位点)-(独特的分子标记)-(靶特异性区域)-3’。
靶核酸的来源和包含靶核酸的样品
在一些方面,本发明提供了用于由包括靶核酸的核酸片段的不均一混合物产生包含感兴趣的核酸序列的钩探针产物的方法。所述混合物可以被称为样品。样品中的靶核酸可以是双链或单链的,或者可包含双链和单链区域的部分。例如,样品中的靶核酸可以是单链或双链的基因组DNA,单链或双链的cDNA、mRNA或DNA/RNA杂合体(例如,与第一链cDNA杂交的mRNA)。在一些实施方案中,靶多核苷酸是基因组DNA。在一些实施方案中,靶多核苷酸是cDNA。在一些实施方案中,靶多核苷酸是合成DNA。
在一些实施方案中,靶核酸包含基因组DNA。在一些实施方案中,靶核酸包含基因组的子集(例如,特定应用的感兴趣子集,例如可包含群的特定子集(诸如易患癌症的个体)中的突变的基因组的选定区域)。在一些实施方案中,靶核酸包含外显子组DNA。在一些实施方案中,靶核酸包含转录组的全部或部分。在一些实施方案中,靶核酸包含微生物组或微生物群的全部或部分。在一些实施方案中,靶核酸包含甲基化组的全部或部分,即甲基化位点群和基因组或特定细胞中的甲基化模式。任选地,样品包含游离DNA(cellfree DNA)。任选地,样品包含RNA。任选地,样品包含来自细胞、组织、FFPE样品或全血的基因组DNA。
来源
包含靶核酸的样品可得自任何合适的来源。例如,样品可由任何感兴趣的生物体获得或提供。此类生物体包括例如植物;动物(例如,哺乳动物,包括人和非人灵长类);或病原体,诸如细菌和病毒。在一些情况下,样品可以为或可得自此类感兴趣的生物体群的细胞、组织或多核苷酸。又如,样品可以为微生物组或微生物群。任选地,样品为环境样品,诸如水、空气或土壤的样品。
来自感兴趣的生物体或此类感兴趣生物体群的样品可包括但不限于,体液的样品(包括但不限于血液、尿液、血清、淋巴液、唾液、肛门和阴道分泌物、汗液和精液);细胞;组织;活检,研究样品(例如,核酸扩增反应,诸如PCR扩增反应的产物);纯化的样品,诸如纯化的基因组DNA;RNA制剂;和原始样本(细菌、病毒、基因组DNA等)。由生物体获得靶多核苷酸(例如,基因组DNA)的方法在本领域中是熟知的。
靶核酸的片段化
在一些实施方案中,通过片段化处理靶核酸(例如基因组DNA)以产生一种或多种特定尺寸的片段或产生具有窄片段长度分布的片段群。任何片段化的方法均可以使用。例如,在一些实施方案中,靶核酸通过机械方式(例如,超声波切割、声学剪切、针剪切、雾化或超声处理)片段化;通过化学方法(例如热和二价金属阳离子)片段化;或通过酶促方法(例如,使用核酸内切酶、切口酶或转座酶)片段化。片段化的方法在本领域中是已知的;参见例如US2012/0004126。在一些实施方案中,通过超声(例如Covaris或Sonicman 96孔格式仪器)完成片段化。
尽管一些靶核酸(例如基因组DNA)可在常规操作期间片段化,但本文所述的方法、组合物和试剂盒可与非常大的靶核酸一起使用,这至少部分地因为多个不同探针可靶向单个靶核酸的不同区域。因此,在一些实施方案中,靶核酸不需要经历主动片段化步骤。例如,在一些情况下,靶核酸不片段化、不雾化、不剪切(例如,流体力学剪切、化学剪切或声学剪切)、不超声处理、不用非特异性核酸酶(例如DNA酶I)或限制性核酸酶(例如4-cutter)片段化、或不用转座酶(例如tagmentase)片段化。
应该理解,样品中靶核酸的片段化过程通常也导致样品中非靶核酸的片段化。
靶多核苷酸的可连接末端
制备(例如,片段化、逆转录)靶核酸,使得核酸的一个或两个末端在连接酶的存在下可连接至钩探针末端。
核酸片段的尺寸选择
在一些实施方案中,使靶核酸或核酸片段(例如,片段化的基因组DNA或RNA)经历尺寸选择步骤以获得具有一定尺寸或尺寸分布的核酸片段。任何尺寸选择的方法都可以使用。例如,在一些实施方案中,通过凝胶电泳分离片段化的靶核酸,并从凝胶中提取对应于感兴趣的片段尺寸或尺寸范围的带或区域。在一些实施方案中,可使用核酸纯化柱(spincolumn)来选择具有一定的最小尺寸的片段。在一些实施方案中,顺磁珠可用于选择性结合具有期望的尺寸范围的DNA片段。在一些实施方式中,可使用固相可逆化固定(SPRI)方法来富集具有一定尺寸或尺寸分布的片段的样品。在一些实施方案中,可使用尺寸选择方法的组合。
在一些实施方案中,靶核酸或片段化靶核酸的长度为约50至约3000个碱基,例如长度为约50个至约600个碱基,长度为约300个至约1000个碱基,长度为约300个至约600个碱基,或长度为约200个至约3000个碱基。在一些实施方案中,靶核酸或片段化靶核酸的长度为25-100、50-100、50-200、50-300、100-200、200-300、50-400、100-400、200-400、400-500、400-600、500-600、50-1000、100-1000、200-1000、300-1000、400-1000、500-1000、600-1000、700-1000、700-900、700-800、800-1000、900-1000、1500-2000、1750-2000、或2000-3000个碱基。在一些实施方案中,样品(例如,纯化样品)中至少25%、50%、75%或90%的靶核酸或片段化靶核酸的长度为约50至约2000个碱基,例如长度为个约50至约600个碱基,长度为约300个至约1000个碱基,长度为约300个至约600个碱基、或长度为约200个至约2000个碱基。在一些实施方案中,样品中至少25%、50%、75%或90%的靶核酸或片段化靶核酸的长度为25-100、50-100、50-200、50-300、100-200、200-300、50-400、100-400、200-400、400-500、400-600、500-600、50-1000、100-1000、200-1000、300-1000、400-1000、500-1000、600-1000、700-1000、700-900、700-800、800-1000、900-1000、1500-2000、1750-2000、或1750-3000个碱基。在一些实施方案中,靶核酸或片段化靶核酸(例如,基因组DNA)具有的长度为约50个、约100个、约150个、约200个、约250个、约300个、约350个、约400个、约450个、约500个、约550个、约600个、约650个、约700个、约750个、约800个、约850个、约900个、约950个、约1000个、约1100个、约1200个、约1300个、约1400个、约1500个、约1600个、约1700个、约1800个、约1900个、约2000、或约3000个碱基的平均长度。
连接酶
钩探针与一种或多种连接酶组合使用。感兴趣的连接酶能够(在合适的条件下并且利用合适的底物)将多核苷酸与单链末端进行分子间连接。任选地,连接酶为ssDNA或RNA连接酶。在一个方面,连接酶被称为“环化连接酶”。如本文所用,术语“环化连接酶”是指催化两种不同或独立的核酸链之间的共价磷酸二酯键形成的酶。例如,连接酶催化一个多核苷酸的3’-羟基基团和第二个多核苷酸的5’-磷酰基基团之间的磷酸二酯键的合成。在一些情况下,钩探针与靶核酸的杂交可产生用于连接的底物。例如,5’钩探针与靶核酸的杂交可产生适用于与靶核酸的5’末端连接的3’羟基基团。任选地,5’钩探针包含不适用于连接的封端的5’末端。类似地,3’钩探针与靶核酸的杂交可产生游离的5’磷酸酯,其可连接到靶核酸的3’末端。任选地,3’钩探针包含不适用于连接的封端的3’末端。
在一些实施方案中,环化连接酶是RNA连接酶。任选地,环化连接酶是热稳定的RNA连接酶。任选地,环化连接酶是TS2126RNA连接酶或TS2126RNA连接酶的腺苷酸化形式。任选地,环化连接酶是CIRCLIGASETM ssDNA连接酶或CIRCLIGASE IITM ssDNA连接酶(EpicentreBiotechnologies,Madison,Wisconsin;Lucks等人,2011,Proc.Natl.Acad.Sci.USA 108:11063-11068;Li等人,2006,Anal.Biochem.349:242-246;Blondal等人,2005,NucleicAcids Res.33:135-142)。任选地,环化连接酶是嗜热自养甲烷杆菌(thermoautotrophicum)RNA连接酶1或“MthRn1连接酶”。参见例如,美国专利US7,303,901、美国专利US9217167、和国际公布WO2010/094040,所述文献各自以引用方式全文并入本文。
在一些实施方案中,与钩探针一起使用的连接酶是T4DNA连接酶(例如T4RNA连接酶I;Zhang等人,1996,Nucleic Acids Res.24:990-991;Tessier等人,1986,Anal.Biochem.158:171-178))。在一些实施方案中,与钩探针一起使用的连接酶是热稳定的5’App DNA/RNA连接酶
钩产物的形成
本文提供了用于制备钩产物的方法。钩产物的形成可用于(尤其是)富集包含核酸混合物的样品中的一种或多种感兴趣的核酸序列。任选地,钩产物的形成可用于合成人工基因。钩产物包含靶核酸序列(例如,包含感兴趣序列的基因组DNA片段)和在靶核酸序列的一个或两个末端处的钩探针序列。通常,钩产物包含在靶核酸片段的一个或两个末端处的钩探针序列。
该方法包括提供连接酶(例如,环化连接酶),包含靶特异性区域和钩区域的一个或多个5’钩探针,和/或包含靶特异性区域和钩区域的一个或多个3’钩探针,并且在允许钩探针选择性结合到一个或多个感兴趣的核酸序列的条件下以及在形成一种或多种钩产物的条件下使包含核酸的样品与一个或多个5’钩探针、一个或多个3’钩探针和环化连接酶接触。在一些实施方案中,每个钩产物包含连接到感兴趣的核酸序列的5’末端的5’钩探针和连接到感兴趣的核酸序列的3’末端的3’钩探针。如上所述,5’钩探针的钩区域可包括例如通用引物结合位点、独特的分子标记、样品条形码、细胞条形码、或它们的任何组合。类似地,3’钩探针的钩区域可包括通用引物结合位点,独特的分子标记、样品条形码、细胞条形码、或它们的任何组合。
钩产物的形成包括在允许钩探针选择性结合到一个或多个感兴趣的核酸序列的条件下并且在形成一种或多种钩产物的条件下使包含核酸的样品与一个或多个5’钩探针、一个或多个3’钩探针和连接酶接触。包含靶多核苷酸和非靶多核苷酸的样品、连接酶和钩探针可以以任何合适的方式混合以形成反应混合物(即,在允许钩探针选择性结合到一个或多个感兴趣的核酸序列的条件下并且在形成一种或多种钩产物的条件下,包含核酸的样品与一个或多个5’钩探针、一个或多个3’钩探针和连接酶混合)。在一些实施方案中,样品与包含一个或多个5’钩探针和/或一个或多个3’钩探针和/或环化连接酶的组合物混合。在一些实施方案中,样品与钩探针混合,随后将连接酶添加到包含一个或多个5’钩探针和/或一个或多个3’钩探针和/或环化连接酶的组合物。任选地,所述接触包括使样品与包含一个或多个5’钩探针和一个或多个3’钩探针的反应混合物接触,并且还包括使样品与环化连接酶接触。
任选地,所述方法还包括在使反应混合物与样品接触之前使样品中的核酸变性。在一些实施方案中,所述方法还包括在使反应混合物与样品接触之前将样品中的核酸片段化。如上所述,样品中的核酸可以来自任何尺寸,例如,样品中的核酸可以具有100至500个核苷酸,或100至200个核苷酸,或400至500个核苷酸的平均长度。
如本文所述,本文提供的钩探针(无论3’还是5’)的靶特异性区域可在感兴趣的核酸序列的末端处或远离感兴趣的核酸序列的末端的位置处结合。任选地,5’钩探针的靶特异性区域可在感兴趣的核酸序列的5’末端处,或在距感兴趣的核酸序列的5’末端1至200个或更多个核苷酸的位置处结合感兴趣的核酸序列。例如,钩探针的靶特异性区域可在距离感兴趣的核酸序列的5’末端100至200个核苷酸的位置处结合感兴趣的核酸序列。任选地,3’钩探针的靶特异性区域可在感兴趣的核酸序列的5’末端处或在距离感兴趣的核酸序列的3’末端1至200个核苷酸的位置处结合感兴趣的核酸序列。例如,钩探针的靶特异性区域可在距感兴趣的核酸序列的3’末端100至200个核苷酸的位置处结合感兴趣的核酸序列。
图1示出了具有与靶多核苷酸中的感兴趣的互补核酸序列杂交的靶序列区(也称为基因特异性区域或GPS)的5’和3’钩探针。如图1所示,在某些实施方案中,多于一个5’钩探针和/或多于一个3’钩探针可与靶多核苷酸杂交。钩探针中的至少一些杂交足以接近靶多核苷酸的末端,使得钩区域的游离末端与靶多核苷酸连接。因此,5’钩探针可包括包含结合到相同感兴趣核酸序列的不同靶特异性区域的多个5’钩探针。任选地,5’钩探针包含第一5’钩探针,其包含结合到第一感兴趣核酸序列中的第一位置的第一靶特异性区域,和第二5’钩探针,其包含结合到第一感兴趣核酸序列中的第二位置的第二靶特异性区域。类似地,3’钩探针可包含含有结合到相同感兴趣核酸序列中的不同靶区域的多个3’钩探针。任选地,3’钩探针包含第一3’钩探针,其包含结合到第一感兴趣核酸序列中的第一位置的第一靶特异性区域,和第二3’钩探针,其包含结合到第一感兴趣核酸序列中的第二位置的第二靶特异性区域。如图1所示,钩探针可包含样品条形码(SB)。
图2示出了使用钩探针的示例性方法。可将DNA(例如,片段化的基因组DNA或游离DNA)变性(例如,通过加热),然后与一个或多个钩探针或钩探针组接触。钩探针结合靶多核苷酸中的感兴趣的核酸序列(由星号标识)并且一至三个5’钩探针和一至三个3’钩探针退火至所述靶(示出两对钩探针)。将分子复合物与连接酶混合,并将钩探针连接至靶核酸的末端以形成钩产物。
不包含靶DNA的漂浮连接产物可由未退火的钩探针形成。漂浮连接产物连同其它单链核酸可使用外切核酸酶(exonuclease)降解。示例性的适宜外切核酸酶包括5’->3’外切核酸酶、3’->5’外切核酸酶和具有两种活性的外切核酸酶。示例性的适宜外切核酸酶包括Exo VII,ExoI(或ExoT),RecJ,或Exol(或ExoT)和RecJ)。ExoVII在5’和3’末端处消化单链DNA,RecJ是5’->3’外切核酸酶,Exol和ExoT是3’->5’外切核酸酶。外切核酸酶处理也降解钩探针或脱靶ssDNA(不具有钩探针序列的DNA)。如图2所示,可使用引物(例如,与钩探针钩区域的引物序列杂交或互补的通用引物)扩增钩产物。在一些实施方案中,对扩增子测序。在图2中,“X”示出生物学显著变化的位置
在一些实施方案中,所述方法包括仅使用5’钩探针或仅使用3’钩探针。因此,提供了用于富集包含核酸的样品中的一种或多种感兴趣核酸序列的方法,所述方法包括提供包含靶特异性区域和钩区域的一个或多个5’钩探针以及环化连接酶,并且在允许5’钩探针选择性结合到一个或多个感兴趣核酸序列的条件下并且在形成一种或多种钩产物的条件下,使包含核酸的样品与一个或多个5’钩探针和环化连接酶接触。任选地,每个钩产物包含连接到感兴趣核酸序列的5’末端的5’钩探针。
还提供了用于富集包含核酸的样品中的一种或多种感兴趣核酸序列的方法,所述方法包括提供包含靶特异性区域和钩区域的一个或多个3’钩探针以及环化连接酶,并且在允许3’钩探针选择性结合到一个或多个感兴趣核酸序列的条件下并且在形成一种或多种钩产物的条件下,使包含核酸的样品与一个或多个3’钩探针和环化连接酶接触。任选地,每个钩产物包含连接到感兴趣核酸序列的3’末端的3’钩探针。
图3是使用钩探针的示例性无PCR方法的示意图。可将DNA(例如,片段化的基因组DNA或游离DNA)变性(例如,通过加热或碱),之后与一个或多个钩探针或钩探针组接触。钩探针结合感兴趣的核酸序列(由星号表示),并且一个5’钩探针和一个3’钩探针分别连接至靶核酸的5’和3’末端以形成钩产物。可使用单链特异性外切核酸酶降解包含非靶DNA的漂浮连接产物以及其它单链核酸。在该图中,钩探针包括能够被限制酶切割的限制酶(RE)识别位点,或者能够被一种或多种酶(例如,尿嘧啶特异性切除试剂(USER))切割的经修饰的核苷酸(例如U)。这有助于移除钩探针的靶特异性区域。如果需要,可连接钩产物以形成环,所述环能够通过滚环扩增进行扩增。图9还示出了使用包含可降解的核苷酸或限制酶或切口位点(示出了可降解核苷酸U)的钩探针的示例性方法。钩探针结合感兴趣的核酸序列,并且钩探针连接至靶核酸的末端以形成钩产物。钩产物可使用通用引物进行扩增。包含非靶DNA的漂浮连接产物,连同其它单链核酸可使用外切核酸酶进行降解。
图4是使用钩探针的示例性方法的示意图。可将DNA(例如片段化的基因组DNA或游离DNA)变性(例如通过加热),然后与一个或多个5’钩探针或一个或多个3’钩探针(示出3'钩探针)接触。钩探针结合感兴趣的核酸序列(由星号表示),并且钩探针连接至靶核酸的末端。包含非靶DNA的漂浮连接产物,连同其它单链核酸可使用外切核酸酶降解。可使用通用引物(任选地包含样品条形码(SB))使钩产物变性和延伸。在一种方案中,将通用接头序列连接至延伸产物并使用通用引物进一步扩增。另选地,用限制酶或其它酶消化钩产物以移除钩产物的靶特异性区域的至少一部分。钩产物可例如通过滚环扩增环化以形成准备扩增的单链环。
图5是使用钩探针的示例性方法的示意图。使DNA(例如,片段化的基因组DNA或游离DNA)经历末端修复和磷酸酯移除以产生平端双链核酸。将通用接头连接到双链片段。将这些片段变性并与一个或多个5’钩探针或一个或多个3’钩探针(示出5’钩探针)接触以形成钩产物。包含非靶DNA的漂浮连接产物,连同其它单链核酸可使用外切核酸酶降解。钩产物可使用通用引物进行扩增或切割以移除靶特异性区域,然后进行环化。
图6是使用钩探针的示例性方法的示意图。可将DNA(例如片段化的基因组DNA或游离DNA)变性(例如通过加热),随后与一个或多个5’钩探针或一个或多个3’钩探针(示出3’钩探针)接触。钩探针结合感兴趣的核酸序列(由星号表示),并且钩探针连接到靶核酸的末端以形成钩产物。包含非靶DNA的漂浮连接产物,连同其它单链核酸可使用外切核酸酶降解。在该示例中,使用靶特异性引物制备延伸产物以制备用于接头连接的产物。将产物任选地扩增。
接触
包含感兴趣的核酸序列的样品可以任何顺序接触环化连接酶和5’和/或3’钩探针或可以接触环化连接酶和5’和/或3’钩探针的组合。在一个方案中,可将连接酶和钩探针组合,并将该组合物加入样品中。在一些实施方案中,使样品与环化连接酶和5’和/或3’钩探针同时接触。在一些实施方案中,接触包括使样品与包含一个或多个5’钩探针的反应混合物接触。任选地,反应混合物还包含一个或多个3’钩探针。任选地,反应混合物还包含环化连接酶。例如,接触可包括使样品与包含一个或多个5’钩探针和/或一个或多个3’钩探针的反应混合物接触,并且还包括使样品与包含环化连接酶的反应混合物接触。环化连接酶可在加入5’和/或3’钩探针之前、同时或之后与样品接触。在一些实施方案中,所述接触包括在允许5’钩探针结合到第一感兴趣核酸序列并允许5’钩探针连接到第一感兴趣核酸序列的5’末端的条件下,使样品与一个或多个5’钩探针和环化连接酶接触,并且在允许3’钩探针结合到第一感兴趣核酸序列并将3’钩探针连接到第一个感兴趣核酸序列的3’末端的条件下,使样品与一个或多个3’钩探针接触。任选地,在加入5’钩探针之前,将3’钩探针加入样品并连接至感兴趣的核酸序列。环化连接酶可在钩探针之前、同时或之后添加,并根据需要可重复添加环化连接酶到样品中。类似地,可根据需要重复进行样品与5’和/或3’钩探针的接触。
多重法(Multiplexing)和大规模平行富集
尽管为了清楚起见,图2示出了单个靶核酸,但应当理解,最常见的是将包含不同感兴趣序列的多个不同靶核酸片段转化成钩产物。在各种实施方案中,可将2至50,000个或更多个不同的感兴趣序列掺入单一反应混合物中的钩产物中。
随机序列实施方案
在本文所述的多个实施方案中,靶特异性区域被设计成用于结合到预定序列(例如,特异性基因组或合成序列)或序列(少量相关基因组序列)。在其它实施方案中,钩探针或钩探针文库可以包含简并或随机序列靶非特异性区域。例如,此类文库可用于产生表征整个基因组的钩产物群,但不知道所述钩产物群的特定对应性。类似地,随机序列钩探针的文库可用于基于产生的钩产物的图案来检测不同的等位基因或拷贝数变化。
环状核酸分子
图7是示出通过连接包含感兴趣核酸序列的靶核酸的末端形成环状DNA分子的示意图。靶核酸的一部分包含在一端形成双链区段和环的互补序列。在另一端处,靶核酸的5’和3’末端接近并能够连接在一起。
因此,本发明提供了使包含感兴趣核酸序列的单链靶核酸环化的方法。在一些实施方案中,靶核酸的长度大于500个核苷酸。在一些实施方案中,所述方法包括提供靶核酸,所述靶核酸包含由1至500个核苷酸或多于500个核苷酸隔开的第一区域和第二区域,所述第一和第二区域彼此互补并且能够形成双链结构。所述方法还包括提供连接酶,并且在用于形成连接产物的条件下使靶核酸与连接酶接触。通过该方法形成的连接产物是包含感兴趣的核酸序列的环状靶核酸。环状靶核酸具有哑铃结构,其中两个单链区域侧接由靶核酸的互补序列形成的双链区域。
使用钩探针的方法
在一些实施方案中,用于富集包含核酸的样品中的至少一种感兴趣的核酸序列的方法包括提供连接酶,提供至少一个5’钩探针和至少一个3’钩探针,每个钩探针均包含靶特异性区域和钩区域。在一些实施方案中,当钩探针的靶特异性区域与感兴趣的核酸序列杂交时,钩探针适用于将钩区域连接到感兴趣的核酸序列。在一些实施方案中,靶特异性区域是已知的特异性序列,或者当使用多个探针时,是一组已知的特异性序列。任选地,靶特异性区域可以是随机序列。在允许钩探针选择性结合到一个或多个感兴趣核酸序列的条件下,并且在形成一个或多个钩产物的条件下,使钩探针与样品和连接酶接触,每个钩产物包含连接到感兴趣的核酸序列的5’末端的5’钩探针和连接到感兴趣的核酸序列的3’末端的3’钩探针。
所提供的方法可包括消化不包含感兴趣的核酸序列的单链核酸,例如非靶DNA或脱靶DNA。所提供的方法还可以包括消化任何未连接的钩探针和随机连接产物。参见例如图2。因此,所提供的方法可包括使钩产物与一种或多种外切核酸酶接触。合适的外切核酸酶是已知的并且可商购获得。外切核酸酶包括但不限于Exo VII、RecJ、ExoI或ExoT。所提供的方法、组合物、反应混合物和试剂盒可包括一种或多种外切核酸酶。因此,钩产物可与ExoVII、RecJ、ExoI、ExoT或它们的任何组合接触。外切核酸酶消化单链核酸。任选地,外切核酸酶不消化一种或多种钩产物。任选地,所述方法还包括纯化钩产物。任选地,钩产物使用磁珠纯化。例如,使用包含与钩产物的一部分互补的寡核苷酸的磁珠来纯化钩产物。钩产物结合位于磁珠上的适当寡核苷酸。然后分离带钩产物的磁珠,由磁珠获得钩产物,从而纯化钩产物。
如全文所述,反应混合物可包含任何数目的5’和/或3’钩探针。任选地,反应混合物包含1、2、3、4或5个5’钩探针。任选地,反应混合物包含1、2、3、4或5个3’钩探针。任选地,反应混合物包含6、7、8、9、10、15、20、25、30、35、40、45或50个5’钩探针。任选地,反应混合物包含6、7、8、9、10、15、20、25、30、35、40、45或50个3’钩探针。任选地,反应混合物包含2个5’钩探针和2个3’钩探针。任选地,反应混合物包含3个5’钩探针和3个3’钩探针。任选地,反应混合物包含1个5’钩探针和1个3’钩探针。
如在本发明提供的方法中所用的,5’钩探针可包括3’OH基团,5’封端基团或它们的任何组合。任选地,3’钩探针包含5’磷酸酯、3’封端基团或它们的任何组合。
在一些实施方案中,通用引发位点的长度为5至30个核苷酸。任选地,独特的分子标记的长度为1、2、3、4、5、6、7、8、9、10、11、12、13、14或15个核苷酸。
钩产物的修饰和使用
如全文所述,一旦形成钩产物,包含感兴趣的核酸序列的钩产物就可以任意数量的方式加工,包括扩增、接头连接或它们的任何组合。任选地,钩产物用于产生用于测序分析的感兴趣的核酸序列文库。任选地,钩产物用于合成人工基因。任选地,钩产物被扩增(例如,使用结合到钩探针上的通用引物结合位点的通用引物)。任选地,通用引物和/或钩探针可包括样品条形码。因此,本发明提供的方法可包括将通用引物退火至富集的感兴趣的核酸序列并扩增感兴趣的核酸序列。任选地,加工钩产物以移除钩探针的靶特异性区域并环化以产生感兴趣的单链环状核酸序列。任选地,通过滚环扩增来扩增感兴趣的环化核酸序列。
包含感兴趣的核酸序列的钩产物可以通过将接头连接到感兴趣的核酸序列的5’和/或3’端来修饰。任选地,扩增的钩产物可与接头连接。因此,本发明所提供的方法可包括将接头连接至富集的感兴趣的核酸序列。任选地,将接头连接到感兴趣的核酸序列的5’和/或3’端。任选地,在扩增后将接头连接至富集的感兴趣的核酸序列,即连接至扩增的富集的感兴趣的核酸序列。
用于扩增和接头连接至感兴趣的核酸序列的方法是已知的。例如,在许多大规模平行测序(MPS)技术中,生成测序模板库,并且对库中的单独物种进行并行测序。例如,在DNA纳米球方法中,将基因组DNA片段化,并且单独的片段用于产生环状DNA,其中平台特异性寡核苷酸接头分离基因组DNA序列(所述分离的基因组DNA序列在基因组中可以是连续的)。扩增环状DNA以产生可固定在底物上的单链多联体(“DNA纳米球”)。在另一测序方法中,将基因组DNA片段化并且然后将DNA片段连接至平台特异性寡核苷酸接头。接头用于将单独片段固定在基底上,其中它们被原位扩增以产生用于测序的克隆成簇扩增子。许多其它MPS测序方法是已知的。
因此,应该认识到,虽然有时根据靶DNA(例如单个DNB模板DNA)描述本发明,但是通常在包含许多不同靶序列(例如不同基因组DNA片段)但共享共同的接头序列的构建体的阵列(例如,包含DNA多联体或模板DNA多核苷酸的克隆拷贝的阵列)上,使用大序列库进行MPS测序。
用于制备MPS测序文库的方法,和使用此类文库测序的方法是本领域所熟知的,并且假定读者熟悉此类方法。出于解释说明但不是限制的目的,参见,Shendure,J.和H.Ji.“Next-generation DNA sequencing,”Nature biotechnology 26.10(2008):1135-1145;Shendure,J.等人,“Advanced sequencing technologies:methods and goals”Nat.Rev.Genet.5,335–344(2004);Metzker,Michael L.“Sequencing technologies—thenext generation,”Nature Reviews Genetics 11.1(2010):31-46;Drmanac,R.等人,“Accurate Whole Genome Sequencing as the Ultimate Genetic Test,”ClinicalChemistry 61.1(2015):305-306;Drmanac,R.等人,“Human genome sequencing usingunchained base reads on self-assembling DNA nanoarrays,”Science 327.5961(2010):78-81;Drmanac,S.等人,“Accurate sequencing by hybridization for DNAdiagnostics and individual genomics,”Nat.Biotechnol.16,54–58(1998);Margulies,M.等人,“Genome sequencing in microfabricated high-density picolitrereactors,”Nature 437.7057(2005):376-380;Ng,S.等人,“Targeted capture andmassively parallel sequencing of 12human exomes,”Nature 461.7261(2009):272-276;Meng,H-M等人,“DNA dendrimer:an efficient nanocarrier of functionalnucleic acids for intracellular molecular sensing,”ACS Nano 8.6(2014):6171-6181;Shendure,J.等人,“Accurate multiplex polony sequencing of an evolvedbacterial genome,”Science 309,1728–1732(2005);Brenner,S.等人,“Gene expressionanalysis by massively parallel signature sequencing(MPSS)on microbead arrays”Nat.Biotechnol.18,630–634(2000);Ronaghi等人,“Real-time DNA sequencing usingdetection of pyrophosphate release”Anal.Biochem.242,84–89(1996);McKernan,K.等人,“Reagents,methods,and libraries for bead-based sequencing,”,美国专利申请US2008/0003571(2006);Adessi,C.等人,“Solid phase DNA amplification:characterisation of primer attachment and amplification mechanisms”NucleicAcids Res.28,e87(2000),所述参考文献中的每一个均以其全文并入用于全部目的,包括教导制备DNA测序文库和MPS测序平台和技术。
在一些实施方案中,所述方法包括纯化或捕获钩产物。任选地,钩产物使用磁珠或生物素化珠进行纯化。
组合物和试剂盒
例如,可提供包含1至50,000或更多个钩探针的组合物、反应混合物或试剂盒。在一些情况下,组合物、反应混合物或试剂盒包含2至40,000、2至30,000、2至25,000、2至20,000、2至15,000、2至10,000、2至7,500、2至5,000、2至2,500、2至1,000、2至500、2至250、2至200、2至150、2至125、2至100、2至75、2至50、2至25、2至10个不同的钩探针。在一些情况下,组合物、反应混合物或试剂盒包含10至40,000、10至30,000、10至25,000、10至20,000、10至15,000、10至10,000、10至7,500、10至5,000、10至2,500、10至1,000、10至500、10至250、10至200、10至150、10至125、10至100、10至75、10至50、10至25、或10至20个不同的钩探针。在一些情况下,组合物、反应混合物或试剂盒包含、包含约、包含至少、或包含至少约10、20、30、40、50、75、100、200、250、300、400、500、750、1,000、2,000、3,000、4,000、5,000、7,500、10,000、15,000、或多于15,000个不同的钩探针。
在一些情况下,多个不同的钩探针是针对靶核酸的特定子集的钩探针组。例如,钩探针可以是针对例如基因组(已知影响生物体癌症风险的DNA区域)的癌症组。又如,钩探针可以是针对感兴趣的生物体的外显子组序列或转录组序列中的大部分或全部的外显子组或转录组。又如,钩探针可以是用于富集核酸的钩探针组,所述核酸指示病原体或病原体组和/或与此类病原体或病原体组相关的毒力标记的存在。
因此,钩探针可用于富集大量感兴趣的核酸。例如,钩探针可用于富集1至10、1至10,000、10至15,000、10至50,000、10至100,000、1,000至10,000、1,000至15,000、1,000至50,000、1,000至100,000个或更多个感兴趣的核酸序列。从样品中富集大量感兴趣的核酸序列可用于例如整个基因组、整个外显子组或整个转录组的核酸序列分析、靶生物体群的分析、或环境样品的分析。因此,钩探针可用于富集感兴趣的核酸序列以产生用于序列分析的核酸文库。文库产生可包括扩增富集的感兴趣核酸序列;然而,此类扩增对于文库生成不是必需的。本发明所提供的方法增加了文库制备的特异性(例如,如由后续测序步骤中产生的目标区域序列数的百分比所指示的)。使用本发明所提供的钩探针产生的文库与高通量测序平台相容,其包括但不限于通过连接(例如,组合探针锚定连接(cPAL)测序或通过本领域已知的合成方法测序。应该认识到,可制备具有基本上任何期望的接头序列的测序文库。
本文提供的反应混合物包括一个或多个5’钩探针和/或一个或多个3’钩探针和环化连接酶。
本发明还提供了试剂盒,所述试剂盒包含一个或多个5’钩探针、一个或多个3’钩探针或它们的任何组合和使用说明。试剂盒可包括在相同或独立的容器中的5’和3’钩探针。任选地,试剂盒包含1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、75、100、125、150、175、200、225、250、275、300、325、350、375、400、425、450、475或500个5’钩探针。任选地,试剂盒包含1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、75、100、125、150、175、200、225、250、275、300、325、350、375、400、425、450、475或500个3’钩探针。任选地,试剂盒包含2个5’钩探针和2个3’钩探针。可选地,试剂盒包含3个5’钩探针和3个3’钩探针。任选地,试剂盒包含1个5’钩探针和1个3’钩探针。在一些实施方案中,取决于应用,试剂盒包含500、1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000、15,000、20,000或更多个探针。试剂盒还可包括在相同或独立容器中的用于进行本发明所提供的方法的酶,包括例如环化连接酶、限制酶、外切核酸酶或它们的任何组合。试剂盒可包括引物、接头或其它核酸和/或酶或用于扩增感兴趣的核酸序列所必需的其它试剂。因此,试剂盒可包括接头、通用引物或它们的任何组合。试剂盒还可包括酶如聚合酶和用于扩增感兴趣的核酸序列的试剂。
夹板寡核苷酸
在一些实施方案中,本文提供的反应混合物包含一个或多个5’钩探针和/或一个或多个3’钩探针和夹板寡核苷酸。参见例如,图8。夹板寡核苷酸与感兴趣的靶核酸序列杂交并且与钩探针的钩区域杂交,以使感兴趣的靶核酸序列的末端和钩探针的末端邻近以促进连接。
实施例
实施例1:使用钩探针连接的靶富集
为了使用钩探针分离靶核酸,将基因组DNA样品通过物理或酶促片段化加工成100bp至500bp的片段。钩探针与DNA样品接触,并且使用环化连接酶形成钩产物。钩产物可通过PCR扩增或使用珠纯化,并且然后通过PCR扩增。可使用外切核酸酶移除ssDNA。例如,将10ng模板DNA连同钩探针(不少于0.1nM/每个探针)一起在95℃下在钩连接缓冲液中热变性5-10分钟。将温度降至50℃(可以为25℃至60℃之间的任何温度)并持续1小时(可温育超过4小时)。在50℃(可以为介于25℃至60℃的任何温度)下加入环化连接酶并持续1小时(可温育超过4小时)。用磁珠纯化连接后形成的钩产物,并将DNA洗脱成一定体积,例如40μl。使用通用引物通过PCR扩增富集的感兴趣的核酸序列。
实施例2:钩探针连接效率
为了确定钩探针的连接效率,使用10%变性聚丙烯酰胺凝胶(TBU凝胶)示出对于90个碱基对合成DNA(YJ-439)的由circLigase I(Epicentre,Madison,WI)介导的钩连接效率。
图10是示出泳道1中的YJ-439(通过IDT合成)和泳道2中的靶特异性5’钩探针,YJ-765(通过IDT合成)的凝胶的图像。YJ-439本身在其最佳温度55℃下,在泳道3(用外切核酸酶I和III处理)和泳道4(不用外切核酸酶I和III处理)中形成单链环(在泳道3和4中由箭头标记)。当在不同温度下与钩探针(YJ-765)温育时,如在泳道5-9中所示(分别为25℃、37℃、45℃、55℃和60℃),大部分YJ-439形成钩连接产物(在泳道5-9中由箭头标记)而不是单链环。钩连接产物被外切核酸酶I和III降解(数据未示出),这表明连接产物为线性产物。
YJ-439
5’–
CTCATGCCCTTCGGCTGCCTCCTGGACTATGTCCGGGAACACAAAGACaatattggct cccagtacctgctcaactggtgtgtgcagatc(SEQ ID NO:1)
YJ-765 5’_钩探针
CAGGAGGCAGCCGAAGGGCAGAACGACATGGCTACGATCCGACTTNNNNNNCATTTCAT(SEQ IDNO:2)
图11是示出对于90个碱基对合成DNA,YJ-439,没有或具有较低的由circLigase I(Epicentre,Madison,WI)介导的随机钩连接效率的10%变性聚丙烯酰胺凝胶(TBU凝胶)的图像。5’和3’钩探针是YJ-890(5’钩探针)和YJ-891(3’钩探针),其包含随机序列作为靶特异性区域(分别为泳道3和4,由IDT合成)。泳道5描述了钩探针YJ-890和YJ-891之间的连接酶反应。YJ-439本身在其最佳温度55℃下在泳道2中(用外切核酸酶I和III处理)形成单链环(由箭头标记)。当在不同温度下与随机钩探针(YJ-890和YJ-891)温育时,如泳道5-9所示(分别为25℃、37℃、45℃、55℃和60℃),大多数连接产物是对外切核酸酶处理(数据未示出)不敏感的单链环(由箭头标记)。随机连接产物在凝胶上不可见。5’和3’钩探针可形成分子间连接产物(由泳道5-10中的长箭头标记),其被外切核酸酶I和III降解(数据未示出)。
YJ-890(5’钩探针)
NNNNNNNNNNNNNNNGAACGACATGGCTACGATCCGACTTNNNNNN(SEQ ID NO:3)YJ-891(3’钩探针),
ATGCTGACGGTCAAGTGGTCTTAGGNNNNNNNNNNNNNNN(SEQ ID NO:4)
本发明公开了可用于本发明公开的方法和组合物、可与本发明公开的方法和组合物结合使用的、可在本发明公开的方法和组合物的制备中使用,或者为本发明公开的方法和组合物的产物的材料、组合物和组分。这些和其它材料在本文中公开,并且应当理解,当公开这些材料的组合、子集、相互作用、组等时,尽管可能没有明确地公开这些化合物的各个个体和集体组合和排列的具体参考,但在本文中明确地考虑并描述了每一个。例如,如果公开并讨论了一种方法,并且讨论了包括所述方法在内的可对多个分子进行的多种修改,则除非明确地指明相反,否则可明确地考虑所述方法和修改的各个和每一个组合和排列以及可能的修改。同样,还明确地考虑并公开了这些组合和排列中的任何子集或组合。这种概念适用于本公开的所有方面,包括但不限于使用本发明所公开的组合物的方法中的步骤。因此,如果存在可进行的各种附加步骤,则应当理解,这些附加步骤中的每一个均可利用本发明所公开的方法的任何特定方法步骤或方法步骤的组合来进行,并且每个此类组合或组合的子集均被明确地考虑并且应该被认为是公开的。
此处引用的出版物及其引用的材料由此以引用方式以其整体明确地并入。
以下实施例旨在进一步说明本文所述的方法和组合物的某些方面,并且不旨在限制权利要求的范围。