具体实施方式
1.概述
在一方面,提供用于核酸测序的多核苷酸构建体和文库,以及产生多核苷酸构建体和文库的方法。本申请描述的多核苷酸构建体包含由较大核酸片段产生的配对多核苷酸序列,并且还包含接头序列。如本申请所用,术语“配对多核苷酸构建体”是指包含由较大核酸片段,如基因组DNA,产生的多核苷酸序列或“多核苷酸臂”的配偶对的构建体,并且还包含第一接头和第二接头,其中每个多核苷酸臂在一端连接到第一接头,另一端连接到第二接头。图1中示出了配对多核苷酸构建体的示意图。图2示出了生成包含两个鼓泡接头的配对多核苷酸构建体的示例性方法的流程图。
在一些实施方案中,本申请的多核苷酸构建体或文库可以通过扩增方法以形成可以置于表面上的多核苷酸连环体(concatemers)或“[DNA]纳米球”。然后可以对多核苷酸构建体或包含多核苷酸构建体的连环体的纳米球进行测序,以检测和鉴定靶核酸序列。在一些实施方案中,可以使用诸如通过连接方法测序,例如组合探针锚定连接(缩写“cPAL”)方法的技术或通过合成方法测序来对多核苷酸构建体和文库进行测序。
如本申请的配对构建体和文库可用于确定靶多核苷酸、基因组、外显子组、核苷酸文库等内的重复序列的长度和/或核苷酸序列。例如,许多测序技术具有相对较短的读取长度,并且由于这些较短的读取长度可能无法通过长的重复序列序列,例如延伸20、30、40或50个碱基或更多的重复序列,可能难以从短读取长度组装完整的序列,部分是由于不能确定重复序列的端点。通过使用如本申请所述的配对构建体和配对文库,其中起始多核苷酸片段的大小和片段的缺失部分的长度是已知的或可以被预测的,甚至可以使用短的读取长度鉴定靶多核苷酸中目标区的长度和/或核苷酸序列。
如本申请的配对构建体和文库也可用于减少GC偏差,其传统上导致富含GC的序列的低覆盖。使用本申请所述的方法和组合物可以获得富含GC的序列覆盖率的改善,允许更高质量的数据或对某些基因、基因组或外显子区进行测序的能力。
另外,本申请的方法和组合物具有显著降低建库成本的多个特征。在一个方面,本申请的方法需要相对少量的核酸起始量,例如,只需约3μg未片段化的起始基因组DNA,或0.3至1.2pmol片段化的筛选片段大小的DNA。因此,与本领域已知的文库构建方法相比,本申请的方法减少了生成文库所需的核酸起始量,而不牺牲产量或覆盖率。此外,与本领域已知的文库构建方法相比,本申请的方法减少了建库所需的步骤,优化了各种酶促和非酶促步骤,缩小了各个步骤所需的反应体积,而不牺牲产量或覆盖率。本申请的方法更加适合于自动化文库构建,以增加测序通量。
2.用于文库构建的基因组核酸
通常,根据本申请的方法产生的配对文库包含靶核酸序列与“接头”,靶核酸序列例如,基因组DNA或其他类型的核酸。接头可以充当每个接头-基因组DNA结以外的多个位置的读取碱基的起点,并且可以从接头沿两个方向读取碱基。
如本申请用于产生配对文库的靶核酸可以是本申请的单链或双链,或可以包含双链和单链序列的一部分。例如,靶核酸可以是基因组DNA、cDNA、mRNA或DNA和RNA的组合或杂交。在一些实施方案中,用于产生配对文库的靶核酸是基因组DNA。
用于产生配对文库的靶核酸,例如,基因组DNA,可以从任何目标生物获得。目标生物包括例如植物;动物,例如,哺乳动物,包括人和非人灵长类动物;和病原体,如细菌和病毒。在一些实施方案中,靶核酸,例如基因组DNA,是人核酸。
靶核酸从目标生物体的样品获得。样品的非限制性实例包括体液,包括但不限于血液,尿液,血清,淋巴,唾液,肛门和阴道分泌物,出汗和精液;细胞;环境样本,如空气,农业,水土样品;生物试剂样品;研究样品,例如,核酸扩增反应的产物,例如PCR扩增反应;纯化的样品,如纯化的基因组DNA;RNA制剂;和原始样品,如细菌、病毒、基因组DNA等。从生物体获得靶核酸,例如基因组DNA,的方法是本领域熟知的。参见例如Sambrook等人,Molecular Cloning:A Laboratory Manual(1999);Ausubel等人,Current Protocols inMolecular Biology,(John Wiley and Sons,Inc.,NY,1999)等。
在一些实施方案中,靶核酸包含基因组DNA。在一些实施方案中,靶核酸包含基因组的子集,例如,特定应用的目标亚群,例如可能在群体特定子集中存在突变的所选择的基因,例如易于早期得癌症的个体。在一些实施方案中,靶核酸包含外显子组DNA,即富含转录序列的全基因组DNA的子集,转录序列含有基因组中的一组外显子。在一些实施方案中,靶核酸包含全部或部分转录组,即在细胞或细胞群中产生的所有mRNA或“转录(transcripts)”的集合。在一些实施方案中,靶核酸包含甲基化的全部或部分,即甲基化位点的群体和基因组或特定细胞中的甲基化模式。
在一些实施方案中,靶核酸,例如,基因组DNA,通过片段化处理以产生一种或多种特定大小的片段。可以使用任何片段化方法。例如,在一些实施方案中,靶核酸通过机械方式,例如,超声波切割、声剪切、针剪切或超声处理;化学方法;或通过酶法,例如使用内切核酸酶,进行片段化处理。片段化的方法是本领域已知的;参见例如US 2012/0004126。在一些实施方案中,通过超声例如Covaris或Sonicman 96孔格式的仪器,实现靶核酸片段化。
在一些实施方案中,将片段化的靶核酸,例如,片段化的基因组DNA,进行大小选择以获得具有一定尺寸或大小范围的核酸片段。可以使用任何尺寸选择的方法。例如,在一些实施方案中,通过凝胶电泳分离片段化的靶核酸,并且从凝胶中提取选择片段大小的条带。在一些实施方案中,也可以采用分离柱选择特定大小的片段。在一些实施方案中,磁珠分离可用于选择性地结合具有所需大小范围的DNA片段。在一些实施例中,也可以以上方法的组合。
在一些实施方案中,片段化的多核苷酸长度为约50bp至约2000bp,例如长度为约50bp至约600bp,长度为约300bp至约1000bp,长度为约300bp至约600bp,或约200bp至约2000bp。在一些实施方案中,片段为10-100bp、50-100bp、50-300bp、100-200bp、200-300bp、50-400bp、100-400bp、200-400bp、400-500bp、400-600bp、500-600bp、50-1000bp、100-1000bp、200-1000bp、300-1000bp、400-1000bp、500-1000bp、600-1000bp、700-1000bp、700-900bp、700-800bp、800-1000bp、900-1000bp、1500-2000bp或1750-2000bp。在一些实施方案中,片段化多核苷酸,例如,基因组DNA,为约50bp,约100bp,约150bp,约200bp,约250bp,约300bp,约350bp,约400bp,约450bp,约500bp,约550bp,约650bp,约700bp,约750bp,约800bp,约850bp,约900bp,约950bp,约1000bp,约1100bp,约1200bp,约1300bp,约1400bp,约1500bp,约1600bp,约1700bp,约1800bp,约1900bp或约2000bp。
3.接头
在一方面,本申请的多核苷酸构建体包含接头。如本申请所用,接头是具有已知序列的合成多核苷酸。通常,接头的长度比插入它们的多核苷酸序列短。接头可以充当每个接头-基因组DNA结以外的多个位置的读取碱基的起点,并且可以从接头沿两个方向读取碱基。
3.1接头特征
与本申请的方法一起使用的接头的架构可以包括多个特征。在一些实施方案中,接头包括以下特征中的一个或多个:在接头的5’和3’末端的反向重复序列,用于配置在附着到DNA片段期间形成接头的寡核苷酸;一个或多个限制性内切核酸酶识别序列;一个或多个扩增,例如PCR,引物杂交序列;一个或多个测序引物杂交序列,例如SBS引物的杂交序列或cPAL引物的杂交序列,本申请也称为“锚定探针”;一个或多个用于杂交使单链DNA环化的桥连片段的序列;一个或多个滚环扩增引物杂交序列;用于通过cPAL读取标签或条形码,可以是一个或多个标签或条形码序列,或“填充”序列;和一个或多个“干扰”杂交序列,在cPAL测序期间用于洗去锚的寡核苷酸。
在一些实施方案中,接头在接头的5’和/或3’端包括一个或多个反向重复序列。在一些实施例中,接头在其5’端包括第一反向重复序列,在其3’端包含第二反向重复序列。在一些实施方案中,在接头与靶核酸的连接期间使用反向重复序列。在连接期间,反向重复序列允许形成接头的寡核苷酸瞬时形成连接于靶核酸的寡核苷酸双链体。
在一些实施方案中,接头包含一个或多个限制性内切核酸酶识别序列,其允许内切核酸酶在接头内的识别位点处结合并在接近识别序列处或在识别序列内切割。在一些实施方案中,限制性内切核酸酶识别序列是II型核酸内切酶的识别位点。II型核酸内切酶识别双链多核苷酸序列内的核苷酸碱基对的特定序列,通常在识别位点外部切割,通常留下序列的一条链的突出端,或“粘性末端”。II型核酸内切酶通常可商购并且是本领域公知的。
在一些实施方案中,接头包含一个或多个引物杂交序列,例如引物的一个或多个用于扩增反应的引物,例如,PCR引物或RCR引物,的结合位点或一个或多个用于测序反应的引物,例如,通过合成测序,的结合位点。在一些实施方案中,接头包含多个引物杂交序列,例如两个,三个,四个,五个或更多个引物杂交序列。
在一些实施方案中,接头包含一个或多个测序引物杂交序列,例如用于与SBS测序引物杂交的一个或多个序列,或与“锚定”探针杂交的一个或多个序列。锚定探针可用于测序方法,例如本申请所述的cPAL测序方法。在US9,023,769中描述了用于cPAL测序的锚定探针。在一些实施方案中,接头包含多个测序引物杂交序列,例如两个,三个,四个,五个或更多个测序引物杂交序列。在一些实施方案中,接头包含用于一个或两个或更多个测序方法的引物杂交序列,例如,用于与SBS测序引物杂交的一个或多个序列和用于与cPAL锚定探针杂交的一个或多个序列。
在一些实施例中,接头包括一个或多个“干扰”序列。如本申请所用,干扰者序列是用于在使用锚定探针,例如,在cPAL测序中,的测序方法期间用于洗脱锚定探针的寡核苷酸的结合位点。
在一些实施方案中,接头包含用于杂交桥连片段的一个或多个序列。如本申请所用,桥连片段是用于单链线性多核苷酸构建体,例如,包含配对多核苷酸臂,第一接头和第二接头的线性构建体,的环化中的寡核苷酸。桥连片段在连接位点处与单链环杂交,以便使足够长的环稳定以进行连接。
在一些实施方案中,接头包括一个或多个标签或条形码序列或“填充”序列,以通过cPAL化学改善条形码测序的质量。如本申请所用,术语“条形码”是指允许相应核酸序列被鉴定、检索和/或扩增的唯一寡核苷酸序列。在一些实施方案中,条形码被引入,对于获得多核苷酸片段的每个样品条形码是唯一的。在一些实施方案中,条形码可以各自具有在约4至约30个碱基,约6至约20个碱基或约5至约10个碱基的范围内的长度。在一些实施例中,条形码包括“唯一分子标识符”序列,例如,用于标记核酸分子群体的序列,使得群体中的每个分子具有与其相关联的不同标识符。条形码和UMI技术是本领域已知的;参见例如Winzeler等人(1999)Science 285:901;Parameswaran等人(2007)Nucleic Acids Res 35(19):e130;Tu等人(2012)BMC Genomics 13:43;Kivioja等人,Nat Methods 9:72-74(2012);US5,604,097;US 7,537,897;US 8,715,967;US 8,835,358;和WO 2013/173394。在一些实施方案中,通过将条形码序列包含在形成接头的寡核苷酸中,例如,鼓泡接头、L-寡核苷酸接头或夹钳接头,而将条形码序列引入接头序列。在一些实施方案中,通过具有条形码序列的一个或多个引物的扩增反应,例如PCR,将条形码序列引入接头序列。
3.2接头结构
在一些实施方案中,接头是“鼓泡(英文bubble)”接头。在一些实施例中,接头是“L-寡核苷酸(L-oligo)”接头。在一些实施例中,接头是“夹钳(clamp)”接头。图3中示出了形成鼓泡接头、L-寡核苷酸接头和夹钳接头的寡核苷酸的示例性结构。图4中示出了将鼓泡接头、L-寡核苷酸和夹钳接头连接到DNA片段的方法的示意图。
在一些实施方案中,生成的配对构建体的文库中的每个配对多核苷酸构建体包含两个接头。在一些实施方案中,多核苷酸分子中的第一接头和第二接头是相同类型的接头,例如,第一接头和第二接头中的每一个均为鼓泡接头,或者第一接头和第二接头中的每一个为L-寡核苷酸接头。在一些实施方式中,多核苷酸分子中的第一接头和第二接头是不同类型的接头,例如,第一接头是鼓泡接头,第二接头是夹钳接头。
3.3鼓泡接头
在一些实施方案中,连接到目标多核苷酸,例如,基因组DNA片段,的接头之一或两者是“鼓泡接头”。鼓泡接头由两个寡核苷酸序列“第一寡核苷酸”和“第二寡核苷酸”形成。两个寡核苷酸在其5’和3’末端彼此部分互补,使得第一寡核苷酸的5’末端与第二寡核苷酸的3’末端互补,第一寡核苷酸的3’末端与第二寡核苷酸的5’末端互补。每个寡核苷酸的插入序列,即每个寡核苷酸的中间区中的序列,与其它寡核苷酸基本上不互补,使得寡核苷酸的中间区彼此不杂交,从而形成“鼓泡”。描述寡核苷酸的双链体和由双链体形成的鼓泡结构的示意图如图3的中间图所示。
鼓泡接头可以包括一个或多个特征,例如反向重复序列,限制性内切核酸酶识别序列,PCR引物杂交序列,测序引物杂交序列,例如,用于用cPAL化学测序和/或用SBS化学测序,锚定探针杂交序列,RCR引物杂交序列,干扰杂交序列,标签或条形码序列,桥连片段杂交序列和填充序列。
在一些实施方案中,配对多核苷酸构建体包含两个鼓泡接头,第一鼓泡接头和第二鼓泡接头。第一鼓泡接头和第二鼓泡接头可以包括相同的特征或至少一些相同的特征,例如,反向重复序列,限制性内切核酸酶识别序列,PCR引物杂交序列,测序引物杂交序列,锚定探针杂交序列,RCR引物杂交序列,干扰者杂交序列,标签或条形码序列,桥连片段杂交序列和填充序列。在一些实施例中,第一鼓泡接头和第二鼓泡接头包括一些但不是全部的相同特征。
如环状配对多核苷酸构建体所看到的,鼓泡接头通常具有约50至约100个碱基的长度,例如,长度为约50至约90个碱基,长度为约60至约80碱基,长度为约60至约70个碱基,或长度为约70-80个碱基。第一鼓泡接头和第二鼓泡接头可以是相同的长度或可以是不同的长度。在一些实施例中,第一鼓泡接头比第二鼓泡接头长。在一些实施例中,第二鼓泡接头比第一鼓泡接头长。
在一些实施方案中,鼓泡接头的长度可以根据使用的测序方法而变化。例如,在一些实施方案中,第一鼓泡接头和/或第二鼓泡接头可以包含用于通过一种类型化学,例如仅用cPAL化学测序,或仅用SBS化学测序,进行测序的引物杂交序列。在一些实施方案中,包含仅用一种类型化学测序的引物杂交序列的鼓泡接头具有约60-90个碱基,约60-70个碱基,约60-80个碱基,约70-80个碱基或约80-90个碱基。在一些实施方案中,第一鼓泡接头和/或第二鼓泡接头可以含有用于使用“混合”化学测序,例如以顺序方式使用cPAL化学和SBS化学测序构建体或DNA,的引物杂交序列。在一些实施方案中,包含用于用混合化学测序的引物杂交序列的鼓泡接头具有约70-90个碱基,约70-80个碱基或约80-90个碱基的长度。图5A-C和图6A-C中示出了包含用于仅用cPAL化学测序的引物杂交序列、仅用SBS化学测序或用cPAL化学和SBS化学测序的引物杂交序列的鼓泡接头的示例性实施方案。
通常,第一寡核苷酸,在图3中也称为“5’半接头”,具有如下结构。第一寡核苷酸的5’末端具有与第二寡核苷酸3’区的域互补且与第二寡核苷酸的3’区形成双链体的区,在图3中也称为“扣环(clasp)”区。在一些实施方案中,扣环区的长度≥12个碱基;在一些实施方案中,扣环区的长度为约12至约20个碱基。在扣环区之后是与第二寡核苷酸不互补的区,其长度可以为约15至约60个碱基,例如,约15bp,约20bp,约25bp,约30bp,约35bp,约40bp,约45bp,约50bp,约55bp或约60bp长度。在该非互补性区之后是与第二寡核苷酸的5’区互补并形成双链体的反向重复区。该反向重复区的长度可以为约6至约14个碱基;在一些实施方案中,反向重复区的长度为约7至9个碱基。在反向重复区之后是与DNA片段中的A尾互补的一个或多个碱基的3’“T”突出端。在一些实施方案中,第一寡核苷酸的全长的长度为约35至约80个碱基,例如,约35bp,约40bp,约45bp,约50bp,约55bp,约60bp,约65bp,约70bp,约75bp或约80bp。
通常,第二寡核苷酸,在图3中也称为“3’半接头”,具有如下结构。第二寡核苷酸的5’末端具有将寡核苷酸与DNA片段连接的磷酸基。在5’磷酸基之后,第二寡核苷酸具有与第一寡核苷酸的3’区互补并与第一寡核苷酸的3’区形成双链体的反向重复区。该反向重复区的长度可以为约6至约14个碱基,例如长度约6,7,8,9,10,11,12,13或14个碱基。在反向重复区之后是与第一寡核苷酸不互补的区,其长度可以为约10至约60个碱基,例如,约10,约15,约20,约25,约30,约35,约40,约45,约50,约55或约60个碱基。第一寡核苷酸与第二寡核苷酸之间缺乏互补性导致寡核苷酸双链体中形成鼓泡结构。在该非互补区之后是与第一寡核苷酸的5’区互补并形成双链体的区,在图3中也称为“扣环”区。在一些实施例中,扣环区的长度≥12个碱基;在一些实施方案中,扣环区的长度为约12至约20个碱基,例如,约12,约13,约14,约15,约16,约17,约18,约19,或约20个碱基。在扣环区之后,第二寡核苷酸具有3’修饰或阻断基团,其用于阻断该3’端与其它多核苷酸分子,例如DNA片段或其它鼓泡接头寡核苷酸,的任何潜在连接。3’修饰或阻断基团的非限制性实例包括3’氨基修饰酶,由3AmMO,Integrated DNA Technologies(IDT),Coralville,IA进行,3’间隔,例如,C3间隔3SpC3,IDT,双脱氧核苷酸例如ddC,反向dT(缩写IDT)或3-dT-Q/3-dA-Q/3-dC-Q/3-dG-Q(Operon/Eurofins,Huntsville,AL)中任何一个。在一些实施方案中,第一寡核苷酸的全长的长度为约35至约80个碱基,例如,约35,约40,约45,约50,约55,约60,约65,约70,约75,或约80个碱基。
形成鼓泡接头的第一寡核苷酸和第二寡核苷酸可以具有相同的长度或可以是不同的长度。在一些实施方案中,第一寡核苷酸比第二寡核苷酸长。在一些实施方案中,第二寡核苷酸比第一寡核苷酸长。
通过退火形成第一寡核苷酸和第二寡核苷酸的双链体并将形成的鼓泡接头连接到多核苷酸,例如DNA片段,的两端,将鼓泡接头连接到多核苷酸,例如DNA片段。在一些实施方案中,存在于配对多核苷酸构建体中的所得鼓泡接头的长度短于第一寡核苷酸和第二寡核苷酸的总和;例如,在一些实施方案中,第一鼓泡接头短于形成第一鼓泡接头的第一寡核苷酸和第二寡核苷酸的总和,是由于第一寡核苷酸与第二寡核苷酸的互补序列的重叠,第二寡核苷酸用于在产生配对多核苷酸臂的步骤期间稳定开放的双链DNA环。在一些实施方案中,存在于配对多核苷酸构建体中的所得鼓泡接头长度长于第一寡核苷酸和第二寡核苷酸的总和;例如,在一些实施方案中,第二鼓泡接头长于构成第二鼓泡接头的第一寡核苷酸和第二寡核苷酸的总和,是由于在桥连片段辅助的(splint-assisted)ssDNA环化中加入核苷酸或由于通过PCR添加了条形码序列。
图8和SEQ ID NO.1中示出了第一鼓泡接头的一个实施方案。该第一接头称为“Ad203”,其长度为61个核苷酸,包括以下特征:接头5’和3’端的反向重复序列;锚定探针杂交序列;干扰者杂交序列;标签序列;和链特异性RCR引物杂交序列。在一些实施方案中,接头具有与SEQ ID NO.1基本相同,例如,至少70%,75%,80%,85%,90%,91%,92%,93%,94%,95%96%,97%,98%,或99%相同,的多核苷酸序列。在一些实施方案中,接头具有SEQ ID NO.1的多核苷酸序列。
SEQ ID NO.1:
5’-AACTGCTGACGTACTGATGGGCATGGCGACCTATTCAGBBBBBBBT CTCGACTCAGCAGTT-3’
图9和SEQ ID NO.2中示出了第一鼓泡接头的另一个实施方案。该第一接头称为“Ad201”,其长度为73个核苷酸,包括以下特征:接头5’和3’端的反向重复序列;锚定探针杂交序列;干扰者杂交序列;标签/条形码序列;链特异性RCR引物杂交序列;和SBS引物杂交序列。在一些实施方案中,接头具有与SEQ ID NO.2基本上相同,例如,至少70%,75%,80%,85%,90%,91%,92%,93%,94%,95%96%,97%,98%或99%相同,的多核苷酸序列。在一些实施方案中,接头具有SEQ ID NO.2的多核苷酸序列。
SEQ ID NO.2:
5’-AACTGCTGACGTACTGATGGGCATGGCGACCTATTCAGBBBBBBBAACGATCACTCCTCTCGACTCAGCAGTT-3’
图10和SEQ ID NO.3中示出了第一鼓泡接头的另一个实施方案。该第一接头称为“Ad162”,其长度为64个核苷酸,包括以下特征:接头5’和3’端的反向重复序列;锚定探针杂交序列;干扰者杂交序列;标签/条形码序列;和链特异性RCR引物杂交序列。在一些实施方案中,接头具有与SEQ ID NO.3基本相同,例如,至少70%,75%,80%,85%,90%,91%,92%,93%,94%,95%96%,97%,98%,或99%相同,的多核苷酸序列。在一些实施方案中,接头具有SEQ ID NO.3的多核苷酸序列。
SEQ ID NO.3:
5’-AACTGCTGACGTACTGATGGGCATGGCGACCTATTCAGBBBBBBBB BBTCTCGACTCAGCAGTT-3’
图11和SEQ ID NO.4中示出了第一鼓泡接头的另一个实施方案。该第一接头称为“Ad201”,其长度为75个核苷酸,包括以下特征:接头5’和3’端的反向重复序列;锚定探针杂交序列;干扰者杂交序列;标签/条形码序列;和链特异性RCR引物杂交序列。在一些实施方案中,接头具有与SEQ ID NO.4基本相同,例如,至少70%,75%,80%,85%,90%,91%,92%,93%,94%,95%96%,97%,98%或99%相同,的多核苷酸序列。在一些实施方案中,接头具有SEQ ID NO.4的多核苷酸序列。
SEQ ID NO.4:
5’-AACTGCTGACGTACTGATGGGCATGGCGACCTATTCAGBBBBBBBBBBCGATCACTCCTCTCCAGCTCAGCAGTT-3’
图12和SEQ ID NO.5中示出了第二鼓泡接头的一个实施方案。称为“Ad195”的第二接头长度为79个核苷酸,包括以下特征:接头5’和3’端的反向重复序列;7-碱基标签序列;干扰者杂交序列;SBS测序引物杂交序列;锚定探针杂交序列;以及用于通过cPAL化学读取条形码或标签的6-碱基“填充物”序列。在一些实施方案中,接头具有与SEQ ID NO.5基本相同,例如,至少70%,75%,80%,85%,90%,91%,92%,93%,94%,95%96%,97%,98%或99%相同,的多核苷酸序列。在一些实施方案中,接头具有SEQ ID NO.5的多核苷酸序列。
SEQ ID NO.5:
5’-AAGTCGGAGGCCAAGCGTGCTTAGGACATGTAGCGTCG(N)6BBBBBBBAACGAGTGATGCGTGTACGATCCGACTT-3’
图13和SEQ ID NO.6中示出了第二鼓泡接头的另一个实施方案。称为“Ad194”的第二接头长度为81个核苷酸,包括以下特征:接头5’和3’端的反向重复序列;7-碱基标签序列;干扰者杂交序列;SBS测序引物杂交序列;锚定探针杂交序列;以及用于通过cPAL化学读取条形码或标签的7-碱基“填充物”序列。在一些实施方案中,接头具有与SEQ ID NO.6基本相同,例如,至少70%,75%,80%,85%,90%,91%,92%,93%,94%,95%96%,97%,98%,或99%相同,的多核苷酸序列。在一些实施方案中,接头具有SEQ ID NO.6的多核苷酸序列。
SEQ ID NO.6:
5’-AAGTCGGAGGCCAAGCGTGACTTAGGACATGTAGCGACCT(N)6BBBBBBBAACGAGTGATGCGTGTACGATCCGACTT-3’
图14和SEQ ID NO.7中示出了第二鼓泡接头的另一个实施方案。称为“Ad165-鼓泡”的第二接头长度为48个核苷酸,包括以下特征:接头5’和3’端的反向重复序列;锚定探针杂交序列;和干扰者杂交序列。在一些实施方案中,接头具有与SEQ ID NO.7基本相同,例如,至少70%,75%,80%,85%,90%,91%,92%,93%,94%,95%96%,97%,98%,或99%相同,的多核苷酸序列。在一些实施方案中,接头具有SEQ ID NO.7的多核苷酸序列。
SEQ ID NO.7:
5’-AAGTCGGAGGCCAAGCGTGCTTAGGACATGTAGTGTACGATCCGAC TT-3’
3.4L-寡核苷酸接头
在一些实施方案中,连接到目标多核苷酸,例如,基因组DNA片段,的接头之一或两者是“L-寡核苷酸接头”。L-寡核苷酸接头由两个寡核苷酸序列“第一寡核苷酸”,本申请也称为“5’-半接头”,和“第二寡核苷酸”,本申请也称为“3’-半接头”,形成。两个寡核苷酸彼此部分互补,使得第一寡核苷酸的3’端与第二寡核苷酸的5’端互补。第一寡核苷酸的剩余5’序列与第二寡核苷酸的剩余3’序列基本上不互补,使得这些区彼此不杂交;结果,第一寡核苷酸形成“L”形。描述寡核苷酸的双链体和由双链体形成的L-寡核苷酸结构的示意图如图3左图所示。
L-寡核苷酸接头可以包括一个或多个特征,例如反向重复序列,限制性内切核酸酶识别序列,PCR引物杂交序列,测序引物杂交序列,例如用于用cPAL化学测序和/或用SBS化学测序,锚定探针杂交序列,RCR引物杂交序列,干扰者杂交序列,标签或条形码序列和填充序列。
在一些实施方案中,配对多核苷酸构建体包含两个L-寡核苷酸接头,第一L-寡核苷酸接头和第二L-寡核苷酸接头。第一L-寡核苷酸接头和第二L-寡核苷酸接头可以包括相同的特征或至少一些相同的特征,例如,反向重复序列,限制性内切核酸酶识别序列,PCR引物杂交序列,测序引物杂交序列,锚定探针杂交序列,RCR引物杂交序列,干扰者杂交序列,标签或条形码序列,桥连片段杂交序列和填充序列。在一些实施方案中,第一L-寡核苷酸接头和第二L-寡核苷酸接头包括一些但不是全部相同的特征。在一些实施方案中,第一L-寡核苷酸接头包含通过第一L-寡核苷酸接头的第二寡核苷酸引入L-寡核苷酸接头的条形码序列,其在连接到多核苷酸片段之前连接到第一L-寡核苷酸接头的第一寡核苷酸;因为第二寡核苷酸在第一寡核苷酸之前连接到多核苷酸片段,在第二寡核苷酸中包含条形码序列允许将通过条形码标记的不同样品汇集在一起,并允许通过多路复用过程,例如,用于全外显子组序列和长片段读取测序应用,继续进行文库构建过程。
如在环状配对多核苷酸构建体中观察到的,L-寡核苷酸接头通常具有约50至约100个碱基的长度,例如,长度为约50至约90个碱基,长度为约60至约80个碱基,长度为约60至约70个碱基,或长度为约70-80碱基。第一L-寡核苷酸接头和第二L-寡核苷酸接头可以是相同的长度或可以是不同的长度。在一些实施方案中,第一L-寡核苷酸接头比第二L-寡核苷酸接头更长。在一些实施方案中,第二L-寡核苷酸接头比第一L-寡核苷酸接头更长。
在一些实施方案中,L-寡核苷酸接头的长度可以根据待使用的测序方法而变化。例如,在一些实施方案中,第一L-寡核苷酸接头和/或第二L-寡核苷酸接头可以含有用于通过一种类型化学,例如,仅用cPAL化学测序或仅用SBS化学测序,进行测序的引物杂交序列。在一些实施方案中,包含仅用于一种类型化学测序的引物杂交序列的L-寡核苷酸接头具有约60-90个碱基,约60-70个碱基,约60-80个碱基,约70-80个碱基的长度,或约80-90个碱基的长度。在一些实施方案中,第一L-寡核苷酸接头和/或第二L-寡核苷酸接头可以含有引物杂交序列用于使用“混合”化学测序,例如,以顺序方式使用cPAL化学和SBS化学测序构建体或DNA。在一些实施方案中,包含用于用混合化学测序的引物杂交序列的L-寡核苷酸接头具有约70-90个碱基,约70-80个碱基或约80-90个碱基的长度。包含用于仅用cPAL化学测序的引物杂交序列、用于仅用SBS化学测序的引物杂交序列或用于用cPAL化学和SBS化学测序的引物杂交序列的L-寡核苷酸接头的示例性实施方案示于图5A-C和图6A-C中。
通常,第一寡核苷酸,在图3中也称为“5’半接头”,具有如下结构。第一寡核苷酸的5’区是与第二寡核苷酸的3’区不互补的区。在一些实施方案中,不互补的该区的长度为约20至约60个碱基,例如,约20,约25,约30,约35,约40,约45,约50,约55,或约60个碱基长度。在该非互补区之后是与第二寡核苷酸的5’区互补且与第二寡核苷酸的5’区形成双链体的反向重复区。该反向重复区的长度可以为约6至约12个碱基,例如约6,约7,约8,约9,约10,约11,或约12个碱基长度;在一些实施方案中,反向重复区的长度为约7至9个碱基。在一些实施方案中,第一寡核苷酸的全长的长度为约25至约75个碱基,例如,约25,约30,约35,约40,约45,约50,约55,约60,约65,约70个,或约75个碱基长度。
通常,第二寡核苷酸,在图3中也称为“3’半接头”,具有如下结构。第二寡核苷酸的5’端在与第一寡核苷酸退火后形成平端。5’平端之后是与第一寡核苷酸的3’区互补并与第一寡核苷酸的3’区形成双链体的反向重复区。该反向重复区的长度可以为约6至约12个碱基,例如约6,约7,约8,约9,约10,约11,或约12个碱基长度;在一些实施方案中,反向重复区的长度为约7至9个碱基。在反向重复区之后是与第一寡核苷酸的5’区不互补的区。在一些实施方案中,不互补的该区的长度为约20至约60个碱基,例如,约20,约25,约30,约35,约40,约45,约50,约55,或约60个碱基长度。在一些实施方案中,第一寡核苷酸的全长的长度为约25至约75个碱基,例如,约25,约30,约35,约40,约45,约50,约55,约60,约65,约70个,或约75个碱基长度。
形成L-寡核苷酸接头的两个寡核苷酸序列可以是相同的长度或可以是不同的长度。在一些实施方案中,第一寡核苷酸比第二寡核苷酸长。在一些实施方案中,第二寡核苷酸比第一寡核苷酸长。
通过两步连接法将L-寡核苷酸接头连接到多核苷酸,例如,DNA片段。在第一次连接步骤中,在约8-9个核苷酸的短的具有3’-端修饰的辅助寡核苷酸,例如,可从Operon/Eurofins获得的3-dN-Q修饰,存在下,将3’半接头,即第二寡核苷酸,连接到平端多核苷酸,例如基因组DNA片段,的3’末端。关于L-寡核苷酸接头的连接使用的“辅助寡核苷酸”是指与第二寡核苷酸的一部分,例如,第二寡核苷酸的5’区,杂交的寡核苷酸,以便于在平端连接中将第二寡核苷酸连接到靶多核苷酸片段。然后在第二次连接反应中将5’半接头,即第一寡核苷酸,连接到5’端。在一些实施方案中,存在于配对多核苷酸构建体,例如,适合连环化的环状配对构建体,中的所得L-寡核苷酸接头的长度短于第一寡核苷酸和第二寡核苷酸的总和,例如,由于第一寡核苷酸与第二寡核苷酸的互补序列的重叠,第二寡核苷酸用于在产生配对多核苷酸臂的步骤期间稳定开放双链DNA环。
图15和SEQ ID NO.8中示出了第一L-寡核苷酸接头的一个实施方案。这个称为“Ad169”的第一接头长度为66个核苷酸,包括以下特征:反向重复序列;锚定探针杂交序列;干扰者杂交序列;和标签序列。在一些实施方案中,接头具有与SEQ ID NO.8基本相同,例如,至少70%,75%,80%,85%,90%,91%,92%,93%,94%,95%96%,97%,98%或99%相同,的多核苷酸序列。在一些实施方案中,接头具有SEQ ID NO.8的多核苷酸序列。
SEQ ID NO.8:
5’-ACTGCTGACGTACTGACTGTAGGGCTGGCGACCTTGACGANNNNNNNNNNTCCTCAGCTCAGCAGT-3’
图16和SEQ ID NO.9中示出了第二L-寡核苷酸接头的一个实施方案。称为“Ad165”的第二接头长度为48个核苷酸,包括以下特征:反向重复序列;干扰者杂交序列;锚定探针杂交序列;和用于杂交桥连片段的序列。在一些实施方案中,接头具有与SEQ ID NO.9基本相同,例如,至少70%,75%,80%,85%,90%,91%,92%,93%,94%,95%96%,97%,98%,或99%相同,的多核苷酸序列。在一些实施方案中,接头具有SEQ ID NO.9的多核苷酸序列。
SEQ ID NO.9:
5’-AAGTCGGAGGCCAAGCGTGCTTAGGACATGTAGTGTACGATCCGACTT-3’
3.5夹钳接头
在一些实施方案中,连接到目标多核苷酸,例如,基因组DNA片段,的接头之一或两者是“夹钳接头”。通过将“3’夹钳”和“5’夹钳”连接到靶单链靶多核苷酸上,例如,DNA片段,将夹钳接头连接到靶多核苷酸。5’夹钳包含第一寡核苷酸和第一“辅助寡核苷酸”,3’夹钳包含第二寡核苷酸和第二“辅助寡核苷酸”。关于夹钳接头的连接,“辅助寡核苷酸”是指与形成夹钳接头的第一寡核苷酸或第二寡核苷酸的一部分杂交的寡核苷酸,以便于第一寡核苷酸和第二寡核苷酸连接至靶多核苷酸。在连接后除去辅助寡核苷酸,因此不在配对多核苷酸构建体中观察到的最终夹钳接头的一部分。辅助寡核苷酸包含能够与靶靶多核苷酸,例如,DNA片段,杂交的随机核苷酸A,T,C或G,和通用肌苷核苷酸序列。因此,辅助寡核苷酸帮助将第一寡核苷酸和第二寡核苷酸“夹紧”到靶多核苷酸。在图3中示出了从包含第一寡核苷酸的5’夹钳和包含第二寡核苷酸的3’夹钳形成夹钳接头的实例。
夹钳接头可以包括一个或多个特征,例如限制性内切核酸酶识别序列,PCR引物杂交序列,测序引物杂交序列,例如,用于用cPAL化学测序和/或用SBS化学测序,锚定探针杂交序列,RCR引物杂交序列,干扰杂交序列,桥连片段杂交序列,标签或条形码序列和填充序列。
在一些实施方案中,配对多核苷酸构建体包含两个夹钳接头,第一夹钳接头和第二夹钳接头。第一夹钳接头和第二夹钳接头可以包括相同特征或至少一些相同特征,例如,限制性内切核酸酶识别序列,PCR引物杂交序列,测序引物杂交序列,锚定探针杂交序列,RCR引物杂交序列,干扰者杂交序列,标签或条形码序列和填充序列。在一些实施方案中,第一夹钳接头和第二夹钳接头包括一些但不是全部相同的特征。
如环状配对多核苷酸构建体所示,夹钳通常具有约35至约100个碱基的长度,例如,长度约35至约50个碱基,长度约60至约90个碱基,长度约70至约90个碱基长度,或长度约70-80个碱基。第一夹钳接头和第二夹钳接头可以具有相同的长度或可以是不同的长度。在一些实施方案中,第一夹钳接头比第二夹钳接头长。在一些实施方案中,第二夹钳接头比第一夹钳接头长。
在一些实施方案中,夹钳接头的长度可以根据待使用的测序方法而变化。例如,在一些实施方案中,第一夹钳接头和/或第二夹钳接头可以含有用于通过一种类型化学,例如仅用cPAL化学测序,或仅用SBS化学测序,进行测序的引物杂交序列。在一些实施方案中,包含用于仅用一种类型化学测序的引物杂交序列的夹钳接头具有约60-90个碱基,约70-90个碱基,约70-80个碱基或约80-90个碱基的长度。或者,在一些实施方案中,包含仅具有SBS序列测序的引物杂交序列的夹钳接头具有约35-50个碱基或约35-45个碱基的长度。在一些实施方案中,第一夹钳接头和/或第二夹钳接头可以含有引物杂交序列,用于使用“混合”化学测序,例如以顺序方式使用cPAL化学和SBS化学测序构建体或DNA。在一些实施方案中,包含用于用混合化学测序的引物杂交序列的夹钳接头具有约70-90个碱基,约70-80个碱基或约80-90个碱基的长度。包含用于仅用cPAL化学测序的引物杂交序列、用于仅用SBS化学测序的引物杂交序列或用于用cPAL化学和SBS化学测序的引物杂交序列的夹钳接头的示例性实施方案示于图7A-D中。
第一寡核苷酸,对应于最终夹钳接头的5’部分,和第二寡核苷酸,对应于最终夹钳接头的3’部分,可以是相同的长度或可以是不同的长度。在一些实施方案中,第一寡核苷酸比第二寡核苷酸长。在一些实施方案中,第一寡核苷酸和/或第二寡核苷酸的长度为约20至约75个碱基,例如,约20,约25,约30,约35,约40,约45,约50,约55,约60,约65,约70,或约75个碱基。
在一些实施方案中,第一辅助寡核苷酸用于辅助对应于最终夹钳接头的5’部分的第一寡核苷酸的连接,并且第二辅助寡核苷酸用于辅助对应于最终夹钳接头的3’部分的第二寡核苷酸的连接。在一些实施方案中,第一辅助寡核苷酸包含5’(N)5(I)n序列,随后是与第一寡核苷酸杂交的区。在(N)5(I)n序列中,N可以是G,A,T或C核苷酸中的任一个,I是肌苷,n≥3。在一些实施方案中,第一辅助寡核苷酸还包含3’端的修饰以防止分子内连接。在一些实施方案中,第一辅助寡核苷酸具有约20-40个碱基的长度。
在一些实施方案中,第二辅助寡核苷酸包含与第二寡核苷酸杂交的5’区,随后是(N)5(I)n序列。在(N)5(I)n序列中,N可以是G,A,T或C核苷酸中的任一个,I是肌苷,n≥3。在一些实施方案中,第二辅助寡核苷酸还包含3’端的修饰以防止分子内连接。在一些实施方案中,第二辅助寡核苷酸具有约20-40个碱基的长度。
通过在上述辅助寡核苷酸序列的存在下连接第一寡核苷酸和第二寡核苷酸,将夹钳接头与单链形式的多核苷酸,例如DNA片段,连接。在一些实施方案中,存在于配对多核苷酸构建体,例如,适于连环化的环状配对构建体,中的所得夹钳接头的长度比第一寡核苷酸和第二寡核苷酸的总和短,例如由于第一寡核苷酸和第二寡核苷酸的互补序列的重叠,第二寡核苷酸用于在产生配对多核苷酸臂的步骤期间稳定开放双链DNA环。
夹钳接头的一个实施例在图17和SEQ ID NO.10中示出。这种称为“Ad191”的接头长度为76个核苷酸,包括以下特征:反向重复序列;标签或条形码序列;用于通过cPAL化学读取条形码或标签的“填充”序列;锚定探针杂交序列;干扰者杂交序列;SBS测序引物杂交序列;RCR引物杂交序列和用于用SBS化学读取条形码或标签的SBS引物杂交序列。在一些实施方案中,接头具有与SEQ ID NO.10基本相同,例如,至少70%,75%,80%,85%,90%,91%,92%,93%,94%,95%96%,97%,98%或99%相同,的多核苷酸序列。在一些实施方案中,接头具有SEQ ID NO.10的多核苷酸序列。
SEQ ID NO.10:
5’-AAGTCGGAGGCCAAGCGTGCTTAGGACATGTAGCG(N)6CTCTCTAAACGAGTGATGCGTGTACGATCCGACTT-3’
夹钳接头的另一个实施方案在图18和SEQ ID NO.11中示出。这种称为“Ad212”的接头具有44个核苷酸的长度,并且包括以下特征:用于读取条形码/标签和靶多核苷酸的SBS引物;和标签/条形码序列。在一些实施方案中,接头具有与SEQ ID NO.11基本相同,例如,至少70%,75%,80%,85%,90%,91%,92%,93%,94%,95%96%,97%,98%,或99%相同,的多核苷酸序列。在一些实施方案中,接头具有SEQ ID NO.11的多核苷酸序列。
SEQ ID NO.11:
5’-AAGTCGGAACCGTGGATGCTGAGTGATGGCTGTACGABBBBBBB-3’
3.6不同类型接头的组合
在一些实施方案中,配对多核苷酸构建体,例如,适于连环化的环状配对构建体,包含两个如本申请所述的不同类型的接头。在一些实施方案中,配对多核苷酸构建体包含作为夹钳接头的第一接头和作为鼓泡接头的第二接头。在一些实施方案中,配对多核苷酸构建体包括作为鼓泡接头的第一接头和作为夹钳接头的第二接头。第一接头和第二接头可以包括相同的特征或至少一些相同的特征,例如,限制性内切核酸酶识别序列,PCR引物杂交序列,测序引物杂交序列,锚定探针杂交序列,RCR引物杂交序列,干扰者杂交序列,标签或条形码序列和填充序列。在一些实施例中,第一接头和第二接头包括一些但不是全部的相同特征。作为非限制性示例,在一些实施例中,鼓泡接头包括反向重复序列,而夹钳接头不包括反向重复序列。
4.第一接头的连接和环化
4.1多核苷酸片段的修饰
在一些实施方案中,在将第一接头与多核苷酸片段连接之前,修饰多核苷酸片段以使其端部与第一接头连接相容。作为非限制性实例,在一些实施方案中,多核苷酸片段可以含有5’和/或3’突出端,并且磷酸基可以在5’和/或3’端存在或不存在。在一些实施方案中,在将第一接头连接到片段化DNA之前,可以通过产生用于A-T连接的粘性末端来修饰DNA片段的末端。作为另一个非限制性实例,在一些实施方案中,在将第一接头连接到片段化DNA之前,DNA片段的末端可以通过产生平端去磷酸化末端来修饰,以用于平末端连接。作为另一个非限制性实例,在一些实施方案中,在将第一接头连接到片段化DNA之前,将DNA变性为单链形式。
在一些实施方案中,多核苷酸片段的修饰导致具有5’磷酸化平末端的DNA片段。本领域技术人员将理解如何产生5’磷酸化的平端DNA,例如,通过将DNA片段的5’端添加磷酸基团,将羟基再生到DNA的3’端,填充凹入的3’端,和/或根据需要移除突出的3’端。本领域技术人员可以确定用于制备5’磷酸化平端DNA的合适的酶,例如激酶和聚合酶,例如T4多核苷酸激酶,T4DNA聚合酶,Klenow大片段,大肠杆菌DNA聚合酶I,大肠杆菌DNA聚合酶I大片段,Taq聚合酶,Bst聚合酶全长,Bst聚合酶大片段,Bsu DNA聚合酶大片段及其组合。在一些实施方案中,然后使用DNA聚合酶将一个或多个脱氧腺苷加入5’磷酸化平末端DNA片段的3’末端以产生3’突出端或“尾”。在一些实施方案中,将单个dA加入到3’末端。在一些实施方案中,使用Taq聚合酶,Klenow exo-,Bsu DNA聚合酶大片段或其组合用于dA加尾DNA片段。在一些实施方案中,3’突出修饰的DNA片段用于与作为鼓泡接头的第一接头连接。
在一些实施方案中,多核苷酸片段的修饰产生具有去磷酸化的平端DNA片段。具有去磷酸化的平端的DNA片段可以是有用的,例如用于防止DNA片段彼此连接而不连接第一接头。本领域技术人员将理解如何产生去磷酸化的平端DNA,例如,通过从5’和/或3’端去除磷酸基团,填充凹入的3’端和/或根据需要去除突出的3’端。本领域技术人员可以确定用于制备去磷酸化的平端DNA的合适的酶,例如磷酸酶和聚合酶,例如虾碱性磷酸酶,T4DNA聚合酶,Klenow大片段,大肠杆菌DNA聚合酶I,大肠杆菌DNA聚合酶I大片段,Taq聚合酶,Bst聚合酶全长,Bst聚合酶大片段,Bsu DNA聚合酶大片段及其组合。在一些实施方案中,去磷酸化的平端DNA片段用于与作为L-寡核苷酸接头的第一接头连接。
在一些实施方案中,多核苷酸片段的修饰包括将双链DNA片段变性为单链,例如通过热变性。在一些实施方案中,单链DNA片段的5’端被磷酸化。本领域技术人员将认识到用于磷酸化5’端的合适的酶,例如,激酶,例如T4PNK。本领域技术人员还将认识到,在DNA片段末端修复后,例如,使用T4聚合酶和T4PNK的组合进行平末端修复以产生5’磷酸化末端后,双链DNA片段可以被变性,或者在DNA片段的最终修复之前可以使双链DNA片段变性,例如,将DNA片段变性为单链DNA,然后依次用磷酸酶和激酶处理单链DNA以除去3’磷酸基团并加入5’磷酸基团。在一些实施方案中,5’磷酸化单链DNA片段用于与作为夹钳接头的第一接头连接。
4.2连接
4.2.1鼓泡接头连接
在一些实施方案中,连接到多核苷酸片段的第一接头是鼓泡接头。为了将DNA片段与作为鼓泡接头的第一接头连接,将第一鼓泡接头的第一寡核苷酸和第二寡核苷酸与经修饰的,,例如,dA加尾DNA,片段退火以形成双链线性构建体,其包含两侧被第一接头寡核苷酸的双链体侧接的DNA片段。连接反应使用合适的连接酶进行。在一些实施方案中,使用T4DNA连接酶。图4描绘了鼓泡接头与DNA片段连接的示意图。
4.2.2L-oligo接头连接
在一些实施方案中,连接到多核苷酸片段的第一接头是L-寡核苷酸接头。为将DNA片段与作为L-寡核苷酸接头的第一接头连接,使用两步法。首先,在具有3’端修饰,例如,3-dN-Q修饰,Eurofin-MWG-Operon,其中N是任何碱基,的短约8-9个碱基长度的辅助寡核苷酸的存在下,将第一L-接头的第二寡核苷酸连接到修饰,例如,去磷酸化的平端,的片段。连接反应使用合适的连接酶进行。在一些实施方案中,使用T4DNA连接酶。连接酶失活,例如,在热灭活步骤中,并且辅助寡核苷酸从连接产物中除去,由于它具有低熔点。然后将磷酸基团加入到连接产物的5’端。使用任何合适的酶进行磷酸化。在一些实施方案中,T4PNK用于磷酸化5’端。然后进行第二连接步骤,以将磷酸化连接产物连接到第一L-寡核苷酸接头的第一寡核苷酸,以形成双链线性构建体,其包含DNA片段与两侧侧翼的第一接头寡核苷酸的双链体。连接反应使用合适的连接酶,例如,T3DNA连接酶,T4DNA连接酶,T7DNA连接酶,Chlorella病毒DNA连接酶购自New England Biolabs,Inc.,Ipswich,MA,或TaqDNA连接酶进行。在一些实施方案中,使用T4DNA连接酶。图4中示出了L-寡核苷酸接头与DNA片段连接的示意图。
4.2.3夹钳接头连接
在一些实施方案中,连接到多核苷酸片段的第一接头是夹钳接头。为将DNA片段与作为夹钳接头的第一接头连接,在第一辅助寡核苷酸和第二寡核苷酸的存在下,将第一夹钳接头的第一寡核苷酸和第二寡核苷酸退火到修饰的,例如,单链和5’磷酸化的,DNA片段。每个辅助寡核苷酸具有序列(N)5(I)n,第一辅助寡核苷酸和第二辅助寡核苷酸序列具有不同的序列。所得构建体是单链线性构建体,其包含DNA片段,以及一侧侧翼的含有第一接头寡核苷酸和辅助寡核苷酸的双链体,以及另一侧侧翼的含有第二接头寡核苷酸和辅助寡核苷酸的双链体。连接反应使用合适的连接酶,例如,T3DNA连接酶,T4DNA连接酶,T7DNA连接酶,Chlorella病毒DNA连接酶或Taq DNA连接酶,进行。在一些实施方案中,使用T4DNA连接酶。图4示出了夹钳接头与DNA片段连接的示例性示意图。
4.3扩增和环化
在连接步骤之后,通过PCR扩增得到包含DNA片段和两侧翼的第一接头寡核苷酸的线性构建体。使用含有尿嘧啶残基并在接头区内杂交的引物进行扩增。用于扩增反应的聚合酶是耐受模板中尿嘧啶存在的聚合酶。在一些实施方案中,使用Cx DNA聚合酶或KAPA HiFi HotStart Uracil+DNA聚合酶来扩增双链寡核苷酸双链体-DNA片段构建体。所得扩增产物是包含DNA片段和第一接头的第一寡核苷酸和第二寡核苷酸的双链构建体,其中DNA片段的每条链在一端侧接第一接头的第一寡核苷酸,另一端侧接第一接头的第二寡核苷酸。在一些实施方案中,扩增产物还包含双链构建体的每条链中的一个或多个尿嘧啶残基。
可选地,在扩增反应期间可以将一个或多个标签或条形码添加到第一接头。通常,使用包含标签或条形码序列的引物添加标签或条形码序列。在一些实施方案中,标签或条形码序列的长度为约4至约15个碱基,例如长度为4,5,6,7,8,9,10,11,12,13,14或15个碱基。在扩增反应期间引入标签或条形码序列的方法是本领域已知的。参见例如US 8,691,509;US 8,841,071;和US 8,921,076。
然后用特异性切除尿嘧啶碱基的酶处理扩增产物,这导致双链构建体中每个尿嘧啶位点上产生单个核苷酸间隙。在一些实施方案中,用于在尿嘧啶位点产生间隙的酶是尿嘧啶DNA糖基化酶或尿嘧啶特异性切除试剂USERTM酶。
扩增且用尿嘧啶特异性切除酶处理后的产物随后进行环化,形成在第一接头区中具有“粘性”末端的环状双链多核苷酸片段,其中尿嘧啶残基被切除,本申请称为“开放双链环状多核苷酸构建体”。在一些实施方案中,尿嘧啶的切除导致每个多核苷酸链中的缺口或每个多核苷酸链中的长度为约1至约10个碱基的间隙。在一些实施方案中,每个多核苷酸链的间隙长度为约2个碱基。
图19描述了扩增和形成开放双链环状多核苷酸构建体的示例性示意图。如图19所示,开放双链环状多核苷酸构建体的结构使得一条多核苷酸链上的间隙不与其他多核苷酸链上的间隙重叠,并且在具有间隙的第一接头的区之间,存在足以稳定开放双链环的重叠互补序列区。重叠序列区长度可以为约8至约20个碱基。在一些实施方案中,重叠序列区长度为约12至约14个碱基。
在一些实施方案中,纯化DNA环化反应的反应产物以除去污染的非环化的线性DNA片段。在一些实施方案中,用特异性消化线性双链DNA而非环状或有缺口的环状双链DNA的DNA酶处理反应产物。在一些实施方案中,用Plasmid-SafeTM ATP依赖型DNase(Epicentre,Madison,WI)或核酸外切酶V(RecBCD)(New England Biolabs,Inc)处理反应产物。
5.配对文库臂的产生采用ttCNT/Exo
包含第一接头的开放双链环状多核苷酸构建体用作生成从第一接头的每一端延伸出的多核苷酸“臂”的模板。在开放双链环状多核苷酸构建体中,片段DNA的末端,即“互补配对”被第一接头分开。合成多核苷酸臂是从第一接头的每个末端起始,到片段化DNA序列的一部分,从片段化DNA的末端开始,并且去除片段化DNA序列的中间部分,由此产生配对多核苷酸臂,其连接到第一接头的每一端。
在一些实施方案中,每个多核苷酸臂包含约50-150个碱基,约60-120个碱基或约80-100个碱基,例如约50,约60,约70,约80,约90,约100,约110,约120,约130,约140,约150个碱基。
在一些实施方案中,对于包含与第一接头连接的一对多核苷酸臂的配对构建体而言,每个多核苷酸臂具有约40-150个碱基,约60-120个碱基或约80-100个碱基,例如约40,约50,约60,约70,约80,约90,约100,约110,约120,约130,约140或约150个碱基;并且第一接头具有约50-100个碱基,约60-90个碱基,约70-80个碱基,约60-70个碱基或约80-90个碱基,例如约50,约60,约70,约80,约90或约100个碱基。在一些实施方案中,对于包含与第一接头连接的一对多核苷酸臂的构建体而言,具有约150-400个碱基,约150-300个碱基,约180-300个碱基,约180-280个碱基,约180-250个碱基,约200-300个碱基,约200-280个碱基,约250-350个碱基,约230-330个碱基或约200-250个碱基。
5.1时间和温度受控缺口平移
在一些实施方案中,由第一接头的每个末端延伸出的多核苷酸臂是通过时间和温度受控缺口平移(缩写ttCNT)过程产生的。通常,该方法涉及在开放双链环状多核苷酸构建体上进行的DNA聚合酶驱动的合成反应。对于构建体的每条链,该聚合酶反应导致在5’至3’方向上移动缺口,从第一接头区中的间隙朝向并随后沿连接到第一接头的DNA片段。当缺口沿DNA片段移动时,DNA聚合酶合成连接到第一接头的多核苷酸臂。参见例如图19。
在时间和温度受控缺口平移中,通过在非限制性浓度的dNTPs中优化缺口平移反应的时间和温度来控制5’至3’方向的聚合酶驱动的DNA合成。对于用于缺口平移反应的特定聚合酶,时间和温度条件被优化。因此,在时间和温度受控缺口平移中,可以通过调节DNA合成的进程来控制连接到第一接头上的每个多核苷酸臂的长度。
在一些实施方案中,使用Taq聚合酶,大肠杆菌DNA聚合酶I,Bst DNA聚合酶全长,Taq DNA聚合酶(New England Biolabs,Inc)或DNA聚合酶(NewEngland Biolabs,Inc)。在一些实施方案中,使用Taq聚合酶,Taq DNA聚合酶,或DNA聚合酶。缺口平移反应的最佳时间和温度可以根据所使用的聚合酶而变化。在一些实施方案中,缺口平移反应发生在约37℃至约72℃,例如约37℃,约40℃,约45℃,约50℃,约55℃,约60℃,约65℃,约70℃或约72℃。在一些实施方案中,缺口平移反应进行约10至约120秒,例如,约10,约20,约30,约40,约50,约60,约70,约80,约90,约100约110或约120秒。在一些实施方案中,使用Taq聚合酶在约45℃的温度下进行约10至约120秒,进行时间和温度受控缺口平移。
时间和温度受控缺口平移DNA合成反应的终止,可通过在冰上温育,通过用螯合剂,例如浓度为至少约20mM的EDTA,螯合可用的镁,和/或通过向反应中加入盐,例如浓度至少为约800mM的氯化钠。在一些实施方案中,通过向反应中加入约20mM EDTA来终止时间和温度受控缺口平移反应。
在通过时间和温度受控缺口平移的DNA合成反应结束时,开放双链环状多核苷酸构建体“崩溃”,这是通过在构建体中的缺口的位点引发核苷酸去除,并在每条链的5’至3’继续去除核苷酸,从而产生部分双链的线性构建体,双链位于第一接头所在的区并且在合成多核苷酸臂的位置,并且在5’端具有单链尾。在一些实施方案中,T7外切核酸酶用于去除核苷酸并产生5’单链尾。
然后使用降解单链核酸的核酸酶从构建体中除去5’单链DNA尾。在一些实施方案中,可以使用Mung Bean核酸酶,S1核酸酶,核酸外切酶VII或T7核酸内切酶I来除去5’单链端。所得构建体是双链线性构建体,其中每条链包含侧翼为多核苷酸臂的第一接头,所述多核苷酸臂为核酸序列的配偶对,本申请称为“线性配对构建体”。
用于除去5’单链DNA尾的最佳反应条件,例如时间,温度和单位,可以基于所使用的核酸酶而变化。例如,对于S1核酸酶,示例性条件包括:在约23℃下5-20U/pmol酶孵育约15分钟;在约12℃下5-20U/pmol酶孵育约30分钟;或在约4℃下5-20U/pmol酶孵育约60分钟。对于核酸外切酶VII,示例性条件包括:在约37℃下0.4-12U/pmol酶孵育约30分钟。对于Mung Bean核酸酶,示例性条件包括:在约22℃下1-7U/pmol酶孵育约30分钟;或在约37℃下4-32U/pmol酶孵育约15分钟。对于T7核酸内切酶I,示例性条件包括:在约23℃下1-4U/pmol酶孵育约30分钟;在约30℃下1-4U/pmol酶孵育约30分钟;或在约37℃下1-4U/pmol酶孵育约15分钟。
5.2受控延伸
在一些实施方案中,产生从第一接头的每一端延伸的多核苷酸臂通过受控延伸过程进行。通常,该方法包括首先在开放双链环状多核苷酸构建体的每条链上的缺口或间隙处进行外切核酸酶反应,以产生除第一接头区内的重叠序列区以外的单链构建体。随后,从每条链上的第一接头3’端开始进行聚合酶驱动的核酸链延伸,其使用单链尾的作为模板。延伸反应在5’到3’方向上移动以合成连接到第一接头的多核苷酸臂。
5.2.1时间和温度受控延伸
在一些实施方案中,通过“时间和温度受控延伸”的方法产生配对构建体。在时间和温度受控延伸中,开放双链环状多核苷酸构建体“崩溃”,这是通过在构建体中的缺口位点引发核酸酶去除核苷酸,并在每条链的5’到3’方向上继续去除核苷酸,从而产生除了第一接头区中重叠序列短区,长度为约8至约20个碱基,例如约12至14个碱基长度,之外,大部分是单链的线性构建体。在一些实施方案中,T7外切核酸酶用于去除核苷酸并产生5’单链尾。在一些实施方案中,从第一接头的5’端延伸的每条单链多核苷酸尾长度为约150至约500个碱基。
然后从每条链上的第一接头的3’端进行聚合酶驱动的DNA延伸,以便在每条链上延伸多核苷酸臂,得到构建体,包含双链第一接头和从第一接头的每一端延伸出的双链多核苷酸臂,并且还包括在每条链的5’端的单链尾。通过在非限制性浓度的dNTPs中优化延伸反应的时间和温度来控制聚合酶驱动的DNA合成。对于用于缺口平移反应的特定聚合酶来讲优化时间和温度条件。因此,在时间和温度受控延伸中,可以通过调节DNA合成的进展来控制连接到第一接头上的每个多核苷酸臂的长度。在一些实施方案中,时间和温度受控延伸使用大肠杆菌DNA聚合酶I,大肠杆菌DNA聚合酶I大片段,Taq聚合酶,Bst DNA聚合酶大片段,Bst DNA聚合酶全长,Bsu DNA聚合酶大片段,T4DNA聚合酶Exo-,phi29WT,phi29M1突变体,phi29M6突变体,phi29M8突变体,Sulfolobus DNA聚合酶IV,Bst 2.0DNA聚合酶,Bst2.0DNA聚合酶(New Englands Biolabs,Inc.),Taq DNA聚合酶(New England Biolabs,Inc。)或DNA聚合酶(New England Biolabs,Inc)。在一些实施方案中,使用Taq聚合酶,Sulfolobus DNA聚合酶IV,Taq DNA聚合酶或DNA聚合酶。
受控延伸反应的最佳时间和温度可以根据所使用的聚合酶而变化。在一些实施方案中,受控延伸反应在约4℃至约60℃,例如约4°,约10°,约15°,约20°,约25°,约30°,约35°,约37°,约40°,约45°,约50°,约55°,约60℃,进行。在一些实施方案中,缺口平移反应进行约10至约120秒,例如,约10,约20,约30,约40,约50,约60,约70,约80,约90,约100约110或约120秒。示例性条件包括:大肠杆菌DNA聚合酶I在约4°至约25℃下进行约15至约120秒;大肠杆菌DNA聚合酶I大片段在约4°至约25℃进行约15至约60秒;Taq聚合酶,Taq DNA聚合酶或DNA聚合酶,在约37°至约55℃进行约10至约90秒;Bst DNA聚合酶大片段,Bst DNA聚合酶全长或Bst 2.0DNA聚合酶,在约37°至约45℃进行约10至约30秒;Bsu DNA聚合酶大片段或T4DNA聚合酶Exo-在约4°至约25℃下进行约15至约60秒;phi29WT,phi29M1突变体,phi29M6突变体或phi29M8突变体,在约4℃进行约10至约60秒;SulfolobusDNA聚合酶IV在约37℃进行约30至约90秒;Bst 2.0DNA聚合酶在约45℃进行约10至约30秒。
时间和温度受控延伸的DNA合成可以被终止,可以通过在反应中用螯合剂,例如,至少约20mM浓度的EDTA,螯合可用的镁,和/或通过加入盐,例如,至少约800mM的浓度的氯化钠。
在延伸反应之后,使用降解单链核酸的核酸酶除去5’单链尾。在一些实施方案中,使用绿豆核酸酶,S1核酸酶,核酸外切酶VII或T7核酸内切酶I来除去5’单链端。所得构建体是双链线性构建体,其中每条链包含侧翼为多核苷酸臂的第一接头,所述多核苷酸臂为核酸序列配偶对,本申请称为“线性配对构建体”。
用于除去5’单链DNA尾的最佳反应条件,例如时间,温度和单位,可以基于所使用的核酸酶而变化。例如,对于S1核酸酶,示例性条件包括:在约23℃下5-20U/pmol酶孵育约15分钟;在约12℃下5-20U/pmol酶孵育约30分钟;或在约4℃下5-20U/pmol酶孵育约60分钟。对于核酸外切酶VII,示例性条件包括:在约37℃下0.4-12U/pmol酶孵育约30分钟。对于Mung Bean核酸酶,示例性条件包括:在约22℃下1-7U/pmol酶孵育约30分钟;或在37℃下约4-32U/pmol酶孵育约15分钟。对于T7核酸内切酶I,示例性条件包括:在约23℃下1-4U/pmol酶孵育约30分钟;在约30℃下1-4U/pmol酶孵育约30分钟;或在约37℃下1-4U/pmol酶孵育约15分钟。
5.2.2可逆终止剂受控延伸
在一些实施方案中,通过“可逆终止剂受控延伸”的方法产生配对构建体。在可逆终止剂受控延伸中,如在时间和温度受控延伸中,开放双链环状多核苷酸构建体“崩溃”,这是通过在构建体的缺口或间隙位点引发核苷酸去除,并在每条链的5’至3’继续去除核苷酸,从而产生除了第一接头区中重叠序列短区,长度为约8至约20个碱基,例如约12至14个碱基长度,之外大部分是单链的线性构建体。在一些实施方案中,T7外切核酸酶用于去除核苷酸并产生5’单链尾。在一些实施方案中,从第一接头的5’端延伸出的每条单链多核苷酸尾长度为约150至约500个核苷酸。然后进行从每条链上的第一接头的3’端开始的聚合酶驱动的DNA延伸,以便在每条链上延伸多核苷酸臂,得到构建体,其包含双链第一接头和从第一接头的每一端延伸出的双链多核苷酸臂,并且还包括在每条链的5’端的单链尾。在可逆终止剂控制延伸中,聚合酶驱动的DNA合成通过优化可逆终止剂与dNTPs的比例来控制。可逆终止剂可以选自如下组,例如3’-OH封闭的可逆终止剂,例如3’-O-叠氮甲基可逆终止剂;3’-O-NH2可逆终止剂和3’-O-烯丙基可逆终止剂,或选自如下组,例如3’-OH未封闭的可逆终止剂,例如,由Helicos BioSciences Corporation开发的“虚拟终止剂(virtualterminators)”,和由Michael L.Merzker集团开发的“雷电终止剂(lightningterminators)”、2-硝基苄基烷基化终止剂。当所有生长链通过并入可逆终止剂终止时,DNA合成停止。可以通过用THPP,即Tris(3-羟丙基)膦,处理重新开始DNA合成,THPP使3’羟基可用于进一步的多核苷酸延伸。因此,在可逆终止剂受控延伸中,通过调节DNA合成的进展可以控制连接到第一接头上的每个多核苷酸臂的长度。在一些实施方案中,可逆终止剂受控延伸使用Thermo SequenaseTM(GE Healthcare,Pittsburg,PA),T7SequenaseTM 2.0(GEHealthcare),TherminatorTM(New England Biolabs,Inc.),TherminatorTM IX或定制聚合酶。当聚合酶掺入可逆终止剂核苷酸时,DNA合成反应自动停止。
可逆终止剂受控延伸反应的最佳条件,例如,可逆终止剂与天然核苷酸的比例,时间和温度,可以根据所使用的聚合酶而变化。在一些实施方案中,约1:20至约1:500的可逆终止剂与天然核苷酸的比例,例如约1:20,约1:30,约1:40,约1:50,约1:60,约1:70,约1:80,约1:90,约1:100,约1:150,约1:200,约1:250,约1:300,约1:350,约1:400,约1:450,或约1:500的可逆终止剂与天然核苷酸的比例。示例性的条件包括:使用Thermo SequenaseTM在1:200-1:600的可逆终止剂:天然核苷酸的比例情况下,在约72℃下进行约1-5分钟;使用T7Sequenase TM 2.0在1:20-1:100的可逆终止剂:天然核苷酸的比例情况下,在约37℃下进行30秒-2分钟;使用TherminatorTM在1:5-1:20的可逆终止剂:天然核苷酸的比例情况下,在约72℃下进行1-5分钟;使用Therminator TM IX在1:40-1:400的可逆终止剂:天然核苷酸的比例情况下,在约72℃下进行1-5分钟;或使用定制聚合酶在1:50-1:300的可逆终止剂:天然核苷酸的比例情况下,在约37℃下进行约5分钟或在约60℃下进行约5分钟。
在受控延伸反应后,使用降解单链核酸的核酸酶除去5’单链尾。在一些实施方案中,使用绿豆核酸酶,S1核酸酶,核酸外切酶VII或T7核酸内切酶I来除去5’单链端。用于除去5’单链DNA尾的最佳反应条件(例如时间,温度和单位)可以基于所使用的核酸酶而变化。例如,对于S1核酸酶,示例性条件包括:在约23℃下5-20U/pmol酶孵育约15分钟;在约12℃下5-20U/pmol酶孵育约30分钟;或在约4℃下5-20U/pmol酶孵育约60分钟。对于核酸外切酶VII,示例性条件包括:在约37℃下0.4-12U/pmol酶孵育约30分钟。对于绿豆核酸酶,示例性条件包括:在约22℃下1-7U/pmol酶孵育约30分钟;或在约37℃下约4-32U/pmol酶孵育约15分钟。对于T7核酸内切酶I,示例性条件包括:在约23℃下1-4U/pmol酶孵育约30分钟;在约30℃下1-4U/pmol酶孵育约30分钟;或在约37℃下1-4U/pmol酶孵育约15分钟。
所得构建体是双链线性构建体,其中每条链包含侧翼为多核苷酸臂的第一接头,所述多核苷酸臂为核酸序列配偶对,本申请称为“线性配对构建体”。该线性配对构建体具有3’终止剂,需要用THPP(Tris(3-羟丙基)膦)化学处理,以产生连接到第二接头所需的3’羟基。在一些实施方案中,将约4-20mM THPP加入到反应中,然后在55℃下处理约10分钟。在该处理之后,线性配对构建体可以连接到第二接头或被修饰以准备连接到第二接头。
6.第二接头连接
6.1多核苷酸片段的修饰
在一些实施方案中,在将第二接头连接到线性配对构建体之前,对线性配对构建体进行修饰,以使端部与第二接头的连接相容。例如,在一些实施方案中,修饰导致具有用于A-T连接的“粘性”端的线性配对构建体。本领域的技术人员将理解如何末端修复和加A尾到构建体上,以用于AT连接(例如,通过填充凹入的3’端部并根据需要移除突出的3’端部,以及通过添加一个或多个脱氧腺苷到3’端)。本领域技术人员可以确定用于末端修复和加A尾的合适的酶,例如,聚合酶,例如T4DNA聚合酶和/或Klenow大片段;或Klenow Exo-。在一些实施方案中,修饰的构建体的尾包含单个dA。在一些实施方案中,末端修复和加A尾的方法在单独的反应中进行。在一些实施方案中,末端修复和加A尾的方法在单个反应中进行。在一些实施方案中,使用一种酶,例如Klenow Exo-,在单个反应中进行末端修复和加A尾的方法。在一些实施方案中,加A尾修饰的DNA片段用于与作为鼓泡接头的第二接头结合。
在一些实施方案中,在将第二接头连接到线性配对构建体之前,经修饰的构建体具有适于用于平端连接的去磷酸化的平端。本领域技术人员将理解如何产生去磷酸化的平端DNA,例如,通过从5’和/或3’端去除磷酸基团,填充凹入的3’端和/或根据需要去除突出的3’端。本领域技术人员可以确定用于制备去磷酸化的平端DNA的合适的酶,例如磷酸酶和聚合酶,例如虾碱性磷酸酶,T4DNA聚合酶,Klenow大片段,大肠杆菌DNA聚合酶I,大肠杆菌DNA聚合酶I大片段,Taq聚合酶,Bst聚合酶全长,Bst聚合酶大片段,Bsu DNA聚合酶大片段及其组合。在一些实施方案中,去磷酸化的平端DNA片段用于与作为L-寡核苷酸接头的第二接头连接。
在一些实施方案中,通过在连接第二接头之前将构建体变性为单链形式,例如通过热变性,来修饰线性配对构建体。在一些实施方案中,单链构建体直接使用,无需预先DNA修复,用于与作为夹钳接头的第二接头连接,因为缺口平移产物的缺口后平移核酸酶修剪导致线性配对构建体具有5’磷酸和3’羟基。
6.2连接
6.2.1鼓泡接头连接
在一些实施方案中,连接到经修改的线性配对构建体的第二接头是鼓泡接头。第二鼓泡接头的第一寡核苷酸和第二寡核苷酸被退火并连接到经修饰的(例如,加A尾)的线性配对构建体上,以形成双链线性构建体,其包含配对多核苷酸臂,被第一接头分开并且在两侧由第二接头寡核苷酸双链体侧接。连接反应使用合适的连接酶进行。在一些实施方案中,使用T4DNA连接酶。
6.2.2L-寡核苷酸接头接头连接
为了将修饰的线性配对构建体连接到作为L-寡核苷酸接头的第二接头,使用两步法。首先,在具有3’端修饰,例如,3-dN-Q修饰,Eurofin-MWG-Operon,其中N是A,T,G或C中的任一个,的约8-9个核苷酸的短辅助寡核苷酸的存在下,将第二L-接头的第二寡核苷酸连接到修饰,例如,去磷酸化的平端,的片段上。连接反应使用合适的连接酶进行。在一些实施方案中,使用T4DNA连接酶。连接酶失活,例如,在热灭活步骤中,并且从连接产物中除去辅助寡核苷酸。然后将磷酸基团加入到连接产物的5’端。使用任何合适的酶进行磷酸化。在一些实施方案中,T4PNK用于磷酸化5’端。然后进行第二连接步骤以将磷酸化连接产物连接到第二L-寡核苷酸接头的第一寡核苷酸,以形成双链线性构建体,其包含配对多核苷酸臂,被第一接头分开并且在两侧由第二接头寡核苷酸双链体侧接。连接反应使用合适的连接酶进行。在一些实施方案中,使用T4DNA连接酶。
6.2.3夹钳接头连接
在一些实施方案中,连接到多核苷酸片段的第二接头是夹钳接头。在第一辅助寡核苷酸和第二辅助寡核苷酸的存在下,将第二夹钳接头的第一寡核苷酸和第二寡核苷酸退火到修饰的,例如单链,线性配对构建体。每个辅助寡核苷酸具有序列(N)5(I)n,第一辅助寡核苷酸和第二辅助寡核苷酸序列是不同的序列。所得构建体是单链线性构建体,其包含配对多核苷酸臂,由第一接头分隔并且在两侧由第二接头寡核苷酸侧接。使用合适的连接酶,例如,T3DNA连接酶,T4DNA连接酶,T7DNA连接酶或Chlorella病毒DNA连接酶(New England Biolabs,Inc)进行连接反应。在一些实施方案中,使用T4DNA连接酶。
6.3扩增
在连接反应后,通过PCR扩增线性配对构建体,其包含配对多核苷酸臂,由第一接头分隔并且在两侧由第二接头寡核苷酸侧接。在一些实施方案中,PCR聚合酶是产生平端PCR产物的聚合酶。在一些实施方案中,使用PCR聚合酶DNA聚合酶。在一些实施方案中,在扩增反应中使用的引物之一是5’磷酸化的,以允许扩增产物的链特异性环化和连接,例如,为了选择具有所需接头取向的链。例如,在一些实施方案中,5’-磷酸化的引物是与第二接头的5’区杂交的引物。
任选地,可以在扩增反应期间将一个或多个标签或条形码添加到第二接头。通常,包含标签或条形码序列的PCR引物中包括标签或条形码序列。在一些实施方案中,标签或条形码序列的长度为约4至约15个碱基,例如长度为4,5,6,7,8,9,10,11,12,13,14或15个碱基。在扩增反应期间引入标签或条形码序列的方法是本领域已知的。参见例如US 8,691,509;US 8,841,071;和US 8,921,076。
6.4扩增产物的环化
在双链线性构建体的扩增后,扩增产物被变性以将产物分离成单链多核苷酸。变性可以通过例如热变性,化学变性或通过使用生物素/链霉亲和素标记来特异性捕获扩增产物的两条链之一来完成。在一些实施方案中,通过在95℃下加热扩增产物约3分钟而对扩增产物进行热变性,然后在冰上快速冷却约2分钟或例如以4℃/秒的降温速度快速冷却约10分钟至4℃。在一些实施方案中,扩增产物通过用75mM氢氧化钾或110mM氢氧化钠处理而化学变性。在一些实施方案中,通过生物素化PCR产物的一条链,例如,生物素化不需要的链并留下携带未标记的5’磷酸的所需链,并用链霉亲和素磁珠捕获生物素化的链,而将扩增产物分离成单链多核苷酸。
然后将单链多核苷酸环化。在一些实施方案中,DNA连接酶,例如,T4DNA连接酶,用于使单链多核苷酸环化。在一些实施方案中,在桥连片段存在下,单链多核苷酸变性和环化,桥连片段用作共价闭合单链多核苷酸的模板。桥连片段包含与第二接头的第一寡核苷酸互补的第一部分和与第二接头的第二寡核苷酸互补的第二部分。在一些实施方案中,桥连片段的第一部分和第二部分中的每一个长度为至少10个碱基,例如,至少10个,至少11个,至少12个,至少13个,至少14个,至少15个,至少16个,至少17个,至少18个,至少19个,或至少20个碱基长度。在一些实施方案中,桥连片段的第一部分和第二部分中的每一个长度为至少12个碱基。
在单链多核苷酸环化之后,可以用一个或多个外切核酸酶处理环化反应的产物以除去非环化的线性链,除去保持退火到单链环状构建体的桥连片段,并除去过量游离,即没有非退火连接的,桥连片段。用于除去单链环化构建体以外的组分的合适的酶可由本领域技术人员确定。在一些实施方案中,可以使用核酸外切酶I,核酸外切酶III,核酸外切酶VII,T7核酸外切酶或RecJ核酸外切酶。在一些实施方案中,使用核酸外切酶I,核酸外切酶III或其组合。在一个示例性实施方案中,将外切核酸酶I和核酸外切酶III加入到单链环化反应中,终浓度为0.5-2U/μl,接着在37℃温育约30分钟,然后加入20mM EDTA停止反应。
形成的单链环状多核苷酸构建体包含配对多核苷酸臂,第一接头和第二接头。在该环状单链配对构建体中,每个多核苷酸臂在一端连接到第一接头,另一端连接第二接头。在一些实施方案中,生成的环状构建体包含环内取向的接头的混合物,即,一些单链环状构建体将包含相对于第二接头的第一接头的一个取向,而其它单链环状构建体将包含相对于第二接头的第一接头的相反方向。如下所述,可以选择第一接头相对于第二接头的单个取向,以便产生环状配对构建体的连环体,其中所有构建体都具有第一接头和第二接头相同的取向。
在一些实施方案中,包含配对多核苷酸臂、第一接头和第二接头的环状多核苷酸构建体,具有约180-550个碱基,约180-500个碱基,约180-450个碱基,约180-400个碱基,约180-350个碱基,约180-330个碱基,约200-550个碱基,约200-500个碱基,约200-450个碱基,约200-400个碱基,约200-350个碱基,约200-330个碱基,约230-550个碱基,约230-500个碱基,约230-450个碱基,约230-400个碱基,约230-350个碱基,约230-330个碱基,约250-550个碱基,约250-500个碱基,约250-450个碱基,约250-400个碱基或约250-350个碱基的长度。
7.配对文库构建,方法二:通过受控缺口平移和受控引物延伸生成双接头配对文库
本申请的一个实施方案是配对文库构建方法,其称为受控缺口平移,例如,由核苷酸量受控缺口平移,ntCNT,与受控引物延伸(ntCNT/CPE)偶联。
如下所述,在向基因组DNA添加第一接头(缩写AdA)并形成具有缺口或间隙的双链环(缩写dsCir)之后,CNT将具有选定长度的缺口或间隙移动到基因组DNA中。3’侧向连接,或间隙连接,用于连接第二接头的5’臂。注意,由于连接到缺口的效率低,使用ntCNT或在缺口平移之后包括间隙步骤以产生用于间隙连接的几个碱基对的间隙。任选地,分离由3’侧向连接得到的dsCir DNA的两条链,并产生单链DNA链,其包含由基因组DNA,具体地,起始基因组DNA片段的末端,和在基因组DNA3’末端的AdB-5’序列包围的AdA序列。该ssDNA链在CPE反应中用作模板,得到具有源自起始基因组DNA片段的配对构建体。配偶对的每个臂具有选定的长度,分别由CNT和CPE反应产生,由AdA序列分开,在构建体的一端具有AdB_5’序列。然后通过3’侧向连接,在这种情况下为5’突出连接,将AdB_3’序列添加到构建体的另一端,得到每端具有AdB引物的可扩增模板。
假如使用适当的AdB 5’和3’序列,这样的构建体可以用作桥接PCR的模板,如Illumina边合成边测序[SBS]过程。这样的构建体也可环化并用于产生通过cPAL、SBS或其他测序方法测序的DNA纳米球。
7.2 3’侧向连接
在ntCNT之后,进行3’侧向连接以添加第二接头(缩写AdB_3’)的3’臂。
众所周知,双链DNA片段的缺口和具有粘性或平端的双链DNA片段可以在5’磷酸和3’羟基处连接。粘性末端或缺口的连接通常比平端连接更快且对酶浓度的依赖性较小。这两种方法都可以通过噬菌体T4DNA连接酶催化。据报道,T4连接酶介导某些非常规连接:它封闭dsDNA底物,其在连接处含有脱碱基位点或间隙;连接支链DNA链,并形成具有部分双链DNA的茎环产物,参考Nilsson and Magnusson,Nucleic Acids Res 10:1425–1437,1982;Goffin et al.,Nucleic Acids Res 15:8755–8771,1987;Mendel-Hartvig et al.,Nucleic Acids Res.32:e2,2004;Western and Rose,Nucleic Acids Res.,19:809–813,1991。
我们已经发现T4连接酶可以用于在去磷酸缺口、间隙或5’突出区处连接DNA片段以形成冈崎片段样结构。如图20所示,插入DNA可以是由具有一个平端和一个3’突出端的双链DNA组成的合成接头或接头DNA。接头的3’末端都是双脱氧核苷酸,这阻止了接头的自连接。长接头链的5’末端被磷酸化,并在间隙处连接到底物DNA的3’末端。
底物DNA分子,即靶多核苷酸,含有以下结构之一:(1)切口,或(2)具有3’-羟基末端的缺口,即,一个或多个缺失核苷酸碱基,或(3)包含5’-OH的5’突起,以上即3’侧向连接包括切口连接,缺口连接和5’突起连接。T4连接酶将5’-磷酸化接头链连接到3’-羟基化底物DNA链上以形成侧向DNA结构。因此,我们将这种新型连接事件称为“3’侧向连接”。在切口、缺口或5’突起连接到底物DNA的接头可称为“3’端侧向接头”。
我们检查了影响一般连接效率的许多因素,包括:adapter:DNA比例,T4连接酶的量,最终ATP浓度,Mg2+浓度,pH,孵育时间和各种添加剂。加入聚乙二醇至终浓度为10%时,连接效率从小于10%提高至超过80%。连接对于缺口,例如,1,2,3,4,5,6,7,8或更多bp的缺口和5’-OH的DNA是有效的。事实上,5’-OH连接几乎100%成功,甚至比平端连接更高。具有1bp间隙的底物具有约50%的连接效率,并且对于较长的间隙,例如,2bp或更长,连接效率更高。然而,即使在优化条件下,切口连接虽然也有发生,但效率较低,低于10%。可能的原因是,较长的ssDNA区,使得底物的3’-OH更易于连接,因此导致更高的连接效率。
实际上,如果ntCNT反应使用具有3’外切核酸酶活性的DNA聚合酶,例如DNA聚合酶I,则第二接头(缩写AdB)的5’臂可直接连接到产生的缺口区的3’端。如果CNT反应使用缺少3’exo活性的DNA聚合酶,或者如果使用ttCNT,则较不具有进行性的外切核酸酶,例如T7外切酶或Bst聚合酶,Bst聚合酶具有外切核酸酶活性;为此目的,我们在不存在dNTPs时使用它,可用于从切口的5’端去除几个核苷酸,并为AdB 3’间隙连接产生更为有效的3’侧向连接的缺口区。
SSB蛋白,例如,最终浓度为10-20ng/微升,也增加8bp间隙和5’-OH DNA的3’侧向连接效率,但对切口或1b缺口DNA没有影响。SSB蛋白似乎与单链区结合并稳定ssDNA。
因此,根据本申请的一个实施方案,使用包含一定量的PEG或SSB蛋白或其组合的连接条件进行3’侧向连接,其有效地可检测地增加3’端侧向接头与靶多核苷酸在连接部位的连接。对于PEG,这种有效量包括但不限于例如最终浓度为5%,或10%,或15%,或20%。对于SSB蛋白质,这种有效量包括但不限于5或10或15或20ng/μl的终浓度。
7.3受控引物延伸(CPE)
接下来,进行受控引物延伸(缩写CPE)。对于CNT,该反应采用DNA聚合酶,引物延伸的程度可以通过时间和温度(缩写ttCPE)、核苷酸量(缩写ntCPE)等进行控制。DNA合成从与Ad2_5’杂交的引物开始贯穿基因组序列,然后是Ad1,最后是从Ad2_5’到Ad1另一侧的基因组序列的选定距离,产生双链构建体,构建体包含由Ad1和Ad2-5’,在3’端,分离的配对臂。
7.4突出连接即OH连接
Ad2的3’单接头链,Ad2_3’,可以通过3’侧向连接加在由CPE产生的构建体的5’端,如图21所示。然后OH连接产物使用AdB 5’和AdB 3’引物进行PCR扩增,以产生双链构建体,其包括由Ad1和每端的单接头链,即Ad2_5’和Ad2_3’,分开的配对臂。
7.5制备单链环
可以将该构建体用于桥式PCR和测序,通过使用Illumina方案合成,特别是如果使用适当的Ad2序列。然而,为了形成DNA纳米球,可以使用以下步骤。首先,对双链PCR产物进行链分离。然后,使用桥连片段连接单链的末端,桥连片段具有与Ad2-5’和Ad2-3’杂交的序列,然后使用T4连接酶连接,以产生可以用作底物的单链环,用于滚环复制以产生DNA纳米球。
7.6加AdB的替代方法
有几种替代方法来添加第二接头(缩写AdB)。ntCNT步骤可以通过以下方法实现:(a)使用大肠杆菌DNA聚合酶I进行ntCNT,或者使用Pol I加另一种聚合酶的混合物进行ntCNT;(b)使用Taq进行ntCNT然后进行由Bst Pol或T7外切酶介导的形成缺口的步骤;(c)使用Taq进行ttCNT然进行形成间隙的步骤;(d)通过单个聚合酶,如Taq,或聚合酶的组合进行nt-ttCNT,对时间和温度以及限制的dNTP量进行控制。CPE步骤可以通过(a)使用PfuCx或其他单一聚合酶的ttCPE来实现;(b)使用Taq或其他单一聚合酶的ntCPE来实现;(d)通过单个聚合酶,如Taq,或聚合酶的组合进行nt-ttCNT来实现,对时间和温度以及限制的dNTP量进行控制。
7.7使用DNA聚合酶的受控反应(缩写CNT/CPE/CSD)
我们已经讨论了各种方法来控制涉及DNA聚合酶的反应的速度和/或程度,包括但不限于通过控制时间和温度,核苷酸量,可逆终止剂等。这种受控反应包括但不限于缺口平移(缩写CNT),从链或引物的3’端延伸(缩写CE和CPE)和链置换(缩写SD)。本申请详细描述的用于控制这些反应之一的方法一般适用于所有反应。
这些反应中的一个问题是所有序列的扩增的一致性。DNA Pol I倾向于在某些DNA区暂停,这可以停止缺口平移过程,并导致所得文库中的GC偏差。为了解决这个问题,我们采用了几种方法:
1.对于ntCNT反应,代替以相等的比例使用dNTP,我们使用足够或超量的两种dNTP和有限的量两种dNTPs。具有过量A和T,即,使用G和C作为限制性核苷酸,的ntCNT反应导致富含GC的区更好扩增。为了平移每pmol的DNA约50-100bp,提供60ul反应,每份17至19pmol的dGTP和dCTP,以及34至38pmol的dATP和dTTP。还可以使用已知的抑制聚合酶暂停并增强富含GC区的扩增的添加剂,如甜菜碱,乙二醇,1,2-丙二醇,SSB等。
2.将DNA Pol I或DNA Pol I,大片段Klenow与一种或多种不同的DNA聚合酶,例如Taq或Bst聚合酶,混合,可以绕过干扰DNA Pol I介导的扩增的暂停位点。
3.缺口平移反应由两个酶促步骤组成:降解旧链,然后合成新链。除了偏倚的聚合酶活性外,用于DNA降解的DNA Pol I的DNA外切核酸酶活性也可能导致偏倚扩增。在CNT反应中这种偏倚可以被减轻,是通过添加较差进行性的酶,这种酶具有5’至3’外切核酸酶活性,在缺口平移的DNA之前或之内降解旧链,这种降解是在Pol I的外切核酸酶步骤之前或同时进行。
8.连环体化
在一个方面,使用包含配对多核苷酸臂、第一接头和第二接头的环状配对多核苷酸构建体,来产生环状构建体的连环体。这些连环体在本申请中也称为“核酸纳米球”,“DNA纳米球”和“DNB”。产生DNB的方法是本领域已知的,并且描述于例如US 8,445,194;US 8,592,150;US 9,023,769;和WO 2007/120208;其各自通过引用并入本申请。
该连环体包含多个串联的配对多核苷酸构建体的拷贝,其中多核苷酸构建体包括配对多核苷酸臂,第一接头和第二接头。在一些实施方案中,连环体包含数十至数百个配对多核苷酸构建体的拷贝,例如约100至约500个拷贝,约100至约400个拷贝,约150至约400个拷贝,约150至约300个拷贝,或约150至约个250拷贝。
可以通过多种方法中的任何一种来制备配对构建体的连环体,包括但不限于滚环扩增和环介导扩增(Circle Dependent Amplification,缩写CDA)。通过RCR或CDA扩增环状多核苷酸构建体的方法在本领域中有描述。参见例如WO 2006/1199066;US 2008/0213771;US 8,445,194;和US 9,023,769;其中每一个通过引用并入本申请。
8.1滚环扩增
在一些实施方案中,RCR用于产生如本申请所述的配对构建体的连环体。RCR方法依赖于所需的环状靶多核苷酸。RCR使用原始的环状多核苷酸,而不是一个拷贝的多个拷贝,确保序列的保真度。此外,作为环状实体,环状配对构建体用作用于链置换聚合酶的无限模板,链置换聚合酶用于延伸与环的一部分互补的引物,例如,在接头区中。连续的链延伸产生长的单链多核苷酸,其由多个,例如,数十或数百个,连环体组成,连环体包含与环状多核苷酸互补的多个拷贝的序列。包含该连环体的单链多核苷酸可以自身折叠以形成三维球,即DNB,其随后可以设置在表面上,用于制造DNB阵列。
通常,RCR反应组分包括单链环状多核苷酸模板,与单链环状多核苷酸退火的一种或多种引物,具有链置换活性以延伸退火至环状多核苷酸的3’端的引物的DNA聚合酶,以及核苷酸。在一些实施方案中,DNA聚合酶是噬菌体phi29DNA聚合酶。RCR反应组分在这样的条件下混合,该条件允许引物退火到环状多核苷酸模板,例如,在第一接头的区中,并且被DNA聚合酶延伸以形成与环状多核苷酸互补的序列连环体。在一些实施方案中,允许RCR反应继续直至反应组分耗尽。在一些实施方案中,RCR反应在一定时间点,例如,约10分钟,约20分钟,约30分钟,约40分钟,约50分钟或约1小时,后停止。关于RCR反应的条件和试剂的指导可参考,例如US 5,854,033;US 6,143,495;和8,722,326,其各自通过引用并入本申请。
在一些实施方案中,由RCR制备的连环体大小近似均匀;因此,在一些实施方案中,本申请的方法可以包括连环体大小选择的步骤。例如,在一些实施方案中,选择连环体,因为群体的分子量变异系数小于约30%;在另一个实施方案中小于20%。在一些实施方案中,通过向RCR反应混合物中加入低浓度的链终止剂,例如ddNTP,以减少非常大的连环体的存在,从而使尺寸均匀性进一步改善,这种非常大的连环体例如由聚合酶以较高速率合成的DNA环产生。在一些实施方案中,使用的ddNTP的浓度,导致预期的连环体大小在50-250Kb范围内,或在50-100Kb范围内。在另一方面,可以使用常规分离技术,例如尺寸排阻色谱法,膜过滤法等,浓缩特定尺寸范围的连环体。参见例如US 2012/0004126。
8.2控制环状配对构建体中接头的取向
在一些实施方案中,只有一组环状配对构建体的子集被连环化,该子集的构建体具有第一接头相对于第二接头有单个取向。控制接头相对于彼此的取向可以是有利的,例如,为了最大化可检测的信号量,例如当在测序反应中使用特定于第一接头的锚(缩写anchor)时。
在一些实施方案中,为了选择具有第一接头相对于第二接头有单一取向的环状配对构建体,使用链特异性RCR引物,该引物特异于环状配对构建体中第一接头的一个取向。该链特异性引物与第一接头的一个取向杂交,但不与其它取向(其为所选取向的反向互补)杂交。因此,RCR反应仅针对其中链特异性RCR引物可结合的环状配对构建体发生。
在一些实施方案中,使用“非退火(英文annealing-free)”方法来选择具有第一接头相对于第二接头有单个取向的环状构建体。非退火方法使用“预退火”链-和接头-特异性RCR引物,其在桥连片段环化/连接步骤期间预退火,而不是在RCR反应之前。因此,非退火方法将单链DNA环化和扩增步骤相结合,这是通过使用链特异性扩增引物,例如,通过RCR进行复制的链特异性RCR引物,和具有封闭的3’端的桥连片段,封闭的3’端阻断了聚合酶延伸。线性单链多核苷酸,例如,包含一对多核苷酸臂、第一接头和第二接头的线性单链多核苷酸构建体,在存在3’端封闭桥连片段和链-特异性扩增引物下,使用合适的连接酶,例如,T4DNA连接酶,环化。然后用外切核酸酶,例如外切核酸酶I,处理连接产物以除去非环化的线性链和过量的未退火的桥连片段。然后使用磁珠从游离寡核苷酸和核酸酶纯化单链DNA环。然后将RCR反应组分与纯化的连接产物在这样的条件下混合,该条件允许DNA聚合酶延伸预退火的链特异性引物以形成与环状多核苷酸互补的序列连环体。
9.生成阵列
在一方面,包含本申请所述的配对构建体的连环体的DNB布置在表面上以形成分子的随机阵列。可以通过多种技术将多核苷酸分子,包括DNA连环体如DNB,固定在基板上。产生DNB阵列的方法在例如US 7,910,354;US 8,133,719;US 8,440,397;US 8,445,196;US8,772,326;US 9,023,769;和US 2013/0178369中有描述,其各自通过引用并入本申请。
在一些实施方案中,可以使用具有二维点阵列的图案化基板来产生DNB阵列。这些点被激活以捕获和保持DNB,而DNB不保留在斑点之间的区中。一般来说,在点上的DNB将排斥其他DNB,每个点产生一个DNB。由于DNB是三维的,所以包含DNB的阵列比包含短线性DNA片段的传统DNA阵列导致每平方纳米表面结合更多的DNA拷贝。这种三维特性进一步降低了所需的测序试剂的量,从而产生更亮的斑点和更有效的成像。DNB阵列的占用通常超过90%,但可以从50%到100%的占用范围。
在一些实施方案中,使用标准硅处理技术制造图案化表面。这样的图案阵列实现了比未图案阵列更高的DNB密度,导致每个碱基读长的像素更少,处理更快,并且提高了试剂使用效率。
在一些实施方案中,表面可以具有与多核苷酸分子上的互补官能团反应以形成共价键的反应性官能团。诸如几个核苷酸或更长的长DNA分子可以有效地连接到疏水性表面,例如具有低浓度的各种反应性官能团例如-OH基团的干净的玻璃表面。在一些实施方案中,多核苷酸分子可以通过与表面的非特异性相互作用或通过非共价相互作用例如氢键、范德华力等吸附到表面。
将多核苷酸连接到基板还可以包括洗涤步骤,其改变严格性,以除去不完全连接的单分子或其它试剂,这些其它试剂来自存在于不期望的步骤或非特异性结合到表面的制备步骤中。
在附着到表面上时,单链多核苷酸通常填充平坦的球形体积,其平均体积受大约等于随机环状构建体中的连环体直径区的限制。单链多核苷酸在表面上的紧密度可能受许多因素的影响,包括所使用的附着化学性质,多核苷酸与表面之间的连接密度,表面的性质等。在表面上保持多核苷酸,包括连环体,的大分子结构的紧密形式可以增加信噪比;例如,紧密连环体可以产生来自探针,例如,荧光标记的寡核苷酸,的更强烈的信号,探针特异性针对于连环体的组分。
可以以各种密度将环状配对构建体和/或DNB排列在表面上。在一些实施方案中,每个离散区可以包含约1至约1000个分子。在其它实施方案中,每个离散区可以包含约10至约900,约20至约800,约30至约700,约40至约600,约50至约500,约60至约400,约70至约300,约80至约200,以及约90至约100个分子。在一些实施方案中,以每平方毫米至少0.5,1,2,3,4,5,6,7,8,9或10,000个分子的密度提供环状配对构建体和/或DNB阵列。
10.测序
在一些实施方案中,本申请所述的配对构建体或包含配对构建体或其连环体的阵列,例如,DNB,用于鉴定一个或多个靶多核苷酸的核苷酸序列。可用于本申请所述构建体和/或阵列鉴定目标多核苷酸序列的技术包括但不限于依赖于传统杂交方法来区分检测位置的核苷酸的技术;在检测位置添加核苷酸碱基对,例如通过合成方法如焦磷酸测序进行测序,的延伸技术;依赖于连接酶的特异性连接技术,如果在检测位置存在完美的互补性,则优选发生连接反应;以及依赖于酶或化学特异性的切割技术,如果存在完美的互补性,则优先进行切割;及其组合。
在一些实施方案中,本申请所述的测序方法用于测定靶核酸中至少约10至约200个碱基,例如约10,约20,约30,约40,约50,约60,约70,靶核酸中约80,约90,约100,约110,约120,约130,约140,约150,约160,约170,约180,约190或约200个碱基。在一些实施方案中,本申请所述的测序方法用于确定本申请所述的核酸构建体中每个接头的一个或两个末端附近的至少5,10,15,20,25,30或更多碱基。
在一些实施方案中,本申请所述的构建体和/或阵列与组合探针-锚定连接(缩写“cPAL”)测序技术结合使用。在一些实施方案中,本申请所述的构建体和/或阵列与通过合成测序(缩写“SBS”)的测序技术结合使用。在一些实施方案中,本申请所述的构建体、DNB和/或阵列与测序技术的组合结合使用,例如与可以在构建体、DNB和/或阵列上顺序使用的cPAL和SBS测序技术的组合结合使用。
10.1cPAL测序
在一些实施方案中,本申请所述的构建体、文库或DNB用于cPAL测序方法。cPAL测序涉及鉴定靶核酸中特定检测位置的核苷酸,这是通过检测探针连接产物来鉴定,探针连接产物是至少一个锚定探针,其与所有或部分接头杂交,与测序探针连接形成的,测序探针在对应于,例如与之杂交,检测位置的“询问位置(英文interrogation position)”含有特定核苷酸。本申请所用的“测序探针”是指被设计为提供靶核酸的特定检测位置处的核苷酸身份的寡核苷酸。测序探针通常包含许多简并碱基和探针内特定位置的特定核苷酸以查询询问位置。测序探针包含一个唯一的识别标签。如果询问位置的核苷酸与检测位置处的核苷酸互补,则可能发生连接,导致产生含有唯一标记物的连接产物,然后检测该连接产物。在任何给定的循环中,使用的测序探针被设计成使得一个或多个位置上的一个或多个碱基的身份与附接到该测序探针的标记的身份相关。一旦检测到连接的测序探针,并因此检测到询问位置的碱基,则将连接的复合物从构建体或DNB上剥离,并进行新的接头循环和测序探针杂交和连接。cPAL的多个循环将鉴定与接头相邻的靶核酸的区中的多个碱基。
另外,可以在每个接头的一个或两个末端进行测序反应,例如,测序反应可以是“单向”,检测发生在接头或另一个的3’或5’,或者反应可以是“双向的”,其中在接头的检测位置3’和5’处检测到碱基。双向测序反应可以同时发生,即同时检测接头两侧,也可以按任意顺序进行。
cPAL测序方法具有通过本领域已知的杂交方法进行测序的许多优点,包括DNA阵列平行度,独立和非迭代碱基读数,以及每个反应读取多个碱基的能力。此外,cPAL通过杂交方法解决了测序的两个局限性,特别是无法读取简单的重复序列和强化计算的需要。
在一些实施方案中,cPAL测序方法包括在每个杂交连接循环中使用一个,两个,三个或更多个锚定探针。在一些实施方案中,cPAL测序方法包括在每个杂交连接循环中使用至少两个连接的锚定探针。在一些实施方案中,第一锚定探针与接头中的第一锚定位点杂交,并且第二锚定探针与第二锚定位点杂交。在一些实施方案中,一个锚定探针与接头完全互补,并且第二锚定探针是完全简并的,因此能够与邻近于接头的靶核酸区的未知核苷酸杂交。在一些实施方案中,第二完全简并的锚定探针长度为约5至约20个碱基,例如,长度为约5至约10个碱基。连接至第一锚定探针时,形成较长连接的锚定探针结构,提供cPAL过程后续步骤所需的稳定性。
cPAL方法的不同示例性实施方案的详细描述,以及用于通过cPAL进行测序的试剂和条件,在以下专利技术中有描述:US 6,309,824;US 6,401,267;US 6,864,052;US 7,906,285;US 7,910,304;US 7,910,354;US 7,960,104;US 8,105,771;US 8,278,039;US8,415,099;US 8,445,194;US 8,445,197;US 9,023,769;US 2008/0213771;US 2009/0264299;US 2012/0135893;和U.S.专利申请序列号60/992,485;61/026,337;61/035,91461/061,134;以及61/102,586;其各自通过引用并入本申请。
10.2SBS测序
在一些实施方案中,本申请所述的构建体、文库或DNB用于通过合成测序(缩写SBS)方法测序。通过合成反应进行的测序可以在DNB阵列上进行,其提供高密度的测序靶以及单体单元的多个拷贝。
可以使用SBS测序的任何方法。SBS测序的实例包括但不限于焦磷酸测序,引物延伸测序和单分子实时(缩写SMRT)测序。SBS方法描述于例如US 6,210,891;US 6,828,100;US 6,833,246;US 6,911,345;US 7,858,311;US 8,399,188;和US 9,017,973。
10.3使用cPAL和SBS化学进行测序
在一些实施方案中,本申请所述的构建体、文库或DNB用于测序方法的组合中。例如,在一些实施方案中,使用cPAL化学和SBS化学以顺序方式,例如,首先通过cPAL化学,随后是SBS化学,对本申请所述的构建体和文库进行测序。在一些实施方案中,第一接头和第二接头包含用于在3’至5’方向上通过cPAL化学测序的杂交序列,例如,锚定或干扰者杂交序列,并且还包含用于通过SBS化学在5’到3’方向测序的杂交序列,例如,SBS测序引物杂交序列。
对于包含两个接头的文库,以顺序的方式使用cPAL和SBS化学进行测序将导致每个配对多核苷酸“臂”的两个读取,每个构建体或DNB总共四个读取。因此,如本申请所述在构建体、文库或DNB上使用多个测序方法可以从被测序的每个构建体、文库或DNB中产生更多的信息。
11.试剂盒
在另一方面,提供用于实践本申请所述的文库构建方法的试剂盒。
在一些实施方案中,试剂盒包含本申请所述的用于接头的第一寡核苷酸和第二寡核苷酸。在一些实施方案中,试剂盒包含用于鼓泡接头的第一寡核苷酸和第二寡核苷酸。在一些实施方案中,试剂盒包含用于L-寡核苷酸接头的第一寡核苷酸和第二寡核苷酸,并且任选地还包含用于L-寡核苷酸接头的辅助寡核苷酸。在一些实施方案中,试剂盒包含用于夹钳接头的第一寡核苷酸和第二寡核苷酸,并且任选地还包含用于夹钳接头的辅助寡核苷酸。
在一些实施方案中,试剂盒包含用于两个或多个接头的寡核苷酸,例如,用于第一接头的寡核苷酸和用于第二接头的寡核苷酸。在一些实施方案中,试剂盒包含用于第一鼓泡接头的第一寡核苷酸和第二寡核苷酸,并且还包含用于第二鼓泡接头的第一寡核苷酸和第二寡核苷酸。在一些实施方案中,试剂盒包含用于第一L-寡核苷酸接头的第一寡核苷酸和第二寡核苷酸,其还包含用于第二L-寡核苷酸接头的第一寡核苷酸和第二寡核苷酸,并任选地还包含用于L-寡核苷酸接头的辅助寡核苷酸。在一些实施方案中,试剂盒包含用于第一夹钳接头的第一寡核苷酸和第二寡核苷酸,还包含用于第二夹钳接头的第一寡核苷酸和第二寡核苷酸,并任选地还包含用于夹钳接头的辅助寡核苷酸。在一些实施方案中,试剂盒包含用于鼓泡接头的第一寡核苷酸和第二寡核苷酸,还包含用于夹钳接头的第一寡核苷酸和第二寡核苷酸,并任选地还包含用于夹钳接头的辅助寡核苷酸。
在一些实施方案中,试剂盒还可以包含与本申请的接头的特征相关的一个或多个附加组分。在一些实施方案中,试剂盒可以进一步包含用于进行本申请方法的一种或多种酶,例如用于本申请所述的连接、扩增或DNA合成反应的酶,并且任选地可以包含用于进行如本申请的酶反应的其他组分,例如缓冲液,核苷酸等。在一些实施方案中,试剂盒还可以包含用于进行本申请方法的一种或多种引物,例如,用于进行本申请的扩增方法的一种或多种扩增引物。在一些实施方案中,试剂盒还可包含桥连片段。在一些实施方案中,试剂盒可以进一步包含用于如本申请的测序方法的一种或多种试剂,例如,用于cPAL和/或SBS测序的一种或多种试剂。
在一些实施方案中,试剂盒包含用于进行如本申请的一组反应的组分,例如,接头寡核苷酸,酶或与反应组分预混合的酶。示例性的一组反应如图2所示。在一些实施方案中,试剂盒包含用于制备用于连接的多核苷酸片段和/或用于连接第一接头至多核苷酸片段的组分,例如,用于修饰多核苷酸片段和连接第一接头的组分;用于修饰多核苷酸片段、连接第一接头和通过PCR扩增连接产物的组分;用于片段化DNA、修饰多核苷酸片段和连接第一接头的组分;或用于片段化DNA、修饰多核苷酸片段、连接第一接头以及通过PCR扩增连接产物的组分。在一些实施方案中,试剂盒包含用于形成开放双链环状多核苷酸构建体的组分,例如,用于在尿嘧啶位点处形成间隙、环化和纯化的组分。在一些实施方案中,试剂盒包含用于连接第一接头和形成开放双链环状多核苷酸构建体的组分,例如,用于连接第一接头、通过PCR扩增连接产物、在尿嘧啶位点产生间隙、进行环化和纯化的组分。在一些实施方案中,试剂盒包含用于产生配对多核苷酸臂的组分,例如,用于进行时间和温度受控缺口平移(缩写TTCNT)的组分,用于进行时间和温度受控延伸(缩写TTCE)的组分或用于进行可逆终止剂受控延伸(缩写RTCE)的组分,如聚合酶、外切核酸酶和核酸酶;用于TTCNT、TTCE或RTCE的组分,以及用于末端修复TTCNT、TTCE或RTCE产物的组分,如聚合酶和磷酸酶。在一些实施方案中,试剂盒包含用于连接第二接头的组分,例如用于连接第一接头并通过PCR扩增连接产物的组分。在一些实施方案中,试剂盒包含用于环化配对多核苷酸构建体的组分,例如用于变性扩增产物和环化单链多核苷酸构建体的组分。在一些实施方案中,试剂盒包含用于连接第二接头并环化配对多核苷酸构建体的组分,例如,用于连接第一接头、通过PCR扩增连接产物、变性扩增产物和环化单链多核苷酸构建体的组分。在一些实施方案中,试剂盒包含用于制备、加载和/或汇集DNA纳米球的组分。
下面通过具体实施例对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明,不应理解为对本申请的限制。
实施例七 使用ntCNT、3’侧向连接和CPE构建文库
根据本申请的一个实施例,提供了如图21所示的配对文库结构的方法。在将第一接头(缩写AdA),例如,鼓泡接头,L-寡核苷酸接头,夹钳接头等,添加到基因组DNA并形成具有缺口或间隙的双链环(缩写dsCir)之后,任选地随后进行间隙步骤以产生几个碱基对的间隙,CNT将选定长度的缺口或间隙平移到基因组DNA中。3’侧向连接用于将第二接头的5’臂连接到所得的缺口或间隙处。任选地分离由3’侧向连接产生的dsCir DNA的两条链,并且产生单链DNA(缩写ssDNA),其包括由基因组DNA,具体地,起始基因组DNA片段的末端,包围的AdA序列,以及在基因组DNA的3’末端的AdB_5‘序列。该ssDNA链在CPE反应中用作模板,得到具有源自起始基因组DNA片段的配对构建体。配偶对的每个臂具有选定的长度,分别由CNT和CPE反应产生,由AdA序列分开,在构建体的一端具有AdB_5’序列。然后通过3’侧向连接,在这种情况下为5’突出连接,将AdB_3’序列(缩写Ad141_3’)加入到构建体的另一端,得到每端具有AdB引物的可扩增模板。
受控缺口平移。用于进行CNT的一种方法是通过核苷酸量的受控缺口平移(缩写ntCNT),其中使用有限量的一个或多个核苷酸来控制缺口平移进基因组序列的距离或缺口平移的长度。当DNA聚合酶用完有限量的核苷酸时,例如,聚合酶具有低dNTP Km的聚合酶,如大肠杆菌DNA Pol I,或者当可用的dNTP变得太低而不能形成酶/底物复合体时,例如,高Km DNA聚合酶如Taq DNA聚合酶或PfuCx DNA聚合酶,DNA聚合酶停止。这种形式的CNT可用于从任何选定长度的起始DNA片段序列产生配对文库,例如,允许序列读取长度为100-150bp。ntCNT具有受控缺口平移的所有优点:孵化时间短,配对读长的长度长,效率高。另外,ntCNT对温度或孵育时间不敏感,导致可控且易于重复地读取长度范围很窄的读长,或配对臂长度,读取长度的大小和范围取决于所选择的聚合酶类型和dNTP与DNA的比例,通常反应中使用的dNTPs越多,读取长度越长,且读取长度的范围越宽。
在含有1.5pmol长度约300-1000bp的Ad142双链环状DNA,6μl 10×NEBuffer 2(New England Biolabs,Ipswich,MA),5.5μl具有2×AT的0.0045mM dNTP,1μl 0.91U/μlDNA聚合酶I(New England Biolabs,Ipswich,MA)和水的总反应体积为60μl的反应中,进行核苷酸量(ntCNT)受控缺口平移。将反应混合物置于冰上,然后置于热循环仪中在37℃运行15分钟,并在65℃加热变性15分钟。热盖跟踪设置在5℃以上。
缺口的3’侧向连接。3’侧向连接是通过混合12μl 20μM Ad141_5’接头,40μl 3×HB缓冲液,3μl 600U/μl T4DNA连接酶(New England Biolabs,Ipswich,MA),60μl CNT产物,2.4μl的0.5μg/μl ET SSB(New England Biolabs,Ipswich,MA)和水的120μl反应体积中进行。将反应在37℃下孵育1小时,并在热循环仪中在65℃热变性15分钟,并在5℃以上设置热盖跟踪。
其中,3×HB缓冲液包括:0.05mg/ml BSA,50mM Tris-Cl pH7.8,10mM MgCl2,0.5mM DTT,1mM ATP,10%PEG-8000。
Ad141_5’接头序列如下:
YJ-364Ad041_5T_04为SEQ ID NO.12所示序列
SEQ ID NO.12:5’-AAGTCGGAGGCCAAGCGGTCGT-3’
其中,5’端具有磷酸化修饰,3’端为ddC修饰。
YJ-365ON4248Ad141_5为SEQ ID NO.13所示序列
SEQ ID NO.13:5’-TTGGCCTCCGACT/3dT-Q/-3’
根据Agengen珠纯化方案,使用1.5x Axygen磁珠来纯化连接产物。然后在30μl pH8.0Tris-EDTA(缩写TE)缓冲液中洗脱。
受控引物延伸。在含有9μl 10×ThermoPol缓冲液(New England Biolabs,Ipswich,MA),0.5μl 0.096mM dNTPs,18μl 20μM ON0639,30μl间隙连接产物,1.5μl 5U/μlTaq和水的总反应体积为90μl的反应中进行受控引物延伸。将反应混合物置于冰上并保持新鲜,然后置于热循环仪中:运行程序为:96℃5分钟,56℃1分钟,72℃5分钟,4℃hold。通过加入1.2μl 0.5M EDTA终止反应。
其中,ON0639为SEQ ID NO.14所示序列:
SEQ ID NO.14:5’-TCCTAAGACCGCTTGGCCTCCGACT-3’
SEQ ID NO.14所示序列的ON0639中5’端具有52Bio生物素标记。
根据Axygen磁珠纯化方案,使用1.5×Axygen珠(Corning,Corning,NY)纯化CPE产物。然后在40μl pH 8.0TE缓冲液中洗脱。
5’-OH的5’突起的3’侧向连接。通过混合16μl 20μM Ad141_3’接头,ON3664,ON3665,40μl 3×HB缓冲液,4μl 600U/μlT4DNA连接酶(New England Biolabs,Ipswich,MA),40μl CPE产物,2.4μl 0.5μg/μl ET SSB(New England Biolabs,Ipswich,MA)和水在120ul反应体积中。然后将反应在37℃下孵育1小时,并在热循环仪中在65℃加热变性15分钟,并在5℃以上设置加热盖跟踪。
ON3664为SEQ ID NO.15所示序列
SEQ ID NO.15:5’-GTCTCCAGTCGAAGCCCGACG-3’,
其中,5’为磷酸化修饰,3’端为ddC修饰。
ON3665为SEQ ID NO.16所示序列
SEQ ID NO.16:5’-GCTTCGACTGGAGA-3’,其中,3’端为ddC修饰。
根据Axygen珠纯化方案,用1.0×Axygen珠(Corning,Corning,NY)纯化连接产物。然后在90ul pH 8.0TE缓冲液中洗脱。
AdB PCR。使用Q5高保真DNA聚合酶(New England Biolabs,Ipswich,MA)和高GC增效剂(New England Biolabs,Ipswich,MA),在240μl反应体积中,PCR扩增纯化的OH连接产物。
通过使用如下程序进行PCR富集:98℃30s,然后进入7个循环:98℃10s、65℃30s、72℃30s,循环结束后,72℃2分钟,以0.1℃/sec的速度下降至4℃,hold。
使用SEQ ID NO.17和SEQ ID NO.18所示序列的引物。
SEQ ID NO.17:
5’-TCCTAAGACCGCTTGGCCTCCGACT-3’
SEQ ID NO.17所示序列的引物中5’端具有52Bio标记。
SEQ ID NO.18:
5’-AGACAAGCTCGAGCTCGAGCGATCGGGCTTCGACTGGAGAC-3’
SEQ ID NO.18所示序列的引物中5’端具有phos标记。
依据Axygen磁珠纯化方案,使用0.8×Axygen珠(Corning,Corning,NY)纯化PCR产物。在55μl pH 8.0TE缓冲液中,从珠子洗脱DNA。然后按照制造商的说明书,使用dsDNA高灵敏度试剂盒(Invitrogen,Waltham,MA)对DNA进行定量。
PCR和PAGE分析。为了评估ntCNT和ntCPE臂的质量,使用PfuCx DNA聚合酶(Agilent Technologies,Santa Clara,CA)扩增间隙连接和OH连接产物(1μl)。引物序列如表3所示。
表3Cir对照、CNT臂、CPE臂和终产物的扩增引物
在预制的6%TBE聚丙烯酰胺凝胶(Bio-Rad,Hercules,CA)上分析样品。将5μl PCR产物与2μl 6×上洋缓冲液混合。然后将样品加载到凝胶中并在250V下运行10-15分钟。分离的凝胶用GelStar染色,并使用凝胶成像系统进行扫描,得到确定胶带尺寸和强度的凝胶图像。
制备用于滚环复制以制备DNA纳米球的ssCir。
1.桥连片段退火。将AdB PCR产物均一化为65μl。在每个反应中加入5μl 20μMON1587桥连片段5’-TCGAGCTTGTCTTCCTAAGACCGC-3’。然后在热循环仪中在95℃加热变性3分钟,加热盖105℃,并立即在冰上快速冷却10分钟。
2.ssDNA桥连环化。随后,加入50μl以下反应混合物,通过涡旋充分混合,并在37℃孵育1小时:36.4μl H2O,12μl 10X TA缓冲液(Epicentre,Madison,WI),1.2μl 100mM ATP,0.4μl T4DNA连接酶(Enzymatics,Beverly,MA);总反应体积120μl。
3.Exo I和Exo III Tx。除去环化反应的产物4μl。通过向环化产物中加入8μl以下反应混合物除去线性DNA:0.8μl 10X TA缓冲液(Epicentre,Madison,WI),3.9μl 20U/μlExoI(New England Biolabs,Ipswich,MA),2.0μl H2O,1.3μl 100U/μl ExoIII(NewEngland Biolabs,Ipswich,MA),总反应体积为124μl。在室温下配置反应混合物,并置于热循环仪中37℃运行30分钟。通过加入6μl 0.5M EDTA终止反应。
4.纯化。通过170μl PEG32珠,即MPure XP珠,购自ckman Coulter,Inc.,Beverley,MA,在32%PEG 3350 1.6M NaCl,20mM EDTA0.09%叠氮化物0.01%Tween-20中纯化单链环DNA(缩写ssCir DNA),然后在55μl pH 8.0TE缓冲液中洗脱。
5.定量。通过ssDNA Oligreen试剂盒(Invitrogen,Waltham,MA)定量2μl纯化的ssCir DNA。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。
SEQUENCE LISTING
<110> 深圳华大基因科技有限公司
<120> 一种双链核酸片段加接头的方法、文库构建方法和试剂盒
<130> 17I25388
<160> 26
<170> PatentIn version 3.3
<210> 1
<211> 61
<212> DNA
<213> 人工序列
<400> 1
aactgctgac gtactgatgg gcatggcgac ctattcagbb bbbbbtctcg actcagcagt 60
t 61
<210> 2
<211> 73
<212> DNA
<213> 人工序列
<400> 2
aactgctgac gtactgatgg gcatggcgac ctattcagbb bbbbbaacga tcactcctct 60
cgactcagca gtt 73
<210> 3
<211> 64
<212> DNA
<213> 人工序列
<400> 3
aactgctgac gtactgatgg gcatggcgac ctattcagbb bbbbbbbbtc tcgactcagc 60
agtt 64
<210> 4
<211> 75
<212> DNA
<213> 人工序列
<400> 4
aactgctgac gtactgatgg gcatggcgac ctattcagbb bbbbbbbbcg atcactcctc 60
tccagctcag cagtt 75
<210> 5
<211> 79
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (39)..(44)
<223> n is a, c, g, or t
<400> 5
aagtcggagg ccaagcgtgc ttaggacatg tagcgtcgnn nnnnbbbbbb baacgagtga 60
tgcgtgtacg atccgactt 79
<210> 6
<211> 81
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (41)..(46)
<223> n is a, c, g, or t
<400> 6
aagtcggagg ccaagcgtga cttaggacat gtagcgacct nnnnnnbbbb bbbaacgagt 60
gatgcgtgta cgatccgact t 81
<210> 7
<211> 48
<212> DNA
<213> 人工序列
<400> 7
aagtcggagg ccaagcgtgc ttaggacatg tagtgtacga tccgactt 48
<210> 8
<211> 66
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (41)..(50)
<223> n is a, c, g, or t
<400> 8
actgctgacg tactgactgt agggctggcg accttgacga nnnnnnnnnn tcctcagctc 60
agcagt 66
<210> 9
<211> 48
<212> DNA
<213> 人工序列
<400> 9
aagtcggagg ccaagcgtgc ttaggacatg tagtgtacga tccgactt 48
<210> 10
<211> 76
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 10
aagtcggagg ccaagcgtgc ttaggacatg tagcgnnnnn nctctctaaa cgagtgatgc 60
gtgtacgatc cgactt 76
<210> 11
<211> 44
<212> DNA
<213> 人工序列
<400> 11
aagtcggaac cgtggatgct gagtgatggc tgtacgabbb bbbb 44
<210> 12
<211> 22
<212> DNA
<213> 人工序列
<400> 12
aagtcggagg ccaagcggtc gt 22
<210> 13
<211> 13
<212> DNA
<213> 人工序列
<400> 13
ttggcctccg act 13
<210> 14
<211> 25
<212> DNA
<213> 人工序列
<400> 14
tcctaagacc gcttggcctc cgact 25
<210> 15
<211> 21
<212> DNA
<213> 人工序列
<400> 15
gtctccagtc gaagcccgac g 21
<210> 16
<211> 14
<212> DNA
<213> 人工序列
<400> 16
gcttcgactg gaga 14
<210> 17
<211> 25
<212> DNA
<213> 人工序列
<400> 17
tcctaagacc gcttggcctc cgact 25
<210> 18
<211> 41
<212> DNA
<213> 人工序列
<400> 18
agacaagctc gagctcgagc gatcgggctt cgactggaga c 41
<210> 19
<211> 19
<212> DNA
<213> 人工序列
<220>
<221> n
<222> (11)..(11)
<223> 尿嘧啶残基
<400> 19
gtcgagaacg nctcgtgct 19
<210> 20
<211> 19
<212> DNA
<213> 人工序列
<220>
<221> n
<222> (12)..(12)
<223> 尿嘧啶残基
<400> 20
acgttctcga cncagcaga 19
<210> 21
<211> 25
<212> DNA
<213> 人工序列
<400> 21
tcctaagacc gcttggcctc cgact 25
<210> 22
<211> 19
<212> DNA
<213> 人工序列
<220>
<221> n
<222> (12)..(12)
<223> 尿嘧啶残基
<400> 22
acgttctcga cncagcaga 19
<210> 23
<211> 19
<212> DNA
<213> 人工序列
<220>
<221> n
<222> (11)..(11)
<223> 尿嘧啶残基
<400> 23
gtcgagaacg nctcgtgct 19
<210> 24
<211> 41
<212> DNA
<213> 人工序列
<400> 24
agacaagctc gagctcgagc gatcgggctt cgactggaga c 41
<210> 25
<211> 25
<212> DNA
<213> 人工序列
<400> 25
tcctaagacc gcttggcctc cgact 25
<210> 26
<211> 41
<212> DNA
<213> 人工序列
<400> 26
agacaagctc gagctcgagc gatcgggctt cgactggaga c 41