CN116981771A - 杂交方法和试剂 - Google Patents

杂交方法和试剂 Download PDF

Info

Publication number
CN116981771A
CN116981771A CN202180081873.8A CN202180081873A CN116981771A CN 116981771 A CN116981771 A CN 116981771A CN 202180081873 A CN202180081873 A CN 202180081873A CN 116981771 A CN116981771 A CN 116981771A
Authority
CN
China
Prior art keywords
cases
library
polynucleotides
polynucleotide
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180081873.8A
Other languages
English (en)
Inventor
布莱恩·N·豪格伦德
克里斯汀·D·布彻
霍利·科比特
布伦顿·I·M·格雷厄姆
莱昂纳多·阿维萨
拉姆齐·易卜拉欣·泽图恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Twist Bioscience Corp
Original Assignee
Twist Bioscience Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Twist Bioscience Corp filed Critical Twist Bioscience Corp
Priority claimed from PCT/US2021/053412 external-priority patent/WO2022076326A1/en
Publication of CN116981771A publication Critical patent/CN116981771A/zh
Pending legal-status Critical Current

Links

Abstract

本文提供了用于改善杂交反应的组合物和方法。本文还提供了合成封闭文库。本文还提供了用于设计合成封闭文库的方法以及对甲基化组分析的应用。

Description

杂交方法和试剂
交叉引用
本申请要求2020年10月5日提交的美国临时专利申请号63/087,793、2021年2月5日提交的美国临时专利申请号63/146,435、2021年2月12日提交的美国临时专利申请号63/149,055和2021年7月28日提交的美国临时专利申请号63/226,620的权益,所述申请中的每一个都以引用的方式整体并入本文。
背景技术
高保真且低成本的核酸分析在生物技术和医学方面以及在基础生物医学研究方面具有核心作用。虽然已知用于经由基于杂交的过程分析复杂核酸样品的各种方法,但这些技术通常受到可扩展性、自动化、速度、准确性和成本的影响。
援引并入
本说明书中提及的所有出版物、专利和专利申请均以引用的方式并入本文,其程度如同具体地且单独地指出每个单独的出版物、专利或专利申请均以引用的方式并入。
发明内容
本文提供了用于杂交的组合物和方法。本文提供了合成多核苷酸文库,其包含多个包含来源于基因组DNA的序列的多核苷酸,其中由序列编码的多个多核苷酸包含不多于2的C0t值,并且其中多个多核苷酸包含至少一个相对于基因组DNA的修饰。本文还提供了文库,其中至少一个修饰包含一个或多个多核苷酸相对于基因组中的丰度的不同的丰度。本文还提供了文库,其中修饰包含,相对于基因组DNA,多个多核苷酸中至少80%的胞嘧啶碱基被尿嘧啶或胸腺嘧啶替代。本文还提供了文库,其中对应于序列的多核苷酸包含不多于1的C0t值。本文还提供了文库,其中基因组DNA是胎盘DNA。本文还提供了文库,其中胎盘DNA是人胎盘DNA。本文还提供了文库,其中基因组DNA来自灵长类动物或啮齿动物。本文还提供了文库,其中基因组DNA是超声处理的鲑鱼精DNA、cot-1DNA、Alu、Kpn或编码大肠杆菌tRNA或酵母tRNA的DNA。本文还提供了文库,其中多个多核苷酸的长度为75-150个碱基。本文还提供了文库,其中多个多核苷酸包含至少10,000个多核苷酸。本文还提供了文库,其中多个多核苷酸不包含5-甲基胞嘧啶或5-羟甲基胞嘧啶。本文还提供了文库,其中相对于胎盘DNA,多个多核苷酸中至少90%的胞嘧啶碱基被尿嘧啶或胸腺嘧啶替代。本文还提供了文库,其中在基因组DNA中,至少80%的胞嘧啶碱基未被甲基化。本文还提供了文库,其中多个多核苷酸包含至少一个通用引物区。本文还提供了文库,其中多个多核苷酸包含外显子。本文还提供了文库,其中多个多核苷酸中的每一个都以在平均值表示的10%内的量存在。本文还提供了文库,其中基因组DNA来源于生物体。本文还提供了文库,其中生物体是多倍体。本文还提供了文库,其中生物体是植物。本文还提供了文库,其中植物是食用作物。本文还提供了文库,其中食用作物是以下中的一种或多种:小麦、洋葱、大麦、黑麦、燕麦、玉米、大豆、水稻、甘薯、木薯、山药、车前草和马铃薯。本文还提供了文库,其中多个多核苷酸包含50-300个碱基的平均长度。本文还提供了文库,其中文库包含不多于5%的非重复序列。
本文提供了生成杂交试剂的方法,所述方法包括:(a)提供多个编码来源于生物体的一个或多个源多核苷酸的序列,其中源多核苷酸包含不多于2的C0t值;(b)将多个序列映射到亚硫酸氢盐或酶促脱氨处理的参考基因组以生成映射序列;以及(c)合成多核苷酸文库,其中多核苷酸文库包含多个修饰多核苷酸,多个修饰多核苷酸包含参考基因组的映射序列。本文还提供了方法,其还包括在步骤(c)之前去除包含外显子组和refseq序列的映射序列。本文还提供了方法,其中序列编码至少10,000个多核苷酸。本文还提供了方法,其中生物体是动物。本文还提供了方法,其中动物是人。本文还提供了方法,其中多个序列来源于胎盘核酸。本文还提供了方法,其中多个序列来源于雄性胎盘核酸。本文还提供了方法,其中生物体是植物。本文还提供了方法,其中多个序列是DNA。本文还提供了方法,其中一个或多个源多核苷酸的长度为50-300个碱基。本文还提供了方法,其中一个或多个修饰多核苷酸的长度为75-150个碱基。本文还提供了方法,其中修饰包括至少80%的胞嘧啶被尿嘧啶或胸腺嘧啶替代。本文还提供了方法,其中修饰包括至少90%的胞嘧啶被尿嘧啶或胸腺嘧啶替代。
本文提供了生成杂交试剂的方法,所述方法包括:(a)提供多个编码来源于生物体的一个或多个源多核苷酸的序列,其中源多核苷酸包含不多于2的C0t值;(b)修饰多个序列,其中修饰包括在多个序列中,至少一个胞嘧啶被尿嘧啶或胸腺嘧啶替代,以生成多个修饰序列;以及(c)合成多核苷酸文库,其中多核苷酸文库包含有包含多个修饰序列的多个修饰多核苷酸。本文还提供了方法,其中序列编码至少10,000个多核苷酸。本文还提供了方法,其中生物体是动物。本文还提供了方法,其中动物是人。本文还提供了方法,其中多个序列来源于胎盘核酸。本文还提供了方法,其中多个序列来源于雄性胎盘核酸。本文还提供了方法,其中生物体是植物。本文还提供了方法,其中多个序列是DNA。本文还提供了方法,其中一个或多个源多核苷酸的长度为50-300个碱基。本文还提供了方法,其中一个或多个修饰多核苷酸的长度为75-150个碱基。本文还提供了方法,其中修饰包括至少80%的胞嘧啶被尿嘧啶或胸腺嘧啶替代。本文还提供了方法,其中修饰包括至少90%的胞嘧啶被尿嘧啶或胸腺嘧啶替代。
本文提供了用于对核酸进行测序的方法,所述方法包括:(a)将本文所述的文库与多个基因组片段和探针文库接触,其中探针文库包含多个多核苷酸探针;(b)富集至少一个基因组片段,其结合探针文库,以生成至少一个富集的靶多核苷酸;以及(c)对至少一个富集的靶多核苷酸进行测序。本文还提供了方法,其还包括在步骤(a)之前,将多个基因组片段中的胞嘧啶脱氨。本文还提供了方法,其中脱氨包括用亚硫酸氢盐或一种或多种酶处理。本文还提供了方法,其中酶是APOBEC(“催化多肽样载脂蛋白B mRNA编辑酶(apolipoprotein B mRNA editing enzyme,catalytic polypeptide-like)”)。本文还提供了方法,其中一种或多种酶是APOBEC和TET2。本文还提供了方法,其中探针文库被配置成与至少一个包含CpG岛的基因组片段杂交。本文还提供了方法,其中探针文库被配置成与至少一个包含5-甲基胞嘧啶或5-羟甲基胞嘧啶的基因组片段杂交。本文还提供了方法,其中探针文库包含至少5000个多核苷酸探针。本文还提供了方法,其中多核苷酸探针的长度为80-200个碱基。本文还提供了方法,其中文库以相对于多个基因组片段至少5倍的摩尔过量存在。本文还提供了方法,其中多核苷酸探针包含至少一个可检测标记。本文还提供了方法,其中多核苷酸探针共同包含至少100万个碱基。本文还提供了方法,其中多核苷酸探针共同包含至少1000万个碱基。本文还提供了方法,其中多核苷酸探针共同包含至少1亿个碱基。本文还提供了方法,其中测序包括边合成边测序(sequencing by synthesis)、纳米孔测序或SMRT测序。本文还提供了方法,其中所述方法还包括在步骤(a)中,将文库与鲑鱼精接触。本文还提供了方法,其中接触发生不多于4小时。本文还提供了方法,其中接触在60-70℃的温度下发生。本文还提供了方法,其中至少一些基因组片段包含至少一个多核苷酸衔接子。本文还提供了方法,其中至少一个多核苷酸衔接子包含至少一个索引序列。本文还提供了方法,其中至少一个索引序列的长度为8-16个碱基。本文还提供了方法,其还包括在步骤(a)中,使文库与一个或多个通用封闭剂(blocker)接触。
附图说明
图1A描绘了靶向的甲基化组(methylome)分析的工作流程。甲基化测序涉及通过脱氨将未甲基化的胞嘧啶转化成尿嘧啶,同时使甲基化的胞嘧啶保持完整的酶促或化学方法。在扩增期间,尿嘧啶与互补链上的腺嘌呤配对,导致在未甲基化的胞嘧啶的原始位置中包含胸腺嘧啶。最终产物是不对称的,在转化之后产生两个不同的双链DNA分子(顶行);针对甲基化的DNA的相同过程得到额外的数组序列(底行)。
图1B描绘了酶促转化未甲基化的胞嘧啶以鉴定甲基胞嘧啶(5mC)和羟甲基胞嘧啶(5hmC)位点的工作流程。
图2A描绘了亚硫酸氢盐(左)和酶促(右)转化的转化率的比较。两种文库转化方法的转化率(测量为非CpG位点中,转化为胸腺嘧啶的胞嘧啶的百分比)均>99.5%。y轴以2%的间隔标记90-100%。
图2B描绘了亚硫酸氢盐和酶促转化的靶标GC含量的覆盖率。两种文库转化方法均与本文所述的封闭文库兼容,但是对于用酶促转化方法制备的文库,观察到改善的混合选择度量。当使用亚硫酸氢盐转化方法时,高GC靶区域与较低的覆盖率相关联(左),而当使用酶促转化方法时,观察到较小的偏差(右)。y轴以50个计数的间隔标记为“靶标读段计数”0-300。x轴以20%的间隔标记靶标GC含量(%)20-100。
图2C描绘了在使用EM-seq转化方法以实现文库制备之后的质量控制步骤。平均峰长度为大约375bp。y轴以50个荧光单位的间隔标记0-250;x轴以50、300、500、1000和10380个碱基对的间隔标记。
图2D描绘了酶促(左)和亚硫酸氢盐(右)方法的转化率(百分比)的比较。y轴以0.1%的间隔标记转化率99.5-100.0。
图2E描绘了酶促和亚硫酸氢盐方法的文库产量(ng/μL)的比较。x轴标记(从左到右,其中数字表示以ng/微升为单位的文库浓度):亚硫酸氢盐对照(8.8);亚硫酸氢盐-1(51.7);亚硫酸氢盐-2(101);酶促(112)。y轴以20ng/微升的间隔标记为DNA文库的浓度(ng/微升)0-120。
图2F描绘了亚硫酸氢盐方法的文库产物长度(bp)的比较。x轴标记(从左到右,其中数字表示平均大小(碱基对)):亚硫酸氢盐对照(287);亚硫酸氢盐-1(338);亚硫酸氢盐-2(346)。y轴以100个碱基对的间隔标记为DNA文库的平均大小(碱基对)0-600。
图2G描绘了酶促方法的文库产物长度(bp)的比较。x轴标记为亚硫酸氢盐对照(平均大小为548bp)。y轴以100个碱基对的间隔标记为DNA文库的平均大小(碱基对)0-600。
图2H描绘了酶促转化方法中胞嘧啶的甲基化百分比相对于亚硫酸氢盐转化方法中胞嘧啶的甲基化百分比的曲线图(左),其中r2=0.96。针对亚硫酸氢盐方法(左边两个条)和酶促方法(右边两个条)描绘的CpG的数目示于右图中。使用酶促方法检测到多15%的CpG。左图y轴标记酶促转化方法中胞嘧啶的甲基化百分比,并且x轴标记亚硫酸氢盐转化方法中胞嘧啶的甲基化百分比,0.00至1.00,以0.25的间隔。右图y轴以0.5x10的间隔标记检测的CpG的数目0至1.5x107,并且x轴标记对照cfDNA的重复(左边两个条为亚硫酸氢盐方法,并且右边两个条为酶促方法)。
图2I描绘了酶促和亚硫酸氢盐方法的脱诱饵百分比测序度量(percent off baitsequencing metrics)。y轴标记脱诱饵百分比(0-100%,以20%的间隔),x轴以0.25个单位的间隔标记文库试剂盒/预期甲基化分数0-1。圆形数据点表示从4h快速杂交生成的数据点,正方形表示从标准16小时杂交生成的数据点。
图2J描绘了酶促和亚硫酸氢盐方法的fold-80碱基罚分测序度量。y轴标记fold-80碱基罚分(1.2-2.2,以0.2的间隔),x轴以0.25个单位的间隔标记文库试剂盒/预期甲基化分数0-1。圆形数据点表示从4h快速杂交生成的数据点,正方形表示从标准16小时杂交生成的数据点。
图3A描绘了通过两条设计流水线生成的1.28Mb(左边的一对条)和1.52Mb(右边的一对条)定制甲基化套组(panel)的脱靶的减少。y轴以10%的间隔标记脱靶(%)0-60。每个组中的左条使用设计1,每个组中的右条使用设计2。
图3B描绘了使用针对正链和负链设计的套组(1.28Mb和1.52Mb)而改善的picard度量。右图显示针对仅正链(左条)或正链和负链(正/负,示出为右条)设计的两个套组的Fold-80(均一性,y轴以0.2个单位的间隔标记1.0-2.4)和Hs文库大小(独特分子数,y轴以0.5个单位的间隔标记0.0-2.5)。
图4A-4D描绘了在各种快速洗涤缓冲液1温度下使用设计2的合成封闭文库的Picard度量(Picard Metrics)。杂交捕获使用不同大小的定制甲基化套组以及200ng文库(NA12878;Coriell)和4小时杂交时间,在快速洗涤缓冲液1温度不同的情况下(从左到右:室温、55℃、60℃、63℃、66℃、70℃)进行。定制甲基化套组不使用严格性过滤器(stringency filter)设计,以最好地确定脱靶的影响情况。图4A描绘了脱靶分子的百分比(y轴以20个单位的间隔标记0-100,x轴标记套组,从左到右为0.04Mb、1.28Mb、3.00Mb)。图4B描绘了通过Fold-80度量表示的均一性(y轴以0.5个单位的间隔标记1.0-3.5;x轴标记套组,从左到右为0.04Mb、1.28Mb、3.00Mb)并且显示随着快速洗涤缓冲液1温度(从左到右:室温(RT)、55℃、60℃、63℃、66℃、70℃)升高而降低,但在高于约66℃的温度下开始增加。图4C描绘了在30x下的覆盖率(y轴以20个单位的间隔标记0-100,x轴标记套组,从左到右为0.04Mb、1.28Mb、3.00Mb)随着快速洗涤缓冲液1温度(从左到右:室温、55℃、60℃、63℃、66℃、70℃)增加而增加,但是当温度增加到高于66℃时降低。图4D描绘了随着洗涤缓冲液温度变化而变化的各种测序度量(y轴标记定性值,x轴标记洗涤缓冲液1温度:RT、55℃、60℃、63℃、66℃、70℃)。
图5描绘了使用两个甲基化组靶向富集套组的设计2的合成封闭文库的性能。在减少杂交时间的同时使用此类文库得到对脱靶度量的挽救。杂交捕获使用1.28Mb和1.52Mb定制甲基化套组以及200ng文库(NA12878,Coriell),在快速洗涤缓冲液1温度63℃持续2h或4h的杂交时间的情况下进行。定制甲基化套组不使用严格性过滤器设计,以最好地确定脱靶的影响情况。每个组中的左条表示在没有合成封闭文库的情况下的反应,而每个组中的右条表示使用40ug设计2的反应。左图:1.28Mb套组(y轴以10%的间隔标记脱靶(%)10-60);右图:1.52Mb套组(y轴以10%的间隔标记脱靶(%)10-60)。
图6描绘了使用2小时杂交时间,以快速杂交系统和三个在不同大小范围内的定制甲基化套组(通过颜色表示)的脱靶度量。快速洗涤缓冲液1温度为63℃。y轴以10%的间隔标记脱诱饵百分比0-90%。x轴显示添加到系统的封闭文库设计2的可变量(从左到右:0、5、25、50、100微克)。此图中使用的基因组DNA包括NA12878(Coriell)。套组标记为anchorV1(空心圆圈);Massie(低严格性,*);3Mb(+)。
图7描绘了使用16小时杂交时间,使用标准杂交系统和三个在不同大小范围内的定制套组(通过颜色表示)的脱靶度量。洗涤缓冲液1温度为63℃。y轴以10%的间隔标记脱诱饵百分比0至60%。x轴显示添加到系统的封闭文库设计2的可变量。Thermo Cot-1质量输入标记为圆圈(0微克)、菱形(5微克)或X(40微克)。此图中使用的基因组DNA包括NA12878(Coriell)、甲基化的HCT116 gDNA/>和/>未甲基化的HCT116 DKO gDNA/>图的左半部分描绘了使用NEBNext方案,使用NA12878的数据,并且x轴标记(从左到右)0、5、25、40、50、60、80和100微克。套组标记为anchorV1(空心圆圈、菱形或X);Massie(低严格性,*);50Mb(+)。图的右半部分标记TotalPure并且分成四个不同的条件(NA12878;0l2甲基化/未甲基化;0.5甲基化/未甲基化的共混物;和0.8甲基化/未甲基化的共混物)。每组条件中的左侧数据点表示添加了0微克封闭设计2,并且每组条件中的右侧数据点表示添加了40微克封闭设计2。
图8描绘了在快速杂交系统中使用两个不同的杂交时间的脱靶度量。三个定制甲基化套组与不同量的封闭文库设计2(“甲基化增强子”)一起使用。左边三组条件使用快速杂交缓冲液进行2h,并且右边三组条件使用快速杂交缓冲液进行4h。y轴以5%的间隔标记0-50%;x轴针对每组条件标记(从左到右):1.23Mb(Genecast-V3-2)、1.28Mb(Massie)、1.52Mb(AnchorV1)。甲基化增强子输入标记为圆圈(0微克)、菱形(40微克)或X(100微克)。
图9A描绘了针对1.0Mb和1.5Mb文库的,在存在或不存在甲基化增强子(文库2)的情况下获得的脱靶(%,左,y轴以5个单位的间隔标记0-25%)和fold-80碱基罚分(右,y轴以0.2个单位的间隔标记1.0-2.0)的图。每个组中的左条表示0微升甲基化增强子体积输入,并且每组中的右条表示2微升甲基化增强子体积输入。
图9B描绘了针对1.0Mb和1.5Mb文库的在存在或不存在甲基化增强子(文库2)的情况下获得的30X覆盖率(%,左,y轴以20%的间隔标记0-100)和重复率(duplication rate)(%,右,y轴以2%的间隔标记0-10)的图。每个组中的左条表示0微升甲基化增强子体积输入,并且每组中的右条表示2微升甲基化增强子体积输入。
图9C描绘了针对三种不同文库大小(1Mb、1.5Mb和50Mb)的,在存在或不存在甲基化增强子的情况下获得的脱靶(%,左,y轴以5%的间隔标记0-35)、fold-80碱基罚分(中,y轴以0.2个单位的间隔标记为1.0-2.0)和平均靶标覆盖率(x读段,y轴以10个单位的间隔标记60-130)的图。每个对中的左条表示添加了0微升甲基化增强子,每个组中的右条表示添加了2微升甲基化增强子。
图9D描绘了各种套组大小和不同的甲基化增强子质量输入量(微克)的脱靶百分比的图。y轴以10%的间隔标记0-70,并且x轴以套组大小1Mb、1.5Mb、3Mb和50Mb标记(从左到右)。每个套组的条对应于0、5、25、50和100微克甲基化增强子质量输入。
图10描绘了DMR(差异甲基化区域)的检测。捕获了DMR,其范围为0至100%甲基化,其中对测序度量(包括30x覆盖率和均一性(fold-80碱基罚分))影响很小或没有影响。从左到右:30X覆盖率(%,y轴以20个单位的间隔标记0-100);fold-80碱基罚分(y轴以0.25个单位的间隔标记1-2.25);脱诱饵百分比(%,y轴以10个单位的间隔标记1-60);重复率(%,y轴以1个单位的间隔标记1-5)。x轴上的条(从左到右)标记<5%、25%、50%、75%和100%。
图11描绘了在CCND2座位中的甲基化检测的图。窗口显示100%、75%、50%、25%和0%甲基化(从上到下)。下面的窗口显示基因、靶标和CpG岛。
图12A描绘了定制套组内的靶区域的大小及其与覆盖靶标大小0.5Mb、3Mb和50Mb的定制套组的Picard度量的关系。从左到右:脱靶(%,y轴以5个单位的间隔标记0-30);fold-80碱基罚分(y轴以0.2个单位的间隔标记1.0-2.0);30X覆盖率(%,y轴以20个单位的间隔标记1-100);重复率(%,y轴以2个单位的间隔标记0-14)。x轴上的条(从左到右)标记0.5、3和50Mb套组大小。
图12B描绘了用酶促和亚硫酸氢盐转化技术制备的低甲基化(上图)和高甲基化(下图)的gDNA文库的靶标GC含量覆盖率。使用酶促(蓝绿色)和亚硫酸氢盐(灰色)转化文库制备方法从低甲基化和高甲基化的人对照人细胞系制备文库。捕获使用定制1.5Mb套组和单重反应进行。Y轴以100个单位的间隔标记平均靶标覆盖率0-200;x轴以10个单位的间隔标记靶标的GC含量(%)30-80。
图13描绘了将样品片段化、末端修复、加A尾(A-tailing)、连接通用衔接子和经由PCR扩增为衔接子添加条形码以生成测序文库的示意图。额外步骤任选地包括富集、额外轮次的扩增和/或测序(未示出)。
图14描绘了具有256个簇的板的图像,每个簇具有121个座位,多核苷酸从其延伸。
图15A描绘了在来自从240个簇的29,040个独特多核苷酸的合成的板上多核苷酸表示(polynucleotide representation)(多核苷酸频率相对于丰度,呈测量的吸光度)的曲线图,每个簇具有121个多核苷酸。
图15B描绘了在每个单独簇上多核苷酸频率对丰度吸光度(呈测量的吸光度)的测量结果的曲线图,对照簇通过框鉴别。
图16示出了计算机系统。
图17是示出计算机系统的架构的框图。
图18是说明网络的示图,网络被配置成并入多个计算机系统、多个蜂窝电话和个人数据助理以及网络附加存储(NAS)。
图19是使用共享虚拟地址存储空间的多处理器计算机系统的框图。
图20A描绘了显示在人基因组中覆盖397万个CpG位点的123Mb甲基化组探针设计的靶标的饼图。饼图标记有8% CpG架(CpG shelf)、21% CpG岸(CpG shore)、57% CpG公海(CpG open sea)(interCGI)和15% CpG岛(CGI)。饼图下方的基因座位的图解标记公海(interCGI)、CpG架、CpG岸、CpG岛、CpG岸、CpG架和公海(interCGI)。
图20B描绘了123Mb甲基化组探针设计中不同靶标特征的图,显示每个特征的甲基化组中覆盖的碱基对总数。使靶标在多于一个类别中以说明不同的转录物。条标记为(从左到右):增强子fantom(8,459,549);基因启动子(54,385,728);基因1至5kb(49,252,541);基因内含子(90,059,139);基因外显子(51,290,394);基因SUTR(21,743,694);基因3UTR(10,810,132)。
图21A描绘了123Mb甲基化组探针设计的NGS性能度量,包括比对的覆盖深度(左上)、平均诱饵覆盖率(右上)、以30x的靶标碱基百分比(左下)和零覆盖率靶标百分比(右下)。左上(比对的覆盖深度(x),y轴以50个单位的间隔标记50-250);右上(平均诱饵覆盖率(x),y轴以50个单位的间隔标记0-150);左下(靶标碱基百分比30X,y轴以0.2个单位的间隔标记0.0-1.0)和右下(零覆盖率靶标百分比,y轴标记0.000-0.010)。每个图中的x轴都标为(从左到右):100X、150X、200X和250X。
图21B描绘了123Mb甲基化组探针设计的NGS性能度量,包括脱诱饵百分比(左上)、fold80碱基罚分(右上)、重复移除百分比(左下)和文库中独特分子数(右下)。
图21C描绘了123Mb甲基化组探针设计的靶标碱基百分比对覆盖深度。y轴以0.2个单位的间隔标记靶标碱基百分比0-1.0;x轴以1X、10X、20X、30X、40X、50X和100X标记覆盖深度。
图21D描绘了单重(左条)和8重(右条)样品的NGS测序度量。左上:脱靶(%),(y轴以5个单位的间隔标记0-25;x轴标记为50X、100X、150X和250X);右上:Fold-80碱基罚分(y轴以0.2个单位的间隔标记1.0-1.8;x轴标记为50X、100X、150X和250X);左下:30X覆盖率(%),(y轴以20个单位的间隔标记0-100;x轴标记为50X、100X、150X和250X);右下:零覆盖率靶标(%),(y轴以0.25个单位的间隔标记0.00-1.00;x轴标记为50X、100X、150X和250X)。
图21E描绘了单重(每个组中的左条)和8重(每个组中的右条)样品的NGS测序度量。左上:所有重复(All Dupes)(%),(y轴以3个单位的间隔标记0-12;x轴标记为50X、100X、150X和250X);右上:HS文库大小(y轴以0.25个单位的间隔标记0.00-1;x轴标记为50X、100X、150X和250X);左下:AT丢失(AT Dropout)(%),(y轴以5个单位的间隔标记0-15;x轴标记为50X、100X、150X和250X);右下:GC丢失(%),(y轴以1个单位的间隔标记0-3;x轴标记为50X、100X、150X和250X)。
图22描绘了针对本文所述的靶向的甲基化套组(1;每个图的左条)相对于可商购获得的比较试剂盒(2;每个图中的右条)的NGS测序度量(从左到右:倍数富集、均一性、在靶和脱诱饵)。倍数富集(y轴以400个单位的间隔标记0-1600);均一性(0-5,以1个单位的间隔);在靶(40-65,以5个单位的间隔);脱诱饵(0-0.5,以0.1个单位的间隔)。
图23A描绘了靶向肿瘤或对照样品的cfDNA的甲基化套组的甲基化对感兴趣的区域。y轴以0.25个单位的间隔标记甲基化0.00至1.00。x轴标记感兴趣的区域。
图23B描绘了靶向肿瘤或对照样品的cfDNA的甲基化套组的甲基化对感兴趣的区域。y轴以0.25个单位的间隔标记甲基化0.00至1.00。x轴标记感兴趣的区域。
图24描绘了使用合成封闭套组的针对小麦获得的测序度量的图。左图:脱靶(%),y轴以5个单位的间隔标记0-40,x轴标记小麦增强子质量输入(0、40、120微克);中间图:脱靶(%),y轴以10个单位的间隔标记0-40,x轴标记总封闭剂输入(5、40微克;每个组中的左条为thermo cot-1,每个组中的右条为本文所述的合成小麦特异性文库);右图:20X覆盖率(%),y轴以10个单位的间隔标记40-70,x轴标记总封闭剂输入(5、40微克;每个组中的左条为thermo cot-1,每个组中的右条为本文所述的合成小麦特异性文库)。虚线指示无cot封闭剂对照(平均值,n=2)。
具体实施方式
本文描述用于杂交的组合物和方法。在一些情况下,使用多核苷酸探针对来自复杂样品混合物的特定序列片段的杂交和/或捕获包括使用封闭试剂。在传统上,此类封闭试剂(例如,cot-1、鲑鱼精或其他封闭试剂)包含高度重复的序列区域,并且被用于防止一个或多个多核苷酸探针与脱靶区域杂交。然而,此类试剂未针对特定样品混合物进行调节(tuned),并且可能导致此类样品混合物的效率较低。此外,从各种生物体分离合适的杂交试剂可能是耗时的、昂贵的并且/或者提供低纯度试剂。本文描述了多核苷酸的合成封闭文库,其被配置成改善富集方法的效率和测序度量,提供优于使用传统封闭试剂的优点。本文进一步描述了合成封闭文库,其被配置成结合多核苷酸样品,所述多核苷酸样品已用鉴别转录后碱基修饰的试剂(例如,经由C->T转化鉴别甲基化的亚硫酸氢盐)处理。在一些情况下,本文所述的封闭文库用于任何基于杂交的应用。
定义
在本公开通篇,数字特征以范围格式表示。应理解,范围格式的描述只是为了方便和简明,而不应被解释为对任何实施方案的范围的硬性限制。因此,除非上下文另有明确规定,否则对范围的描述应被认为明确公开了所有可能的子范围以及所述范围内精确到下限单位十分之一的各个数值。例如,对诸如从1至6的范围的描述应被认为已经明确公开了诸如从1至3、从1至4、从1至5、从2至4、从2至6、从3至6等的子范围,以及所述范围内的各个值,例如,1.1、2、2.3、5和5.9。无论范围的广度如何,这都适用。这些中间范围的上限和下限可以独立地包括在较小的范围内,并且也包括在本发明内,受规定范围内任何明确排除的限制。当所述范围包括一个或两个限值时,除非上下文另外明确指出,否则不包含所包括的那些限值中的一个或两个的范围也包括在本发明中。
本文所使用的术语仅出于描述特定实施方案的目的,并且不旨在限制任何实施方案。除非上下文另有明确说明,否则如本文所用的单数形式“一种/一个”(“a”)、“一种/一个”(“an”)和“所述”(“the”)也旨在包括复数形式。还将理解,当在本说明书中使用术语“包括”(“comprises”和/或“comprising”)时,其指定了所述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或其群组的存在或添加。如本文所用,术语“和/或”包括一个或多个相关联的所列项目的任何和所有组合。
除非特别说明或从上下文可以明显看出,否则如本文所用,术语“约”在提及数值或数值范围时应理解为是指所述数值+/-其10%,或对于一个范围中列出的值,则指从比列出的下限低10%到比列出的上限高10%。
如本文所用,术语“预选序列”、“预定义序列”或“预定序列”可互换使用。这些术语意指聚合物的序列是已知的并且在聚合物的合成或组装之前被选择。具体地,本文主要关于核酸分子的制备描述了本发明的各个方面,寡核苷酸或多核苷酸的序列是已知的并且在核酸分子的合成或组装之前被选择。
术语核酸涵盖双链或三链核酸以及单链分子。在双链或三链核酸中,核酸链不必共同延伸(即,双链核酸不必沿两条链的全长都是双链的)。当提供时,核酸序列以5’至3’的方向列出,除非另有说明。本文所述的方法提供了分离的核酸的生成。本文所述的方法另外提供了分离并纯化的核酸的生成。当提供时,多核苷酸的长度以碱基数描述并且进行缩写,如nt(核苷酸)、bp(碱基)、kb(千碱基)、Mb(兆碱基)或Gb(千兆碱基)。
本文提供了用于产生合成(即,从头合成或化学合成的)多核苷酸的方法和组合物。术语寡核酸(oligonucleic acid)、寡核苷酸、寡核苷酸(oligo)和多核苷酸在通篇被定义为同义的。本文所述的合成多核苷酸文库可包含共同编码一个或多个基因或基因片段的多个多核苷酸。在一些情况下,多核苷酸文库编码一个或多个序列的有义链、反义链或有义链和反义链两者。在一些情况下,多核苷酸文库编码鉴别甲基化模式的序列。在一些情况下,多核苷酸文库编码鉴别反映一个或多个甲基化或未甲基化碱基的化学变化的甲基化模式的序列。在一些情况下,多核苷酸文库包含编码或非编码序列。在一些情况下,多核苷酸文库编码多个cDNA序列。cDNA序列所基于的参考基因序列可能含有内含子,而cDNA序列不包含内含子。本文所述的多核苷酸可编码来自生物体的基因或基因片段。示例性生物体包括但不限于原核生物(例如,细菌)、真核生物(例如,小鼠、兔子、人、植物、真菌和非人灵长类动物、牛、猪)或病毒。在一些情况下,多核苷酸文库包含一个或多个多核苷酸,一个或多个多核苷酸中的每一个编码多个外显子的序列。在本文所述的文库内的每个多核苷酸可以编码不同的序列,即,不相同的序列。在一些情况下,本文所述的文库内的每个多核苷酸包含至少一个与文库内的另一多核苷酸的序列互补的部分。除非另有说明,否则本文所述的多核苷酸序列可以包含DNA或RNA。本文所述的多核苷酸文库可包含至少10、20、50、100、200、500、1,000、2,000、5,000、10,000、20,000、30,000、50,000、100,000、200,000、500,000、1,000,000或多于1,000,000个多核苷酸。本文所述的多核苷酸文库可具有不多于10、20、50、100、200、500、1,000、2,000、5,000、10,000、20,000、30,000、50,000、100,000、200,000、500,000或不多于1,000,000个多核苷酸。本文所述的多核苷酸文库可包含10至500、20至1000、50至2000、100至5000、500至10,000、1,000至5,000、10,000至50,000、100,000至500,000或50,000至1,000,000个多核苷酸。本文所述的多核苷酸文库可包含约370,000、400,000、500,000或更多个不同的多核苷酸。本文所述的多核苷酸文库可包含至少100,000、500,000、100万、150万、200万、300万、400万、500万、600万、800万或至少1000万个多核苷酸。本文所述的多核苷酸文库可包含约100,000、100万、150万、200万、300万、400万、500万、600万、800万或约1000万个多核苷酸。本文所述的多核苷酸文库可包含100,000-1000万、100,000-500万、500,000-500万、100万-500万、200万-500万、300万-1000万、400万-600万或500万至1000万个多核苷酸。
合成封闭文库
本文描述了包含多核苷酸(多核苷酸文库)的合成封闭文库(或杂交试剂)。在一些情况下,此类封闭文库被配置成减少与复杂样品混合物(例如,基因组或基因组集合)中的序列的非所需杂交。在一些情况下,封闭文库被配置成结合修饰基因组。在一些情况下,封闭文库包含至少一个相对于基因组DNA的修饰。在一些情况下,至少一个修饰包含一个或多个多核苷酸相对于基因组中丰度的不同丰度。在一些情况下,修饰基因组包含通过转化过程鉴别的转录后修饰。在一些情况下,转录后修饰包括甲基化(例如,5-甲基胞嘧啶、5-羟甲基胞嘧啶或其他修饰)。在一些情况下,封闭文库被配置成结合特定生物体(诸如,人或植物)的样品。在一些情况下,生物体包含高度重复的遗传元件(genetic element),诸如在多倍体物种中存在的那些。
用于封闭的杂交试剂(包括合成封闭文库)可含有重复序列。例如,cot-1包含一部分从人胎盘DNA分离的、长度50-300个碱基的、重复的、快速退火的多核苷酸。此类序列通常包括Alu和Kpn家族成员。在一些情况下,本文所述的合成封闭文库具有c0t值(例如,c0t-1)。在一些情况下,此类c0t值表示DNA浓度(mol/L)x复性时间(以秒为单位)x缓冲系数。较快的复性导致较低的c0t值。较低的c0t值通常与具有较高数目的重复序列的样品相对应。在一些情况下,本文所述的封闭文库包含不多于3、2.8、2.5、2.2、2.0、1.8、1.6、1.4、1.3、1.2、1.1、1.0、0.8或不多于0.5的c0t值。在一些情况下,本文所述的封闭文库包含约3、2.8、2.5、2.2、2.0、1.8、1.6、1.4、1.3、1.2、1.1、1、0.8或约0.5的c0t值。在一些情况下,本文所述的封闭文库包含0.1-3、0.2-3、0.5-3、0.5-2、0.5-1.5、0.8-1.5、1-3或1-2的c0t值。在一些情况下,多核苷酸的c0t值通过将多核苷酸放置于缓冲液中,加热直至它们变性,然后使多核苷酸冷却并再退火来测量。在一些情况下,再退火过程使用光谱学或其他方法监测。在一些情况下,多核苷酸包含不多于10%、9%、8%、7%、6%、5%、4%、3%、2%或不多于1%的重复序列。在一些情况下,多核苷酸包含0.001-10%、0.01-10%、0.1-10%、1-10%、2-10%、3-10%、5-10%、7-10%、0.1-4%、0.01-3%、0.1-3%、1%-3%或2%-10%的重复序列。在一些情况下,重复序列包含在基因组或多核苷酸文库中重复的至少5、10、15、20、25、30、35、50、100、200或多于500个碱基。
甲基化组分析
甲基化组分析可以提供关于给定基因组样品的生物过程的重要信息。本文提供了杂交试剂(多核苷酸封闭文库),其被配置成在杂交方法(诸如一个或多个碱基被转化为其他碱基的那些方法)期间减少脱靶结合。在一些情况下,基因组样品中的甲基化碱基通过(a)甲基化碱基转化为不同的碱基或(b)非甲基化碱基转化为不同的碱基来鉴别。在一些情况下,此类转化在整个基因组或基因组片段上进行。然后将所得序列与参考序列(在没有转化/处理的情况下获得)进行比较,以鉴别哪些碱基是甲基化的。在一些情况下,转化方法(或过程)包括用脱氨试剂处理。在一些情况下,转化方法包括用亚硫酸氢盐处理。在一些情况下,转化方法包括用保护甲基胞嘧啶的试剂(例如,TET2,针对氧化)处理,然后用将未保护的胞嘧啶脱氨的酶(例如,APOBEC)处理。区分甲基化和非甲基化碱基的其他试剂也与本文公开的方法一致。在一些情况下,未甲基化的胞嘧啶转化为尿嘧啶。在一些情况下,这些含尿嘧啶的修饰基因组的PCR扩增导致尿嘧啶转化为胸腺嘧啶。在一些情况下,本文所述的方法包括包含核酸(例如,基因组DNA)的样品的片段化、加A尾、通用衔接子的连接、甲基化转化(氧化和脱氨)和扩增/条形码添加。在一些情况下,所述方法还包括测序。
本文所述的多核苷酸文库可用于捕获或富集包含甲基化(例如,套组、探针)的核酸样品的全部或一部分。在一些情况下,多核苷酸文库与本文所述的合成多核苷酸封闭剂一起使用。在一些情况下,多核苷酸被配置为与待富集/捕获的区域的有义链、待富集/捕获的区域的反义链或两者杂交。在一些情况下,多核苷酸被配置为与对应于“后”甲基化转化序列(酶促或化学)的序列杂交。在一些情况下,可以用靶向“非甲基化”或“甲基化”序列的多核苷酸靶向或富集区域。在一些情况下,可以用靶向“未甲基化”或“甲基化”的序列和每个序列的反向互补序列(例如,反义链)的多核苷酸来靶向或富集区域。在一些情况下,这导致包含“未甲基化”和“甲基化”DNA的靶核酸的捕获。在一些情况下,通过至少2、3、4或多于4个不同的本文所述的多核苷酸靶向或富集区域。在一些情况下,通过3或4个本文所述的多核苷酸靶向或富集区域。在一非限制性实例中,图1左侧示出的序列通过使用包含右侧的序列(例如,至少1、2、3、4、5、6、7或8个序列)的多核苷酸中的任一种富集。在一些情况下,通过4个多核苷酸靶向或富集区域。
任何区分甲基化碱基与非甲基化碱基的方法都可以与本文所述的方法(转化方法)一起使用。在一些情况下,本文描述的方法包括转化方法。在一些情况下,未甲基化胞嘧啶被试剂(诸如亚硫酸氢盐)转化为尿嘧啶。在一些情况下,转化方法包括用保护甲基胞嘧啶的试剂(例如,TET2、其他酶或其他化学试剂,针对氧化)处理,然后用将未保护的胞嘧啶脱氨的试剂(例如,APOBEC、其他脱氨酶或脱氨化学试剂)处理。在一些情况下,转化方法包括TET家族酶。在一些情况下,转化方法包括TET家族酶和化学试剂。在一些情况下,转化方法包括TET家族酶和被配置用于脱氨的化学试剂。在一些情况下,转化方法包括Tet辅助吡啶硼烷测序(TAPS)、TAPSβ或化学辅助吡啶硼烷测序(CAPS)。在一些情况下,转化方法包括用将5-甲基胞嘧啶(5mC)和5-羟甲基胞嘧啶(5hmC)氧化成5-羧基胞嘧啶(5caC)的氧化剂(例如,10-11易位蛋白(ten-eleven translocation)(Tet1)或其他氧化酶或试剂)处理。在一些情况下,转化方法包括用还原试剂(例如,吡啶硼烷)处理,所述还原试剂将5caC还原为尿嘧啶衍生物,即二氢尿嘧啶,聚合酶(PCR或等温聚合酶)将二氢尿嘧啶转化为胸腺嘧啶。在一些情况下,转化方法包括用转移酶处理,所述转移酶用糖标记5hmC。在一些情况下,转化方法包括用β-葡糖基转移酶处理,β-葡糖基转移酶用葡萄糖标记5hmC并且保护5hmC免受氧化和还原反应。在一些情况下,转化方法包括用特异性氧化5hmC的氧化剂(例如,过钌酸钾、其他氧化酶或化学试剂)处理。在一些情况下,酶或化学试剂被取代以模拟或提供相同的反应性(例如,化学氧化剂被氧化酶替代)。在一些情况下,转化方法中的一种或多种酶被一种或多种化学试剂替代。在一些情况下,转化方法中的一种或多种化学试剂被一种或多种酶替代。在一些情况下,使用两种或更多种转化方法区分碱基修饰的位置和类型。在一些情况下,杂交试剂不包含5-甲基胞嘧啶或5-羟甲基胞嘧啶。
用于封闭的杂交试剂可包含具有来源于基因组DNA的序列(基因组序列)的多核苷酸。在一些情况下,基因组序列来源于胎盘DNA。在一些情况下,相对于参考序列,多个多核苷酸中至少25%、50%、75%、80%、85%、90%、95%、97%或至少99%的胞嘧啶碱基被尿嘧啶或胸腺嘧啶替代。在一些情况下,相对于参考序列,多个多核苷酸中20-95%、25-50%、25-75%、25-80%、50-85%、50-90%、60-95%、80-97%或25-99%的胞嘧啶碱基被尿嘧啶或胸腺嘧啶替代。在一些情况下,在基因组DNA中,至少25%、50%、75%、80%、85%、90%、95%、97%或至少99%的胞嘧啶碱基未被甲基化。在一些情况下,在基因组DNA中,25-95%、25-75%、25-50%、50-75%、50-80%、50-85%、50-90%、75-95%、25-97%,或25-99%的胞嘧啶碱基未被甲基化。
合成封闭文库的设计
本文描述了来源于源序列的合成封闭。在一些情况下,源序列(例如,“输入基因组”)包含一个或多个在杂交期间干扰或负面影响富集/捕获过程的序列。在一些情况下,从先前实验鉴别的脱靶读段用作源序列。在一些情况下,源序列从被修饰(例如,亚硫酸氢盐/酶促转化)的基因组生成。在一些情况下,源序列直接从参考基因组生成。在一些情况下,使用合成封闭文库与天然来源的封闭剂(例如,从生物体获得的封闭试剂)相比改善了测序结果。在一些情况下,合成封闭文库从源序列的正链和负链生成。然而,文库中对应于每条链的封闭多核苷酸不必相同。在一些情况下,进行一个或多个计算机算法步骤以生成包含合成封闭文库的多核苷酸的序列。在一些情况下,源序列来源于任何生物体,包括但不限于啮齿动物(例如,小鼠、大鼠、仓鼠)、猪、牛、灵长类动物(猴、人)、细菌、真菌、植物、病毒或其他生物体。在一些情况下,源序列来源于农业来源的植物,诸如禾草(小麦、大麦、玉米、水稻)、水果、蔬菜或其他农业植物。在一些情况下,源序列来源于食用作物。在一些情况下,食用作物包括但不限于小麦、洋葱、大麦、黑麦、燕麦、玉米、大豆、水稻、甘薯、木薯、山药、车前草或马铃薯。在一些情况下,生物体是二倍体。在一些情况下,生物体是多倍体。在一些情况下,生物体包含至少3、4、5、6、7、8、9、10、20、30、40、50或60个完整的染色体组。
在第一步中,可以使用计算机算法生成用于合成封闭文库设计的序列。在一些情况下,使用沿着源序列对给定大小的k-mer进行计数的软件确定源序列中待封闭的序列(例如,重复的、低复杂度或特定类型的序列)。在一些情况下,k-mer是基因组中给定长度的寡核苷酸序列,目前计算输入基因组内存在的所有给定长度的序列的k-mer。在一些情况下,给定长度为约5、10、15、20、25、30、35、40、45、50或约55个碱基。在一些情况下,给定长度为5-50、10-40、10-50、15-50、15-40、20-40或25-50个碱基。在一些情况下,对k-mer进行计算,以将有一个或多个突变不同的k-mer折叠(collapsing)成单个“k-mer”实体,将其所有计数加在一起,并且/或者包括大小不同或变化的k-mer的计数。
在第二步中,可对k-mer进行过滤。在一些情况下,针对在输入基因组中至少N=给定拷贝数的那些过滤k-mer。对N进行调节或者其包括不同的拷贝数或各种不同的k-mer大小,这取决于应用(例如,大区域的较低拷贝数,其仍在N<200的值下产生脱靶,例如N=2或更高)。在一些情况下,N为2、5、10、20、50、80、100、120、150、180、200、250、300、400或约500。在一些情况下,N为2-200、2-250、5-100、50-300、100-300、200-300或150-300。在一些情况下,过滤能够调节所需严格性和/或制造的总序列。在一些情况下,使用多种序列聚类算法对k-mer进行聚类以减少靶标数目。
在第三步中,可对k-mer进行映射。在一些情况下,通过比对将k-mer映射回源序列(例如,基因组)以确定原始位置。在一些情况下,使用原始k-mer软件或内部软件扫描源序列并确定前一步保留的k-mer序列的输入基因组的确切来源。在一些情况下,调整对错配的容差,编辑距离(基因组序列中相对于k-mer的0或多个变异的差异)、大小或用于确定匹配的其他标准,从而降低或一般化对确定序列的特异性。在一些情况下,编辑距离为约0、1、2、3、4、5、10或多于10个变异。在一些情况下,变异包括取代(例如,A>G、A>C、A>T、G>A等)、插入(例如,A>AT、G>CT等)或缺失(AT>T、GC>C等)。在其他情况下,突变容差包括变体容差。在一些情况下,本文所述的方法除了分析突变外还分析基因组中的变异。
形成合成封闭文库的多核苷酸可以具有任何给定长度。在一些情况下,设计待合成的多核苷酸的给定长度,使用输入源序列捕获处于原始k-mer位置中部中央的序列。在一些情况下,这通过改变所合成的寡核苷酸的大小或大小的混合来调整,从而可以调节强度或不同类型序列的效果的均一性。在一些情况下,额外的步骤包括以下中的一个或多个:对序列进行聚类或额外过滤以减少靶标数目;改善脱靶序列来源的全部或子组的效果的平衡;序列中的不同核苷酸含量;或在所检测的k-mer的原始群体或它们彼此的关系上变化的其他度量。在一些情况下,封闭文库中的多核苷酸的长度为约50、80、90、100、110、120、130、140、150、170、190、200或约300个碱基。在一些情况下,封闭文库中的多核苷酸的长度为不多于50、80、90、100、110、120、130、140、150、170、190、200或不多于300个碱基。在一些情况下,封闭文库中的多核苷酸的长度为至少50、80、90、100、110、120、130、140、150、170、190、200或至少300个碱基。在一些情况下,封闭文库中的多核苷酸包含50-300、75-300、100-200、75-150、75-200、100-150或80-150个碱基的平均长度。在一些情况下,封闭文库中的多核苷酸的长度为50-300、75-300、100-200、75-150、75-200、100-150或80-150个碱基。在一些情况下,合成封闭文库包含至少1000、2000、5000、10,000、20,000、50,000、100,000或至少200,000个多核苷酸。在一些情况下,合成封闭文库包含约1000、2000、5000、10,000、20,000、50,000、100,000或约200,000个多核苷酸。在一些情况下,合成封闭文库包含1000-10,000、5000-10,000、10,000-100,000、50,000-500,000或250,000-100万个多核苷酸。在一些情况下,多核苷酸包含通用引物区。在一些情况下,多个多核苷酸中的每一个都以在平均值表示的10%、20%、50%、100%、200%、500%、1000%、10,000%或100,000%内的量存在。
通用衔接子
本文提供了通用衔接子。在一些情况下,本文所公开的通用衔接子可包含通用多核苷酸衔接子,所述通用多核苷酸衔接子包含第一链和第二链。在一些情况下,第一链包含第一引物结合区、第一非互补区和第一轭式(yoke)区。在一些情况下,第二链包含第二引物结合区、第二非互补区和第二轭式区。在一些情况下,引物结合区允许多核苷酸衔接子的PCR扩增。在一些情况下,引物结合区允许多核苷酸衔接子的PCR扩增和一个或多个条形码向多核苷酸衔接子中的同时添加。在一些情况下,第一轭式区与第二轭式区互补。在一些情况下,第一非互补区与第二非互补区不互补。在一些情况下,通用衔接子为Y形或叉形衔接子。在一些情况下,一个或多个轭式区包含升高第一轭式区与第二轭式区之间的Tm的核碱基类似物。如本文所述的引物结合区可以为多核苷酸的末端衔接子区的形式。在一些情况下,通用衔接子包含一个索引序列。在一些情况下,通用衔接子包含一个独特的分子标识符。在一些情况下,通用衔接子被配置用于与条形码化引物一起使用,其中在连接之后,经由PCR添加条形码化引物。
相对于典型的条形码化衔接子(例如,全长“Y衔接子”),通用(多核苷酸)衔接子可能缩短。例如,通用衔接子链的长度为20-45个碱基。在一些情况下,通用衔接子链的长度为25-40个碱基。在一些情况下,通用衔接子链的长度为30-35个碱基。在一些情况下,通用衔接子链的长度为不多于50个碱基、不多于45个碱基、不多于40个碱基、不多于35个碱基、不多于30个碱基或不多于25个碱基。在一些情况下,通用衔接子链的长度为约25、27、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58或约60个碱基。在一些情况下,通用衔接子链的长度为约60个碱基对。在一些情况下,通用衔接子链的长度为约58个碱基对。在一些情况下,通用衔接子链的长度为约52个碱基对。在一些情况下,通用衔接子链的长度为约33个碱基对。
可以对通用衔接子进行修饰以促进与样品多核苷酸的连接。例如,将5'末端磷酸化。在一些情况下,通用衔接子包含一个或多个非天然核碱基键联,诸如硫代磷酸酯键联。例如,通用衔接子在3'末端碱基与相邻于3'末端碱基的碱基之间包含硫代磷酸酯。在一些情况下,样品多核苷酸包含来自多种来源的核酸,诸如人、细菌、植物、动物、真菌或病毒来源的DNA或RNA。在一些情况下,衔接子连接的样品多核苷酸包含衔接子(通用衔接子)连接到样品多核苷酸的5'和3'末端以形成衔接子连接的多核苷酸的样品多核苷酸(例如,样品核酸)。双链体样品多核苷酸包含第一链(正向)和第二链(反向)。
通用衔接子可含有任意数目的不同核碱基(DNA、RNA等)、核碱基类似物或非核碱基接头或间隔区。例如,衔接子包含一个或多个核碱基类似物或增强衔接子的两条链之间的杂交(Tm)的其他基团。在一些情况下,核碱基类似物存在于衔接子的轭式区中。核碱基类似物和其他基团包括但不限于锁核酸(LNA)、双环核酸(BNA)、C5修饰的嘧啶碱基、2'-O-甲基取代的RNA、肽核酸(PNA)、乙二醇核酸(GNA)、苏糖核酸(TNA)、异种核酸(XNA)吗啉代主链修饰碱基、小沟结合物(MGB)、精胺、G夹或蒽醌(Uaq)帽。在一些情况下,衔接子包含一个或多个选自表1的核碱基类似物。
表1
*R为H或Me。
通用衔接子可包含任意数目的核碱基类似物(诸如LNA或BNA),其取决于所需杂交Tm。例如,衔接子包含1至20个核碱基类似物。在一些情况下,衔接子包含1至8个核碱基类似物。在一些情况下,衔接子包含至少1、2、3、4、5、6、7、8、9、10、11、12或至少12个核碱基类似物。在一些情况下,衔接子包含约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15或约16个核碱基类似物。在一些情况下,核碱基类似物的数目表示为衔接子中总碱基的百分比。例如,衔接子包含至少1%、2%、5%、10%、12%、18%、24%、30%或多于30%的核碱基类似物。在一些情况下,本文所述的衔接子(例如,通用衔接子)包含甲基化核碱基,诸如甲基化胞嘧啶。
条形码化引物
多核苷酸引物可包含确定的序列,诸如条形码(或索引)。条形码可以例如使用PCR和条形码化引物附接到通用衔接子以生成条形码化衔接子连接的样品多核苷酸。引物结合位点,诸如通用引物结合位点,促进条形码引物文库的所有成员或成员亚群的同时扩增。在一些情况下,引物结合位点包含在下一代测序期间结合流动池或其他固体支持物的区域。在一些情况下,条形码化引物包含P5(5'-AATGATACGGCGACCACCGA-3')或P7(5'-CAAGCAGAAGACGGCATACGAGAT-3')序列。在一些情况下,引物结合位点被配置为结合通用衔接子序列,并促进条形码化衔接子的扩增和生成。在一些情况下,条形码化引物的长度不多于60个碱基。在一些情况下,条形码化引物的长度不多于55个碱基。在一些情况下,条形码化引物的长度为50-60个碱基。在一些情况下,条形码化引物的长度为60个碱基。在一些情况下,本文所述的条形码包含甲基化核碱基,诸如甲基化胞嘧啶。
可用于条形码组(独特的条形码或条形码组合的集合,其被配置成一起使用以独特定义样品)的独特的条形码的数目可能取决于条形码长度。在一些情况下,汉明(Hamming)距离通过任何两个条形码之间的碱基差异的数目来定义。在一些情况下,莱文斯坦(Levenshtein)距离通过将一个条形码改变成另一个条形码(插入、取代或缺失)所需的改变数来定义。在一些情况下,本文所述的条形码组包含至少2、3、4、5、6、7或至少8的莱文斯坦距离。在一些情况下,本文所述的条形码组包含至少2、3、4、5、6、7或至少8的汉明距离。
条形码可能与分配给它们的不同样品不正确地缔合。在一些情况下,不正确的条形码由文库扩增期间的PCR错误(例如,取代)导致。在一些情况下,整个条形码“跳跃”或从一个样品多核苷酸转移到另一个。在一些情况下,此类转移由文库生成工作流程期间自由衔接子或引物的交叉污染引起。在一些情况下,选择一组条形码(条形码组)以最小化“条形码跳跃(barcode hopping)”。在一些情况下,本文所述的条形码组的条形码跳跃(对于单个条形码)不多于7%、5%、4%、3%、2%、1%、0.5%或不多于0.1%。在一些情况下,本文所述的条形码组的条形码跳跃(对于单个条形码)为0.1-6%、0.1-5%、0.2-5%、0.5-5%、1-7%、1-5%或0.5-7%。在一些情况下,本文所述的条形码组的条形码跳跃(对于两个条形码)不多于0.7%、0.5%、0.4%、0.3%、0.2%、0.1%、0.05%或不多于0.1%。在一些情况下,本文所述的条形码组的条形码跳跃(对于两个条形码)为0.01-0.6%、0.01-0.5%、0.02-0.5%、0.05-0.5%、0.1-0.7%、0.1-0.5%或0.05-0.7%。
条形码化引物包含一个或多个条形码。在一些情况下,条形码通过PCR反应添加到通用衔接子中。条形码是允许与条形码缔合的多核苷酸的一些特征被鉴别的核酸序列。在一些情况下,条形码包含索引序列。在一些情况下,索引序列允许鉴别样品或待测序核酸的独特来源。在一些情况下,条形码或条形码组合可鉴别特定患者。在一些情况下,条形码或条形码组合在同一患者的其他样品中鉴别患者的特定样品。测序之后,条形码(或条形码区域)提供了用于鉴别与编码区或样品源相关联的特征的标识符。条形码可以被设计成合适的长度以允许足够程度的鉴别,例如,长度为至少约3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55或更多个碱基。多个条形码,诸如约2、3、4、5、6、7、8、9、10或更多个条形码,可用于同一分子,任选地由非条形码序列分开。在一些情况下,条形码位于样品多核苷酸的5'和3'侧。在一些情况下,多个条形码中的每个条形码与多个至少三个碱基的位置(诸如至少约3、4、5、6、7、8、9、10或更多个位置)中的每个其他条形码不同。条形码的使用允许汇集和同时处理多个文库以用于下游应用,诸如测序(多重)。在一些情况下,使用至少4、8、16、32、48、64、128或多于512个条形码文库。在一些情况下,使用至少400、500、800、1000、2000、5000、10,000、12,000、15,000、18,000、20,000或25,000个条形码。条形码化引物或衔接子可包含独特的分子标识符(UMI)。在一些情况下,此类UMI独特地将样品中的所有核酸加标签。在一些情况下,样品中至少60%、70%、80%、90%、95%或多于95%的核酸用UMI加标签。在一些情况下,样品中至少85%、90%、95%、97%或至少99%的核酸用独特条形码或UMI加标签。在一些情况下,条形码化引物包含索引序列和一个或多个UMI。UMI允许在可能引入偏差的下游样品处理(例如,PCR或富集步骤)之前对初始样品浓度或化学计量进行内部测量。在一些情况下,UMI包含一个或多个条形码序列。在一些情况下,衔接子连接的样品多核苷酸的每条链(正向相对于反向)都具有一个或多个独特条形码。此类条形码任选地用于独特地将样品多核苷酸的每条链加标签。在一些情况下,条形码化引物包含索引条形码和UMI条形码。在一些情况下,在用至少两个条形码化引物扩增之后,所得扩增子包含两个索引序列和两个UMI。在一些情况下,在用至少两个条形码化引物扩增之后,所得扩增子包含两个索引条形码和一个UMI条形码。在一些情况下,通用衔接子-样品多核苷酸双链体的每条链都用独特条形码(诸如,UMI或索引条形码)加标签。
文库中的条形码化引物包含与通用衔接子上的引物结合区互补的区域。例如,通用衔接子结合区与通用衔接子的引物区互补,并且通用衔接子结合区与通用衔接子的引物区互补。此类布置有助于在PCR期间延伸通用衔接子,并且附接条形码化引物。在一些情况下,引物与引物结合区之间的Tm为40-65℃。在一些情况下,引物与引物结合区之间的Tm为42-63°。在一些情况下,引物与引物结合区之间的Tm为50-60℃。在一些情况下,引物与引物结合区之间的Tm为53-62℃。在一些情况下,引物与引物结合区之间的Tm为54-58℃。在一些情况下,引物与引物结合区之间的Tm为40-57℃。在一些情况下,引物与引物结合区之间的Tm为40-50℃。在一些情况下,引物与引物结合区之间的Tm为约40、45、47、50、52、53、55、57、59、61或62℃。
杂交封闭剂
封闭剂可含有任何数目的不同核碱基(DNA、RNA等)、核碱基类似物(非经典(non-canonical))或非核碱基接头或间隔区。在一些情况下,封闭剂包含通用封闭剂。在一些情况下,此类封闭剂可被描述为“组”,其中组包含两个或更多个被配置成防止与同一衔接子序列的不需要的相互作用的封闭剂。在一些情况下,通用封闭剂防止与至少一个衔接子上存在的一个或多个条形码无关的衔接子-衔接子相互作用。例如,衔接子包含一个或多个核碱基类似物或增强封闭剂与衔接子之间的杂交(Tm)的其他基团。在一些情况下,封闭剂包含一个或多个降低封闭剂与衔接子之间的杂交(Tm)的核碱基(例如,“通用”碱基)。在一些情况下,本文所述的封闭剂包含一个或多个增加封闭剂与衔接子之间的杂交(Tm)的核碱基和一个或多个降低封闭剂与衔接子之间的杂交(Tm)的核碱基。
本文描述杂交封闭剂,其包含一个或多个增强与靶向的序列(例如,衔接子)的结合的区域和一个或多个降低与靶序列(例如,衔接子)的结合的区域。在一些情况下,每个区域都针对靶标富集应用期间的给定所需水平的脱诱饵活性进行调整。在一些情况下,每个区域都可以用单一类型的化学修饰/部分或多个类型进行改变,以增加或降低分子对靶向的序列的总体亲和力。在一些情况下,封闭剂组的所有单独成员的解链温度都保持在高于指定温度(例如,通过添加诸如LNA和/或BNA的部分)。在一些情况下,给定的封闭剂组将提高脱诱饵性能,与索引长度无关,与索引序列无关,并且与杂交中存在多少衔接子索引无关。
封闭剂可包含增加和/或降低对靶序列(诸如衔接子)的亲和力的部分。在一些情况下,此类特定区域可以热力学调整到特定的解链温度,以避免或增加对具体靶向的序列的亲和力。在一些情况下,这种修饰组合被设计来帮助增加封闭剂分子对特定和独特衔接子序列的亲和力,并且降低封闭剂分子对重复的衔接子序列(例如,衔接子的Y-主干(Y-stem)退火部分)的亲和力。在一些情况下,封闭剂包含降低封闭剂与衔接子的Y-主干区域的结合的部分。在一些情况下,封闭剂包含降低封闭剂与衔接子的Y-主干区域的结合的部分和增加封闭剂与衔接子的非Y-主干区域的结合的部分。
封闭剂(例如,通用封闭剂)和衔接子可在杂交期间形成许多不同的群体。在一些情况下,群体‘A’中包含正确结合衔接子的非索引区域的封闭剂。在群体‘B’中,封闭剂的一个区域结合衔接子的“轭式”区,但是封闭剂的其余部分不结合衔接子的相邻区域。在群体‘C’中,两个封闭剂非生产性地二聚化。在群体‘D’中,封闭剂不与任何其他核酸结合。在一些情况下,当降低封闭剂的Y-主干退火区域中的亲和力的DNA修饰数目增加时,群体‘A’和‘D’占优势,并且任一个都具有所需的效果或最小的效果。在一些情况下,当降低封闭剂的Y-主干退火区域中的亲和力的DNA修饰数目减少时,群体‘B’和‘C’占优势,并且具有可能发生菊花链接(daisy-chaining)或与其他衔接子退火的非所需影响(‘B’)或者隔绝它们在其中无法正确地起作用的封闭剂(‘C’)。
单或双索引衔接子设计上的索引可被通用封闭剂部分或完全覆盖,所述封闭剂用专门设计的DNA修饰延伸以覆盖衔接子索引碱基。在一些情况下,此类修饰包含减少向索引退火的部分,诸如通用碱基。在一些情况下,双索引衔接子的索引被一个或多个封闭剂部分覆盖(或重叠)。在一些情况下,双索引衔接子的索引被一个或多个封闭剂完全覆盖。在一些情况下,单索引衔接子的索引被一个或多个封闭剂部分覆盖。在一些情况下,单索引衔接子的索引被一个或多个封闭剂完全覆盖。在一些情况下,封闭剂与索引序列重叠至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20或多于20个碱基。在一些情况下,封闭剂与索引序列重叠不多于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20或不多于25个碱基。在一些情况下,封闭剂与索引序列重叠约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20或约30个碱基。在一些情况下,封闭剂与索引序列重叠1-5、1-3、2-5、2-8、2-10、3-6、3-10、4-10、4-15、1-4或5-7个碱基。在一些情况下,封闭剂与索引序列重叠的区域包含至少一个2-脱氧肌苷或5-硝基吲哚核碱基。
一个或两个封闭剂可能与衔接子上存在的索引序列重叠。在一些情况下,组合的一个或两个封闭剂与索引序列的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20或多于20个碱基重叠。在一些情况下,组合的一个或两个封闭剂与索引序列的不多于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20或不多于20个碱基重叠。在一些情况下,组合的一个或两个封闭剂与索引序列的约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20或约20个碱基重叠。在一些情况下,组合的一个或两个封闭剂与索引序列的1-5、1-3、2-5、2-8、2-10、3-6、3-10、4-10、4-15、1-4或5-7个碱基重叠。在一些情况下,封闭剂与索引序列重叠的区域包含至少一个2-脱氧肌苷或5-硝基吲哚核碱基。
在第一种布置中,衔接子索引悬垂的长度可以变化。当从单侧设计时,可以改变衔接子索引悬垂以从索引的任一侧覆盖0至n个衔接子索引碱基。这允许为单和双索引衔接子系统设计此类衔接子封闭剂的能力。
在第二种布置中,衔接子索引碱基从两侧被覆盖。当衔接子索引碱基从两侧被覆盖时,可以选择每个封闭剂的覆盖区域的长度,使得单个封闭剂对能够与一系列衔接子索引长度相互作用,同时仍覆盖总索引碱基数的很大一部分。例如,采取两个被设计成具有覆盖衔接子索引的3bp悬垂的封闭剂。在6bp、8bp或10bp衔接子索引长度的情况下,这些封闭剂将在杂交期间分别留下0bp、2bp或4bp暴露。
在第三种布置中,选择修饰的核碱基以覆盖索引衔接子碱基。目前可商购获得的这些修饰的实例包括简并碱基(即,A、T、C、G的混合碱基)、2'-脱氧肌苷和5-硝基吲哚。
在第四种布置中,具有衔接子索引悬垂的封闭剂结合下一代测序文库的有意(即,‘顶部’)或反义(即,‘底部’)链。
在第五种布置中,封闭剂被进一步延伸以覆盖其他多核苷酸序列(例如,在先前的生化步骤中添加的poly-A尾,以促进连接或引入确定的衔接子序列、测序之后的生物信息学分配的独特分子标识符等的其他方法)以及确定的长度和组成的标准衔接子索引碱基。这些类型的序列可以放置在衔接子的多个位置中,并且在这种情况下,使用最广泛的情况(即,基因组插入物旁边的独特分子索引)被呈现。独特的分子标识符的其他位置(例如,在衔接子索引文库旁边)也可以用类似的方法寻址。
在第六种布置中,以各种组合利用所有先前的布置以在指定条件下的靶标富集期间满足脱诱饵性能的靶向的性能度量。
封闭剂可包含部分,诸如核碱基类似物。核碱基类似物和其他基团包括但不限于锁核酸(LNA)、双环核酸(BNA)、C5修饰的嘧啶碱基、2'-O-甲基取代的RNA、肽核酸(PNA)、乙二醇核酸(GNA)、苏糖核酸(TNA)、肌苷、2'-脱氧肌苷、3-硝基吡咯、5-硝基吲哚、异种核酸(XNA)吗啉代主链修饰碱基、小沟结合物(MGB)、精胺、G夹或蒽醌(Uaq)帽。在一些情况下,核碱基类似物包含通用碱基,其中核碱基对于与同源核碱基的结合具有较低的Tm。在一些情况下,通用碱基包括5-硝基吲哚或2'-脱氧肌苷。在一些情况下,封闭剂包含连接两条多核苷酸链的间隔元件(spacer element)。在一些情况下,封闭剂包含一个或多个选自表1的核碱基类似物。在一些情况下,添加此类核碱基类似物以控制封闭剂的Tm。封闭剂可包含任何数目的核碱基类似物(诸如LNA或BNA),这取决于所需杂交Tm。例如,封闭剂包含20至40个核碱基类似物。在一些情况下,封闭剂包含8至16个核碱基类似物。在一些情况下,封闭剂包含至少1、2、3、4、5、6、7、8、9、10、11、12或至少12个核碱基类似物。在一些情况下,封闭剂包含约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15或约16个核碱基类似物。在一些情况下,核碱基类似物的数目表示为封闭剂中总碱基的百分比。例如,封闭剂包含至少1%、2%、5%、10%、12%、18%、24%、30%或多于30%的核碱基类似物。在一些情况下,对于每个核碱基类似物,包含核碱基类似物的封闭剂将Tm升高约2℃至约8℃。在一些情况下,针对每个核碱基类似物,Tm升高至少或约1℃、2℃、3℃、4℃、5℃、6℃、7℃、8℃、9℃、10℃、12℃、14℃或16℃。在一些情况下,此类封闭剂被配置成结合衔接子的顶部或“有义”链。在一些情况下,封闭剂被配置成结合衔接子的底部或“反义”链。在一些情况下,封闭剂组包含被配置成结合衔接子的顶部链和底部链的序列。在一些情况下,额外封闭剂被配置成衔接子序列的互补序列、反向、正向或反向互补序列。在一些情况下,设计并测试了靶向顶部链(与顶部结合)或底部链(或两者)的封闭剂,之后进行优化,诸如顶部封闭剂被底部封闭剂替代或底部封闭剂被顶部封闭剂替代。在一些情况下,封闭剂被配置成与衔接子上的索引或条形码的碱基完全或部分重叠。在一些情况下,封闭剂组包含至少一个与衔接子索引序列重叠的封闭剂。在一些情况下,封闭剂组包含至少一个与衔接子索引序列重叠的封闭剂和至少一个不与衔接子序列重叠的封闭剂。在一些情况下,封闭剂组包含至少一个不与轭式区序列重叠的封闭剂。在一些情况下,封闭剂组包含至少一个不与轭式区序列重叠的封闭剂和至少一个与轭式区序列重叠的封闭剂。在一些情况下,封闭剂组包含2、3、4、5、6、7、8、9、10或多于10个封闭剂。
封闭剂可以是任何长度,这取决于衔接子的大小或杂交Tm。例如,封闭剂的长度为20至50个碱基。在一些情况下,封闭剂的长度为25至45个碱基、30至40个碱基、20至40个碱基或30至50个碱基。在一些情况下,封闭剂的长度为25至35个碱基。在一些情况下,封闭剂的长度为至少25、26、27、28、29、30、31、32、33、34或至少35个碱基。在一些情况下,封闭剂的长度不多于25、26、27、28、29、30、31、32、33、34或不多于35个碱基。在一些情况下,封闭剂的长度为约25、26、27、28、29、30、31、32、33、34或约35个碱基。在一些情况下,封闭剂的长度为约50个碱基。在一些情况下,靶向加衔接子标签的基因组文库片段的封闭剂组包含多于一个长度的封闭剂。在一些情况下,两个封闭剂与接头拴系在一起。各种接头在本领域中是众所周知的,并且在一些情况下,包含烷基、聚醚基、胺基、酰胺基或其他化学基团。在一些情况下,接头包含单独的接头单元,它们通过主链(诸如磷酸酯、硫代磷酸酯、酰胺或其他主链)连接在一起(或附接到封闭剂多核苷酸)。在示例性布置中,接头跨越各自靶向衔接子序列的5'末端的第一封闭剂与靶向衔接子序列的3'末端的第二封闭剂之间的索引区域。在一些情况下,将加帽基团添加到封闭剂的5'或3'末端以防止下游扩增。加帽基团以各种方式包括聚醚、多元醇、烷烃或其他防止扩增的不可杂交基团。在一些情况下,此类基团通过磷酸酯、硫代磷酸酯、酰胺或其他主链连接。在一些情况下,使用一个或多个封闭剂。在一些情况下,使用至少4个不相同的封闭剂。在一些情况下,第一封闭剂跨越衔接子序列的第一个3'末端,第二封闭剂跨越衔接子序列的第一个5'末端,第三封闭剂跨越衔接子序列的第二个3'末端,并且第四封闭剂跨越衔接子序列的第二个5'末端。在一些情况下,第一封闭剂的长度为至少20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或至少35个碱基。在一些情况下,第二封闭剂的长度为至少20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或至少35个碱基。在一些情况下,第三封闭剂的长度为至少20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或至少35个碱基。在一些情况下,第四封闭剂的长度为至少20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或至少35个碱基。在一些情况下,第一封闭剂、第二封闭剂、第三封闭剂或第四封闭剂包含核碱基类似物。在一些情况下,核碱基类似物是LNA。
封闭剂的设计可能受到与衔接子序列的所需杂交Tm影响。在一些情况下,将非经典核酸(例如锁核酸、桥接核酸或其他非经典核酸或类似物)插入到封闭剂中以增加或降低封闭剂的Tm。在一些情况下,封闭剂的Tm使用专用于计算包含非经典氨基酸的多核苷酸的Tm的工具计算。在一些情况下,Tm使用Exiqon TM在线预测工具计算。在一些情况下,本文所述的封闭剂Tm是计算机计算的。在一些情况下,封闭剂Tm是计算机计算的,并且与实验体外条件相关。不受理论的束缚,以实验方法确定的Tm可能进一步受到实验参数的影响,诸如盐浓度、温度、添加剂的存在或其他因素。在一些情况下,本文所述的Tm是计算机确定的Tm,其用于设计或优化封闭剂性能。在一些情况下,Tm值是根据解链曲线分析实验预测、估计或确定的。在一些情况下,封闭剂的Tm为70℃至99℃。在一些情况下,封闭剂的Tm为75℃至90℃。在一些情况下,封闭剂的Tm为至少85℃。在一些情况下,封闭剂的Tm为至少70℃、72℃、75℃、77℃、80℃、82℃、85℃、88℃、90℃或至少92℃。在一些情况下,封闭剂的Tm为约70℃、72℃、75℃、77℃、80℃、82℃、85℃、88℃、90℃、92℃或约95℃。在一些情况下,封闭剂的Tm为78℃至90℃。在一些情况下,封闭剂的Tm为79℃至90℃。在一些情况下,封闭剂的Tm为80℃至90℃。在一些情况下,封闭剂的Tm为81℃至90℃。在一些情况下,封闭剂的Tm为82℃至90℃。在一些情况下,封闭剂的Tm为83℃至90℃。在一些情况下,封闭剂的Tm为84℃至90℃。在一些情况下,封闭剂组的平均Tm为78℃至90℃。在一些情况下,封闭剂组的平均Tm为80℃至90℃。在一些情况下,封闭剂组的平均Tm为至少80℃。在一些情况下,封闭剂组的平均Tm为至少81℃。在一些情况下,封闭剂组的平均Tm为至少82℃。在一些情况下,封闭剂组的平均Tm为至少83℃。在一些情况下,封闭剂组的平均Tm为至少84℃。在一些情况下,封闭剂组的平均Tm为至少86℃。在一些情况下,封闭剂Tm由于本文所述的其他组分而被修改,诸如使用快速杂交缓冲液和/或杂交增强子。
封闭剂与衔接子靶标的摩尔比可能影响杂交期间的脱诱饵率(以及随后的脱靶率)。封闭剂与靶标衔接子结合的效率越高,需要的封闭剂越少。在一些情况下,在摩尔比小于20:1(封闭剂:靶标)的情况下,本文所述的封闭剂实现不多于20%脱靶读段的测序结果。在一些情况下,在摩尔比小于10:1(封闭剂:靶标)的情况下,实现不多于20%脱靶读段。在一些情况下,在摩尔比小于5:1(封闭剂:靶标)的情况下,实现不多于20%脱靶读段。在一些情况下,在摩尔比小于2:1(封闭剂:靶标)的情况下,实现不多于20%脱靶读段。在一些情况下,在摩尔比小于1.5:1(封闭剂:靶标)的情况下,实现不多于20%脱靶读段。在一些情况下,在摩尔比小于1.2:1(封闭剂:靶标)的情况下,实现不多于20%脱靶读段。在一些情况下,在摩尔比小于1.05:1(封闭剂:靶标)的情况下,实现不多于20%脱靶读段。
通用封闭剂可与不同大小的套组文库一起使用。在一些实施方案中,套组文库包含至少或约0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、1.0、2.0、4.0、8.0、10.0、12.0、14.0、16.0、18.0、20.0、22.0、24.0、26.0、28.0、30.0、40.0、50.0、60.0或多于60.0兆碱基(Mb)。
如本文所述的封闭剂可以改善在靶性能。在一些实施方案中,在靶性能提高至少或约5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或多于95%。在一些实施方案中,对于各种索引设计,在靶性能提高至少或约5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或多于95%。在一些实施方案中,对于各种套组大小,在靶性能提高至少或约5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或多于95%。
杂交缓冲液
可以将任何数目的缓冲液与本文所述的杂交方法一起使用。例如,缓冲液包含许多化学组分,诸如聚合物、溶剂、盐、表面活性剂或其他组分。在一些情况下,杂交缓冲液减少实现给定测序结果或质量水平所需的杂交时间(例如,“快速”杂交缓冲液)。在一些情况下,此类组分导致改善的杂交结果,诸如提高的在靶率、改善的测序结果(例如,测序深度或其他度量)或降低的脱靶率。可以引入任何浓度的此类组分以实现此类结果。在一些情况下,缓冲液组分以特定顺序添加。例如,首先添加水。在一些情况下,在水之后添加盐。在一些情况下,在增稠剂和表面活性剂之后添加盐。在一些情况下,杂交缓冲液(诸如本文所述的“快速”杂交缓冲液)与通用封闭剂和液体聚合物添加剂结合使用。在一些情况下,使用快速杂交缓冲液将杂交时间减少至不多于4、3、2、1、0.5、0.2或0.1小时。
本文所述的杂交缓冲液可包含溶剂或两种或更多种溶剂的混合物。在一些情况下,杂交缓冲液包含两种溶剂、三种溶剂或多于三种溶剂的混合物。在一些情况下,杂交缓冲液包含醇和水的混合物。在一些情况下,杂交缓冲液包含含酮的溶剂和水的混合物。在一些情况下,杂交缓冲液包含醚溶剂和水的混合物。在一些情况下,杂交缓冲液包含含亚砜的溶剂和水的混合物。在一些情况下,杂交缓冲液包含含酰胺的溶剂和水的混合物。在一些情况下,杂交缓冲液包含含酯的溶剂和水的混合物。在一些情况下,杂交缓冲液包含溶剂,诸如水、乙醇、甲醇、丙醇、丁醇、其他醇溶剂或其混合物。在一些情况下,杂交缓冲液包含溶剂,诸如丙酮、甲基乙基酮、2-丁酮、乙酸乙酯、乙酸甲酯、四氢呋喃、乙醚或其混合物。在一些情况下,杂交缓冲液包含溶剂,诸如DMSO、DMF、DMA、HMPA或其混合物。在一些情况下,杂交缓冲液包含水、HMPA和醇的混合物。在一些情况下,两种溶剂以1:1、1:2、1:3、1:4、1:5、1:8、1:9、1:10、1:20、1:50、1:100或1:500的比率存在。
本文所述的杂交缓冲液可包含聚合物。聚合物包括但不限于增稠剂、聚合物溶剂、介电材料或其他聚合物。在一些情况下,聚合物是疏水的或亲水的。在一些情况下,聚合物是硅聚合物。在一些情况下,聚合物包含重复的聚乙烯或聚丙烯单元或其混合物。在一些情况下,聚合物包括聚乙烯吡咯烷酮或聚乙烯吡啶。在一些情况下,聚合物包含氨基酸。例如,在一些情况下,聚合物包含蛋白质。在一些情况下,聚合物包括酪蛋白、乳蛋白、牛血清白蛋白或其他蛋白质。在一些情况下,聚合物包含核苷酸,例如DNA或RNA。在一些情况下,聚合物包含polyA、polyT、Cot-1 DNA或其他核酸。在一些情况下,聚合物包含糖。例如,在一些情况下,聚合物包含葡萄糖、阿拉伯糖、半乳糖、甘露糖或其他糖。在一些情况下,聚合物包含纤维素或淀粉。在一些情况下,聚合物包含琼脂、羧烷基纤维素、黄原胶、瓜尔胶、刺槐豆胶、刺梧桐树胶、黄蓍胶、阿拉伯树胶。在一些情况下,聚合物包含纤维素或淀粉的衍生物,或硝化纤维素、葡聚糖、羟乙基淀粉、聚蔗糖或其组合。在一些情况下,聚合物的混合物用于本文所述的杂交缓冲液中。在一些情况下,杂交缓冲液包含Denhardt溶液。本文所述的聚合物可以以适于减少脱靶结合的任何浓度存在。此类浓度通常表示为重量百分比、体积百分比或重量百分比/体积。例如,聚合物以约0.0001%、0.0002%、0.0005%、0.0008%、0.001%、0.002%、0.005%、0.008%、0.01%、0.02%、0.05%、0.08%、0.1%、0.2%、0.5%、0.8%、1%、1.2%、1.5%、1.8%、2%、5%、10%、20%或约30%存在。在一些情况下,聚合物以不多于0.0001%、0.0002%、0.0005%、0.0008%、0.001%、0.002%、0.005%、0.008%、0.01%、0.02%、0.05%、0.08%、0.1%、0.2%、0.5%、0.8%、1%、1.2%、1.5%、1.8%、2%、5%、10%、20%或不多于30%存在。在一些情况下,聚合物以至少0.0001%、0.0002%、0.0005%、0.0008%、0.001%、0.002%、0.005%、0.008%、0.01%、0.02%、0.05%、0.08%、0.1%、0.2%、0.5%、0.8%、1%、1.2%、1.5%、1.8%、2%、5%、10%、20%或至少30%存在。在一些情况下,聚合物以0.0001%-10%、0.0002%-5%、0.0005%-1.5%、0.0008%-1%、0.001%-0.2%、0.002%-0.08%、0.005%-0.02%或0.008%-0.05%存在。在一些情况下,聚合物以0.005%-0.1%存在。在一些情况下,聚合物以0.05%-0.1%存在。在一些情况下,聚合物以0.005%-0.6%存在。在一些情况下,聚合物以1%-30%、5%-25%、10%-30%、15%-30%或1%-15%存在。液体聚合物可以呈总反应体积的百分比存在。在一些情况下,聚合物为总体积的约10%、20%、30%、40%、50%、60%、75%或约90%。在一些情况下,聚合物为总体积的至少10%、20%、30%、40%、50%、60%、75%或至少90%。在一些情况下,聚合物为总体积的不多于10%、20%、30%、40%、50%、60%、75%或不多于90%。在一些情况下,聚合物为总体积的5%-75%、5%-65%、5%-55%、10%-50%、15%-40%、20%-50%、20%-30%、25%-35%、5%-35%、10%-35%或20%-40%。在一些情况下,聚合物为总体积的25%-45%。在一些情况下,本文所述的杂交缓冲液与通用封闭剂和液体聚合物添加剂结合使用。
本文所述的杂交缓冲液可包含盐,诸如阳离子或阴离子。例如,杂交缓冲液包含一价或二价阳离子。在一些情况下,杂交缓冲液包含一价或二价阴离子。在一些情况下,阳离子包括钠盐、钾盐、镁盐、锂盐、tris盐或其他盐。在一些情况下,阴离子包括硫酸盐、亚硫酸氢盐、硫酸氢盐、硝酸盐、氯化物、溴化物、柠檬酸盐、乙二胺四乙酸盐、磷酸二氢盐、磷酸氢盐或磷酸盐。在一些情况下,杂交缓冲液包含有包含阴离子和阳离子的任何组合的盐(例如,氯化钠、硫酸钠、磷酸钾或其他盐)。在一些情况下,杂交缓冲液包含离子液体。本文所述的盐可以以适域减少脱靶结合的任何浓度存在。此类浓度通常表示为重量百分比、体积百分比或重量百分比/体积。例如,盐以约0.0001%、0.0002%、0.0005%、0.0008%、0.001%、0.002%、0.005%、0.008%、0.01%、0.02%、0.05%、0.08%、0.1%、0.2%、0.5%、0.8%、1%、1.2%、1.5%、1.8%、2%、5%、10%、20%或约30%存在。在一些情况下,盐以不多于0.0001%、0.0002%、0.0005%、0.0008%、0.001%、0.002%、0.005%、0.008%、0.01%、0.02%、0.05%、0.08%、0.1%、0.2%、0.5%、0.8%、1%、1.2%、1.5%、1.8%、2%、5%、10%、20%或不多于30%存在。在一些情况下,盐以至少0.0001%、0.0002%、0.0005%、0.0008%、0.001%、0.002%、0.005%、0.008%、0.01%、0.02%、0.05%、0.08%、0.1%、0.2%、0.5%、0.8%、1%、1.2%、1.5%、1.8%、2%、5%、10%、20%或至少30%存在。在一些情况下,盐以0.0001%-10%、0.0002%-5%、0.0005%-1.5%、0.0008%-1%、0.001%-0.2%、0.002%-0.08%、0.005%-0.02%或0.008%-0.05%存在。在一些情况下,盐以0.005%-0.1%存在。在一些情况下,盐以0.05%-0.1%存在。在一些情况下,盐以0.005%-0.6%存在。在一些情况下,盐以1%-30%、5%-25%、10%-30%、15%-30%或1%-15%存在。液体聚合物可以呈总反应体积的百分比存在。在一些情况下,盐为总体积的约10%、20%、30%、40%、50%、60%、75%或约90%。在一些情况下,盐为总体积的至少10%、20%、30%、40%、50%、60%、75%或至少90%。在一些情况下,盐为总体积的不多于10%、20%、30%、40%、50%、60%、75%或不多于90%。在一些情况下,盐为总体积的5%-75%、5%-65%、5%-55%、10%-50%、15%-40%、20%-50%、20%-30%、25%-35%、5%-35%、10%-35%或20%-40%。在一些情况下,盐为总体积的25%-45%。
本文所述的杂交缓冲液可包含表面活性剂(或乳化剂)。例如,杂交缓冲液包含SDS(十二烷基硫酸钠)、CTAB、十六烷基吡啶鎓、苄烷铵tergitol(benzalkonium tergitol)、脂肪酸磺酸盐(例如,月桂基基硫酸钠)、乙氧基化丙二醇、木质素磺酸盐、苯磺酸盐、卵磷脂、磷脂、二烷基磺基琥珀酸盐(例如,二辛基磺基琥珀酸钠)、甘油二酯、聚乙氧基化辛基苯酚、松香酸、脱水山梨糖醇单酯、全氟烷醇、磺化聚苯乙烯、甜菜碱、二甲基聚硅氧烷或其他表面活性剂。在一些情况下,杂交缓冲液包含硫酸盐、磷酸盐或四烷基铵基团。本文所述的表面活性剂可以以适于减少脱靶结合的任何浓度存在。此类浓度通常表示为重量百分比、体积百分比或重量百分比/体积。例如,表面活性剂以约0.0001%、0.0002%、0.0005%、0.0008%、0.001%、0.002%、0.005%、0.008%、0.01%、0.02%、0.05%、0.08%、0.1%、0.2%、0.5%、0.8%、1%、1.2%、1.5%、1.8%、2%、5%、10%、20%或约30%存在。在一些情况下,表面活性剂以不多于0.0001%、0.0002%、0.0005%、0.0008%、0.001%、0.002%、0.005%、0.008%、0.01%、0.02%、0.05%、0.08%、0.1%、0.2%、0.5%、0.8%、1%、1.2%、1.5%、1.8%、2%、5%、10%、20%或不多于30%存在。在一些情况下,表面活性剂以至少0.0001%、0.0002%、0.0005%、0.0008%、0.001%、0.002%、0.005%、0.008%、0.01%、0.02%、0.05%、0.08%、0.1%、0.2%、0.5%、0.8%、1%、1.2%、1.5%、1.8%、2%、5%、10%、20%或至少30%存在。在一些情况下,表面活性剂以0.0001%-10%、0.0002%-5%、0.0005%-1.5%、0.0008%-1%、0.001%-0.2%、0.002%-0.08%、0.005%-0.02%或0.008%-0.05%存在。在一些情况下,表面活性剂以0.005%-0.1%存在。在一些情况下,表面活性剂以0.05%-0.1%存在。在一些情况下,表面活性剂以0.005%-0.6%存在。在一些情况下,表面活性剂以1%-30%、5%-25%、10%-30%、15%-30%或1%-15%存在。液体聚合物可以呈总反应体积的百分比存在。在一些情况下,表面活性剂为总体积的约10%、20%、30%、40%、50%、60%、75%或约90%。在一些情况下,表面活性剂为总体积的至少10%、20%、30%、40%、50%、60%、75%或至少90%。在一些情况下,表面活性剂为总体积的不多于10%、20%、30%、40%、50%、60%、75%或不多于90%。在一些情况下,表面活性剂为总体积的5%-75%、5%-65%、5%-55%、10%-50%、15%-40%、20%-50%、20%-30%、25%-35%、5%-35%、10%-35%或20%-40%。在一些情况下,表面活性剂为总体积的25%-45%。
本文所述的方法中使用的缓冲液可包含组分的任何组合。在一些情况下,本文所述的缓冲液是杂交缓冲液。在一些情况下,本文所述的杂交缓冲液是快速杂交缓冲液。此类快速杂交缓冲液允许较短的杂交时间,诸如少于8小时、6小时、4小时、2小时、1小时、45分钟、30分钟或少于15分钟。在一些情况下,本文所述的杂交缓冲液包含表2A-2G中所述的缓冲液。在一些情况下,表1A-1I中所述的缓冲液可用作快速杂交缓冲液。在一些情况下,表1B、1C和1D中所述的缓冲液可用作快速杂交缓冲液。在一些情况下,如本文所述的快速杂交缓冲液描述于表1B中。在一些情况下,如本文所述的快速杂交缓冲液描述于表1C中。在一些情况下,如本文所述的快速杂交缓冲液描述于表1D中。
表2A.缓冲液A
表2B.缓冲液B
表2C.缓冲液C
表2D.缓冲液D
表2E.缓冲液E
表2F.缓冲液F
/>
表2G.缓冲液G
缓冲液组分 体积(mL) 缓冲液组分 体积(mL)
5-30 5-30
乙醇 0-3 甲醇 0-3
NaCl(1M) 0.01-0.5 NaCl(5M) 0.01-0.5
NaH2PO4(5M) 0.01-1.5 NaH2PO4(5M) 0-2
EDTA(0.5M) 0-1.5 EDTA(0.5M) 1-10
表2H.缓冲液H
缓冲液组分 体积(mL) 缓冲液组分 体积(mL)
50-300 10-300
EDTA(0.5M) 0-1.5 NaCl(5M) 0.01-0.5
NaCl(5M) 5-70 10%Triton X-100 0.05-0.5
Tergitol(1重量%) 0.2-2.0 EDTA(1M) 0-2
TrisHCl(1M) 0.01-2.5 TrisHCl(1M) 0.1-5
表2I.缓冲液I
本文描述了诸如结合缓冲液和洗涤缓冲液的缓冲液。在一些情况下,结合缓冲液用于在杂交之后制备样品多核苷酸和探针的混合物。在一些情况下,结合缓冲液促进样品多核苷酸在柱或其他固体支持物上的捕获。在一些情况下,表2A-2I中所述的缓冲液可用作结合缓冲液。在一些情况下,结合缓冲液包含表2A、2H和2I中所述的缓冲液。在一些情况下,如本文所述的结合缓冲液描述于表2A中。在一些情况下,如本文所述的结合缓冲液描述于表2H中。在一些情况下,如本文所述的结合缓冲液描述于表2I中。在一些情况下,本文所述的缓冲液可用作洗涤缓冲液。在一些情况下,洗涤缓冲液用于从柱或固体支持物去除非结合多核苷酸。在一些情况下,表2A-2I中所述的缓冲液可用作洗涤缓冲液。在一些情况下,洗涤缓冲液包含如表2E、2F和2G中所述的缓冲液。在一些情况下,如本文所述的洗涤缓冲液描述于表2E中。在一些情况下,如本文所述的洗涤缓冲液描述于表2F中。在一些情况下,如本文所述的洗涤缓冲液描述于表2G中。在一些情况下,与本文所述的组合物和方法一起使用的洗涤缓冲液被描述为第一洗涤缓冲液(洗涤缓冲液1)、第二洗涤缓冲液(洗涤缓冲液2)等。
用于测序的方法
本文描述了改善测序的效率和准确性的方法。此类方法包括使用包含核碱基类似物的通用衔接子以及在连接到样品核酸之后生成条形码化衔接子。在一些情况下,将样品片段化,将片段末端修复,将一个或多个腺嘌呤添加到片段双链体的一条链,连接通用衔接子,并且用条形码化引物扩增片段文库以生成条形码化核酸文库。在一些情况下,额外的步骤包括富集/捕获、额外的PCR扩增和/或核酸文库的测序。
在示例性测序工作流程(图13)的第一步中,通过机械或酶促剪切将包含样品核酸的样品208片段化,以形成片段文库209。将通用衔接子220连接到片段化样品核酸,以形成衔接子连接的样品核酸文库221。然后用条形码化引物文库222(为简单起见仅显示一个引物)扩增此文库,以生成条形码化衔接子-样品多核苷酸文库223。然后,将文库223任选地与靶标结合多核苷酸217(其与样品核酸杂交)以及封闭多核苷酸216(其防止探针多核苷酸217与衔接子220之间的杂交)杂交。样品多核苷酸-靶标结合多核苷酸杂交对212/218的捕获和靶标结合多核苷酸217的去除允许分离/富集样品核酸213,然后对其进行选择性扩增和测序214。可以使用通用衔接子和条形码化引物的各种组合。在一些情况下,条形码化引物包含至少一个条形码。在一些情况下,使用衔接子或条形码或两者将不同类型的条形码添加到样品核酸。例如,通用衔接子包含索引条形码,并且在连接之后,用包含额外索引条形码的条形码化引物进行扩增。在一些情况下,通用衔接子包含独特分子标识符条形码,并且在连接之后,用包含索引条形码的条形码化引物进行扩增。
条形码化引物可用于使用PCR扩增通用衔接子连接的样品多核苷酸,以生成用于测序的多核酸文库。在一些情况下,此类文库包含扩增之后的条形码。在一些情况下,相对于标准Y衔接子连接的样品多核苷酸文库的扩增,使用条形码化引物的扩增得到较高的扩增产量。在一些情况下,使用2、3、4、5、6、7、8、9、10、11或12个PCR循环扩增通用衔接子连接的样品多核苷酸文库。在一些情况下,使用不多于2、3、4、5、6、7、8、9、10、11或不多于12个PCR循环扩增通用衔接子连接的样品多核苷酸文库。在一些情况下,使用2-12、3-10、4-9、5-8、6-10或8-12个PCR循环扩增通用衔接子连接的样品多核苷酸文库,因此生成扩增子产物。在一些情况下,此类文库包含较少的基于PCR的错误。不受理论的束缚,在扩增期间PCR循环减少导致所得扩增子产物中的错误较少。在一些情况下,在扩增之后,将此类条形码化扩增子文库富集或对其进行捕获、额外扩增反应和/或测序。在一些情况下,使用本文所述的通用衔接子生成的扩增子产物包含的错误与由标准全长Y衔接子的扩增生成的扩增子产物相比少约30%、15%、10%、7%、5%、3%、2%、1.5%、1%、0.5%、0.1%或0.05%。
本文描述了方法,其中使用通用封闭剂防止捕获探针与连接到基因组片段的衔接子的脱靶结合或衔接子-衔接子杂交。用于防止脱靶杂交的衔接子封闭剂可靶向衔接子的一部分或整个衔接子。在一些情况下,使用与包含独特索引序列的衔接子的一部分互补的特定封闭剂。在加衔接子标签的基因组文库包含大量不同索引的情况下,设计不靶向索引序列或不与其强杂交的封闭剂可为有益的。例如,“通用”封闭剂靶向不包含索引序列(与索引无关)的衔接子的一部分,从而允许使用最少数目的封闭剂,而不管所采用的不同索引序列的数目。在一些情况下,使用不多于8个通用封闭剂。在一些情况下,使用4个通用封闭剂。在一些情况下,使用3个通用封闭剂。在一些情况下,使用2个通用封闭剂。在一些情况下,使用1个通用封闭剂。在示例性布置中,4个通用封闭剂与包含至少4、8、16、32、64、96或至少128个不同索引序列的衔接子一起使用。在一些情况下,不同索引序列包含至少或约4、6、8、10、12、14、16、18、20或多于20个碱基对(bp)。在一些情况下,通用封闭剂未被配置成结合条形码序列。在一些情况下,通用封闭剂部分结合条形码序列。在一些情况下,部分结合条形码序列的通用封闭剂还包含核苷酸类似物,诸如增加与衔接子结合的Tm的那些(例如,LNA或BNA)。
甲基化测序和捕获
甲基化测序涉及通过一系列最终脱氨的事件将未甲基化的胞嘧啶转化成尿嘧啶,同时使甲基化胞嘧啶保持完整的酶促或化学方法。在扩增期间,尿嘧啶与互补链上的腺嘌呤配对,导致胸腺嘧啶包含在最初未甲基化的胞嘧啶的位置中。存在相同的序列,每个序列在不同位置具有未甲基化的胞嘧啶。最终产物是不对称的,在转化之后产生两个不同的双链DNA分子;对于甲基化DNA的相同过程得到额外的序列组。
靶标富集可以通过捕获前或捕获后转化进行。捕获后转化靶向原始样品DNA,而捕获前转化靶向经转化的序列的四条链。虽然捕获后转化对探针设计的挑战较少,但它经常需要大量起始DNA材料,因为PCR扩增不保留甲基化模式并且不可在捕获之前进行。因此,捕获前转化经常是选择用于低输入、敏感应用(诸如无细胞DNA)的方法。
本文所述的方法可包括用酶或亚硫酸氢盐处理文库以促进胞嘧啶转化为尿嘧啶。在一些情况下,本文所述的衔接子(例如,通用衔接子)包含甲基化核碱基,诸如甲基化胞嘧啶。
测量甲基化的方法可包括使用本文所述的杂交试剂。本文提供了方法,所述方法包括以下中的一个或多个步骤:提供多个编码来源于生物体的一个或多个源多核苷酸的序列,其中源多核苷酸包含C0t值;将多个序列映射到亚硫酸氢盐或酶促脱氨处理的参考基因组以生成映射序列;以及合成杂交试剂,其中杂交试剂包含多个修饰多核苷酸,多个修饰多核苷酸包含参考基因组的映射序列。在一些情况下,所述方法还包括在合成杂交试剂之前去除包含外显子组和refseq序列的映射序列。本文提供了方法,所述方法包括以下中的一个或多个:提供多个编码来源于生物体的一个或多个源多核苷酸的序列,其中源多核苷酸包含C0t值;修饰多个序列,其中修饰包括在多个序列中,至少一个胞嘧啶被尿嘧啶或胸腺嘧啶替代,以生成多个修饰序列;以及合成杂交试剂,其中所述杂交试剂包含有包含所述多个修饰序列的多个修饰多核苷酸。在一些情况下,C0t值不多于5、4、3、2.5、2.25、2、1.75、1.50、1.25、1或不多于0.75。在一些情况下,C0t值为0.01-4、0.01-3、0.01-2、0.01-1.5、0.1-3、0.1-2.5、0.1-2、0.1-1.7、0.1-1.5或0.1-1.25。
用于扩增反应的小多核苷酸群体的从头合成
本文描述了从表面(例如,板)合成多核苷酸的方法(图14)。在一些情况下,多核苷酸在用于多核苷酸延伸的座位簇上合成,释放,并且随后进行扩增反应,例如PCR。从簇合成多核苷酸的示例性工作流程描绘于图14中。硅板1001包括多个簇1003。在每个簇内有多个座位1021。多核苷酸在板1001上从簇1003从头合成1007。对多核苷酸进行切割1011并将其从板去除1013以形成经释放的多核苷酸群体1015。然后将经释放的多核苷酸群体1015扩增1017以形成经扩增的多核苷酸文库1019。
本文提供了方法,在所述方法中与对在不具有此类聚类布置的结构的整个表面上的多核苷酸的扩增相比,对在簇上合成的多核苷酸的扩增增强了在多核苷酸表示上的控制。在一些情况下,对从具有用于多核苷酸延伸的聚类座位布置的表面合成的多核苷酸的扩增克服了由于大型多核苷酸群体的重复合成而对表示造成的负面影响。由于大型多核苷酸群体的重复合成而对表示造成的示例性负面影响包括但不限于由高/低GC含量引起的扩增偏差、重复序列、尾接腺嘌呤、二级结构、对靶序列结合的亲和力或多核苷酸序列中的修饰核苷酸。
与在不具有聚类布置的整个板上对多核苷酸的扩增相反,簇扩增可导致围绕平均值的更紧密分布。例如,如果随机取样100,000个读段,则每个序列平均8个读段将产生分布偏离平均值约1.5X的文库。在一些情况下,单簇扩增导致偏离平均值至多约1.5X、1.6X、1.7X、1.8X、1.9X或2.0X。在一些情况下,单簇扩增导致偏离平均值至少约1.0X、1.2X、1.3X、1.5X、1.6X、1.7X、1.8X、1.9X或2.0X。
与在板上的扩增相比,本文所述的簇扩增方法可得到实现等效序列表示需要较少测序的多核苷酸文库。在一些情况下,需要至少10%、至少20%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%或至少95%的较少测序。在一些情况下,需要至多10%、至多20%、至多30%、至多40%、至多50%、至多60%、至多70%、至多80%、至多90%或至多95%的较少测序。与在板上的扩增相比,簇扩增之后有时需要30%的较少测序。在一些情况下,多核苷酸的测序通过高通量测序(诸如通过下一代测序)来验证。可以使用任何适当的测序技术对测序文库进行测序,包括但不限于单分子实时(SMRT)测序、聚合酶克隆测序(polony sequencing)、边连接边测序(sequencing by ligation)、可逆终止子测序(reversible terminator sequencing)、质子检测测序(proton detectionsequencing)、离子半导体测序(ion semiconductor sequencing)、纳米孔测序(nanoporesequencing)、电子测序(electronic sequencing)、焦磷酸测序(pyrosequencing)、马克萨姆-吉尔伯特测序(Maxam-Gilbert sequencing)、链终止(例如,Sanger)测序、+S测序或边合成边测序(sequencing by synthesis)。单个核苷酸或多核苷酸被鉴别或“读取”的次数被定义为测序深度或读取深度。在一些情况下,读取深度被称为倍数覆盖,例如,55倍(或55X)覆盖,任选地描述碱基的百分比。
在一些情况下,与在板上的扩增相比,从聚类布置的扩增导致较少的丢失,或在对扩增产物测序之后未检测到的序列。丢失可以是AT和/或GC。在一些情况下,丢失的数目为多核苷酸群体的至多约1%、2%、3%、4%或5%。在一些情况下,丢失数目为零。
如本文所述的簇包含用于多核苷酸合成的离散的、非重叠的座位的集合。簇可包含约50-1000、75-900、100-800、125-700、150-600、200-500或300-400个座位。在一些情况下,每个簇包含121个座位。在一些情况下,每个簇包含约50-500、50-200、100-150个座位。在一些情况下,每个簇包含至少约50、100、150、200、500、1000或更多个座位。在一些情况下,单个板包含100、500、10000、20000、30000、50000、100000、500000、700000、1000000或更多个座位。座位可以是斑点、孔、微孔、通道或柱子。在一些情况下,每个簇具有支持具有相同序列的多核苷酸的延伸的单独特征的至少1X、2X、3X、4X、5X、6X、7X、8X、9X、10X或更多冗余。
序列含量的化学计量受控的多核苷酸文库的生成
在一些情况下,多核苷酸文库被合成为具有所需多核苷酸序列的指定分布。在一些情况下,调整多核苷酸文库以便富集特定的所需序列改善了下游应用结果。
可以基于在下游应用中的评估选择一个或多个特定序列。在一些情况下,评估是与用于扩增、富集或检测的靶序列的结合亲和力、稳定性、解链温度、生物活性、组装成较大片段的能力或多核苷酸的其他特性。在一些情况下,评估是凭经验的或根据先前的实验和/或计算机算法预测的。示例性应用包括增加探针文库中的序列,所述序列对应于具有小于平均读取深度的基因组靶标的区域。
多核苷酸文库中的选定序列可以是至少10%、20%、30%、40%、50%、60%、70%、80%、90%、95%或多于95%的序列。在一些情况下,多核苷酸文库中的选定序列为至多10%、20%、30%、40%、50%、60%、70%、80%、90%、95%或至多100%的序列。在一些情况下,选定序列在约5-95%、10-90%、30-80%、40-75%或50-70%的序列的范围内。
可以针对每个选定序列的频率调整多核苷酸文库。在一些情况下,多核苷酸文库支持较多数目的选定序列。例如,文库被设计为其中选定序列的增加的多核苷酸频率在约40%至约90%的范围内。在一些情况下,多核苷酸文库包含较少数目的选定序列。例如,文库被设计成其中选定序列的增加的多核苷酸频率在约10%至约60%的范围内。可以设计文库以有利于较高和较低频率的选定序列。在一些情况下,文库有利于均一的序列表示。例如,多核苷酸频率关于选定序列的频率是均一的,在约10%至约90%的范围内。在一些情况下,文库包含选定序列的频率为约10%至约95%的序列的多核苷酸。
在一些情况下,通过组合至少2个具有不同选定序列的频率含量的多核苷酸文库,生成具有指定选定序列的频率的多核苷酸文库。在一些情况下,组合至少2、3、4、5、6、7、10或多于10个多核苷酸文库以生成具有指定选定序列的频率的多核苷酸群体。在一些情况下,组合不多于2、3、4、5、6、7或10个多核苷酸文库以生成具有指定选定序列的频率的不相同多核苷酸群体。
在一些情况下,通过每个簇合成较少或较多的多核苷酸来调整选定序列的频率。例如,在单个簇上合成至少25、50、100、200、300、400、500、600、700、800、900、1000或多于1000个不相同的多核苷酸。在一些情况下,在单个簇上合成不多于约50、100、200、300、400、500、600、700、800、900、1000个不相同的多核苷酸。在一些情况下,在单个簇上合成50至500个不相同的多核苷酸。在一些情况下,在单个簇上合成100至200个不相同的多核苷酸。在一些情况下,在单个簇上合成约100、约120、约125、约130、约150、约175或约200个不相同的多核苷酸。
在一些情况下,通过合成不同长度的不相同的多核苷酸来调整选定序列的频率。例如,合成的不相同的多核苷酸中每一个的长度可以是至少或约至少10、15、20、25、30、35、40、45、50、100、150、200、300、400、500、2000个核苷酸或更多。合成的不相同的多核苷酸的长度可以是至多或约至多2000、500、400、300、200、150、100、50、45、35、30、25、20、19、18、17、16、15、14、13、12、11、10个核苷酸或更少。合成的不相同的多核苷酸中每一个的长度可以处于10-2000、10-500、9-400、11-300、12-200、13-150、14-100、15-50、16-45、17-40、18-35和19-25之间。
多核苷酸探针结构
可以使用多核苷酸探针文库富集较大的样品多核苷酸群体中的具体靶序列。在一些情况下,多核苷酸探针各自包含与一个或多个靶序列互补的靶标结合序列、一个或多个非靶标结合序列和一个或多个引物结合位点,诸如通用引物结合位点。在一些情况下,互补或至少部分互补的靶标结合序列与靶序列结合(杂交)。引物结合位点(诸如通用引物结合位点)有利于同时扩增探针文库的所有成员或成员亚群。在一些情况下,探针或衔接子还包含条形码或索引序列。条形码是允许与条形码缔合的多核苷酸的一些特征被鉴别的核酸序列。测序之后,条形码区提供指示(indicator),以用于鉴别与编码区或样品源相关联的特征。条形码可以被设计成合适的长度以允许足够程度的鉴别,例如,长度为至少约3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55或更多个碱基。多个条形码,诸如约2、3、4、5、6、7、8、9、10或更多个条形码,可用于同一分子,任选地由非条形码序列分开。在一些情况下,多个条形码中的每个条形码与多个至少三个碱基的位置(诸如至少约3、4、5、6、7、8、9、10或更多个位置)中的每个其他条形码不同。条形码的使用允许汇集和同时处理多个文库以用于下游应用,诸如测序(多重)。在一些情况下,使用至少4、8、16、32、48、64、128、512、1024、2000、5000或多于5000个条形码化文库。在一些情况下,将多核苷酸连接到一个或多个分子(或亲和)标签(诸如小分子、肽、抗原、金属或蛋白质)以形成用于随后捕获感兴趣的靶序列的探针。在一些情况下,仅将一部分的多核苷酸连接到分子标签。在一些情况下,具有能够杂交的互补靶标结合序列的两个探针形成双链探针对。多核苷酸探针或衔接子可包含独特的分子标识符(UMI)。UMI允许在可能引入偏差的下游样品处理(例如,PCR或富集步骤)之前对初始样品浓度或化学计量进行内部测量。在一些情况下,UMI包含一个或多个条形码序列。
此处描述的探针可与靶序列互补,所述靶序列是基因组中的序列。此处描述的探针可与靶序列互补,所述靶序列是基因组中的外显子组序列。此处描述的探针可与靶序列互补,所述靶序列是基因组中的内含子序列。在一些情况下,探针包含与(样品核酸的)靶序列互补的靶标结合序列和至少一个不与靶标互补的非靶标结合序列。在一些情况下,探针的靶标结合序列的长度为约120个核苷酸或者至少10、15、20、25、50、75、100、110、120、125、140、150、160、175、200、300、400、500或多于500个核苷酸。在一些情况下,靶标结合序列的长度不多于10、15、20、25、50、75、100、125、150、175、200或不多于500个核苷酸。在一些情况下,探针的靶标结合序列的长度为约120个核苷酸或者约10、15、20、25、40、50、60、70、80、85、87、90、95、97、100、105、110、115、117、118、119、120、121、122、123、124、125、126、127、128、129、130、135、140、145、150、155、157、158、159、160、161、162、163、164、165、166、167、168、169、170、175、180、190、200、210、220、230、240、250、300、400或约500个核苷酸。在一些情况下,靶标结合序列的长度为约20至约400个核苷酸或者约30至约175、约40至约160、约50至约150、约75至约130、约90至约120或约100至约140个核苷酸。在一些情况下,探针的非靶标结合序列的长度为至少约20个核苷酸或者至少约1、5、10、15、17、20、23、25、50、75、100、110、120、125、140、150、160、175或多于约175个核苷酸。非靶标结合序列的长度经常不多于约5、10、15、20、25、50、75、100、125、150、175或不多于约200个核苷酸。探针的非靶标结合序列的长度经常为约20个核苷酸或者约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、25、40、50、60、70、80、90、100、110、120、130、140、150或约200个核苷酸。在一些情况下,非靶标结合序列的长度为约1至约250个核苷酸或者约20至约200、约10至约100、约10至约50、约30至约100、约5至约40或约15至约35个核苷酸。非靶标结合序列经常包含不与靶序列互补的序列,并且/或者包含不用于结合引物的序列。在一些情况下,非靶标结合序列包含单个核苷酸的重复,例如聚腺嘌呤或聚胸苷。探针通常不包含或包含至少一个非靶标结合序列。在一些情况下,探针包含一个或两个非靶标结合序列。非靶标结合序列可以与探针中的一个或多个靶标结合序列相邻。例如,非靶标结合序列位于探针的5'或3'末端。在一些情况下,非靶标结合序列附接到分子标签或间隔区。
在一些情况下,非靶标结合序列可以是引物结合位点。引物结合位点的长度经常各自为至少约20个核苷酸或者至少约10、12、14、16、18、20、22、24、26、28、30、32、34、36、38或至少约40个核苷酸。在一些情况下,每个引物结合位点的长度不多于约10、12、14、16、18、20、22、24、26、28、30、32、34、36、38或不多于约40个核苷酸。在一些情况下,每个引物结合位点的长度为约10至约50个核苷酸或者约15至约40、约20至约30、约10至约40、约10至约30、约30至约50或约20至约60个核苷酸。在一些情况下,多核苷酸探针包含至少两个引物结合位点。在一些情况下,引物结合位点可以是通用引物结合位点,其中所有探针在这些位点处都包含相同的引物结合序列。在一些情况下,靶向具体序列及其反向互补序列(例如,基因组DNA的区域)的多核苷酸探针对包含第一靶标结合序列、第二靶标结合序列、第一非靶标结合序列和第二非靶标结合序列。例如,多核苷酸探针对与特定序列(例如,基因组DNA的区域)互补。
在一些情况下,第一靶标结合序列是第二靶标结合序列的反向互补序列。在一些情况下,两个靶标结合序列在扩增之前被化学合成。在替代布置中,靶向特定序列及其反向互补序列(例如,基因组DNA的区域)的多核苷酸探针对包含第一靶标结合序列、第二靶标结合序列、第一非靶标结合序列、第二非靶标结合序列、第三非靶标结合序列和第四非靶标结合序列。在一些情况下,第一靶标结合序列是第二靶标结合序列的反向互补序列。在一些情况下,一个或多个非靶标结合序列包含聚腺嘌呤或聚胸苷。
在一些情况下,所述对中的两个探针都标记有至少一个分子标签。在一些情况下,使用PCR在扩增期间将分子标签(经由包含分子标签的引物)引入到探针上。在一些情况下,分子标签包含生物素、叶酸盐、聚组氨酸、FLAG标签、谷胱甘肽或符合说明书的其他分子标签中的一种或多种。在一些情况下,探针的5'末端被标记。在一些情况下,探针的3'末端被标记。在一些情况下,5'和3'末端都标记有分子标签。在一些情况下,一对中的第一探针的5'末端标记有至少一个分子标签,并且所述对中的第二探针的3'末端标记有至少一个分子标签。在一些情况下,间隔区存在于一个或多个分子标签与探针的核酸之间。在一些情况下,间隔区可包含烷基、多元醇、或聚氨基链、肽或多核苷酸。在一些情况下,用于捕获探针-靶标核酸复合物的固体支持物是珠子或表面。在一些情况下,固体支持物包含玻璃、塑料或其他能够包含将结合分子标签的捕获部分的材料。在一些情况下,珠子是磁珠。例如,标记有生物素的探针用包含链霉亲和素的磁珠捕获。将探针与核酸文库接触以允许探针与靶序列结合。在一些情况下,添加封闭多核酸以防止探针与附接到靶核酸的一个或多个衔接子序列结合。在一些情况下,封闭多核酸包含一个或多个核酸类似物。在一些情况下,封闭多核酸具有在一个或多个位置处取代胸腺嘧啶的尿嘧啶。
本文所述的探针可包含结合一个或多个靶核酸序列的互补靶标结合序列。在一些情况下,靶序列是任何DNA或RNA核酸序列。在一些情况下,靶序列可能比探针插入物(probeinsert)长。在一些情况下,靶序列可能比探针插入物短。在一些情况下,靶序列的长度可能与探针插入物一样长。例如,靶序列的长度可以是至少或约至少2、10、15、20、25、30、35、40、45、50、100、150、200、300、400、500、1000、2000、5,000、12,000、20,000个核苷酸或更多。靶序列的长度可以是至多或约至多20,000、12,000、5,000、2,000、1,000、500、400、300、200、150、100、50、45、35、30、25、20、19、18、17、16、15、14、13、12、11、10、2个核苷酸或更少。靶序列的长度可以处于2-20,000、3-12,000、5-5,5000、10-2,000、10-1,000、10-500、9-400、11-300、12-200、13-150、14-100、15-50、16-45、17-40、18-35和19-25之间。探针序列可以靶向与特定基因、疾病、调控途径或符合说明书的其他生物学功能相关联的序列。
在一些情况下,单个探针插入物与较大多核酸(例如,样品核酸)中的一个或多个靶序列互补。示例性靶序列是外显子。在一些情况下,一个或多个探针靶向单个靶序列。在一些情况下,单个探针可以靶向多于一个靶序列。在一些情况下,探针的靶标结合序列靶向靶序列和相邻序列。在一些情况下,第一探针靶向靶序列的第一区域和第二区域,并且第二探针靶向靶序列的第二区域和第三区域。在一些情况下,多个探针靶向单个靶序列,其中多个探针的靶标结合序列含有一个或多个关于与靶序列的区域的互补性而重叠的序列。在一些情况下,探针插入物关于与靶序列区域的互补性不重叠。在一些情况下,至少2、10、15、20、25、30、35、40、45、50、100、150、200、300、400、500、1000、2000、5,000、12,000、20,000、或多于20,000个探针靶向单个靶序列。在一些情况下,不多于4个针对单个靶序列的探针重叠,或不多于3、2、1个或没有靶向单个靶序列的探针重叠。在一些情况下,一个或多个探针不靶向靶序列中的所有碱基,留下一个或多个空位。在一些情况下,空位接近靶序列的中部。在一些情况下,空位在靶序列的5'或3'末端。在一些情况下,空位的长度为6个核苷酸。在一些情况下,空位的长度不多于1、2、3、4、5、6、7、8、9、10、20、30、40或不多于50个核苷酸。在一些情况下,空位的长度为至少1、2、3、4、5、6、7、8、9、10、20、30、40或至少50个核苷酸。在一些情况下,空位长度处于长度1-50、1-40、1-30、1-20、1-10、2-30、2-20、2-10、3-50、3-25、3-10或3-8个核苷酸之间。在一些情况下,当与互补序列杂交时,靶向序列的探针组在所述组中的探针之间不包含重叠区域。在一些情况下,当与互补序列杂交时,靶向序列的探针组在所述组中的探针之间没有任何空位。探针可以被设计成使与靶序列的均一结合最大。在一些情况下,探针被设计成使高或低GC含量的靶标结合序列、二级结构、重复/回文序列或可能干扰探针与靶标结合的其他序列特征最小。在一些情况下,单个探针可以靶向多个靶序列。
本文所述的探针文库可包含至少10、20、50、100、200、500、1,000、2,000、5,000、10,000、20,000、50,000、100,000、200,000、500,000、1,000,000或多于1,000,000个探针。探针文库可以具有不多于10、20、50、100、200、500、1,000、2,000、5,000、10,000、20,000、50,000、100,000、200,000、500,000或不多于1,000,000个探针。探针文库可包含10至500、20至1000、50至2000、100至5000、500至10,000、1,000至5,000、10,000至50,000、100,000至500,000或50,000至1,000,000个探针。探针文库可包含约370,000、400,000、500,000或更多个不同的探针。本文所述的探针文库可包含至少2000、5000、10,000、50,000、100,000、200,000、500,000、1,000,000、2,000,000、5,000,000、10,000,000、20,000,000、50,000,000、75,000,000、100,000,000或多于200,000,000个探针。本文所述的探针文库可包含约2000、5000、10,000、50,000、100,000、200,000、500,000、1,000,000、2,000,000、5,000,000、10,000,000、20,000,000、50,000,000、75,000,000、100,000,000或至少200,000,000个探针。本文所述的探针文库可包含不多于2000、5000、10,000、50,000、100,000、200,000、500,000、1,000,000、2,000,000、5,000,000、10,000,000、20,000,000、50,000,000、75,000,000、100,000,000或不多于200,000,000个探针。探针文库可包含10,000至500,000、20,000至100,000、50,000至200,000、100,000至5,000,000、500,000至10,000,000、1,000,000至5,000,000、10,000,000至50,000,000、100,000至5,000,000或500,000至10,000,000个探针。在一些情况下,探针文库包含至少1000、5000、10,000、100,000、500,000、100万、1000万、1亿、2亿或至少5亿个碱基。在一些情况下,探针文库包含约1000、5000、10,000、100,000、500,000、100万、1000万、1亿、2亿或约5亿个碱基。在一些情况下,探针文库包含1000至100万、5000至100万、10,000至500万、100,000至500万、500,000至1亿、100万至2亿、1000万至5亿、1亿至2.5亿或2亿至5亿个碱基。
下一代测序应用
多核苷酸文库的下游应用可包括下一代测序。例如,用受控的化学计量多核苷酸探针文库富集靶序列得到更有效的测序。用于捕获靶标或与靶标杂交的多核苷酸文库的性能可以通过许多描述效率、准确度和精确度的不同度量来定义。例如,Picard度量包括的变量诸如HS文库大小(文库中与靶区域对应的独特分子的数目,根据读段对计算)、平均靶标覆盖率(达到特定覆盖水平的碱基的百分比)、覆盖深度(包括给定核苷酸的读段的数量)、倍数富集(独特地映射到靶标的序列读段/映射到总样品的读段,乘以总样品长度/靶标长度)、脱诱饵碱基百分比(不对应于探针/诱饵的碱基的碱基的百分比)、脱靶百分比(与感兴趣的碱基不对应的碱基的百分比)、靶标上的可用碱基、AT或GC丢失率、fold 80碱基罚分(将80%的非零靶标升高至平均覆盖水平所需的倍数过覆盖)、零覆盖靶标百分比、PF读段(通过质量过滤器的读段数)、选定碱基百分比(诱饵上碱基和近诱饵碱基的总和除以总比对碱基)、重复百分比或符合说明书的其他变量。
读段深度(测序深度,或取样)表示获得序列的已测序核酸片段(“读段”)的总次数。理论读段深度定义为读取相同核苷酸的预期次数,假设读段在整个理想化基因组中完美分布。读段深度表示为覆盖百分比(或覆盖宽度)的函数。例如,100万个碱基的基因组的1000万个读段(完美分布)理论上导致100%的序列的10X读段深度。在实践中,可能需要较多读段(较高理论读段深度,或过取样)以获得一定百分比的靶序列的所需读段深度。使用受控的化学计量探针文库富集靶序列提高下游测序的效率,因为将需要较少的总读段来获得在所需百分比的靶序列上可接受的读段数目的结果。例如,在一些情况下,靶序列的55x理论读段深度导致至少90%的序列的至少30x覆盖率。在一些情况下,靶序列的不多于55x理论读段深度导致至少80%的序列的至少30x读段深度。在一些情况下,靶序列的不多于55x理论读段深度导致至少95%的序列的至少30x读段深度。在一些情况下,靶序列的不多于55x理论读段深度导致至少98%的序列的至少10x读段深度。在一些情况下,靶序列的55x理论读段深度导致至少98%的序列的至少20x读段深度。在一些情况下,靶序列的不多于55x理论读段深度导致至少98%的序列的至少5x读段深度。在与靶标杂交期间增加探针的浓度可以导致读段深度的增加。在一些情况下,探针浓度增加了至少1.5x、2.0x、2.5x、3x、3.5x、4x、5x或多于5x。在一些情况下,增加探针浓度导致读段深度的至少1000%增加,或20%、30%、40%、50%、60%、70%、80%、90%、100%、200%、300%、500%、750%、1000%或多于1000%增加。在一些情况下,将探针浓度增加3x导致读段深度的1000%增加。在一些情况下,进行测序以实现至少30X、50X、100X、150X、200X、250X、300X、500X或至少1000X的理论读段深度。在一些情况下,进行测序以实现约30X、50X、100X、150X、200X、250X、300X、500X或约1000X的理论读段深度。在一些情况下,进行测序以实现不多于30X、50X、100X、150X、200X、250X、300X、500X或不多于1000X的理论读段深度。在一些情况下,进行测序以实现至少30X、50X、100X、150X、200X、250X、300X、500X或至少1000X的实际读段深度。在一些情况下,进行测序以实现不多于30X、50X、100X、150X、200X、250X、300X、500X或不多于1000X的实际读段深度。在一些情况下,进行测序以实现约30X、50X、100X、150X、200X、250X、300X、500X或约1000X的实际读段深度。
在靶率表示与所需靶序列对应的测序读段的百分比。在一些情况下,受控的化学计量多核苷酸探针文库得到至少30%,或至少35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%或至少90%的在靶率。在与靶核酸接触期间增加多核苷酸探针的浓度导致在靶率的增加。在一些情况下,探针浓度增加了至少1.5x、2.0x、2.5x、3x、3.5x、4x、5x或多于5x。在一些情况下,增加探针浓度导致在靶结合的至少20%增加,或10%、20%、30%、40%、50%、60%、70%、80%、90%、100%、200%、300%或至少500%增加。在一些情况下,将探针浓度增加3x导致在靶率的20%增加。
在一些情况下,覆盖均一性被计算为作为靶序列同一性的函数的读段深度。较高的覆盖均一性导致获得所需读段深度所需的测序读段的数目较少。例如,靶序列的特性可能影响读段深度,例如,高或低GC或AT含量、重复序列、尾接腺嘌呤、二级结构、对靶序列结合(用于扩增、富集或检测)的亲和力、稳定性、解链温度、生物活性、组装成较大片段的能力、含有修饰的核苷酸或核苷酸类似物的序列或多核苷酸的任何其他特性。用受控的化学计量学多核苷酸探针文库富集靶序列在测序之后得到较高的覆盖均一性。在一些情况下,95%的序列的读段深度在平均文库读段深度的1x内,或在平均文库读段深度的约0.05、0.1、0.2、0.5、0.7、1、1.2、1.5、1.7或约2x内。在一些情况下,80%、85%、90%、95%、97%或99%的序列的读段深度在平均值的1x内。
用多核苷酸探针文库富集靶核酸
本文所述的探针文库可用于富集样品多核苷酸群体中存在的靶多核苷酸,以便用于多种下游应用。在一些情况下,样品获自一个或多个来源,并且对样品多核苷酸群体进行分离。样品获自(作为非限制性实例)生物来源,诸如唾液、血液、组织、皮肤或完全合成来源。对从样品获得的多个多核苷酸进行片段化、末端修复和腺苷酸化以形成双链样品核酸片段。在一些情况下,末端修复通过用在适当的缓冲液中的一种或多种酶(诸如T4 DNA聚合酶、克列诺酶(klenow enzyme)和T4多核苷酸激酶)进行处理来完成。在一些情况下,用3'至5'exo minus克列诺片段和dATP添加有利于连接到衔接子的核苷酸悬垂。
可以用连接酶(诸如T4连接酶)将衔接子(诸如通用衔接子)连接到样品多核苷酸片段的两个末端,以产生加衔接子标签的多核苷酸链文库,并且加衔接子标签的多核苷酸文库用引物(诸如通用引物)扩增。在一些情况下,衔接子是包含一个或多个引物结合位点、一个或多个接枝区域和一个或多个索引(或条形码)区域的Y形衔接子。在一些情况下,一个或多个索引区域存在于衔接子的每条链上。在一些情况下,接枝区域与流动池表面互补,并且有利于对样品文库的下一代测序。在一些情况下,Y形衔接子包含部分互补序列。在一些情况下,Y形衔接子包含单个胸苷悬垂,其与双链加衔接子标签的多核苷酸链的悬垂腺嘌呤杂交。Y形衔接子可包含修饰的核酸,其对切割有抗性。例如,使用硫代磷酸酯主链将悬垂胸苷附接到衔接子的3'末端。如果使用通用引物,则对文库进行扩增以将条形码化引物添加到衔接子。在一些情况下,富集工作流程描绘于图13中。双链加衔接子标签的多核苷酸链209的文库208与多核苷酸探针217接触,以形成杂交对218。将此类对与未杂交的片段分开212,并且与探针分离以产生富集的文库213。然后可以对富集的文库进行测序214。
然后在存在衔接子封闭剂的情况下,将双链样品核酸片段文库变性。衔接子封闭剂使探针与加衔接子标签的多核苷酸链上存在的衔接子序列(而不是靶序列)的脱靶杂交最小化,并且/或者防止衔接子的分子内杂交(即,“菊花链接”)。在一些情况下,变性在96℃下,或在约85、87、90、92、95、97、98或约99℃下进行。在一些情况下,在96℃下,在约85、87、90、92、95、97、98或99℃下,将多核苷酸靶向文库(探针文库)在杂交溶液中变性。在合适的温度下,将变性的加衔接子标签的多核苷酸文库和杂交溶液孵育合适的时间,以使探针与其互补靶序列杂交。在一些情况下,合适的杂交温度为约45至80℃,或至少45、50、55、60、65、70、75、80、85或90℃。在一些情况下,杂交温度为70℃。在一些情况下,合适的杂交时间为16小时,或至少4、6、8、10、12、14、16、18、20、22或多于22小时,或约12至20小时。然后将结合缓冲液添加至杂交的加衔接子标签的多核苷酸探针,并且使用包含捕获部分的固体支持物选择性地结合杂交的加衔接子标签的多核苷酸探针。用缓冲液洗涤固体支持物以去除未结合的多核苷酸,然后添加洗脱缓冲液以将富集的、加标签的多核苷酸片段从固体支持物释放。在一些情况下,将固体支持物洗涤2次,或1、2、3、4、5或6次。对加衔接子标签的多核苷酸片段的富集文库进行扩增,并且对富集文库进行测序。
可从样品获得多个核酸(即,基因组序列),并且将其片段化,任选地末端修复和腺苷酸化。将衔接子连接到多核苷酸片段的两个末端以产生加衔接子标签的多核苷酸链文库,并且对加衔接子标签的多核苷酸文库进行扩增。然后在高温(优选地,96℃)下,在存在衔接子封闭剂的情况下,将加衔接子标签的多核苷酸文库变性。在高温(优选地约90至99℃)下,将多核苷酸靶向文库(探针文库)在杂交溶液中变性,并且在约45至80℃下,将其与变性的、加标签的多核苷酸文库在杂交溶液中合并,持续约10至24小时。然后将结合缓冲液添加至杂交的、加标签的多核苷酸探针,并且使用包含捕获部分的固体支持物选择性地结合杂交的、加衔接子标签的多核苷酸探针。固体支持物用缓冲液洗涤一次或多次(优选地,约2至5次)以去除未结合的多核苷酸,然后添加洗脱缓冲液以将富集的、加衔接子标签的多核苷酸片段从固体支持物释放。对加衔接子标签的多核苷酸片段的富集文库进行扩增,然后对文库进行测序。所述方法中还采用了替代变量,诸如孵育时间、温度、反应体积/浓度、洗涤次数或符合说明书的其他变量。
在任何情况下,对寡核苷酸的检测或定量分析可通过测序完成。可以经由通过本领域已知的任何合适的方法对所有寡核苷酸进行完全测序来检测子单元或整体合成的寡核苷酸,例如Illumina边合成边测序、PacBio纳米孔测序或BGI/MGI纳米球测序,包括本文所述的测序方法。
可以通过本领域熟知的经典Sanger测序方法完成测序。还可以使用高通量系统完成测序,系统中的一些允许在其并入到增长的链之后或时立即检测测序的核苷酸,即,在红色时间或基本上实时检测序列。在一些情况下,高通量测序每小时生成至少1,000、至少5,000、至少10,000、至少20,000、至少30,000、至少40,000、至少50,000、至少100,000或至少500,000个序列读段;每个读段为至少50、至少60、至少70、至少80、至少90、至少100、至少120或至少150个碱基/读段。
在一些情况下,高通量测序涉及使用可通过Illumina的基因组分析仪IIX、MiSeq个人测序仪或HiSeq系统(诸如,使用HiSeq 2500、HiSeq 1500、HiSeq 2000、HiSeq 1000、iSeq 100、Mini Seq、MiSeq、NextSeq 550、NextSeq 2000、NextSeq 550或NovaSeq 6000的那些)可用的技术。这些机器使用可逆的基于终止子的边合成边测序化学。这些机器可以在13-44小时内生成6000Gb或更多读段。可以利用较小系统以便在3、2、1天或更短时间内运行。可以使用短合成周期使获得测序结果所花费的时间最少。
在一些情况下,高通量测序涉及使用ABI Solid系统提供的技术。这种遗传分析平台实现对连接到珠子的克隆扩增的DNA片段进行大规模并行测序。测序方法基于与染料标记的寡核苷酸的顺序连接。
下一代测序可包括离子半导体测序(例如,使用来自Life Technologies(IonTorrent)的技术)。离子半导体测序可以利用这样的事实,即当将核苷酸并入DNA链中时,可以释放离子。为了进行离子半导体测序,可以形成显微机械加工孔的高密度阵列。每个孔都可以容纳单个DNA模板。孔下方可以是离子敏感层,并且离子敏感层下方可以是离子传感器。当将核苷酸添加到DNA中时,可以释放H+,这可以通过pH的变化来测量。H+离子可以通过半导体传感器转化为电压并记录。可以用一个接一个的核苷酸顺序地灌满阵列芯片。可以不需要扫描、光或相机。在一些情况下,使用IONPROTONTM测序仪对核酸进行测序。在一些情况下,使用IONPGMTM测序仪。Ion Torrent Personal Genome Machine(PGM)可以在两小时内进行1000万次读取。
在一些情况下,高通量测序涉及使用通过Helicos BioSciences Corporation(Cambridge,Mass.)可用的技术,诸如单分子边合成边测序(SMSS)方法。SMSS是独特的,因为它允许在长达24小时内对整个人基因组进行测序。最后,SMSS是强大的,因为与MW技术一样,它不需要在杂交之前进行预扩增步骤。事实上,SMSS不需要任何扩增。
在一些情况下,高通量测序涉及使用通过454Lifesciences,Inc.(Branford,Conn.)可用的技术,诸如Pico Titer Plate装置,其包括光纤板,光纤板传输通过测序反应生成的化学发光信号以被仪器中的CCD相机记录。光纤的这种使用允许在4.5小时内检测最少2000万个碱基对。
用于使用珠子扩增大然后进行光纤检测的方法描述于Marguiles,M.等人“Genomesequencing in microfabricated high-density picolitre reactors”,Nature,doi:10.1038/nature03959中。
在一些情况下,使用克隆单分子阵列(Solexa,Inc.)或利用可逆终止化学的边合成边测序(SBS)进行高通量测序。Constans,A.,The Scientist 2003,17(13):36。可以使用本领域已知的任何合适的测序方法实现寡核苷酸的高通量测序,诸如通过PacificBiosciences、Complete Genomics、Genia Technologies、Halcyon Molecular、OxfordNanopore Technologies等商业化的那些。总的来说,此类系统涉及经由在寡核苷酸的分子上测量的聚合反应暂时添加碱基来对具有多个碱基的靶寡核苷酸分子进行测序,即,实时跟踪待测序的模板寡核苷酸分子上核酸聚合酶的活性。然后可以通过碱基添加的序列中的每一步核酸聚合酶的催化活性鉴别哪个碱基并入到靶核苷酸的增长的互补链中来推导序列。靶寡核苷酸分子复合物上的聚合酶提供在适于沿着靶寡核苷酸分子移动并且在活性位点延伸寡核苷酸引物的位置中。邻近活性位点提供多个标记类型的核苷酸类似物,每个可区分类型的核苷酸类似物与靶寡核苷酸序列中的不同核苷酸互补。通过使用聚合酶以将核苷酸类似物添加到寡核苷酸链的活性位点来延伸增长的寡核苷酸链,其中添加的核苷酸类似物与靶寡核苷酸活性位点处的核苷酸互补。鉴别由于聚合步骤而添加到寡核苷酸引物的核苷酸类似物。重复提供标记的核苷酸类似物、聚合增长的寡核苷酸链和鉴别添加的核苷酸类似物的步骤,以使得进一步延伸寡核苷酸链并确定靶寡核苷酸的序列。
下一代测序技术可以包括Pacific Biosciences的实时(SMRTTM)技术。在SMRT中,四个DNA碱基中的每一个都可以附接到四种不同荧光染料中的一种。这些染料可以是磷酸连接的。单个DNA聚合酶可以用模板单链DNA的单分子固定在零模波导(ZMW)的底部。ZMW可以是一种限制结构,它能够抵抗可以快速扩散进出ZMW的荧光核苷酸的背景观察到通过DNA聚合酶的单个核苷酸的并入(以微秒为单位)。将核苷酸并入到增长的链中可能需要几毫秒。在此期间,荧光标记可被激发并产生荧光信号,并且可切割掉荧光标签。ZMW可以从下面受照。来自激发光束的衰减光可以穿透每个ZMW的下部20-30nm。可以创建检测限为20仄普托升(10″升)的显微镜。微小的检测体积可以在降低背景噪声方面提供1000倍的改善。对染料的对应荧光的检测可以指示并入了哪个碱基。可以重复所述过程。
在一些情况下,下一代测序是纳米孔测序(参见例如,Soni G V和Meller A.(2007)Clin Chem 53:1996-2001)。纳米孔可以是直径约一纳米的小孔。将纳米孔浸入导电流体中并在其上施加电势可由于离子通过纳米孔的传导而产生轻微的电流。流动的电流的量可能对纳米孔的大小敏感。当DNA分子穿过纳米孔时,DNA分子上的每个核苷酸都可以不同程度地阻塞纳米孔。因此,当DNA分子穿过纳米孔时穿过纳米孔的电流的变化可以表示DNA序列的读数。纳米孔测序技术可以来自Oxford Nanopore Technologies,例如,GridION系统。可以将单个纳米孔插入跨微孔顶部的聚合物膜中。每个微孔都可具有电极以用于单独感测。微孔可制成阵列芯片,每个芯片具有100,000个或更多微孔(例如,多于200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000或1,000,000)。可以使用仪器(或节点(node))分析芯片。可以实时分析数据。一次可以操作一台或多台仪器。纳米孔可以是蛋白质纳米孔,例如蛋白质α-溶血素、七聚体蛋白质孔。纳米孔可以是固态纳米孔,例如,在合成膜中形成的纳米孔(例如,SiNx或SiO2)。纳米孔可以是混合孔(例如,将蛋白质孔整合到固态膜中)。纳米孔可以是具有整合的传感器(例如,隧道电极检测器、电容检测器或基于石墨烯的纳米间隙或边缘状态检测器)的纳米孔(参见例如,Garaj等人(2010)Nature vol.67,doi:10.1038/nature09379)。纳米孔可以被官能化以用于分析特定类型的分子(例如,DNA、RNA或蛋白质)。纳米孔测序可以包括“链测序”,其中完整的DNA聚合物可以在DNA移位孔时实时测序的情况下穿过蛋白质纳米孔。酶可以分开双链DNA的链,并且通过纳米孔输送链。DNA的一个末端可具有发夹,并且系统可读取两条链。在一些情况下,纳米孔测序是“核酸外切酶测序”,其中单个核苷酸可通过持续性核酸外切酶从DNA链切割,并且核苷酸可以穿过蛋白质纳米孔。核苷酸可以瞬时结合孔中的分子(例如,环糊精)。电流的特征性中断可用于鉴别碱基。
可以使用来自GENIA的纳米孔测序技术。工程化的蛋白质孔可以嵌入在脂质双层膜中。“主动控制”技术可用于实现高效的纳米孔-膜组装和控制DNA通过通道的移动。在一些情况下,纳米孔测序技术来自NABsys。基因组DNA可以被片段化成平均长度约100kb的链。可以将100kb片段制成单链,随后将其与6-mer探针杂交。具有探针的基因组片段可以被驱动通过纳米孔,这可以得到电流相对于时间的追踪。电流追踪可以提供探针在每个基因组片段上的位置。可以排列基因组片段以得到基因组的探针图谱。所述过程可以针对探针文库并行进行。可以生成每个探针的基因组长度探针图谱。可以使用称为“移动窗口边杂交边测序(moving window Sequencing By Hybridization,mwSBH)”的过程修复错误。在一些情况下,纳米孔测序技术来自IBM/Roche。可以使用电子束在微芯片中制作纳米孔大小的开口。可以使用电场将DNA拉动或穿线通过纳米孔。纳米孔中的DNA晶体管装置可包含交替的纳米大小的金属和电介质层。DNA主链中的离散电荷可能被DNA纳米孔内的电场捕获。关闭和打开栅极电压(gate voltage)可使DNA序列被读取。
下一代测序可包括DNA纳米球测序(例如,通过Complete Genomics所进行;参见例如,Drmanac等人(2010)Science 327:78-81)。可对DNA进行分离、片段化和大小选择。例如,可将DNA片段化(例如,通过超声处理)至平均长度为约500bp。衔接子(Adl)可以附接到片段的末端。衔接子可用于与锚杂交以进行测序反应。两个末端都结合了衔接子的DNA可以进行PCR扩增。可以修饰衔接子序列,以使得互补单链末端彼此结合,形成环状DNA。可将DNA甲基化以保护其免受后续步骤中使用的IIS型限制性酶的切割。衔接子(例如,右衔接子)可以有限制性识别位点,并且限制性识别位点可以保持非甲基化。衔接子中非甲基化的限制性识别位点可被限制性酶(例如,Acul)识别,并且DNA可被Acul在右衔接子右侧13bp处切割,形成线性双链DNA。可以将第二圈右和左衔接子(Ad2)连接到线性DNA的任一末端,并且可以对结合了两个衔接子的所有DNA进行PCR扩增(例如,通过PCR)。可以修饰Ad2序列以使它们彼此结合并形成环状DNA。DNA可以被甲基化,但限制性酶识别位点可以在左Adl衔接子上保持非甲基化。可以应用限制性酶(例如,Acul),并且DNA可以在Adl左侧13bp处被切割以形成线性DNA片段。可以将第三圈右和左衔接子(Ad3)连接到线性DNA的右侧翼和左侧翼,并且可以对所得片段进行PCR扩增。可以修饰衔接子,以使得它们可以彼此结合并形成环状DNA。可以添加III型限制酶(例如,EcoP15);EcoP15可以在Ad3左侧26bp并且在Ad2右侧26bp处切割DNA。这种切割可去除大DNA区段并再次将DNA线性化。可以将第四圈右和左衔接子(Ad4)连接到DNA,可以对DNA进行扩增(例如,通过PCR)并且修饰,以使得它们彼此结合并形成完整的环状DNA模板。
滚环式复制(例如,使用Phi 29DNA聚合酶)可用于扩增小DNA片段。四个衔接子序列可含有可以杂交的回文序列,并且单链可以折叠到自身以形成平均直径为约200-300纳米的DNA纳米球(DNBTM)。DNA纳米球可以附接(例如,通过吸附)到微阵列(测序流动池)。流动池可以是涂覆有二氧化硅、钛和六甲基二硅氮烷(HMDS)以及光致抗蚀剂材料的硅晶片。可以通过非链式测序,通过将荧光探针连接到DNA来进行测序。询问位置的荧光颜色可以通过高分辨率相机可视化。可以确定衔接子序列之间的核苷酸序列的同一性。
可以在衔接子连接之前富集多核苷酸群体。在一个实例中,从样品获得多个多核苷酸,对其进行片段化,任选地末端修复并且在高温(优选地,90-99℃)下变性。在高温(优选地约90至99℃)下,将多核苷酸靶向文库(探针文库)在杂交溶液中变性,并且在约45至80℃下,将其与变性的、加标签的多核苷酸文库在杂交溶液中合并,持续约10至24小时。然后将结合缓冲液添加至杂交的、加标签的多核苷酸探针,并且使用包含捕获部分的固体支持物选择性地结合杂交的、加衔接子标签的多核苷酸探针。固体支持物用缓冲液洗涤一次或多次(优选地,约2至5次)以去除未结合的多核苷酸,然后添加洗脱缓冲液以将富集的、加衔接子标签的多核苷酸片段从固体支持物释放。然后将富集的多核苷酸片段聚腺苷酸化,将衔接子连接到多核苷酸片段的两个末端以产生加衔接子标签的多核苷酸链文库,并且对加衔接子标签的多核苷酸文库进行扩增。然后对加衔接子标签的多核苷酸文库进行测序。
还可以使用多核苷酸靶向文库通过与非所需片段杂交以从多个多核苷酸过滤非所需序列。例如,从样品获得多个多核苷酸,并且对其进行片段化,任选地末端修复和腺苷酸化。将衔接子连接到多核苷酸片段的两个末端以产生加衔接子标签的多核苷酸链文库,并且对加衔接子标签的多核苷酸文库进行扩增。替代地,在富集样品多核苷酸之后,改为进行腺苷酸化和衔接子连接步骤。然后在高温(优选地,90-99℃)下,在存在衔接子封闭剂的情况下,将加衔接子标签的多核苷酸文库变性。在高温(优选地约90至99℃)下,将被设计来去除非所需非靶序列的多核苷酸过滤文库(探针文库)在杂交溶液中变性,并且在约45至80℃下,将其与变性的、加标签的多核苷酸文库在杂交溶液中合并,持续约10至24小时。然后将结合缓冲液添加至杂交的、加标签的多核苷酸探针,并且使用包含捕获部分的固体支持物选择性地结合杂交的、加衔接子标签的多核苷酸探针。固体支持物用缓冲液洗涤一次或多次(优选地,约1至5次)以洗脱未结合的、加衔接子标签的多核苷酸片段。对未结合的、加衔接子标签的多核苷酸片段的富集文库进行扩增,然后对扩增的文库进行测序。
高度并行从头核酸合成
本文描述了一种平台方法,其利用从多核苷酸合成到硅上纳米孔内基因组装的末端到末端过程的小型化、并行化及垂直整合来创建革命性的合成平台。本文所述的装置采用与96孔板相同的占地面积(footprint)提供了这样一种硅合成平台,与传统合成方法相比,硅合成平台能够将通量提高100至1,000倍,其中在单次高度并行化运行中产生高达大约1,000,000个多核苷酸。在一些情况下,本文所述的单个硅板提供约6,100个不相同的多核苷酸的合成。在一些情况下,每个不相同的多核苷酸位于簇内。簇可以包含50至500个不相同的多核苷酸。
本文所述的方法提供了各自编码至少一个预定参考核酸序列的预定变体的核苷酸的文库的合成。在一些情况下,预定参考序列是编码蛋白质的核酸序列,并且变体文库包含编码至少单个密码子的变异的序列,使得由合成核酸编码的后续蛋白质中单个残基的多个不同变体通过标准翻译过程生成。可以通过将核苷酸变化并入到重叠或钝性末端(bluntended)多核苷酸引物来引入核酸序列中合成的特定改变。替代地,多核苷酸群体可共同编码长核酸(例如,基因)及其变体。在这种步骤中,多核苷酸群体可以杂交并经受标准分子生物学技术以形成长核酸(例如,基因)及其变体。当长核酸(例如,基因)及其变体在细胞中表达时,生成变体蛋白文库。相似地,这里提供了用于合成编码RNA序列(例如,miRNA、shRNA和mRNA)或DNA序列(例如,增强子、启动子、UTR和终止子区域)的变体文库的方法。这里还提供了从使用这里描述的方法合成的文库中选出的变体的下游应用。下游应用包括鉴别生物学相关功能增强(例如,生化亲和力、酶活性、细胞活性的变化)并且用于治疗或预防疾病状态的变体核酸或蛋白质序列。
基底
本文提供了包含多个簇的基底,其中每个簇包含多个支持多核苷酸的附接和合成的座位。如本文所用的术语“座位”是指结构上的离散区域,其提供了对编码单个预定序列的多核苷酸从表面延伸的支持。在一些情况下,座位在二维表面(例如,基本上为平面的表面)上。在一些情况下,座位是指表面上离散的升高或降低的部位,例如孔、微孔、通道或柱子。在一些情况下,座位的表面包含这样的材料,其被活化官能化,以附接至少一个核苷酸以供多核苷酸的合成,或者优选地,附接相同核苷酸的群体以供多核苷酸群体的合成。在一些情况下,多核苷酸是指编码相同核酸序列的多核苷酸群体。在一些情况下,装置的表面包括基底的一个或多个表面。
本文提供了可包含支持在共同支持物上的可寻址位置处合成具有不同预定序列的多个多核苷酸的表面的结构。在一些情况下,装置为合成多于2,000、5,000、10,000、20,000、30,000、50,000、75,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,200,000、1,400,000、1,600,000、1,800,000、2,000,000、2,500,000、3,000,000、3,500,000、4,000,000、4,500,000、5,000,000、10,000,000或更多个不相同的多核苷酸提供支持。在一些情况下,装置为合成多于2,000、5,000、10,000、20,000、30,000、50,000、75,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,200,000、1,400,000、1,600,000、1,800,000、2,000,000、2,500,000、3,000,000、3,500,000、4,000,000、4,500,000、5,000,000、10,000,000或更多个编码不同的序列的多核苷酸提供支持。在一些情况下,至少一部分多核苷酸具有相同的序列或被配置成用相同的序列合成。
本文提供了用于长度为约5、10、20、30、40、50、60、70、80、90、100、125、150、175、200、225、250、275、300、325、350、375、400、425、450、475、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900或2000个碱基的多核苷酸的制造和增长的方法和装置。在一些情况下,所形成的多核苷酸的长度为约5、10、20、30、40、50、60、70、80、90、100、125、150、175、200或225个碱基。多核苷酸的长度可为至少5、10、20、30、40、50、60、70、80、90或100个碱基。多核苷酸的长度可为10至225个碱基、12至100个碱基、20至150个碱基、20至130个碱基或30至100个碱基。
在一些情况下,多核苷酸在基底的不同座位上合成,其中每个座位都支持多核苷酸群体的合成。在一些情况下,每个座位支持合成与在另一座位上增长的多核苷酸群体具有不同序列的多核苷酸群体。在一些情况下,装置的座位位于多个簇内。在一些情况下,装置包含至少10、500、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、11000、12000、13000、14000、15000、20000、30000、40000、50000个或更多个簇。在一些情况下,装置包含多于2,000、5,000、10,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,100,000、1,200,000、1,300,000、1,400,000、1,500,000、1,600,000、1,700,000、1,800,000、1,900,000、2,000,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,200,000、1,400,000、1,600,000、1,800,000、2,000,000、2,500,000、3,000,000、3,500,000、4,000,000、4,500,000、5,000,000或10,000,000个或更多个不同的座位。在一些情况下,装置包含约10,000个不同的座位。单簇内的座位的量在不同情况下是不同的。在一些情况下,每个簇包含1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、120、130、150、200、300、400、500、1000个或更多个座位。在一些情况下,每个簇包含约50-500个座位。在一些情况下,每个簇包含约100-200个座位。在一些情况下,每个簇包含约100-150个座位。在一些情况下,每个簇包含约109、121、130或137个座位。在一些情况下,每个簇包含约19、20、61、64个或更多个座位。
在装置上合成的不同多核苷酸的数目取决于基底中可用的不同座位的数目。在一些情况下,装置的簇内座位的密度为至少或约1个座位/mm2、10个座位/mm2、25个座位/mm2、50个座位/mm2、65个座位/mm2、75个座位/mm2、100个座位/mm2、130个座位/mm2、150个座位/mm2、175个座位/mm2、200个座位/mm2、300个座位/mm2、400个座位/mm2、500个座位/mm2、1,000个座位/mm2或更多。在一些情况下,装置包含约10个座位/mm2至约500mm2、约25个座位/mm2至约400mm2、约50个座位/mm2至约500mm2、约100个座位/mm2至约500mm2、约150个座位/mm2至约500mm2、约10个座位/mm2至约250mm2、约50个座位/mm2至约250mm2、约10个座位/mm2至约200mm2或约50个座位/mm2至约200mm2。在一些情况下,簇内两个相邻座位的中心的距离为约10um至约500um、约10um至约200um或约10um至约100um。在一些情况下,相邻座位的两个中心的距离大于约10um、20um、30um、40um、50um、60um、70um、80um、90um或100um。在一些情况下,两个相邻座位的中心的距离小于约200um、150um、100um、80um、70um、60um、50um、40um、30um、20um或10um。在一些情况下,每个座位的宽度为约0.5um、1um、2um、3um、4um、5um、6um、7um、8um、9um、10um、20um、30um、40um、50um、60um、70um、80um、90um或100um。在一些情况下,每个座位的宽度为约0.5um至100um、约0.5um至50um、约10um至75um或约0.5um至50um。
在一些情况下,装置内簇的密度是至少或约1个簇/100mm2、1个簇/10mm2、1个簇/5mm2、1个簇/4mm2、1个簇/3mm2、1个簇/2mm2、1个簇/1mm2、2个簇/1mm2、3个簇/1mm2、4个簇/1mm2、5个簇/1mm2、10个簇/1mm2、50个簇/1mm2或更多。在一些情况下,装置包含约1个簇/10mm2至约10个簇/1mm2。在一些情况下,两个相邻簇的中心的距离小于约50um、100um、200um、500um、1000um、或2000um或5000um。在一些情况下,两个相邻簇的中心的距离为约50um至约100um、约50um至约200um、约50um至约300um、约50um至约500um以及约100um至约2000um。在一些情况下,两个相邻簇的中心的距离为约0.05mm至约50mm、约0.05mm至约10mm、约0.05mm至约5mm、约0.05mm至约4mm、约0.05mm至约3mm、约0.05mm至约2mm、约0.1mm至10mm、约0.2mm至10mm、约0.3mm至约10mm、约0.4mm至约10mm、约0.5mm至10mm、约0.5mm至约5mm或约0.5mm至约2mm。在一些情况下,每个簇具有约0.5至2mm、约0.5至1mm或约1至2mm的沿着一个方向上的直径或宽度。在一些情况下,每个簇具有约0.5、0.6、0.7、0.8、0.9、1、1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9或2mm的沿着一个方向上的直径或宽度。在一些情况下,每个簇具有约0.5、0.6、0.7、0.8、0.9、1、1.1、1.15、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9或2mm的沿着一个方向上的内径或宽度。
装置可以是大约标准96孔板的大小,例如,约100至约200mm乘以约50至约150mm。在一些情况下,装置具有小于或等于约1000mm、500mm、450mm、400mm、300mm、250nm、200mm、150mm、100mm或50mm的直径。在一些情况下,装置的直径为约25mm至1000mm、约25mm至约800mm、约25mm至约600mm、约25mm至约500mm、约25mm至约400mm、约25mm至约300mm或约25mm至约200。装置大小的非限制性实例包括约300mm、200mm、150mm、130mm、100mm、76mm、51mm和25mm。在一些情况下,装置具有至少约100mm2、200mm2、500mm2、1,000mm2、2,000mm2、5,000mm2、10,000mm2、12,000mm2、15,000mm2、20,000mm2、30,000mm2、40,000mm2、50,000mm2或更大的平面表面积。在一些情况下,装置的厚度为约50mm至约2000mm、约50mm至约1000mm、约100mm至约1000mm、约200mm至约1000mm或约250mm至约1000mm。装置厚度的非限制性实例包括275mm、375mm、525mm、625mm、675mm、725mm、775mm和925mm。在一些情况下,装置的厚度随直径而变化,并且取决于基底的组成。例如,包含不同于硅的材料的装置的厚度与相同直径的硅装置不同。装置厚度可以通过所使用的材料的机械强度来确定,并且装置必须足够厚以支持其自身重量而不会在处理期间破裂。在一些情况下,结构包括本文所述的多个装置。
表面材料
本文提供了一种装置,其包括表面,其中表面被修饰以在预定位置处并且在所得低错误率、低丢失率、高产率和高寡核苷酸表示的情况下支持多核苷酸合成。在一些情况下,本文提供的用于多核苷酸合成的装置的表面由能够修饰以支持从头多核苷酸合成反应的多种材料制成。在一些情况下,装置具有足够的导电性,例如,能够跨整个装置或其一部分形成均匀的电场。本文所述的装置可包含柔性材料。示例性柔性材料包括但不限于改性尼龙、未改性尼龙、硝化纤维和聚丙烯。本文所述的装置可包含刚性材料。示例性刚性材料包括但不限于玻璃、熔融石英、硅、二氧化硅、氮化硅、塑料(例如,聚四氟乙烯、聚丙烯、聚苯乙烯、聚碳酸酯及其共混物)以及金属(例如,金、铂)。本文所公开的装置可由包含硅、聚苯乙烯、琼脂糖、葡聚糖、纤维素聚合物、聚丙烯酰胺、聚二甲基硅氧烷(PDMS)、玻璃或其任何组合的材料制成。在一些情况下,本文所公开的装置是用本文所列的材料或本领域已知的任何其他合适材料的组合制造的。
本文所述的示例性材料的拉伸强度的清单提供如下:尼龙(70MPa)、硝化纤维(1.5MPa)、聚丙烯(40MPa)、硅(268MPa)、聚苯乙烯(40MPa)、琼脂糖(1-10MPa)、聚丙烯酰胺(1-10MPa)、聚二甲基硅氧烷(PDMS)(3.9-10.8MPa)。本文所述的固体支持物的拉伸强度可为1至300、1至40、1至10、1至5或3至11MPa。本文所述的固体支持物的拉伸强度可为约1、1.5、2、3、4、5、6、7、8、9、10、11、20、25、40、50、60、70、80、90、100、150、200、250、270MPa或更多。在一些情况下,本文所述的装置包含用于多核苷酸合成的固体支持物,其为能够存储在连续环或卷轴中的柔性材料形式,例如条带或柔性片材。
杨氏模量测量材料在负载下对弹性(可恢复)形变的抗性。本文所述的示例性材料的刚度的杨氏模量的清单提供如下:尼龙(3GPa)、硝化纤维(1.5GPa)、聚丙烯(2GPa)、硅(150GPa)、聚苯乙烯(3GPa)、琼脂糖(1-10GPa)、聚丙烯酰胺(1-10GPa)、聚二甲基硅氧烷(PDMS)(1-10GPa)。本文所述的固体支持物的杨氏模量可为1至500、1至40、1至10、1至5或3至11GPa。本文所述的固体支持物的杨氏模量可为约1、1.5、2、3、4、5、6、7、8、9、10、11、20、25、40、50、60、70、80、90、100、150、200、250、400、500GPa或更多。由于柔性与刚度之间的关系是彼此相反的,所以柔性材料的杨氏模量低,并且其形状在负载下显著改变。
在一些情况下,本文所公开的装置包含二氧化硅基部和氧化硅表面层。替代地,装置可以具有氧化硅基部。此处提供的装置的表面可以是纹理化的,导致用于多核苷酸合成的总体表面积增加。本文所公开的装置可包含至少5%、10%、25%、50%、80%、90%、95%或99%的硅。本文所公开的装置可以由绝缘体上硅(SOI)晶片制成。
表面架构
本文提供了包括凸起和/或凹陷特征的装置。具有这类特征的一个益处是用来支持多核苷酸合成的表面积增大。在一些情况下,具有凸起和/或凹陷特征的装置被称为三维基底。在一些情况下,三维装置包含一个或多个通道。在一些情况下,一个或多个座位包含通道。在一些情况下,通道可经由沉积装置(诸如多核苷酸合成仪)进行试剂沉积。在一些情况下,试剂和/或流体收集在与一个或多个通道流体连通的较大的孔中。例如,装置包含与具有簇的多个座位对应的多个通道,并且所述多个通道与簇的一个孔流体连通。在一些方法中,多核苷酸文库在簇的多个座位中合成。
在一些情况下,所述结构被配置为允许用于表面上多核苷酸合成的受控的流动和质量传递路径。在一些情况下,装置的构造允许在多核苷酸合成过程中质量传递路径、化学暴露次数和/或洗涤功效的受控且均匀的分布。在一些情况下,装置的构造允许增加扫描效率,例如通过提供足以用于增长多核苷酸的体积,使得由增长的多核苷酸所排除的体积占可用于或适合于增长多核苷酸的初始可用体积的不多于50%、45%、40%、35%、30%、25%、20%、15%、14%、13%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%或更少。在一些情况下,三维结构允许流体的受管控的流动,从而允许化学暴露的快速交换。
本文提供了合成量为1fM、5fM、10fM、25fM、50fM、75fM、100fM、200fM、300fM、400fM、500fM、600fM、700fM、800fM、900fM、1pM、5pM、10pM、25pM、50pM、75pM、100pM、200pM、300pM、400pM、500pM、600pM、700pM、800pM、900pM或更多的DNA的方法。在一些情况下,多核苷酸文库可跨越的长度为基因的约1%、2%、3%、4%、5%、10%、15%、20%、30%、40%、50%、60%、70%、80%、90%、95%或100%。基因可以变化高达约1%、2%、3%、4%、5%、10%、15%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%或100%。
不相同的多核苷酸可共同编码基因的至少1%、2%、3%、4%、5%、10%、15%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%或100%的序列。在一些情况下,多核苷酸可编码基因的50%、60%、70%、80%、85%、90%、95%或更多的序列。在一些情况下,多核苷酸可编码基因的80%、85%、90%、95%或更多的序列。
在一些情况下,通过物理结构实现隔离。在一些情况下,通过表面的差异官能化以生成用于多核苷酸合成的活性和钝性区域来实现隔离。差异官能化还通过在装置表面上交替呈现疏水性,从而造成可引起沉积的试剂结珠或润湿的水接触角效应来实现。采用较大的结构可减少飞溅和邻近斑点的试剂对不同的多核苷酸合成位置的交叉污染。在一些情况下,使用装置(诸如多核苷酸合成仪)将试剂沉积到不同的多核苷酸合成位置。具有三维特征的基底以允许以低错误率(例如,小于约1:500、1:1000、1:1500、1:2,000、1:3,000、1:5,000或1:10,000)合成大量多核苷酸(例如,多于约10,000个)的方式配置。在一些情况下,装置包含密度为约或大于约1、5、10、20、30、40、50、60、70、80、100、110、120、130、140、150、160、170、180、190、200、300、400或500个特征/mm2的特征。
装置的孔可具有与基底的另一个孔相同或不同的宽度、高度和/或容积。装置的通道可具有与基底的另一个通道相同或不同的宽度、高度和/或容积。在一些情况下,簇的宽度为约0.05mm至约50mm、约0.05mm至约10mm、约0.05mm至约5mm、约0.05mm至约4mm、约0.05mm至约3mm、约0.05mm至约2mm、约0.05mm至约1mm、约0.05mm至约0.5mm、约0.05mm至约0.1mm、约0.1mm至10mm、约0.2mm至10mm、约0.3mm至约10mm、约0.4mm至约10mm、约0.5mm至10mm、约0.5mm至约5mm或约0.5mm至约2mm。在一些情况下,包含簇的孔的宽度为约0.05mm至约50mm、约0.05mm至约10mm、约0.05mm至约5mm、约0.05mm至约4mm、约0.05mm至约3mm、约0.05mm至约2mm、约0.05mm至约1mm、约0.05mm至约0.5mm、约0.05mm至约0.1mm、约0.1mm至10mm、约0.2mm至10mm、约0.3mm至约10mm、约0.4mm至约10mm、约0.5mm至10mm、约0.5mm至约5mm或约0.5mm至约2mm。在一些情况下,簇的宽度小于或为约5mm、4mm、3mm、2mm、1mm、0.5mm、0.1mm、0.09mm、0.08mm、0.07mm、0.06mm或0.05mm。在一些情况下,簇的宽度为约1.0至1.3mm。在一些情况下,簇的宽度为约1.150mm。在一些情况下,孔的宽度小于或为约5mm、4mm、3mm、2mm、1mm、0.5mm、0.1mm、0.09mm、0.08mm、0.07mm、0.06mm或0.05mm。在一些情况下,孔的宽度为约1.0至1.3mm。在一些情况下,孔的宽度为约1.150mm。在一些情况下,簇的宽度为约0.08mm。在一些情况下,孔的宽度为约0.08mm。簇的宽度可以指在二维或三维基底内的簇。
在一些情况下,孔的高度为约20um至约1000um、约50um至约1000um、约100um至约1000um、约200um至约1000um、约300um至约1000um、约400um至约1000um或约500um至约1000um。在一些情况下,孔的高度小于约1000um、小于约900um、小于约800um、小于约700um或小于约600um。
在一些情况下,装置包含与簇内的多个座位对应的多个通道,其中通道的高度或深度为约5um至约500um、约5um至约400um、约5um至约300um、约5um至约200um、约5um至约100um、约5um至约50um或约10um至约50um。在一些情况下,通道的高度小于100um、小于80um、小于60um、小于40um或小于20um。
在一些情况下,通道、座位(例如,在基本上平坦的基底中)或通道和座位两者(例如,在其中座位对应于通道的三维装置中)的直径为约1um至约1000um、约1um至约500um、约1um至约200um、约1um至约100um、约5um至约100um或约10um至约100um,例如约90um、80um、70um、60um、50um、40um、30um、20um或10um。在一些情况下,通道、座位或通道和座位两者的直径小于约100um、90um、80um、70um、60um、50um、40um、30um、20um或10um。在一些情况下,距两个相邻通道、座位或通道和座位两者的中心的距离为约1um至约500um、约1um至约200um、约1um至约100um、约5um至约200um、约5um至约100um、约5um至约50um或约5um至约30um,例如约20um。
表面修饰
在各种情况下,采用表面修饰通过加成工艺或减成工艺对表面进行化学和/或物理改变,以改变装置表面或装置表面的选定位点或区域的一种或多种化学和/或物理性质。例如,表面修饰包括但不限于:(1)改变表面的润湿性质;(2)对表面进行官能化,即,提供、修改或取代表面官能团;(3)对表面进行去官能化,即,去除表面官能团;(4)以其他方式例如通过刻蚀来改变表面的化学组成;(5)增大或减小表面粗糙度;(6)在表面上提供涂层,例如,展现出与表面的润湿性质不同的润湿性质的涂层;和/或(7)在表面上沉积微粒。
在一些情况下,在表面顶部添加化学层(被称为粘附促进剂)有利于基底表面上的座位的结构化图案化。用于施加粘附促进剂的示例性表面包括但不限于玻璃、硅、二氧化硅和氮化硅。在一些情况下,粘附促进剂是具有高表面能的化学品。在一些情况下,在基底的表面上沉积第二化学层。在一些情况下,第二化学层具有低表面能。在一些情况下,涂覆在表面上的化学层的表面能支持小液滴在表面上的定位。根据所选择的图案化布置,座位的接近度和/或在座位处的流体接触面积是可改变的。
在一些情况下,(例如为了多核苷酸合成)核酸或其他部分所沉积到的装置表面或解析座位是光滑的或基本上为平面的(例如,二维的),或者具有不规则性,诸如凸起或凹陷特征(例如,三维特征)。在一些情况下,用一个或多个不同的化合物层来修饰装置表面。感兴趣的此类修饰层包括但不限于无机层和有机层,如金属、金属氧化物,聚合物、有机小分子等。非限制性聚合物层包含肽、蛋白质、核酸或其模拟物(例如,肽核酸等)、多糖、磷脂、聚氨酯、聚酯、聚碳酸酯、聚脲、聚酰胺、聚乙烯胺、聚亚芳基硫醚、聚硅氧烷、聚酰亚胺、聚乙酸酯和本文所述的或本领域已知的任何其他合适的化合物。在一些情况下,聚合物是杂聚的。在一些情况下,聚合物是均聚的。在一些情况下,聚合物包含官能部分或是缀合的。
在一些情况下,使用增大和/或减小表面能的一个或多个部分对装置的解析座位进行官能化。在一些情况下,部分是化学惰性的。在一些情况下,部分被配置为支持所需的化学反应,例如在多核苷酸合成反应中的一个或多个过程。表面的表面能或疏水性是决定核苷酸附接到所述表面上的亲和力的因素。在一些情况下,用于装置官能化的方法可包括:(a)提供具有包含二氧化硅的表面的装置;以及(b)使用本文所述的或本领域已知的合适的硅烷化剂(例如,有机官能烷氧基硅烷分子)对所述表面进行硅烷化。
在一些情况下,有机官能烷氧基硅烷分子包括二甲基氯-十八烷基-硅烷、甲基二氯-十八烷基-硅烷、三氯-十八烷基-硅烷、三甲基-十八烷基-硅烷、三乙基-十八烷基-硅烷或其任何组合。在一些情况下,装置表面包含用聚乙烯/聚丙烯官能化(通过γ照射或铬酸氧化官能化,并还原到羟烷基表面)、高度交联的聚苯乙烯-二乙烯基苯(通过氯甲基化衍生化,并胺化到苄胺官能表面)、尼龙(末端氨基己基具有直接反应性)或用还原的聚四氟乙烯蚀刻。其他方法和官能化剂在美国专利号5474796中有描述,所述专利以引用的方式整体并入本文。
在一些情况下,装置表面通常经由存在于装置表面上的反应性亲水部分,在有效地将硅烷偶联至装置表面的反应条件下,使装置表面与含有硅烷混合物的衍生化组合物相接触来进行官能化。硅烷化一般通过使用有机官能烷氧基硅烷分子自组装来覆盖表面。
还可使用本领域当前已知的多种硅氧烷官能化试剂,例如用于降低或增大表面能。有机官能烷氧基硅烷可根据其有机官能来分类。
本文提供了可含有能够与核苷酸偶联的剂的图案化的装置。在一些情况下,装置可以涂覆活性剂。在一些情况下,装置可以涂覆钝性剂用于包含在本文所述的涂覆材料中的示例性活性剂包括但不限于N-(3-三乙氧基甲硅烷基丙基)-4-羟基丁酰胺(HAPS)、11-乙酰氧基十一烷基三乙氧基硅烷、正癸基三乙氧基硅烷、(3-氨基丙基)三甲氧基硅烷、(3-氨基丙基)三乙氧基硅烷、3-缩水甘油氧基丙基三甲氧基硅烷(GOPS)、3-碘-丙基三甲氧基硅烷、丁基-醛-三甲氧基硅烷、二聚仲氨基烷基硅氧烷、(3-氨基丙基)-二乙氧基-甲基硅烷、(3-氨基丙基)-二甲基-乙氧基硅烷和(3-氨基丙基)-三甲氧基硅烷、(3-缩水甘油氧基丙基)-二甲基-乙氧基硅烷、缩水甘油氧基-三甲氧基硅烷、(3-巯基丙基)-三甲氧基硅烷、3-4环氧环己基-乙基三甲氧基硅烷和(3-巯基丙基)-甲基-二甲氧基硅烷、烯丙基三氯氯硅烷、7-辛-1-烯基三氯氯硅烷或双(3-三甲氧基甲硅烷基丙基)胺。
包含在本文所述的涂层材料中的示例性钝性剂包括但不限于全氟辛基三氯硅烷、十三氟-1,1,2,2-四氢辛基三氯硅烷、1H,1H,2H,2H-氟辛基三乙氧基硅烷(FOS)、三氯(1H,1H,2H,2H-全氟辛基)硅烷、叔丁基-[5-氟-4-(4,4,5,5-四甲基-1,3,2-二杂氧戊硼烷-2-基)吲哚-1-基]-二甲基-硅烷、CYTOPTM、FluorinertTM、全氟辛基三氯硅烷(PFOTCS)、全氟辛基二甲基氯硅烷(PFODCS)、全氟癸基三乙氧基硅烷(PFDTES)、五氟苯基-二甲基丙基氯-硅烷(PFPTES)、全氟辛基三乙氧基硅烷、全氟辛基三甲氧基硅烷、辛基氯硅烷、二甲基氯-十八烷基-硅烷、甲基二氯-十八烷基-硅烷、三氯-十八烷基-硅烷、三甲基-十八烷基-硅烷、三乙基-十八烷基-硅烷或十八烷基三氯硅烷。
在一些情况下,官能化剂包含烃硅烷,诸如十八烷基三氯硅烷。在一些情况下,官能化剂包含11-乙酰氧基十一烷基三乙氧基硅烷、正癸基三乙氧基硅烷、(3-氨基丙基)三甲氧基硅烷、(3-氨基丙基)三乙氧基硅烷、缩水甘油氧基丙基/三甲氧基硅烷和N-(3-三乙氧基甲硅烷基丙基)-4-羟基丁酰胺。
多核苷酸合成
用于多核苷酸合成的本公开的方法可包括涉及亚磷酰胺化学法的过程。在一些情况下,多核苷酸合成包括将碱基与亚磷酰胺偶联。多核苷酸合成可包括通过在偶联条件下沉积亚磷酰胺来偶联碱基,其中相同的碱基任选地与亚磷酰胺沉积多于一次,即双偶联。多核苷酸合成可包括未反应位点的加帽。在一些情况下,加帽是任选的。多核苷酸合成还可包括氧化或一个或多个氧化步骤。多核苷酸合成可包括解封闭、脱三苯甲基化和硫化。在一些情况下,多核苷酸合成包括氧化或硫化。在一些情况下,在多核苷酸合成反应期间的一个步骤或每个步骤之间,例如使用四唑或乙腈来洗涤所述装置。亚磷酰胺合成方法中任一步骤的时间范围可小于约2分钟、1分钟、50秒、40秒、30秒、20秒和10秒。
使用亚磷酰胺方法的多核苷酸合成可包括随后将亚磷酰胺构件(例如,核苷亚磷酰胺)添加至增长的多核苷酸链以形成亚磷酸三酯键联。亚磷酰胺多核苷酸合成沿3'至5'方向进行。亚磷酰胺多核苷酸合成允许在每个合成循环中将一个核苷酸受控添加至增长的核酸链。在一些情况下,每个合成循环包括偶联步骤。亚磷酰胺偶联涉及在活化的核苷亚磷酰胺与(例如经由接头)结合至基底的核苷之间形成亚磷酸三酯键联。在一些情况下,将核苷亚磷酰胺提供给活化的装置。在一些情况下,将核苷亚磷酰胺提供给具有活化剂的装置。在一些情况下,核苷亚磷酰胺以相对于与基底结合的核苷1.5、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、50、60、70、80、90、100倍或更多倍的过量来提供给装置。在一些情况下,核苷亚磷酰胺的添加在无水环境中(例如,在无水乙腈中)进行。添加核苷亚磷酰胺后,任选地洗涤装置。在一些情况下,偶联步骤额外重复一次或多次,任选地在向基底添加核苷亚磷酰胺之间进行洗涤步骤。在一些情况下,本文使用的多核苷酸合成方法包括1、2、3个或更多个连续的偶联步骤。在许多情况下,在偶联之前,与装置结合的核苷通过去除保护基团来脱保护,其中保护基团起到防止聚合的作用。常见的保护基团为4,4'-二甲氧基三苯甲基(DMT)。
偶联后,亚磷酰胺多核苷酸合成方法任选地包括加帽步骤。在加帽步骤中,用加帽剂处理增长的多核苷酸。加帽步骤可用来在偶联后封闭未反应的与基底结合的5'-OH基团以防止进一步链延伸,从而防止形成具有内部碱基缺失的多核苷酸。此外,用1H-四唑活化的亚磷酰胺可以在很小的程度上与鸟苷的O6位置反应。不受理论的束缚,在用I2/水氧化后,此副产物(可能经由O6-N7迁移)可经历脱嘌呤。无嘌呤位点可终止在多核苷酸的最终脱保护过程中被切割,从而降低全长产物的产率。O6修饰可通过在用I2/水氧化之前用加帽试剂处理而去除。在一些情况下,与没有加帽的合成相比,在多核苷酸合成过程中包括加帽步骤会降低错误率。例如,加帽步骤包括用乙酸酐和1-甲基咪唑的混合物处理与基底结合的多核苷酸。在加帽步骤之后,任选地洗涤所述装置。
在一些情况下,在添加核苷亚磷酰胺之后,并且任选地在加帽和一个或多个洗涤步骤之后,对与装置结合的增长的核酸进行氧化。氧化步骤包括将亚磷酸三酯氧化成四配位的磷酸三酯,其为天然存在的磷酸二酯核苷间键联的受保护的前体。在一些情况下,增长的多核苷酸的氧化通过任选地在弱碱(例如,吡啶、二甲基吡啶、三甲吡啶)的存在下用碘和水处理来实现。氧化可在无水条件下采用例如叔丁基过氧化氢或(1S)-(+)-(10-樟脑磺酰基)-氧杂吖丙啶(CSO)进行。在一些方法中,在氧化之后进行加帽步骤。第二个加帽步骤允许装置干燥,因为可能持续存在的来自氧化的残余水可以抑制随后的偶联。氧化后,任选地洗涤装置和增长的多核苷酸。在一些情况下,氧化步骤用硫化步骤来代替,以获得多核苷酸硫代磷酸,其中任何加帽步骤均可在硫化之后进行。许多试剂能够进行有效的硫转移,包括但不限于3-(二甲基氨基亚甲基)氨基)-3H-1,2,4-二噻唑-3-硫酮、DDTT、3H-1,2-苯并二噻戊环-3-酮1,1-二氧化物(也被称为Beaucage试剂)和N,N,N'N'-四乙基秋兰姆二硫化物(TETD)。
为了使后续核苷掺入循环通过偶联而发生,除去与装置结合的增长的多核苷酸的受保护的5'末端,使得伯羟基与下一个核苷亚磷酰胺反应。在一些情况下,保护基团为DMT,并且用在二氯甲烷中的三氯乙酸进行解封闭。进行延长时间的脱三苯甲基化或者使用比推荐的酸溶液更强的酸溶液进行脱三苯甲基化可导致与固体支持物结合的多核苷酸的脱嘌呤增加,并因此降低了所需全长产物的产率。本文所述的本公开的方法和组合物提供了受控的解封闭条件,从而限制不希望的脱嘌呤反应。在一些情况下,与装置结合的多核苷酸在解封闭后洗涤。在一些情况下,解封闭后的有效洗涤有助于以低错误率合成多核苷酸。
多核苷酸合成方法一般包括一系列迭代的以下步骤:将受保护的单体施加至活化官能化的表面(例如,座位)以与活化的表面、接头或与预先脱保护的单体连接;使所施加的单体脱保护,使其可与随后施加的受保护的单体反应;以及施加另一种受保护的单体以供连接。一个或多个中间步骤包括氧化或硫化。在一些情况下,在一个或全部步骤之前或之后有一个或多个洗涤步骤。
基于亚磷酰胺的多核苷酸合成方法包括一系列化学步骤。在一些情况下,合成方法的一个或多个步骤涉及试剂循环,其中所述方法的一个或多个步骤包括向装置应用对步骤有用的试剂。例如,试剂通过一系列液相沉积和真空干燥步骤进行循环。对于包含诸如孔、微孔、通道等三维特征的基底,试剂任选地经由孔和/或通道穿过装置的一个或多个区域。
本文所述的方法和系统涉及用于合成多核苷酸的多核苷酸合成装置。合成可以是并行的。例如,可以并行合成至少或约至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、1000、10000、50000、75000、100000个或更多个多核苷酸。可以并行合成的多核苷酸的总数可以是2-100000、3-50000、4-10000、5-1000、6-900、7-850、8-800、9-750、10-700、11-650、12-600、13-550、14-500、15-450、16-400、17-350、18-300、19-250、20-200、21-150、22-100、23-50、24-45、25-40、30-35个。本领域技术人员知晓,并行合成的多核苷酸的总数可处于由这些值中的任何值所限定的任何范围内,例如25-100。并行合成的多核苷酸的总数可处于由充当范围端点的任何值所限定的任何范围内。在装置内合成的多核苷酸的总摩尔质量或每种多核苷酸的摩尔质量可以是至少或至少约10、20、30、40、50、100、250、500、750、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、25000、50000、75000、100000皮摩尔或更大。每种多核苷酸的长度或装置内多核苷酸的平均长度可以是至少或约至少10、15、20、25、30、35、40、45、50、100、150、200、300、400、500个或更多个核苷酸。每种多核苷酸的长度或装置内多核苷酸的平均长度可以是至多或约至多500、400、300、200、150、100、50、45、35、30、25、20、19、18、17、16、15、14、13、12、11、10个或更少的核苷酸。每种多核苷酸的长度或装置内多核苷酸的平均长度可以处于10-500、9-400、11-300、12-200、13-150、14-100、15-50、16-45、17-40、18-35、19-25之间。本领域技术人员知晓,每种多核苷酸的长度或装置内多核苷酸的平均长度可处于由这些值中的任何值所限定的任何范围内,例如100-300。每种多核苷酸的长度或装置内多核苷酸的平均长度可处于由充当范围端点的任何值所限定的任何范围内。
本文提供的在表面上合成多核苷酸的方法允许以较快的速度合成。例如,每小时合成至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、70、80、90、100、125、150、175、200个或更多个核苷酸。核苷酸包括腺嘌呤、鸟嘌呤、胸腺嘧啶、胞嘧啶、尿苷构件或其类似物/修饰形式。在一些情况下,多核苷酸文库在基底上并行合成。例如,包含约或至少约100、1,000、10,000、30,000、75,000、100,000、1,000,000、2,000,000、3,000,000、4,000,000或5,000,000个解析座位的装置能够支持合成至少相同数目的不同的多核苷酸,其中编码不同序列的多核苷酸在解析座位上合成。在一些情况下,在少于约三个月、两个月、一个月、三周、15天、14天、13天、12天、11天、10天、9天、8天、7天、6天、5天、4天、3天、2天、24小时或更短的时间内,以本文所述的低错误率在装置上合成多核苷酸文库。在一些情况下,使用本文所述的基底和方法从以低错误率合成的多核苷酸文库组装的较大核酸在少于约三个月、两个月、一个月、三周、15天、14天、13天、12天、11天、10天、9天、8天、7天、6天、5天、4天、3天、2天、24小时或更短的时间内制备。
在一些情况下,本文所述的方法提供了生成包含在多个密码子位点处不同的变体多核苷酸的多核苷酸文库。在一些情况下,多核苷酸可具有1个位点、2个位点、3个位点、4个位点、5个位点、6个位点、7个位点、8个位点、9个位点、10个位点、11个位点、12个位点、13个位点、14个位点、15个位点、16个位点、17个位点、18个位点、19个位点、20个位点、30个位点、40个位点、50个位点或更多个变异密码子位点。
在一些情况下,变体密码子位点中的一个或多个位点可以是相邻的。在一些情况下,变体密码子位点中的一个或多个位点可以是不相邻的,并且由1、2、3、4、5、6、7、8、9、10个或更多个密码子隔开。
在一些情况下,多核苷酸可包含变体密码子位点中的多个位点,其中所有变体密码子位点彼此相邻,形成一段变体密码子位点。在一些情况下,多核苷酸可包含变体密码子位点中的多个位点,其中所述变体密码子位点彼此均不相邻。在一些情况下,多核苷酸可包含变体密码子位点中的多个位点,其中一些变体密码子位点彼此相邻,形成一段变体密码子位点,而一些变体密码子位点彼此不相邻。
错误率低的大型多核苷酸文库
使用所提供的系统和方法在文库内合成的多核苷酸的平均错误率可能小于1/1000、小于1/1250、小于1/1500、小于1/2000、小于1/3000或常常更小。在一些情况下,使用所提供的系统和方法在文库内合成的多核苷酸的平均错误率小于1/500、1/600、1/700、1/800、1/900、1/1000、1/1100、1/1200、1/1250、1/1300、1/1400、1/1500、1/1600、1/1700、1/1800、1/1900、1/2000、1/3000或更小。在一些情况下,使用所提供的系统和方法在文库内合成的多核苷酸的平均错误率小于1/1000。
在一些情况下,使用所提供的系统和方法在文库内合成的多核苷酸的合计错误率小于1/500、1/600、1/700、1/800、1/900、1/1000、1/1100、1/1200、1/1250、1/1300、1/1400、1/1500、1/1600、1/1700、1/1800、1/1900、1/2000、1/3000或更小。在一些情况下,使用所提供的系统和方法在文库内合成的多核苷酸的合计错误率小于1/500、1/600、1/700、1/800、1/900或1/1000。在一些情况下,使用所提供的系统和方法在文库内合成的多核苷酸的合计错误率小于1/1000。
在一些情况下,纠错酶可用于使用所提供的系统和方法在文库内合成的多核苷酸。在一些情况下,与预定序列相比,在纠错的情况下多核苷酸的合计错误率可能小于1/500、1/600、1/700、1/800、1/900、1/1000、1/1100、1/1200、1/1300、1/1400、1/1500、1/1600、1/1700、1/1800、1/1900、1/2000、1/3000或更小。在一些情况下,使用所提供的系统和方法在文库内合成的多核苷酸在纠错的情况下的合计错误率可小于1/500、1/600、1/700、1/800、1/900或1/1000。在一些情况下,使用所提供的系统和方法在文库内合成的多核苷酸在纠错的情况下的合计错误率可小于1/1000。
错误率可能限制基因合成对于产生基因变体文库的价值。在错误率为1/300的情况下,1500个碱基对的基因中约0.7%的克隆是正确的。由于来自多核苷酸合成的大部分错误导致移码突变,所以此类文库中超过99%的克隆将不产生全长蛋白质。将错误率降低75%将使正确克隆的分数增加40倍。本公开的方法和组合物允许以低于通常观察到的基因合成方法的错误率快速从头合成大型多核苷酸和基因文库,两者都归因于合成质量改善和以大规模并行且省时的方式实现的纠错方法的适用性。因此,可以合成在文库上或在多于80%、85%、90%、93%、95%、96%、97%、98%、99%、99.5%、99.8%、99.9%、99.95%、99.98%、99.99%或更多的文库上碱基插入、缺失、取代或总错误率低于1/300、1/400、1/500、1/600、1/700、1/800、1/900、1/1000、1/1250、1/1500、1/2000、1/2500、1/3000、1/4000、1/5000、1/6000、1/7000、1/8000、1/9000、1/10000、1/12000、1/15000、1/20000、1/25000、1/30000、1/40000、1/50000、1/60000、1/70000、1/80000、1/90000、1/100000、1/125000、1/150000、1/200000、1/300000、1/400000、1/500000、1/600000、1/700000、1/800000、1/900000、1/1000000或更低的文库。本公开的方法和组合物还涉及大型合成多核苷酸和基因文库,其与文库的至少子组中的至少30%、40%、50%、60%、70%、75%、80%、85%、90%、93%、95%、96%、97%、98%、99%、99.5%、99.8%、99.9%、99.95%、99.98%、99.99%或更多的多核苷酸或基因相关联的低错误率与相比于预定/预选系列的无错误序列有关。在一些情况下,文库内分离体积中的至少30%、40%、50%、60%、70%、75%、80%、85%、90%、93%、95%、96%、97%、98%、99%、99.5%、99.8%、99.9%、99.95%、99.98%、99.99%或更多的多核苷酸或基因具有相同序列。在一些情况下,与多于95%、96%、97%、98%、99%、99.5%、99.6%、99.7%、99.8%、99.9%或更多相似性或同一性有关的任何多核苷酸或基因中的至少30%、40%、50%、60%、70%、75%、80%、85%、90%、93%、95%、96%、97%、98%、99%、99.5%、99.8%、99.9%、99.95%、99.98%、99.99%或更多具有相同序列。在一些情况下,对与多核苷酸或基因上的指定座位有关的错误率进行优化。因此,作为大型文库的一部分的一个或多个多核苷酸或基因的给定座位或多个选定座位可各自具有小于1/300、1/400、1/500、1/600、1/700、1/800、1/900、1/1000、1/1250、1/1500、1/2000、1/2500、1/3000、1/4000、1/5000、1/6000、1/7000、1/8000、1/9000、1/10000、1/12000、1/15000、1/20000、1/25000、1/30000、1/40000、1/50000、1/60000、1/70000、1/80000、1/90000、1/100000、1/125000、1/150000、1/200000、1/300000、1/400000、1/500000、1/600000、1/700000、1/800000、1/900000、1/1000000或更小的错误率。在各种情况下,此类错误优化的座位可包含至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、4000、5000、6000、7000、8000、9000、10000、30000、50000、75000、100000、500000、1000000、2000000、3000000或更多个座位。可以将错误优化的座位分布到至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、4000、5000、6000、7000、8000、9000、10000、30000、75000、100000、500000、1000000、2000000、3000000或更多个多核苷酸或基因。
可以在有或没有纠错的情况下实现错误率。可以跨文库或跨文库的多于80%、85%、90%、93%、95%、96%、97%、98%、99%、99.5%、99.8%、99.9%、99.95%、99.98%、99.99%或更多实现错误率。
计算机系统
本文所述的任何系统均可以可操作地连接至计算机,并且可以本地或远程地通过计算机进行自动化。在各种情况下,本公开的方法和系统可进一步包括计算机系统上的软件程序及其使用。因此,对于分配/抽真空/再填充功能的同步(如编排和同步材料沉积装置运动、分配动作和真空致动)的计算机化控制处于本公开内容的范围内。计算机系统可被编程为在用户指定的碱基序列与材料沉积装置的位置之间连接,以将正确的试剂递送至基底的指定区域。
图16中示出的计算机系统1200可被理解为能够从介质1211和/或网络端口1205读取指令的逻辑设备,其可任选地连接至具有固定介质1212的服务器1209。诸如图16示出的系统可包括CPU 1201、磁盘驱动器1203、可选的输入设备如键盘1215和/或鼠标1216以及可选的监视器1207。可通过示出的通信媒介实现与本地或远程位置处的服务器的数据通信。通信媒介可包括传输和/或接收数据的任何手段。例如,通信媒介可以是网络连接、无线连接或因特网连接。这样的连接可提供经由万维网的通信。可以设想有关本公开的数据可经过这样的网络或连接而传输,以便由图16所示的用户方1222接收和/或审阅。
图17是示出可以结合本公开的示例性情况使用的计算机系统1300的第一示例性架构的框图。如图17中所描绘,示例性计算机系统可以包括用于处理指令的处理器1302。处理器的非限制性示例包括:Intel XeonTM处理器、AMD OpteronTM处理器、Samsung 32-bitRISC ARM 1176JZ(F)-S v1.0TM处理器、ARM Cortex-A8 Samsung S5PC100TM处理器、ARMCortex-A8 Apple A4TM处理器、Marvell PXA 930TM处理器或功能上等效的处理器。多个执行线程可用于并行处理。在一些情况下,还可以使用多个处理器或具有多个核心的处理器,无论是在单个计算机系统中,在集群中,还是分布在包括多个计算机、蜂窝电话和/或个人数据助理装置的网络上的系统中。
如图17所示,高速缓冲存储器1304可连接至或并入处理器1302,以提供由处理器1302新近或频繁使用的指令或数据的高速存储器。处理器1302通过处理器总线1308连接至北桥1306。北桥1306通过存储器总线1312连接至随机存取存储器(RAM)1310,并管理处理器1302对RAM 1310的访问。北桥1306还通过芯片组总线1316连接至南桥1314。南桥1314又连接至外围总线1318。外围总线可以是例如PCI、PCI-X、PCI Express或其他外围总线。北桥和南桥通常被称为处理器芯片组,并管理在处理器、RAM与外围总线1318上的外围组件之间的数据传送。在一些替代架构中,可以将北桥的功能性并入处理器中,而不是使用单独的北桥芯片。在一些情况下,系统1300可包括附接到外围总线1318的加速器卡1322。加速器可包括现场可编程门阵列(FPGA)或用于加速某个处理的其他硬件。例如,加速器可用于适应性数据重建或用来评价在扩展集处理中使用的代数表达式。
软件和数据存储在外部存储器1324中,并可加载至RAM 1310和/或高速缓冲存储器1304中,以供处理器使用。系统1300包括用于管理系统资源的操作系统;操作系统的非限制性实例包括:Linux、WindowsTM、MACOSTM、BlackBerry OSTM、iOSTM和其他功能上等效的操作系统,以及在操作系统顶部运行的、用于根据本公开的示例情况管理数据存储和优化的应用软件。在此实例中,系统1300还包括与外围总线连接的网络接口卡(NIC)1320和1321,以提供与外部存储如网络附加存储(NAS)和可用于分布式并行处理的其他计算机系统的网络接口。
图18是显示了具有多个计算机系统1402a和1402b、多个蜂窝电话和个人数据助理1402c以及网络附加存储(NAS)1404a和1404b的网络1400的示图。在示例性情况下,系统1402a、1402b和1402c可管理数据存储并优化对存储在网络附加存储(NAS)1404a和1404b中的数据的数据访问。数学模型可用于该数据,并使用跨计算机系统1402a和1402b和蜂窝电话以及个人数据助理系统1402c的分布式并行处理进行评价。计算机系统1402a和1402b和蜂窝电话以及个人数据助理系统1402c也可提供对存储在网络附加存储(NAS)1404a和1404b中的数据的适应性数据重建的并行处理。图18仅示出了实例,而多种多样的其他计算机架构和系统可与本公开的各种情况结合使用。例如,刀片服务器可以用来提供并行处理。处理器刀片可通过背板连接,以提供并行处理。存储还可通过单独的网络接口连接至背板或作为网络附加存储(NAS)。在一些示例性情况下,处理器可维持单独的存储空间,并通过网络接口、背板或其他连接器传输数据以便由其他处理器并行处理。在其他情况下,部分或全部处理器可使用共享的虚拟地址存储空间。
图19是根据示例性情况使用共享虚拟地址存储空间的多处理器计算机系统1500的框图。所述系统包括可访问共享的存储器子系统1504的多个处理器1502a-f。所述系统中在存储器子系统1504中并入多个可编程硬件存储算法处理器(MAP)1506a-f。每个MAP1506a-f可以包含存储器1508a-f以及一个或多个现场可编程门阵列(FPGA)1510a-f。MAP提供可配置的功能单元,并且可以向FPGA 1510a-f提供特定算法或算法的部分,以供与相应的处理器密切协同地进行处理。例如,在示例性情况下,MAP可用来评价与数据模型相关的代数表达式以及用来进行适应性数据重建。在此实例中,每个MAP可被用于这些目的的所有处理器全局访问。在一种配置中,每个MAP可使用直接存储器访问(DMA)来访问相关联的存储器1508a-f,使其独立于且异步于各自的微处理器1502a-f而执行任务。在这一配置中,MAP可将结果直接馈送至另一MAP以用于流水处理和并行执行算法。
以上计算机架构和系统仅为实例,并且多种多样的其他计算机、蜂窝电话和个人数据助理架构和系统可与示例实例结合使用,包括使用通用处理器、协处理器、FPGA和其他可编程逻辑设备、芯片上系统(SOC)、专用集成电路(ASIC)和其他处理和逻辑元件的任何组合的系统。在一些情况下,全部或部分计算机系统可用软件或硬件来实现。任何种类的数据存储介质可与示例实例结合使用,包括随机存取存储器、硬盘驱动器、闪速存储器、磁带驱动器、磁盘阵列、网络附加存储(NAS)和其他的本地或分布式数据存储设备和系统。
在示例性情况下,计算机系统可使用在上述或其他计算机架构和系统中任一个上执行的软件模块来实现。在其他情况下,该系统的功能可部分或完全地在固件、可编程逻辑设备如图19提到的现场可编程门阵列(FPGA)、芯片上系统(SOC)、专用集成电路(ASIC)或其他处理和逻辑元件中实现。例如,集处理器(Set Processor)和优化器可通过使用硬件加速器卡如图17所示的加速器卡1322用硬件加速方式实现。
实施例
给出以下实施例是出于说明本发明的各种实施方案的目的,并不意味着以任何方式限制本发明。本发明实施例连同本文所述的方法目前代表优选的实施方案,是示例性的,并且不意图作为对本发明范围的限制。本领域技术人员将会想到包含在如权利要求的范围所限定的本发明精神内的其中的变化和其他用途。
实施例1:基底表面的官能化
对基底进行官能化以支持多核苷酸文库的附接和合成。首先使用包含90% H2SO4和10% H2O2的食人鱼溶液(piranha solution)将基底表面润湿清洗20分钟。将基底在含有去离子水的数个烧杯中漂洗,在去离子水鹅颈旋塞下保持5分钟,并用N2干燥。随后将基底在NH4OH(1:100;3mL:300mL)中浸泡5分钟,使用手持式喷枪(handgun)用去离子水漂洗,在连续三个含有去离子水的烧杯中各浸泡1分钟,然后再使用手持式喷枪用去离子水漂洗。然后通过将基底表面暴露于O2来等离子体清洗基底。使用SAMCO PC-300仪器在下游模式下以250瓦进行O2等离子体蚀刻1分钟。
使用具有以下参数的YES-1224P汽相沉积烘箱系统,用包含N-(3-三乙氧基甲硅烷基丙基)-4-羟基丁酰胺的溶液对清洁的基底表面进行活化官能化:0.5至1托,60分钟,70℃,135℃汽化器。使用Brewer Science 200X旋涂仪对基底表面进行抗蚀剂涂覆。将SPRTM3612光致抗蚀剂以2500rpm旋涂在基底上40秒。基底在Brewer热板上以90℃预烘30分钟。使用Karl Suss MA6掩模对准仪对基底进行光刻。将基底暴露2.2秒并在MSF 26A中显影1分钟。剩余的显影剂用手持式喷枪冲洗,并将基底在水中浸泡5分钟。基底在烘箱中以100℃烘烤30分钟,随后使用Nikon L200目视检查光刻缺陷。采用预清除(descum)工艺利用SAMCO PC-300仪器以250瓦进行O2等离子体蚀刻1分钟来去除残余抗蚀剂。
用与10μL轻质矿物油混合的100μL全氟辛基三氯硅烷溶液对基底表面进行钝化官能化。将基底放置于腔室中,泵送10分钟,随后关闭通往泵的阀门并静置10分钟。使腔室排气。基底通过在70℃下在500mL NMP中进行两次5分钟浸泡并同时以最大功率(在Crest系统上的9)进行超声波处理来剥离抗蚀剂。然后将基底在室温下在500mL异丙醇中浸泡5分钟,同时以最大功率进行超声波处理。将基底浸入300mL的200标准酒精度(proof)的乙醇中并用N2吹干。活化官能化表面以充当多核苷酸合成的支持物。
实施例2:在多核苷酸合成装置上合成50-mer序列
将二维多核苷酸合成装置组装至流动池中,其与流动池(Applied Biosystems(ABI394 DNA合成仪))连接。多核苷酸合成装置用N-(3-三乙氧基甲硅烷基丙基)-4-羟基丁酰胺(Gelest)均匀地官能化,并用来使用本文所述的多核苷酸合成方法合成50bp的示例性多核苷酸(“50-mer多核苷酸”)。
50-mer的序列描述于SEQ ID NO.:1中。5'AGACAATCAACCATTTGGGGTGGACAGCCTTGACCTCTAGACTTCGGCAT##TTTTTTTTTT3'(SEQ ID NO.:1),其中#表示胸苷-琥珀酰基己酰胺CED亚磷酰胺(来自ChemGenes的CLP-2244),它是允许在脱保护过程中从表面上释放多核苷酸的可切割的接头。
根据表2中的方案和ABI合成仪,使用标准DNA合成化学法(偶联、加帽、氧化和解封闭)完成合成。
表2
/>
/>
亚磷酰胺/活化剂组合以类似于本体试剂通过流动池递送的方式进行递送。当在全部时间内保持环境被试剂“润湿”时,不进行干燥步骤。
从ABI 394合成仪中去除限流器,以使得能够更快速流动。在没有限流器的情况下,酰胺类(amidites)(在ACN中0.1M)、活化剂(在ACN中的0.25M苯甲酰基硫基四唑(“BTT”;来自GlenResearch的30-3070-xx))和Ox(在20%吡啶、10%水和70% THF中的0.02M I2)的流速大致为约100uL/秒,乙腈(“ACN”)和加帽试剂(帽A和帽B的1:1混合物,其中帽A是在THF/吡啶中的乙酸酐,并且帽B是在THF中的16%1-甲基咪唑)的流速大致为约200uL/秒,并且解封闭剂(在甲苯中的3%二氯乙酸)的流速大致为约300uL/秒(相比之下,在有限流器的情况下,所有试剂的流速均为约50uL/秒)。观测完全排出氧化剂的时间,相应地调整化学品流动时间的时间选择,并在不同的化学品之间引入额外的ACN洗涤。在多核苷酸合成后,将芯片在75psi下在气态氨中脱保护过夜。将五滴水施加到表面上以回收多核苷酸。然后在BioAnalyzer小RNA芯片上分析所回收的多核苷酸(数据未示出)。
实施例3:在多核苷酸合成装置上合成100-mer序列
使用实施例2中描述的用于合成50-mer序列的相同过程,在两个不同的硅芯片上合成100-mer多核苷酸(“100-mer多核苷酸”;5'CGGGATCCTTATCGTCATCGTCGTACAGATCCCGACCCATTTGCTGTCCACCAGTCATGCTAGCCATACCATGATGATGATGATGATGAGAACCCCGCAT##TTTTTTTTTT3',其中#表示胸苷-琥珀酰基己酰胺CED亚磷酰胺(来自ChemGenes的CLP-2244);SEQ ID NO.:2),第一个用N-(3-三乙氧基甲硅烷基丙基)-4-羟基丁酰胺均匀地官能化,而第二个用11-乙酰氧基十一烷基三乙氧基硅烷和正癸基三乙氧基硅烷的5/95混合物官能化,并在BioAnalyzer仪器上分析从表面提取的多核苷酸(数据未示出)。
使用下列热循环程序,在50uL PCR混合物(25uL NEB Q5主混合物,2.5uL 10uM正向引物,2.5uL 10uM反向引物,1uL从表面提取的多核苷酸,用水加至50uL)中使用正向引物(5'ATGCGGGGTTCTCATCATC3';SEQ ID NO.:3)和反向引物(5'CGGGATCCTTATCGTCATCG3';SEQID NO.:4)进一步PCR扩增来自两个芯片的全部十个样品:
98C,30秒
98C,10秒;63C,10秒;72C,10秒;重复12个循环
72C,2分钟
PCR产物还在BioAnalyzer上运行(数据未示出),在100-mer位置处显示出尖锐峰。然后,对PCR扩增的样品进行克隆,并进行Sanger测序。表3总结了从来自芯片1的斑点1-5采集的样品和从来自芯片2的斑点6-10采集的样品的Sanger测序结果。
表3
因此,合成的多核苷酸的高质量和均一性在具有不同表面化学的两个芯片上重现。总的来说,89%,对应于测序的100-mer的233/262,是没有错误的完美序列。
最后,表4总结了从来自斑点1-10的多核苷酸样品中获得的序列的错误特征。
表4
/>
实施例4:29,040个独特多核苷酸的并行组装
如图14中所示,制造了在平坦硅板1001上包含256个簇的结构,每个簇包含121个座位。簇的展开视图显示于具有121个座位的1005中。来自256个簇中的240个簇的座位为具有不同序列的多核苷酸的合成提供了附接和支持。使用实施例3的一般方法,通过亚磷酰胺化学进行多核苷酸合成。来自256个簇中的16个簇的座位是对照簇。合成的29,040个独特多核苷酸(240x 121)的全局分布示出于图15A中。以高度均匀性合成了多核苷酸文库。90%的序列存在于在4x平均值内的信号处,实现100%表示。测量了每个簇的分布,如图15B所示。在全局层面上,运行中的所有多核苷酸都存在,并且99%的多核苷酸的丰度在2x平均值内,指示合成均一性。这种相同的观察结果在每个簇的层面上是一致的。
使用Illumina MiSeq基因测序仪确定了每个多核苷酸的错误率。29,040个独特多核苷酸的错误率分布平均为约1/500个碱基,一些错误率低至1/800个碱基。测量了每个簇的分布。在小于20小时内合成了具有29,040个独特多核苷酸的文库。在所有29,040个独特多核苷酸上的GC百分比相对于多核苷酸表示的分析显示,除GC含量之外,合成是均一的。
实施例6.使用通用衔接子的文库制备
制备了包含双索引衔接子或通用衔接子的核酸样品(50ug)。由20uL连接缓冲液、10uL连接混合物(含有连接酶)和15uL水制备了连接主混合物。将核酸样品与连接混合物合并,并且在20℃下孵育15分钟。然后将混合物与80uL磁性DNA纯化珠子合并,并且涡旋,然后在室温下孵育5分钟。然后将混合物置于磁性板上1min。然后用80%乙醇洗涤珠子,孵育1min,并且丢弃乙醇洗液。重复洗涤一次。然后,将珠子风干5-10分钟,从磁性板取出,并且用17uL水、10mM pH 8的Tris-HCl或缓冲液EB处理。将混合物匀化并且在室温下孵育2min。然后将混合物再次置于磁性板上并在室温下孵育3min,然后去除含有通用衔接子连接的基因组DNA的上清液。将通用连接的基因组DNA与10uL条形码化引物和25uL KAPA HiFiHotStart ReadyMix合并,以将条形码附接到通用引物。使用以下PCR条件:1)在98℃下初始化45秒,2)第二步,包括:a)在98℃下变性15sec,b)在60℃下退火30sec,和c)在72℃下延伸30sec;其中第二步重复6-8个循环,3)最终在72℃下延伸1分钟,以及4)最终保持在4℃下。以与先前所述类似的方式通过DNA珠子纯化产物。在Qubit dsDNA宽范围定量测定仪器上分析了扩增的条形码化文库。然后直接对此文库进行测序。相对于标准双索引Y-衔接子,使用通用衔接子导致在扩增之后文库核酸浓度增加。使用通用衔接子的方法还导致扩增之后的总产量更高和衔接子二聚体形成更低。此外,使用通用衔接子制备的文库提供了与标准双索引Y-衔接子相比较低的AT丢失,并且得到所有索引序列的均一表示。类似地,使用包含10bp双索引的通用衔接子(8个PCR循环,N=12)。为了比较,还针对相同的基因组DNA样品测试了标准全长Y衔接子(10个PCR循环,N=12)。
实施例7.使用通用衔接子的文库制备和富集
使用实施例6的一般方法制备了核酸样品,进行了修改:双索引衔接子被通用衔接子替代。连接通用衔接子之后,用条形码化引物文库对衔接子连接的样品核酸文库进行扩增,生成条形码化衔接子连接的样品核酸文库。然后对此文库进行类似的富集、纯化和测序步骤。使用通用衔接子得到可比的或更好的测序结果。
实施例8.合成cot-1文库的一般合成
从商业来源获得cot-1样品(来源于人胎盘DNA),并且使用已建立的方法经由下一代测序进行测序。然后,将测序数据映射到先前用于设计甲基化套组的亚硫酸盐转化的人基因组。减去所有外显子组和refseq相关靶标,并且从亚硫酸氢盐转化的人基因组生成bed文件。将剩余靶标聚类、合成(添加通用引物侧翼区域)、扩增和纯化以生成合成cot-1文库。cot-1文库中的所得多核苷酸的长度为120个碱基。
实施例9.使用k-mer合成合成cot-1文库
通过对沿着输入基因组的给定大小的拷贝k-mer的数目进行计数,来确定输入基因组中待封闭的序列(例如,重复序列、低复杂性序列或特定类型的序列)(例如,对于甲基化应用中的亚硫酸氢盐样转化,输入基因组构成两个基因组拷贝,每个拷贝都处处有C->T或G->A的突变,正如扩增之后未甲基化基因组的亚硫酸氢盐转化所得到的那样)。k-mer是基因组中给定长度的寡核苷酸序列。目前对输入基因组内存在的所有长度为30nt的序列计算允许修饰的k-mer的实例数(见下文)。另外对k-mer进行计算,以将有一个或多个突变不同的k-mer折叠成单个“k-mer”实体,将其所有计数加在一起,并且/或者包括大小不同或变化的k-mer的计数。
然后针对在输入基因组中至少N=给定拷贝数的那些过滤k-mer。将N设定为200,但是在其他情况下,对其进行调节或者其包括不同的拷贝数或各种不同的k-mer大小,这取决于应用(例如,大区域的较低拷贝数,其仍在N<200的值下产生脱靶,例如N=2或更高)。过滤能够调节所需严格性和/或制造的总序列。还使用多种序列聚类算法对k-mer进行聚类,以实现用减少数目的k-mer封闭类似的靶标组。
然后将k-mer映射回基因组,以恢复基因组中k-mer实体的成员的原始位置。不同的情况包括不同的参数值,例如像对错配的容限(相对于k-mer而言,基因组序列中的差异为0或更多个突变);每个kmer实体的大小、相似性和成员资格;或向基因组的映射;或其他减少或概括对确定序列的特异性的标准。
设计待合成的合成cot-1文库(长度为120个碱基)的给定长度的多核苷酸,使用输入基因组捕获处于原始k-mer位置中部中央的序列。在一些情况下,这通过改变所合成的寡核苷酸的大小或大小的混合来调整,从而可以调节强度或不同类型序列的效果的均一性。在一些情况下,额外的步骤包括:对序列进行聚类或额外过滤以减少靶标数目;改善脱靶序列来源的全部或子组的效果的平衡;序列中的不同核苷酸含量;或在所检测的k-mer的原始群体或它们彼此的关系上变化的序列组成和情境的其他度量。
使用实施例1的一般程序如所述合成多核苷酸以生成合成cot-1文库。寡核苷酸序列按寡核苷酸GC含量分箱并打印成簇。分别扩增各簇,然后通过PCR板汇集在一起并纯化。然后将来自每个板的纯化产物以相同的质量共混在一起。对多核苷酸的额外修饰包括计算机和体外变化,诸如拆分和/或调节拷贝数不同的kmer的浓度(通过根据它们在基因组中的表示频率将所有kmer分箱并改变箱的浓度以捕获其表示中的变化)。
实施例10.采用合成cot-1的甲基化组富集
按照制造商的说明,使用非甲基化胞嘧啶向胸腺嘧啶(经由尿嘧啶)的酶促转化,制备包含NA12878基因组(Coriell)的样品以用于甲基化分析。替代地,样品用亚硫酸氢盐试剂处理以实现类似的转化(图2A)。按照实施例6的一般程序并进行修改,用甲基化组特异性探针套组对此样品进行捕获,并且采用如使用实施例9的一般方法制备的合成封闭文库。每种转化方法的靶标GC含量的覆盖率示出于图2B中。测试了两种不同的封闭文库设计,设计2显示改善的脱靶度量(图3A)。此外,针对测试的两种不同捕获套组(1.28Mb和1.52Mb套组),相对于只靶向一条链的封闭文库(图3B),靶向+和-链(并且各自具有或没有假定的C->T转化)的封闭文库显示出改善的fold-80和HS文库大小度量。
实施例11:具有合成封闭文库的快速杂交缓冲液
使用实施例6和实施例10的一般方法获得测序数据,并进行了修改:改变洗涤缓冲液1的温度以修改测序结果,并且使用3个不同的甲基化组套组(0.04Mb、1.28Mb或3.00Mb)如下文所述进行方案。
步骤1.将衔接子连接的样品(从通用衔接子生成)转移到0.2ml薄壁PCR条形管或96孔板中。添加甲基化组捕获探针套组、通用封闭剂、和封闭剂溶液/缓冲液、非极性杂交增强子和合成封闭文库,对混合物进行脉冲旋转,并且使用低热或不使用热蒸发混合物。
步骤2.如表5所示,利用以下条件对96孔热循环仪进行编程,并且将加热盖设定至85℃。
表5.
将干燥的杂交反应物各自重悬于20μl快速杂交缓冲液中,并通过轻弹混合。将管脉冲旋转以使气泡最少。然后将30μl液体聚合物添加到杂交反应物顶部,并将管脉冲旋转。将管转移至预热的热循环仪并移至热循环仪程序的步骤2(在95℃下孵育5分钟)。然后将管在85℃的具有盖的热循环仪中在60℃下孵育15分钟至4小时。将450μl洗涤缓冲液1加热至所需温度(例如,70℃或其他温度,其取决于所需测序度量),并且将700μl洗涤缓冲液2加热至48℃。将链霉亲和素结合珠平衡至室温,持续30分钟,然后涡旋直至混合。将100μl链霉亲和素结合珠添加至1.5ml微量离心管中。为每个杂交反应准备一个管。将200μl快速结合缓冲液添加到管中并通过移液混合。在不扰动珠子沉淀的情况下,将管放在磁力架上1分钟,然后取出并且丢弃澄清的上清液。然后将管从磁力架取出。用快速结合缓冲液将沉淀再洗涤两次,总共洗涤三次。从第三次洗涤去除澄清的上清液之后,添加最后的200μl快速结合缓冲液,并通过涡旋重悬珠子直至匀化。将杂交反应的管与链霉亲和素结合珠在室温下在摇动器、摇臂或旋转器上以足以保持溶液混合的速度混合30分钟。
步骤3.从混合器取出含有与链霉亲和素结合珠的杂交反应的管并进行脉冲旋转,以确保溶液在试管底部,并将管置于磁力架上1分钟。在扰动沉淀的情况下,去除并丢弃包含液体聚合物的澄清上清液。将管从磁力架取下,并且添加200μl预热的快速洗涤缓冲液1,然后通过移液混合。将管在70℃下孵育5分钟,并且置于磁力架上1分钟。在不扰动珠子沉淀的情况下,去除并丢弃澄清的上清液。然后将管从磁力架取下,并且再添加200μl预热的快速洗涤缓冲液1,然后混合并在70℃下孵育5分钟。将管脉冲旋转,以确保溶液在管底部。杂交完成之后,打开热循环仪盖子,并且将一定体积的包含液体聚合物的每种杂交反应物快速转移到洗涤的链霉亲和素结合珠的对应管中,然后混合。将整个体积(约200μl)转移到新的1.5ml微量离心管中,每个杂交反应一个。将管置于磁力架上1分钟,然后取出并丢弃澄清的上清液。将管从磁力架取下,并且添加200μl 48℃洗涤缓冲液2,通过移液混合,然后脉冲旋转以确保溶液在管底部。然后将管在48℃下孵育5分钟,置于磁力架上1分钟,并且在扰动沉淀的情况下取出澄清的上清液并丢弃。洗涤步骤再重复两次,总共洗涤三次。最后一次洗涤之后,使用10μl移液管去除痕量的上清液。在不使沉淀干燥的情况下,将管从磁力架取下,并且添加45μl水,混合,然后在冰上孵育(以下称为链霉亲和素结合珠浆液)。
步骤4.在以下表6中的条件的情况下对热循环仪进行编程,并且将加热盖设定为105℃。将22.5μl链霉亲和素结合珠浆液转移至0.2ml薄壁PCR条形管中,并且保持在冰上直至准备用于下一步。通过将PCR聚合酶主混合物和衔接子特异性引物添加到含有链霉亲和素结合珠浆液的管中制备PCR混合物并且通过移液混合。将管脉冲旋转,并且转移至热循环仪并启动循环程序。
表6.用于PCR文库扩增的热循环仪程序。
将50μl(1.0x)匀化的DNA纯化珠添加到管中,通过涡旋混合,并在室温下孵育5分钟。然后将管置于磁性板上1分钟。从管中取出澄清的上清液。用200μl新鲜制备的80%乙醇洗涤DNA纯化珠沉淀1分钟,然后除去乙醇并丢弃。将此洗涤重复一次,总共洗涤两次,同时将管保持在磁性板上。使用10μl移液管去除残留的乙醇,确保不扰动珠子沉淀。将珠子沉淀在磁性板上风干5-10分钟或直到珠子沉淀干燥。将管从磁性板取下并添加32μl水。将所得溶液通过移液混合直至匀化并在室温下孵育2分钟。然后将管置于磁性板上并静置3分钟或直至珠子完全沉淀。将30μl含有富集文库的澄清上清液转移到干净的薄壁PCR 0.2ml条形管中。
步骤5.每个富集的文库都使用适当的测定方法(诸如Agilent BioAnalyzer高灵敏度DNA试剂盒和Thermo Fisher scientific Qubit dsDNA高灵敏度定量测定)对大小和质量进行了验证和量化。然后将样品加载到Illumina测序仪上以便分析。采样以250X(理论读段深度)进行,并且映射质量>20。各种快速杂交洗涤缓冲液1温度对各种NGS测序度量的影响显示在图4A-4D中。结果示出于图5中,其证明使用快速杂交系统添加合成封闭文库持续两个不同杂交时间(2小时和4小时)的益处。进行进一步实验以评估添加的封闭文库的量,并且针对一系列NGS度量将其与封闭试剂cot-1相比较。图6-8。不同步骤的平均工作流程时间的汇总显示在表7A-7B中。
表7A:文库制备
表7B:靶标富集
实施例12.评估1Mb、1.5Mb和50Mb文库
按照实施例11的一般程序,使用非甲基化胞嘧啶的酶促转化(EM-seq)对1.0Mb和1.5Mb文库进行了评估。EM-seq转化涉及一系列将未甲基化的胞嘧啶转化成尿嘧啶的酶促步骤。首先,10-11易位双加氧酶2(TET2)和氧化增强子分别将甲基化的胞嘧啶(5mC和5hmC)转化为5-羧基胞嘧啶(5caC)和葡萄糖基化的5hmC(5ghmC)。这保护了这些胞嘧啶以免在变性之后在下一步被APOBEC脱氨。APOBEC将未受保护的(即未甲基化的)胞嘧啶脱氨为尿嘧啶。随后的PCR扩增将5mC或5hmC转化为胞嘧啶,并且将尿嘧啶转化为胸腺嘧啶。在存在或不存在甲基化增强子(设计2)的情况下杂交的结果示出于图9A-9B。此外,使用相同的一般工作流程测试了较大的50Mb文库,并且与1.0Mb和1.5Mb文库相比,其结果显示在图9C中。在图9D中还测试了额外量的增强子。
甲基化水平在人基因组上变化很大,并且不同甲基化的区域(DMR)可用于鉴别某些癌症。使用EM-seq转化方法以及比率为0、25%、50%、75%和100%甲基化的低甲基化和高甲基化的细胞系的共混物制备文库。使用中等严格性设计的1Mb套组捕获每个gDNA文库类型。使用500/550高输出v2试剂盒进行测序,以生成2x151配对末端读段。将数据相对于套组靶标大小下取样(down-sampled)为250x对准覆盖率,使用BismarkAligner进行映射,并且使用Picard度量进行分析,映射质量阈值为20。尽管CpG甲基化水平不同,但每种gDNA文库类型的关键杂交选择度量都很稳定。甲基化水平对不同甲基化水平(0-100%甲基化)的文库性能的影响是通过以确定的比率组合低甲基化和高甲基化基因组DNA生成的。此分析显示甲基化水平对最终测序度量的影响最小(图10)。
实施例13.合成cot-1的迭代增强
在进行实施例11的一般程序之后,通过使用捕获的数据检查在所需靶区域之外仍然捕获的序列来进一步完善合成cot-1文库,其通过以下实现:a)使用实验结果在将测序读段与输入基因组比对之后确定在靶和脱靶的区域(例如,在使用甲基化认识比对软件的亚硫酸氢盐转化的样品的情况下);b)使用脱靶序列以生成额外合成封闭寡核苷酸,任选地在聚类以减少序列之前或之后;和/或c)与原始封闭剂组一起,或在没有合成封闭剂运行实验的情况下单独合成并使用在b)中合成的额外封闭剂;任选地,重复此程序一次或多次以迭代地补充、完善和实现额外增强。
实施例14.添加对照DNA
按照实施例11的一般程序进行修改:增加了对照方案,以使用已知甲基化水平的DNA对照确认转换率。CpG甲基化的pUC19 DNA和未甲基化的λDNA用作甲基化对照。两个对照都拥有已知水平的甲基化,能够准确地确定测序后的转化率。因为这些对照可能缺乏靶标富集套组中的互补探针,所以对照进行杂交捕获;相反,将它们被储存到杂交捕获之后,随后与样品汇集在一起进行测序。
为了证明这些对照的使用,使用实施例11的一般方案生成文库。在单个反应中将48微升的每种DNA对照合并在一起,并使用高速真空浓缩器将混合物干燥下来。将所得干燥的DNA重新悬浮在50μl0.1X TE pH 8.0中,并通过文库过程移动。
表8显示了测量的相对于预期的转化效率和测序后甲基化水平。两个对照的EM-seq都满足高于99.5%转化的预期效率。未甲基化的λDNA和CpG甲基化的pUC19 DNA对照的预期CpG甲基化水平分别为0.5%和95-98%。测量的CpG甲基化水平匹配预期水平;在甲基化对照中,177个CpG位点中有166个是甲基化的。这些数据指示,可以使用已知甲基化水平的DNA对照,确保转化过程是完整的,并且使测定的假阳性最少。当用EM-seq转化CpG甲基化的pUC19 DNA和未甲基化的λDNA对照时,转化效率和CpG甲基化水平结果(表8)。
表8.预期相对于测量的转化效率和CpG甲基化水平。
实施例15.靶区域大小
按照实施例11的一般程序,使用不同大小的套组文库。许多与定制靶区域有关的因素影响最终靶标测序度量;在一些情况下,可能需要优化以获得最佳性能。这些因素包括但不限于靶区域的高GC含量和非常小的套组设计(<0.5Mb),在一些情况下,其对杂交特别敏感。在一些情况下,包容性和脱靶对照之间的最佳权衡取决于靶区域的特征和套组的预期应用。例如,在套组设计过程期间,处理中等大小的套组和少量样品的研究人员可能倾向于保留某些探针,即使它们需要额外测序来平衡增加的脱靶捕获。相比之下,处理小得多套组(在这种情况下,相对于套组其他部分,脱靶捕获更快地增加所需的测序)或处理非常大量样品(在这种情况下,成本的适度增加可快速累加)的人可能倾向于使用更严格的设计条件来优化成本。
为了评估套组大小和测序度量之间的关系,以实施例11的一般程序使用了三种不同的套组。这些套组一起跨越了广泛的甲基化靶标和套组大小:0.5Mb、3Mb和50Mb。此研究中使用的最大套组提供了接近7%的脱靶水平,所有套组登记的脱靶水平都低于10%。所有靶标大小的捕获均一性(fold-80碱基罚分)都是例外的,达到了1.4与1.7之间的值。所有套组中,30X覆盖率的探针比例高于90%。使用实施例11的一般方案和单重反应,覆盖0.5Mb、3Mb和50Mb靶标大小的甲基化套组的捕获度量显示于图12A中。在每个反应中,使用包括2μl甲基化增强子、洗涤缓冲液1温度65℃和2小时杂交时间的捕获条件。使用500/550高输出v2试剂盒进行测序,以生成2x76配对末端读段。将数据相对于套组靶标大小下取样(down-sampled)为200x对准覆盖率,使用Bismark Aligner进行映射,并且使用Picard度量进行分析,映射质量阈值为20。
实施例16.在基因组上的甲基化水平不同
因为不同的甲基化水平可用于特定癌症的早期检测,所以用于检测甲基化的方案与定制的套组设计高度兼容,并能鉴别高甲基化和低甲基化区域是有利的。转化导致序列复杂性降低,这在一些情况下可导致混合捕获步骤中下游的问题。然而,这些问题可以通过文库制备试剂、杂交捕获试剂和定制的套组设计来缓解,导致探针覆盖率在不同AT/GC含量和甲基化水平的区域上均匀分布。
使用1.5Mb定制的套组生成探针覆盖图,其中高甲基化和低甲基化基因组DNA输入材料使用两种不同的妆花系统:EM-seq和亚硫酸氢盐处理。图12B显示了使用EM-seq转化方法的两种甲基化水平的靶标读段计数的均匀分布(蓝绿色)。相比之下,行业领先的亚硫酸氢盐转化过程(灰色)导致了相对不均匀的靶标读段计数。方案使用定制1.5Mb套组和单重反应进行。在每个反应中,使用包括2μl甲基化增强子(设计2)、洗涤缓冲液1温度65℃和2小时杂交时间的捕获条件。使用500/550高输出v2试剂盒进行测序,以生成2x151配对末端读段。将数据相对于套组靶标大小下取样(down-sampled)为250x对准覆盖率,使用Bismark Aligner进行映射,并且使用Picard度量进行分析,映射质量阈值为20。对于低甲基化和高甲基化的gDNA类型,当使用酶促文库制备方法时,靶标覆盖率在所有GC分箱中分布更均匀。
实施例17.123Mb甲基化组套组
按照实施例11的一般程序,设计了123Mb甲基化组靶向文库,以覆盖人基因组中397万个CpG位点。靶标从公开可获得的数据库中鉴别,诸如UCSC、Ensembl、ENCODE等。文库包含靶向CpG架(8%)、CpG岸(21%)、CpG岛(15%)和CpG公海(interCGI,57%)的探针,如图20A所示。覆盖的靶标按基因组特征进行注释,包括:增强子(fantom,8,459,540)、基因启动子(54,385,728)、1至5kb基因(49,252,541)、基因内含子(90,059,139)、基因外显子(51,290,394)、5'UTR(21,743,694)和3'UTR(10,810,132),图20B。每个特征都具有甲基化组中覆盖的碱基对总数(允许靶标属于多于一个类别以说明不同的转录本)。在工作流程期间,样品的基因组插入被优化为大小至少200个碱基。探针浓度为0.01fmol/探针/rxn。杂交时间为16小时(可减至4小时),洗涤缓冲液1温度为63℃,并且使用2微升甲基化增强子。探针捕获之后,运行10个循环的PCR以扩增基因组文库。使用BWA-meth进行比对,每个样品需要约2小时。在NextSeq 550仪器的非模式化流动池上测序之后的单重结果显示于图21A-21C中。还使用Novaseq仪器的模式化流动池,使用单重(8个循环的捕获后PCR)和8重(6个循环的捕获后PCR)评估文库(图21D-21E)。
实施例18.与商业甲基化组套组的比较
按照实施例11的一般程序,制备了靶向甲基化套组,针对可商购获得的对比套组进行评估。靶向的套组使折叠性能提高了3x,均一性更好,并且脱诱饵率更低,同时对靶区域读段的回收率提高了8%(图22)。
实施例19.靶向肿瘤套组
按照实施例11的一般程序,制备了靶向甲基化套组,以靶向cfDNA中的肿瘤信号。相对于正常样品在肿瘤中检测到明显的DMR差异(图23A和23B)。
实施例20.针对小麦基因组的封闭剂的设计和使用
合成封闭文库的设计对其他物种基因组具有普遍适用性(无论是否分析甲基化模式)。一些最复杂和重复的基因组具有大量的重复、复制。例如,小麦是多倍体(六倍体)。按照实施例9的一般程序,设计了非甲基化的封闭剂文库,以靶向各种小麦品系中的重复区域。使用这种合成封闭剂文库改善了测序度量。(图24)。
虽然本文中已示出并描述了本发明的优选实施方案,但是对本领域技术人员而言将显而易见的是,此类实施方案仅通过示例的方式提供。在不脱离本发明的情况下,本领域技术人员现在将想到许多变型、改变和替换。应当理解,本文描述的本发明实施方案的各种替代方案可以用于实施本发明。旨在由以下权利要求限定本发明的范围,并且由此涵盖这些权利要求范围内的方法和结构及其等同方案。

Claims (61)

1.一种合成多核苷酸文库,其包含:
多个包含来源于基因组DNA的序列的多核苷酸,其中由所述序列编码的所述多个多核苷酸包含不多于2的C0t值,并且其中所述多个多核苷酸包含至少一个相对于所述基因组DNA的修饰。
2.如权利要求1所述的文库,其中所述至少一个修饰包含一个或多个多核苷酸相对于所述基因组中的丰度的不同的丰度。
3.如权利要求1所述的文库,其中所述至少一个修饰包含,相对于所述基因组DNA,所述多个多核苷酸中至少80%的胞嘧啶碱基被尿嘧啶或胸腺嘧啶替代。
4.如权利要求2所述的文库,其中对应于所述序列的多核苷酸包含不多于1的C0t值。
5.如权利要求2或4所述的文库,其中所述基因组DNA是胎盘DNA。
6.如权利要求5所述的文库,其中所述胎盘DNA是人胎盘DNA。
7.如权利要求1所述的文库,其中所述基因组DNA来自灵长类动物或啮齿动物。
8.如权利要求1所述的文库,其中所述基因组DNA是超声处理的鲑鱼精DNA、COT-1DNA、Alu、Kpn或编码大肠杆菌tRNA或酵母tRNA的DNA。
9.如权利要求1所述的文库,其中所述基因组DNA来源于生物体。
10.如权利要求9中任一项所述的文库,其中所述生物体是多倍体。
11.如权利要求9中任一项所述的文库,其中所述生物体是植物。
12.如权利要求11中任一项所述的文库,其中所述植物是食用作物。
13.如权利要求12中任一项所述的文库,其中所述食用作物是以下中的一种或多种:小麦、洋葱、大麦、黑麦、燕麦、玉米、大豆、水稻、甘薯、木薯、山药、车前草和马铃薯。
14.如权利要求1所述的文库,其中所述多个多核苷酸的长度为75-150个碱基。
15.如权利要求1所述的文库,其中所述多个多核苷酸包含50-300个碱基的平均长度。
16.如权利要求1-15中任一项所述的文库,其中所述多个多核苷酸包含至少10,000个多核苷酸。
17.如权利要求1-16中任一项所述的文库,其中所述多个多核苷酸不包含5-甲基胞嘧啶或5-羟甲基胞嘧啶。
18.如权利要求1-17中任一项所述的文库,其中相对于所述胎盘DNA,所述多个多核苷酸中至少90%的胞嘧啶碱基被尿嘧啶或胸腺嘧啶替代。
19.如权利要求1-18中任一项所述的文库,其中在所述基因组DNA中,至少80%的胞嘧啶碱基未被甲基化。
20.如权利要求1-19中任一项所述的文库,其中所述多个多核苷酸包含至少一个通用引物区。
21.如权利要求1-19中任一项所述的文库,其中所述多个多核苷酸不包含外显子。
22.如权利要求1-21中任一项所述的文库,其中所述多个多核苷酸中的每一个都以在平均值表示的10%内的量存在。
23.如权利要求1-22中任一项所述的文库,其中所述文库包含不多于5%的非重复序列。
24.一种生成杂交试剂的方法,所述方法包括:
a.提供多个编码来源于生物体的一个或多个源多核苷酸的序列,其中所述源多核苷酸包含不多于2的C0t值;
b.将所述多个序列映射到亚硫酸氢盐或酶促脱氨处理的参考基因组以生成映射序列;以及
c.合成杂交试剂,其中所述杂交试剂包含多个修饰多核苷酸,所述多个修饰多核苷酸包含所述参考基因组的映射序列。
25.如权利要求24所述的方法,其还包括在步骤(c)之前去除包含外显子组和refseq序列的映射序列。
26.一种生成杂交试剂的方法,所述方法包括:
a.提供多个编码来源于生物体的一个或多个源多核苷酸的序列,其中所述源多核苷酸包含不多于2的C0t值;
b.修饰所述多个序列,其中修饰包括在所述多个序列中,至少一个胞嘧啶被尿嘧啶或胸腺嘧啶替代,以生成多个修饰序列;以及
c.合成杂交试剂,其中所述杂交试剂包含有包含所述多个修饰序列的多个修饰多核苷酸。
27.如权利要求24-26中任一项所述的方法,其中所述生物体是动物。
28.如权利要求27所述的方法,其中所述动物是人。
29.如权利要求24-26中任一项所述的方法,其中所述多个序列来源于所述生物体的基因组。
30.如权利要求24-26中任一项所述的方法,其中所述多个序列来源于胎盘核酸。
31.如权利要求30所述的方法,其中所述多个序列来源于雄性胎盘核酸。
32.如权利要求24-13中任一项所述的方法,其中所述多个序列是DNA。
33.如权利要求24-32中任一项所述的方法,其中所述一个或多个源多核苷酸的长度为50-300个碱基。
34.如权利要求24-32中任一项所述的方法,其中所述一个或多个源多核苷酸的平均长度为50-300个碱基。
35.如权利要求24-34中任一项所述的方法,其中所述杂交试剂包含不多于5%的非重复序列。
36.如权利要求24-35中任一项所述的方法,其中所述一个或多个修饰多核苷酸的长度为75-150个碱基。
37.如权利要求24-36中任一项所述的方法,其中修饰包括至少80%的胞嘧啶被尿嘧啶或胸腺嘧啶替代。
38.如权利要求37所述的方法,其中修饰包括至少90%的胞嘧啶被尿嘧啶或胸腺嘧啶替代。
39.如权利要求24-38中任一项所述的方法,其中所述序列编码至少10,000个多核苷酸。
40.一种用于对核酸进行测序的方法,所述方法包括:
(a)将如权利要求1-23中任一项所述的文库与多个基因组片段和探针文库接触,其中所述探针文库包含多个多核苷酸探针;
(b)富集至少一个基因组片段,其结合所述探针文库,以生成至少一个富集的靶多核苷酸;以及
(c)对所述至少一个富集的靶多核苷酸进行测序。
41.如权利要求40所述的方法,其还包括在步骤(a)之前将所述多个基因组片段中的胞嘧啶脱氨。
42.如权利要求41所述的方法,其中脱氨包括用亚硫酸氢盐或一种或多种酶处理。
43.如权利要求42所述的方法,其中所述酶是APOBEC(“催化多肽样载脂蛋白B mRNA编辑酶”)。
44.如权利要求43所述的方法,其中所述一种或多种酶是APOBEC和TET2。
45.如权利要求40-44中任一项所述的方法,其中所述探针文库被配置成与至少一个包含CpG岛的基因组片段杂交。
46.如权利要求40-45中任一项所述的方法,其中所述探针文库被配置成与至少一个包含5-甲基胞嘧啶或5-羟甲基胞嘧啶的基因组片段杂交。
47.如权利要求40-46中任一项所述的方法,其中所述探针文库包含至少5000个多核苷酸探针。
48.如权利要求40-47中任一项所述的方法,其中所述多核苷酸探针的长度为80-250个碱基。
49.如权利要求40-48中任一项所述的方法,其中所述文库以相对于所述多个基因组片段至少5倍的摩尔过量存在。
50.如权利要求40-49中任一项所述的方法,其中所述多核苷酸探针包含至少一个可检测标记。
51.如权利要求40-50中任一项所述的方法,其中所述多核苷酸探针共同包含至少100万个碱基。
52.如权利要求51所述的方法,其中所述多核苷酸探针共同包含至少1000万个碱基。
53.如权利要求51所述的方法,其中所述多核苷酸探针共同包含至少1亿个碱基。
54.如权利要求40-53中任一项所述的方法,其中测序包括边合成边测序、纳米孔测序或SMRT测序。
55.如权利要求40-54中任一项所述的方法,其中所述方法还包括在步骤(a)中将所述文库与鲑鱼精接触。
56.如权利要求40-55中任一项所述的方法,其中接触发生不多于4小时。
57.如权利要求40-56中任一项所述的方法,其中接触在60-70℃的温度下发生。
58.如权利要求40-57中任一项所述的方法,其中至少一些基因组片段包含至少一个多核苷酸衔接子。
59.如权利要求48所述的方法,其中所述至少一个多核苷酸衔接子包含至少一个索引序列。
60.如权利要求59所述的方法,其中所述至少一个索引序列的长度为8-16个碱基。
61.如权利要求40-60中任一项所述的方法,其中所述方法还包括在步骤(a)中,使所述文库与一个或多个通用封闭剂接触。
CN202180081873.8A 2020-10-05 2021-10-04 杂交方法和试剂 Pending CN116981771A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US63/087,793 2020-10-05
US63/146,435 2021-02-05
US63/149,055 2021-02-12
US202163226620P 2021-07-28 2021-07-28
US63/226,620 2021-07-28
PCT/US2021/053412 WO2022076326A1 (en) 2020-10-05 2021-10-04 Hybridization methods and reagents

Publications (1)

Publication Number Publication Date
CN116981771A true CN116981771A (zh) 2023-10-31

Family

ID=88481847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180081873.8A Pending CN116981771A (zh) 2020-10-05 2021-10-04 杂交方法和试剂

Country Status (1)

Country Link
CN (1) CN116981771A (zh)

Similar Documents

Publication Publication Date Title
US20220106590A1 (en) Hybridization methods and reagents
US20210207197A1 (en) Compositions and methods for next generation sequencing
US11732294B2 (en) Polynucleotides, reagents, and methods for nucleic acid hybridization
US20210348220A1 (en) Polynucleotide libraries having controlled stoichiometry and synthesis thereof
US20220135965A1 (en) Libraries for next generation sequencing
US20220106586A1 (en) Compositions and methods for library sequencing
US20220277808A1 (en) Libraries for identification of genomic variants
US20160251651A1 (en) Cell free cloning of nucleic acids
US20220356463A1 (en) Libraries for mutational analysis
CN116981771A (zh) 杂交方法和试剂
US20230323449A1 (en) Compositions and methods for detection of variants
WO2023192635A2 (en) Libraries for methylation analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination