发明内容
本发明提供了一种扩增细胞基因组DNA的方法和一种用于扩增基因组DNA的试剂盒。
在本申请的一个方面中,提供了一种扩增基因组DNA的方法,所述方法包括:(a)提供第一反应混合物,其中所述第一反应混合物包括包含所述基因组DNA的样本、第一引物、核苷酸单体混合物和核酸聚合酶,其中所述第一引物从5’端到3’端包含通用序列和第一可变序列,所述第一可变序列包括第一随机序列,其中所述第一随机序列从5’端到3’端依次为Xa1Xa2……Xan,所述第一随机序列的Xai(i=1-n)均属于同一个集合,所述集合选自B、或D、或H、或V,其中B={T、G、C},D={A、T、G},H={T、A、C},V={A、C、G},其中Xai表示第一随机序列5’端的第i个核苷酸,n是选自3-20的正整数,可选地,所述第一反应混合物进一步包括第三引物,其中所述第三引物从5’端到3’端包含所述通用序列和第三可变序列,所述第三可变序列包括第三随机序列,其中所述第三随机序列从5’端到3’端依次为Xb1Xb2……Xbn,所述第三随机序列的Xbi(i=1-n)均属于同一个集合,所述集合选自B、或D、或H、或V,其中B={T、G、C},D={A、T、G},H={T、A、C},V={A、C、G},并且Xbi(i=1-n)和Xai(i=1-n)属于不同的集合,其中Xbi表示第三随机序列5’端的第i个核苷酸,n是选自3-20的正整数;(b)将所述第一反应混合物置于第一温度循环程序进行预扩增,获得预扩增产物;(c)提供第二反应混合物,所述第二反应混合物包括步骤(b)中得到的预扩增产物、第二引物、核苷酸单体混合物和核酸聚合酶,其中所述第二引物从5’端到3’端包含或由特定序列及所述通用序列组成;(d)将所述第二反应混合物置于第二温度循环程序进行扩增,获得扩增产物。
在一些实施方式中,第一随机序列的Xai(i=1-n)均属于集合B,第三随机序列的Xbi(i=1-n)均属于集合D。
在一些实施方式中,所述第一可变序列和所述第三可变序列进一步在其3’端包括固定序列,所述固定序列能够提高基因组覆盖度的碱基组合。在一些实施方式中,所述固定序列选自CCC、AAA、TGGG、GTTT、GGG、TTT、TNTNG或GTGG。
在一些实施方式中,所述第一可变序列选自Xa1Xa2……XanTGGG或Xa1Xa2……XanGTTT,所述第三可变序列选自Xb1Xb2……XbnTGGG或Xb1Xb2……XbnGTTT。
在一些实施方式中,选择所述通用序列以使得其基本上不会与基因组DNA结合产生扩增,所述通用序列长度为6-60bp。在一些实施方式中,选择所述通用序列使得扩增产物能够直接进行测序。在一些实施方式中,所述通用序列选自SEQ ID NO:1[TTGGTAGTGAGTG]、SEQ ID NO:2[GAGGTGTGATGGA]、SEQ ID NO:3[GTGATGGTTGAGGTA]、SEQ ID NO:4[AGATGTGTATAAGAGACAG]、SEQ ID NO:5[GTGAGTGATGGTTGAGGTAGTGTGGAG]或SEQ ID NO:6[GCTCTTCCGATCT]。
在一些实施方式中,所述通用序列和所述第一可变序列直接相连,或者所述通用序列和所述第一可变序列通过第一间隔序列相连,所述第一间隔序列为Ya1……Yam,其中Yaj(j=1-m)∈{A、T、G、C},其中Yaj表示间隔序列5’端的第j个核苷酸,m是选自1-3的正整数。
在一些实施方式中,所述通用序列和所述第三可变序列直接相连,或者所述通用序列和所述第三可变序列通过第三间隔序列相连,所述第三间隔序列为Yb1……Ybm,其中Ybj(j=1-m)∈{A、T、G、C},其中Ybj表示间隔序列5’端的第j个核苷酸,m是选自1-3的正整数。
在一些实施方式中,所述m=1。
在一些实施方式中,所述第一引物包括GCTCTTCCGATCTYa1Xa1Xa2X a3Xa4Xa5TGGG、GCTCTTCCGATCTYa1Xa1Xa2Xa3Xa4Xa5GTTT或其混合物,所述第三引物包括GCTCTTCCGATCTYb1Xb1Xb2Xb3Xb4Xb5TGGG、GCTCTTCCGATCTYb1Xb1Xb2Xb3Xb4Xb5GTTT或其混合物,其中Ya1∈{A、T、G、C},Yb1∈{A、T、G、C},所述Xai(i=1-5)∈{T、G、C},所述Xbi(i=1-5)∈{A、T、G}。
在一些实施方式中,所述方法进一步包括对步骤(d)中获得的扩增产物进行测序的步骤,其中所述第二引物包括与测序用引物的部分或全部互补或者相同的序列。
在一些实施方式中,所述通用序列包括与测序用引物的部分或全部互补或者相同的序列。
在一些实施方式中,所述第二引物的特定序列包括与测序用引物的部分或全部互补或者相同的序列。
在一些实施方式中,所述第二引物的特定序列进一步包括与测序平台的捕捉序列部分或全部互补或者相同的序列。
在一些实施方式中,所述第二引物的特定序列中包含的与测序用引物的部分或全部互补或相同的序列包含或由SEQ ID NO:31[ACACTCTTTCCCTACACGAC]、或SEQ ID NO:32[GTGACTGGAGTTCAGACGTGT]组成。
在一些实施方式中,所述第二引物的特定序列中包含的与测序平台的捕捉序列部分或全部互补或相同的序列包含或由SEQ ID NO:33[AATGATACGGCGACCACCGAGATCT]、或SEQID NO:34[CAAGCAGAAGACGGCATACGAGAT]组成。
在一些实施方式中,所述第二引物的特定序列进一步包括标识序列,所述标识序列位于所述与测序平台的捕捉序列部分或全部互补或相同的序列和所述与测序用引物的部分或全部互补或相同的序列之间。
在一些实施方式中,所述第二引物包括具有相同通用序列和不同特定序列的引物混合物,所述不同特定序列分别与同一测序中用到的测序引物对中不同引物的部分或全部互补或相同。
在一些实施方式中,所述第二引物包括SEQ ID NO:35[AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT]和SEQ ID NO:36[CAAGCAGAAGACGGCATACGAGATCGTGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT]所示的序列的混合物。
在一些实施方式中,所述核酸聚合酶具有热稳定和/或链置换活性。在一些实施方式中,所述核酸聚合酶选自:Phi29DNA聚合酶、Bst DNA聚合酶、Pyrophage 3137、Vent聚合酶、TOPOTaq DNA聚合酶、9。Nm聚合酶、Klenow Fragment DNA聚合酶I、MMLV反转录酶、AMV反转录酶、HIV反转录酶、T7phase DNA聚合酶变种、超保真DNA聚合酶、Taq聚合酶、Bst DNA聚合酶、E.coli DNA聚合酶、LongAmp Taq DNA聚合酶、OneTaq DNA聚合酶、DeepVent DNA聚合酶、Vent(exo-)DNA聚合酶、Deep Vent(exo-)DNA聚合酶,及其任意组合。
在一些实施方式中,步骤(b)使得所述第一类引物的可变序列能够与所述基因组DNA配对并扩增所述基因组DNA以得到基因组预扩增产物,其中所述基因组预扩增产物的5’端包含所述通用序列,3’端包含所述通用序列的互补序列。
在一些实施方式中,所述第一温度循环程序包括:(b1)能够打开所述DNA双链以获得DNA单链模板的温度程序;(b2)能够使所述第一引物以及可选的第三引物与所述DNA单链模板结合的温度程序;(b3)在所述核酸聚合酶的作用下能够使与所述DNA单链模板结合的第一类引物延伸长度以产生预扩增产物的温度程序;(b4)重复步骤(b1)到(b3)至指定的第一循环次数,其中所述指定的第一循环次数大于1。
在一些实施方式中,在进行第一次循环时,步骤(b1)中所述DNA双链为基因组DNA双链,所述温度程序包括在90-95℃的温度之间变性反应1-20分钟。在一些实施方式中,在进行第一次循环后,步骤(b1)中所述的温度程序包括在90-95℃的温度之间解链反应3-50秒。
在一些实施方式中,当进行到第二次循环后,所述预扩增产物包含在5’端包含所述通用序列,3’端包含所述通用序列的互补序列的基因组预扩增产物。
在一些实施方式中,在步骤(b1)后并且在步骤(b2)之前不包括额外的将所述第一反应混合物置于适当的温度程序,使得所述基因组预扩增产物的3’端与5’端杂交结合以形成发卡结构的步骤(b2’)。在一些实施方式中,所述步骤(b2)包括将所述反应混合物置于多于一种的温度程序,以促使所述第一类引物充分与所述DNA模板有效结合。在一些实施方式中,所述多于一种的温度程序包括:介于10-20℃之间的第一温度,介于20-30℃之间的第二温度,和介于30-50℃之间的第三温度。在一些实施方式中,所述步骤(b2)中所述步骤包括在第一温度退火反应3-60秒、在第二温度退火反应3-50秒和在第三温度退火反应3-50秒。在一些实施方式中,所述步骤(b3)中所述的温度程序包括在60-80℃的温度之间延伸反应10秒-15分钟。在一些实施方式中,所述步骤(b4)的所述第一循环次数为2-40。
在一些实施方式中,所述步骤(d)使得所述第二引物的所述通用序列能够与所述基因组预扩增产物的3’端配对并扩增所述基因组预扩增产物以得到扩大的基因组扩增产物。
在一些实施方式中,所述步骤(d)包括:(d1)能够打开DNA双链的温度程序;(d2)进一步能打开DNA双链的温度程序;(d3)能够使所述第二引物与所述经步骤(b)获得的基因组预扩增产物的单链结合的温度程序;(d4)能够使与所述基因组预扩增产物单链结合的第二引物在所述核酸聚合酶的作用下延伸长度的温度程序;(d5)重复步骤(d2)到(d4)至指定的第二循环次数,其中所述指定的第二循环次数大于1。
在一些实施方式中,步骤(d1)中所述DNA双链为所述基因组预扩增产物,并且所述DNA双链包括DNA发卡结构中包含的双链,所述温度程序包括90-95℃的温度之间变性反应5秒-20分钟。
在一些实施方式中,步骤(d2)中所述的温度程序包括在90-95℃的温度之间解链反应3-50秒。在一些实施方式中,所述步骤(d3)中所述的温度程序包括在45-65℃的温度之间退火反应3-50秒。在一些实施方式中,所述步骤(d4)中所述的温度程序包括在60-80℃的温度之间延伸反应10秒-15分钟。
在一些实施方式中,所述方法进一步包括分析所述扩增产物以识别与疾病或表型相关的序列特征。在一些实施方式中,所述与疾病或表型相关的序列特征包括染色体水平异常、染色体的异位、非整倍体、部分或全部染色体的缺失或重复、胎儿HLA单倍型和父源突变,或者所述疾病或表型选自下组:β-地中海贫血、唐氏综合征、囊性纤维化、镰状细胞病、泰-萨克斯病、脆性X综合征、脊髓性肌萎缩症、血红蛋白病、α-地中海贫血、X连锁疾病(由在X染色体上基因主导的疾病)、脊柱裂、无脑畸形、先天性心脏病、肥胖、糖尿病、癌症、胎儿性别、胎儿RHD。在一些实施方式中,所述基因组DNA来源于卵裂球、囊胚滋养层、培养的细胞、提取后的gDNA或囊胚培养液。
本申请的一方面提供了一种扩增基因组DNA的方法,所述方法包括:(a)提供第一反应混合物,其中所述第一反应混合物包括包含所述基因组DNA的样本、第一引物、核苷酸单体混合物、和核酸聚合酶,其中所述第一引物从5’端到3’端包含通用序列和可变序列,其中所述第一引物从5’端到3’端包含通用序列和第一可变序列,所述第一可变序列包括第一随机序列,其中所述第一随机序列从5’端到3’端依次为Xa1Xa2……Xan,所述第一随机序列的Xai(i=1-n)均属于同一个集合,所述集合选自B、或D、或H、或V,其中B={T、G、C},D={A、T、G},H={T、A、C},V={A、C、G},其中Xai表示第一随机序列5’端的第i个核苷酸,n是选自3-20的正整数,其中所述通用序列和所述第一可变序列直接相连、或所述通用序列和所述第一可变序列通过第一间隔序列相连,所述第一间隔序列为Ya1……Yam,其中Yaj(j=1-m)∈{A、T、G、C},其中Yaj表示间隔序列5’端的第j个核苷酸,可选地,其中所述第一反应混合物进一步包括第三引物,其中所述第三引物从5’端到3’端包含所述通用序列和第三可变序列,所述第三可变序列包括第三随机序列,其中所述第三随机序列从5’端到3’端依次为Xb1Xb2……Xbn,所述第三随机序列的Xbi(i=1-n)均属于同一个集合,所述集合选自B、或D、或H、或V,其中B={T、G、C},D={A、T、G},H={T、A、C},V={A、C、G},并且Xbi(i=1-n)和Xai(i=1-n)属于不同的集合,其中Xbi表示第一随机序列5’端的第i个核苷酸,n是选自3-20的正整数,其中所述通用序列和所述第三可变序列直接相连,或者所述通用序列和所述第三可变序列通过第三间隔序列相连,所述第三间隔序列为Yb1……Ybm,其中Ybj(j=1-m)∈{A、T、G、C},其中Ybj表示间隔序列5’端的第j个核苷酸,m是选自1-3的正整数;(b)将所述第一反应混合物置于第一温度循环程序,使得所述第一引物的第一可变序列以及可选的第三引物的第三可变序列能够与所述基因组DNA配对并扩增所述基因组DNA以得到基因组预扩增产物,其中所述基因组预扩增产物的5’端包含所述通用序列,3’端包含所述通用序列的互补序列;其中所述第一温度循环程序包括:(b1)第一个循环为在介于90-95℃的温度之间的第一变性温度反应1-20分钟,第一个循环之后为在介于90-95℃的温度之间的第二解链温度反应3-50秒;(b2)在介于10-20℃之间的第一退火温度反应3-60秒,介于20-30℃之间的第二退火温度反应3-50秒,和介于30-50℃之间的第三退火温度反应3-50秒;(b3)在介于60-80℃之间的第一延伸温度反应10秒-15分钟;(b4)重复步骤(b1)到(b3)至2-40个循环;(c)提供第二反应混合物,所述第二反应混合物包括步骤(b)中得到的所述基因组预扩增产物、第二引物、核苷酸单体混合物、和核酸聚合酶,其中所述第二引物的从5’端到3’端包含或由特定序列及所述通用序列组成;(d)将所述第二反应混合物置于第二温度循环程序,使得所述第二引物的所述通用序列能够与所述基因组预扩增产物的3’端配对并扩增所述基因组预扩增产物以得到扩大的基因组扩增产物,其中所述第二温度循环程序包括:(d1)在介于90-95℃之间的第二变性温度反应5秒-20分钟;(d2)在介于90-95℃之间的第二解链温度反应3-50秒;(d3)在介于45-65℃之间的第四退火温度反应3-50秒;(d4)在介于60-80℃之间的第二延伸温度反应10秒-15分钟;(d5)重复步骤(d2)到(d4)2-40个循环。
在一些实施方式中,所述通用序列包含或由SEQ ID NO:6组成;所述第一随机序列的Xai(i=1-n)均属于D,所述第三随机序列的Xbi(i=1-n)均属于B。
在一些实施方式中,步骤(d)得到的扩增产物已完成了文库构建。
在本申请的再一个方面中,提供了一种用于扩增基因组DNA的试剂盒,所述试剂盒包括第一引物,其中所述第一引物从5’端到3’端包含通用序列和第一可变序列,所述第一可变序列包括第一随机序列,其中所述第一随机序列从5’端到3’端依次为Xa1Xa2……Xan,所述第一随机序列的Xai(i=1-n)均属于同一个集合,所述集合选自B、或D、或H、或V,其中B={T、G、C},D={A、T、G},H={T、A、C},V={A、C、G},其中Xai表示第一随机序列5’端的第i个核苷酸,n是选自3-20的正整数,其中所述通用序列和所述第一可变序列直接相连、或所述通用序列和所述第一可变序列通过第一间隔序列相连,所述第一间隔序列为Ya1……Yam,其中Yaj(j=1-m)∈{A、T、G、C},其中Yaj表示间隔序列5’端的第j个核苷酸,m是选自1-3的正整数,可选地,其中所述第一反应混合物进一步包括第三引物,其中所述第三引物从5’端到3’端包含所述通用序列和第三可变序列,所述第三可变序列包括第三随机序列,其中所述第三随机序列从5’端到3’端依次为Xb1Xb2……Xbn,所述第三随机序列的Xbi(i=1-n)均属于同一个集合,所述集合选自B、或D、或H、或V,其中B={T、G、C},D={A、T、G},H={T、A、C},V={A、C、G},并且Xbi(i=1-n)和Xai(i=1-n)属于不同的集合,其中Xbi表示第一随机序列5’端的第i个核苷酸,n是选自3-20的正整数,其中所述通用序列和所述第三可变序列直接相连,或者所述通用序列和所述第三可变序列通过第三间隔序列相连,所述第三间隔序列为Yb1……Ybm,其中Ybj(j=1-m)∈{A、T、G、C},其中Ybj表示间隔序列5’端的第j个核苷酸,m是选自1-3的正整数。
在一些实施方式中,所述通用序列包含或由SEQ ID NO:6组成;所述第一随机序列的Xai(i=1-n)均属于D,所述第三随机序列的Xbi(i=1-n)均属于B。在一些实施方式中,所述通用序列包含或由SEQ ID NO:1组成;所述第一随机序列的Xai(i=1-n)均属于D,所述第三随机序列的Xbi(i=1-n)均属于B。在一些实施方式中,所述通用序列包含或由SEQ ID NO:2组成;所述第一随机序列的Xai(i=1-n)均属于D,所述第三随机序列的Xbi(i=1-n)均属于B。
在一些实施方式中,所述试剂盒用于构建全基因组DNA文库。
在一些实施方式中,所述试剂盒进一步包括核酸聚合酶,其中所述核酸聚合酶选自:Phi29DNA聚合酶、Bst DNA聚合酶、Pyrophage 3137、Vent聚合酶、TOPOTaq DNA聚合酶、9。Nm聚合酶、Klenow Fragment DNA聚合酶I、MMLV反转录酶、AMV反转录酶、HIV反转录酶、T7phase DNA聚合酶变种、超保真DNA聚合酶、Taq聚合酶、Bst DNA聚合酶、E.coliDNA聚合酶、LongAmp Taq DNA聚合酶、OneTaq DNA聚合酶、Deep Vent DNA聚合酶、Vent(exo-)DNA聚合酶、Deep Vent(exo-)DNA聚合酶、及其任意组合。
在一些实施方式中,所述试剂盒进一步包括包含一种或多种选自下组的成分:核苷酸单体混合物、Mg2+、dTT、牛血清白蛋白、pH调节剂、DNase抑制剂、RNase、SO4 2-、Cl-、K+、Ca2 +、Na+、(NH4)+的一种或多种试剂。
在一些实施方式中,所述混合物进一步包括细胞裂解剂,所述细胞裂解剂选自:蛋白酶K、胃蛋白酶、木瓜蛋白酶、NP-40、吐温、SDS、TritonX-100、EDTA和异硫氰酸胍中的一种或多种。
具体实施方式
本发明提供了扩增基因组DNA的方法,特别是扩增单细胞全基因组DNA的方法。
在本发明之前,通常是在基因扩增完成之后进行建库,在建库完成后再对其进行测序,这种方法流程复杂,耗时时间长。而本申请发明人通过设计特殊结构的引物并且优化扩增的过程,使得在单细胞扩增之后能够直接成库从而大幅减少单细胞全基因组DNA文库构建所需的时间。虽然在某些文献中报道了对引物的某些设计,但是这些设计均存在这样或那样的缺陷。例如在WO2012/166425中进行单细胞全基因组预扩增步骤时,引物的随机序列选自四种碱基(即,A、T、C和G),但是使用这种方法进行直接扩增建库时会不可避免的自体或相互之间成环或形成二聚体,从而显著降低了扩增的效率。再例如,在US8,206,913中报道了引物中随机序列选自两种碱基(即,G和T、G和A、A和C、C和T)以避免自体或相互之间成环,但是由于使用这类引物扩增出的序列中目标序列前的碱基随机性很差,所以在整板上机进行SBS测序时必须添加阳性对照品来校正碱基随机性,否则无法进行检测,因此这种方法势必会浪费一定的数据量。而与上述现有技术不同,本发明中涉及的引物虽然包含较高的碱基随机性,但引物自身或引物之间基本不形成或与四碱基随机引物相比形成非常少的成环或二聚体,并且本发明构建出的文库中目标序列前具有较高的碱基随机性,因此根据本发明的方法进行扩增获得的扩增产物二聚体少、可以直接成库、可用于整版上机并且测序结果良好。
在一方面,本申请提供了扩增基因组DNA的方法,所述方法包括:(a)提供第一反应混合物,其中所述第一反应混合物包括包含所述基因组DNA的样本、第一引物、核苷酸单体混合物和核酸聚合酶,其中所述第一引物从5’端到3’端包含通用序列和第一可变序列,所述第一可变序列包括第一随机序列,其中所述第一随机序列从5’端到3’端依次为Xa1Xa2……Xan,所述第一随机序列的Xai(i=1-n)均属于同一个集合,所述集合选自B、或D、或H、或V,其中B={T、G、C},D={A、T、G},H={T、A、C},V={A、C、G},其中Xai表示第一随机序列5’端的第i个核苷酸,n是选自3-20的正整数,可选地,所述第一反应混合物进一步包括第三引物,其中所述第三引物从5’端到3’端包含所述通用序列和第三可变序列,所述第三可变序列包括第三随机序列,其中所述第三随机序列从5’端到3’端依次为Xb1Xb2……Xbn,所述第三随机序列的Xbi(i=1-n)均属于同一个集合,所述集合选自B、或D、或H、或V,其中B={T、G、C},D={A、T、G},H={T、A、C},V={A、C、G},并且Xbi(i=1-n)和Xai(i=1-n)属于不同的集合,其中Xbi表示第三随机序列5’端的第i个核苷酸,n是选自3-20的正整数;(b)将所述第一反应混合物置于第一温度循环程序进行预扩增,获得预扩增产物;(c)提供第二反应混合物,所述第二反应混合物包括步骤(b)中得到的预扩增产物、第二引物、核苷酸单体混合物和核酸聚合酶,其中所述第二引物从5’端到3’端包含或由特定序列及所述通用序列组成;(d)将所述第二反应混合物置于第二温度循环程序进行扩增,获得扩增产物。本申请提供的方法的一种实施方式的图示请见图1。
步骤(a):提供第一反应混合物
本申请的方法广泛适用于基因组DNA的扩增,特别是痕量的基因组DNA的扩增。
i.基因组DNA
本申请的方法优选适用于基因组DNA。在某些实施方式中,反应混合物中包含的基因组DNA的起始量不超过10ng、不超过5ng、不超过1ng、不超过500pg、不超过200pg、不超过100pg、不超过50pg、不超过20pg、或者不超过10pg。
基因组DNA可以来自生物样品,例如生物组织或含有细胞或游离DNA的体液。含有基因组DNA的样品可以通过已知的方法获取,例如通过口腔粘膜样本、鼻腔样本、头发、漱口水、脐带血、血浆、羊水、胚胎组织、内皮细胞、指甲样本、蹄样本等获取。生物样品可以是任何适当的形式提供,例如可以是石蜡包埋的形式,新鲜分离的形式等。基因组DNA可以来自任何物种或生物种类,例如但不限于,人类、哺乳动物、牛、猪、羊、马、啮齿动物、禽类、鱼类、斑马鱼、虾、植物、酵母、病毒或细菌。
在某些实施方式中,基因组DNA是来自于单个细胞的基因组DNA,或者来自两个或多个同类细胞的基因组DNA。单个细胞或同类细胞可以来自,例如,植入前的胚胎、孕妇外周血中的胚胎细胞、单精子、卵细胞、受精卵、癌细胞、细菌细胞、肿瘤循环细胞、肿瘤组织细胞、或者从任意组织获得的单个或多个同类细胞。本申请的方法可以用于扩增一些宝贵的样本或起始量低样本中的DNA,如人类的卵细胞、生殖细胞、肿瘤循环细胞、肿瘤组织细胞等。
在一些实施方式中,基因组DNA来源于卵裂球、囊胚滋养层、培养的细胞、提取后的gDNA或囊胚培养液。
获得单细胞的方法在本领域也是公知的,例如,可以通过流式细胞分选的方法(Herzenberg等人Proc Natl Acad Sci USA 76:1453-55,1979;lverson等人PrenatalDiagnosis 1:61-73,1981;Bianchi等人Prenatal Diagnosis 11:523-28,1991)、荧光激活细胞分选法、通过磁珠分离的方法(MACS,Ganshirt-Ahlert等人Am J Obstet Gynecol166:1350,1992)、使用半自动细胞挑取仪(例如Stoelting公司生产的细胞转移系统QuixellTM)或者上述多种方法的结合。在一些实施方式中,可以使用梯度离心和流式细胞技术来提高分离和分选的效率。在一些实施方式中,可以根据单个细胞不同的性质来挑选特定类型的细胞,例如表达某种特定的生物标记的细胞。
获得基因组DNA的方法也是本领域公知的。在某些实施方式中,可以从生物样品中或单个细胞中裂解细胞并释放获得基因组DNA。可以使用本领域公知的任何适当的方法进行裂解,例如可以通过热裂解、碱裂解、酶裂解、机械裂解,或其任意组合的方式进行裂解(具体可参见,例如,U.S.7,521,246、Thermo Scientific Pierce Cell Lysis TechnicalHandbook v2和Current Protocols in Molecular Biology(1995).John Wiley和Sons,Inc.(supplement 29)pp.9.7.1-9.7.2.)。
机械裂解包括使用超声、高速搅拌、均质、加压(例如法式滤压壶)、减压和研磨等使用机械力破坏细胞的方法。最常用的机械裂解法是液体均质法,其迫使细胞悬浮液通过一个很狭窄的空间,从而对细胞膜施加剪切力(例如,如WO2013153176A1中所描述的)。
在某些实施方式中,可以使用温和的裂解方法。例如,可以将细胞在含有Tween-20的溶液中72℃加热2分钟、在水中65℃加热10分钟(Esumi等人,Neurosci Res 60(4):439-51(2008)、在含有0.5%NP-40的PCR缓冲液II(Applied Biosystems)中70℃加热90秒(Kurimoto等人,Nucleic Acids Res 34(5):e42(2006)、或者使用蛋白酶(例如蛋白酶K)或者离盐液(例如异硫氰酸胍)进行裂解(例如,如美国专利申请US 20070281313中所描述的)。
热裂解包括加热法和反复冻融法。在一些实施方式中,所述热裂解包括温度在20-100℃之间,裂解10-100分钟。在一些实施方式中,热裂解的温度可以是介于在20-90、30-90、40-90、50-90、60-90、70-90、80-90、30-80、40-80、50-80、60-80或70-80℃之间的任意温度。在一些实施方式中,热裂解的温度不低于20、30、40或50℃。在一些实施方式中,热裂解的温度不高于100、90或80℃。在一些实施方式中,热裂解时间可以是介于20-100、20-90、20-80、20-70、20-60、20-50、20-40、20-30、30-100、30-90、30-80、30-70、30-60、30-50或30-40分钟之间的任意时间。在一些实施方式中,热裂解的时间不少于20、30、40、50、60、70、80或90分钟。在一些实施方式中,热裂解的时间不多于90、80、70、60、50、40、30或20分钟。在一些实施方式中,热裂解温度是随时间进行变化的。在一些实施方式中,热裂解是温度在30-60℃保持10-30分钟,之后在70-90℃保持5-20分钟。
在一些实施方式中,所述热裂解是在裂解试剂存在的条件下进行的。当裂解试剂存在时,可以降低裂解所需的时间或降低裂解所需的温度。裂解试剂可以破坏蛋白-蛋白、脂质-脂质和/或蛋白-脂质相互作用,从而促进细胞释放基因组DNA。
在一些实施方式中,所述裂解试剂包括表面活性剂和/或裂解酶。表面活性剂可以分为离子型、两性和非离子型表面活性剂。一般情况下,两性和非离子型表面活性剂的裂解效能弱于离子型表面活性剂。示例性的表面活性剂包括,但不限于,NP-40、吐温、SDS、GHAPS、TritonX-100、TritonX-114、EDTA、脱氧胆酸钠、胆酸钠、异硫氰酸胍中的一种或多种。本领域技术人员可以根据实际的需要选择表面活性剂的种类和浓度。在一些实施方式中,表面活性剂的工作浓度为0.01%-5%、0.1%-3%、0.3%-2%或0.5-1%。
示例性的裂解酶可以是蛋白酶K、胃蛋白酶、木瓜蛋白酶等,或其任意组合。在一些实施方式中,裂解酶的工作浓度为0.01%-1%、0.02%-0.5%、0.03%-0.2%或0.4-0.1%。
在本申请提供的方法中,可以在第一反应混合物中直接使用含有基因组DNA的裂解产物,例如,可以将生物样品预先进行裂解处理,得到裂解产物,然后将裂解产物与第一反应混合物的其他成分混合。如有需要,可以对裂解产物经过进一步的处理,以分离得到其中的基因组DNA,再将该分离的基因组DNA与第一反应混合物的其他成分混合得到第一反应混合物。
在一些实施方式中,裂解后的核酸样品无需进行纯化即可进行扩增。在一些实施方式中,裂解后的核酸样品在进行纯化后再进行扩增。在一些实施方式中,裂解过程中DNA已经发生了不同程度的断裂,而无需特殊打断步骤即可用于扩增。在一些实施方式中,裂解后的核酸样品在经过打断处理后再进行扩增。
本申请还提供了一种更为简便的方法,即,直接将包含基因组DNA的细胞与扩增所需的其他成分混合得到第一反应混合物,也就是说,在第一反应混合物中的基因组DNA存在于细胞内部。在这样的情况下,第一反应混合物中还可以进一步含有能够裂解所述细胞的表面活性剂(例如但不限于,NP-40、吐温、SDS、TritonX-100、EDTA、异硫氰酸胍中的一种或多种)和/或裂解酶(例如蛋白酶K、胃蛋白酶、木瓜蛋白酶中的一种或多种)。这样,细胞的裂解和基因组DNA的预扩增都在同一个反应混合物中进行,能够提高了反应效率和缩短反应时间。
在某些实施方式中,本申请提供的方法在步骤(a)完成以后并且在进行步骤(b)之前还可以进一步包括将所述反应混合物置于裂解温度循环程序,使得所述细胞裂解并释放出所述基因组DNA。本领域技术人员根据反应混合物中含有的裂解成分、细胞的种类等可以选择适当的裂解温度循环程序。示例的裂解温度循环程序包括,将反应混合物置于50℃3分钟到8小时(例如,在3分钟到7小时、3分钟到6小时、3分钟到5小时、3分钟到4小时、3分钟到3小时、3分钟到2小时、3分钟到1小时、3分钟到40分钟、3分钟到20分钟之间的任意时间,例如10分钟、20分钟、30分钟等),然后置于80℃2分钟到8小时(例如,在2分钟到7小时、2分钟到6小时、2分钟到5小时、2分钟到4小时、2分钟到3小时、2分钟到2小时、2分钟到1小时、2分钟到40分钟、2分钟到20分钟之间的任意时间,例如10分钟、20分钟、30分钟等)。裂解温度程序可以进行1个循环,如有需要,也可以进行两个或更多个循环,取决于具体的裂解条件。
ii.第一类引物
本申请所述的方法中涉及两大类不同的引物,其中第一类引物从5’端到3’端包含通用序列和可变序列,所述第二类引物包含特定序列和通用序列,但是不包含任何可变序列。本文中所述的“第一引物”和“第三引物”均属于上述第一类引物。在第一反应混合物中包括的第一引物从5’端到3’端包含通用序列和第一可变序列;而在第一反应混合物中可选地包括的第三引物从5’端到3’端包括通用序列和第三可变序列。在一些实施方式中,第一类引物由通用序列和可变序列组成。在另一些实施方式中,第一类引物由通用序列、可变序列和间隔序列组成。
通用序列
通用序列在本申请中是指第一类引物和第二类引物在其5’端均具有的核苷酸序列。通用序列的长度可以是例如,6-60、8-50、9-40、10-30、10-15或25-30个碱基。在本申请中,选择适当的通用序列,使得基本上不会与基因组DNA结合而产生扩增,并且避免第一类引物与第一类引物之间的聚合(例如,第一引物与第一引物之间、第三引物与第三引物之间或第一引物和第三引物之间)以及第一类引物自身的成环(例如,第一引物5’端的部分序列与3’端的部分序列互补而第一引物自身形成发卡结构、或第三引物5’端的部分序列与3’端的部分序列互补而第三引物自身形成发卡结构),以及第一类引物与第二类引物之间的聚合或成环的情况。
在某些实施方式中,通用序列中包含全部4类碱基A、T、C、G。在某些实施方式中,通用序列中仅包含三类或两类自身互补配对能力较弱的碱基,而不含有另一种或两种碱基。在某些实施方式中,通用序列由G、A和T三种碱基组成,即通用序列中不含有C碱基。在某些实施方式中,通用序列由C、A和T三种碱基组成,即通用序列中不含有G碱基。在某些实施方式中,通用序列由A和T、A和C、A和G、T和C或T和G两种碱基组成,即通用序列中不同时含有G和C碱基。不希望受理论限制,但认为通用序列中如果含有C或G碱基可能会导致引物与引物之间的相互聚合,产生多聚体,从而削弱对基因组DNA的扩增能力。优选地,通用序列中不具有能够自身配对的序列、会导致引物与引物之间配对的序列,或者连续多个同种的碱基。
在某些实施方式中,可以选择适当的通用序列的碱基序列以及其中各碱基的比例,以确保通用序列本身不与基因组DNA模板序列发生碱基配对或产生扩增。
在某些实施方式中,可以选择所述通用序列使得扩增产物能够直接进行测序。不希望受到理论的约束,可以将通用序列设计成包括与测序用引物的部分或全部互补或者相同的序列(例如,与测序用引物的部分相同、全部相同、部分互补、或全部互补的序列)。在某些实施方式中,根据不同的测序平台针对性地选择通用序列。在某些实施方式中,根据第二代或第三代测序平台针对性地选择通用序列。在某些实施方式中,根据Illumina的NGS测序平台针对性地选择通用序列。在某些实施方式中,根据Ion torrent测序平台针对性地选择通用序列。
在某些实施方式中,所述通用序列选自下组:SEQ ID NO:1[TTGGTAGTGAGTG]、SEQID NO:2[GAGGTGTGATGGA]、SEQ ID NO:3[GTGATGGTTGAGGTA]、SEQ ID NO:4[AGATGTGTATAAGAGACAG]、SEQ ID NO:5[GTGAGTGATGGTTGAGGTAGTGTGGAG]和SEQ ID NO:6[GCTCTTCCGATCT]。
可变序列
第一类引物从5’端到3’端包含通用序列和可变序列(例如第一引物/第三引物分别包含第一/第三可变序列),其中第一类引物中的通用序列都相同,但是可变序列可能各不相同。例如,在一些实施方式中,第一/第三引物分别为包括相同的通用序列和不同的可变序列的引物混合物。可变序列在本申请中是指序列不固定的一段碱基序列,其可以包含随机序列(例如第一/第三可变序列分别包含第一/第三随机序列)。在一些实施方式中,可变序列由随机序列组成。在另一些实施方式中,可变序列由随机序列和固定序列组成。
a)随机序列
随机序列是指该序列每个碱基位置上的碱基均从某个特定集合中各自独立地随机选出,因此上述随机序列代表了由不同碱基组合构成的碱基序列的集合。
具体而言,例如,第一可变序列可包括第一随机序列,其中所述第一随机序列的碱基数为n,n是选自3-20的正整数,第一随机序列从5’端到3’端的序列可以表示为Xa1Xa2……Xan,而其中任意碱基位置i上的碱基(即,第一随机序列5’端的第i个核苷酸,i=1-n)可用Xai来代表,其中每个Xai均是从一个特定的集合中随机选择,例如,由A、T、G、C中的特定两种或三种核苷酸组成的集合。通常可以通过简并标识的方法表示上述任意碱基位置上可选择的集合,例如,可将仅包含A、G两种核苷酸的集合表示为R(即R={A、G}),其他的可以简并标识方式表示的集合还包括:Y={C、T}、M={A、C}、K={G、T}、S={C、G}、W={A、T}、H={A、C、T}、B={C、G、T}、V={A、C、G}、D={A、G、T}、N={A、C、G、T}。
可以通过完全随机的方式选择随机序列(即随机序列中的任意碱基位置),也可以在随机的基础上进一步增加某些限定条件,从而排除一些不希望的情况或者增加与目标基因组DNA的匹配程度。在某些实施方式中,为避免可变序列与通用序列产生互补配对,当通用序列含有大量G时,随机序列中的任意碱基位置均选自集合D(即,不为C);或者当通用序列含有大量C时,随机序列中的任意碱基位置均选自集合H(即,不为G);当通用序列含有大量T时,随机序列中的任意碱基位置均选自集合B(即,不为A);或者当通用序列含有大量A时,随机序列中的任意碱基位置均选自集合V(即,不为T)。
随机序列可以具有适当的长度,例如2-20个碱基、2-19个碱基、2-18个碱基、2-17个碱基、2-16个碱基、2-15个碱基、2-14个碱基、2-13个碱基、2-12个碱基、2-11个碱基、2-12个碱基、2-11个碱基、2-10个碱基、2-9个碱基、2-8个碱基、3-18个碱基、3-16个碱基、3-14个碱基、3-12个碱基、3-10个碱基,4-16个碱基、4-12个碱基、4-9个碱基、或5-8个碱基。在某些实施方式中,随机序列的长度为5个碱基。在某些实施方式中,随机序列的长度为8个碱基。理论上来说,如果随机序列的每个碱基位置都从A、T、G三种碱基中随机选择的话,那么长度为4个碱基的可变序列可以组合出34=81种可能的随机序列,长度为5个碱基的随机序列可以组合出35=243种可能的随机序列,以此类推。这些随机序列可以与基因组DNA上的不同位置的对应序列互补配对,从而在基因组DNA的不同位置开始复制。
在一个实施方式中,第一随机序列中每个任意碱基位置i上的碱基Xai(i=1-n)均属于同一个集合,并且其中所述集合选自B、D、H或V中的一个。作为一个非限制性的例子,第一引物以具有通用序列和第一随机序列,其中n=5,随机序列的每个任意Xai(i=1-5)均属于同一集合B,即,该随机序列可表示为BBBBB或者(B)5,随机序列可以选自{TTTTT,TGTTT,TCTTT,TTGTT,TTCTT……},共35=243种序列组合。在包括这种第一引物的特定第一反应混合物中,这些第一引物均具有相同的通用序列及上述的第一随机序列,即,在这个特定第一反应物中的第一引物是一组引物,这些引物均具有相同的通用序列,并且具有由选自集合B的碱基组成的相同或不同的随机序列。
除非另有明确的说明,本文中所有对于第一引物及其各个部分的描述均适用与第三引物及其相应部分。相似地,在第一反应混合物中进一步包含第三引物的情况下,第三引物中的第三可变序列可包括第三随机序列,其中所述第三随机序列从5’端到3’端依次为Xb1Xb2……Xbn,优选地所述第三随机序列的Xbi(i=1-n)均属于同一个集合,所述集合选自B、或D、或H、或V,其中B={T、G、C},D={A、T、G},H={T、A、C},V={A、C、G},并且Xbi(i=1-n)和Xai(i=1-n)属于不同的集合,其中Xbi表示第三随机序列5’端的第i个核苷酸,n是选自3-20的正整数。在一个特定的第一反应混合物中,包括一定量的第一引物,这些第一引物均具有相同的通用序列及长度为n的第一随机序列,其中第一随机序列的每个碱基Xai均属于同一个集合,并且其中所述集合选自B、D、H或V;同时上述第一反应混合物中进一步包括一定量的第三引物,这些第三引物均具有相同的通用序列及长度为n的第一随机序列,其中第一随机序列的每个碱基Xbi均属于同一个集合,并且其中所述集合选自B、D、H或V,并且Xbi和Xai属于不同的集合。在一些实施方式中,第一随机序列和第三随机序列的长度相同。在另一些实施方式中,第一随机序列和第三随机序列的长度不同。
b)固定序列
可变序列在其3’端还可以进一步包括固定序列,所述固定序列可以选自任何能够提高基因组覆盖度的碱基组合。本申请所述的固定序列包括但不限于选自CCC、AAA、TGGG、GTTT、GGG、TTT、TNTNG或GTGG的序列。在本申请中描述固定序列时使用的N表示选自A、T、C、G中的任一种单核苷酸,而并非表示选自N的随机序列。同一引物组中,例如第一引物中,从5’端到3’端可以依次包括相同的通用序列、含有不同序列组合的随机序列和相同的固定序列(例如所有第一引物在其3’端均包括TGGG或GTTT中的任一种)。或者,同一引物组中,例如第一引物中,从5’端到3’端可以依次包括相同的通用序列、含有不同序列组合的随机序列和不同的固定序列(例如第一引物中包含在其3’端均包括TGGG的引物混合物以及或在其3’端均包括GTTT的引物混合物)。在一些实施方式中,第一反应混合物包括第一引物和第三引物,其中第一引物中的第一可变序列选自Xa1Xa2……XanGGG、Xa1Xa2……XanTTT、Xa1Xa2……XanTGGG或Xa1Xa2……XanGTTT,第三引物中的第三可变序列选自Xb1Xb2……XbnGGG、Xb1Xb2……XbnTTT、Xb1Xb2……XbnTGGG或Xb1Xb2……XbnGTTT。
在某些实施方式中,还可以通过统计计算,选择在基因组上分布更加均匀,覆盖度更高的可变序列,从而增加可变序列与基因组DNA的识别机会。
在某些实施方式中,可变序列选自下组:(B)nCCC、(B)n AAA、(B)n TGGG、(B)nGTTT、(B)n GGG、(B)n TTT、(B)n TNTNG、(B)n GTGGGGG、(D)nCCC、(D)n AAA、(D)n TGGG、(D)nGTTT、(D)n GGG、(D)n TTT、(D)n TNTNG、(D)n GTGGGGG、(H)nCCC、(H)n AAA、(H)n TGGG、(H)nGTTT、(H)n GGG、(H)n TTT、(H)n TNTNG、(H)n GTGGGGG、(V)nCCC、(V)n AAA、(V)n TGGG、(V)nGTTT、(V)n GGG、(V)n TTT、(V)n TNTNG、(V)n GTGGGGG,其中n是选自3-17的正整数。在某些实施方式中,所述第一引物中的第一可变序列可以具有(B)nCCC、(B)n AAA、(B)n TGGG、(B)nGTTT、(B)n GGG、(B)n TTT、(B)n TNTNG、(B)n GTGGGGG中的一种或多种序列。在某些实施方式中,所述第三引物中的第三可变序列可以具有(D)nCCC、(D)n AAA、(D)n TGGG、(D)n GTTT、(D)n GGG、(D)n TTT、(D)n TNTNG、(D)n GTGGGGG中的一种或多种序列。
间隔序列
第一类引物的通用序列和可变序列可以是直接相邻的,或者也可以具有一个或多个碱基的间隔序列。在某些实施方式中,通用序列和可变序列通过长度为m的间隔序列相连,其中m是选自1-3的正整数。在为了排除一些不希望的情况(例如引物二聚体等)或者为了增加与目标基因组DNA的匹配程度而对可变序列中的随机序列进行一定程度的限制时,可以在通用序列和可变序列中引入m个完全随机地选自A、T、G、C的碱基(长度为m的间隔序列),以在不增加引物二聚体产生程度的情况下进一步增加第一类引物在目标基因组DNA上的覆盖率。
在一些实施方式中,第一引物中的通用序列和第一可变序列之间通过第一间隔序列相连,所述第一间隔序列为Ya1……Yam,其中Yaj(j=1-m)∈{A、T、G、C},其中Yaj表示第一间隔序列5’端的第j个核苷酸,m是选自1-3的正整数。在一些实施方式中,第三引物中的通用序列和第三可变序列之间通过第三间隔序列相连,所述第一间隔序列为Yb1……Ybm,其中Ybj(j=1-m)∈{A、T、G、C},其中Ybj表示第三间隔序列5’端的第j个核苷酸,m是选自1-3的正整数。在一些实施方式中,m为1,即第一引物中通用序列和第一可变序列之间通过一个选自集合N的碱基相连,第三引物中通用序列和第三可变序列之间通过一个选自集合N的碱基相连。
在某些实施方式中,设计第一引物(以及可选的第三引物)以使得其扩增产物可直接用于Illumina的NGS测序平台,其中第一引物包括GCTCTTCCGATCTYa1Xa1Xa2Xa3Xa4Xa5TGGG、GCTCTTCCGATCTYa1Xa1Xa2Xa3Xa4Xa5GTTT所示的序列或其混合物,第三引物包括GCTCTTCCGATCTYb1Xb1Xb2Xb3Xb4Xb5TGGG、GCTCTTCCGATCTYb1Xb1Xb2Xb3Xb4Xb5GTTT或其混合物,其中每个任意碱基位置i上的碱基Xai(i=1-n)均属于同一个集合,其中所述集合选自B、D、H或V中的一个,以及每个任意碱基位置i上的碱基Xbi(i=1-n)均属于同一个集合,其中所述集合选自B、D、H或V中的一个,并且Xbi(i=1-n)和Xai(i=1-n)属于不同的集合;其中Ya1∈{A、T、G、C},Yb1∈{A、T、G、C}。在某些特定实施方式中,上述Xai(i=1-5)∈{T、G、C},Xbi(i=1-5)∈{A、T、G},即第一引物包括SEQ ID NO:7、SEQ ID NO:11所示的序列或其混合物,第三引物包括SEQ ID NO:8、SEQ ID NO:12所示的序列或其混合物。
在某些实施方式中,第一类引物包含或者由选自SEQ ID NO:7、SEQ ID NO:8、SEQID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13或SEQ ID NO:14所示的序列组成,其中各第一类引物的通用序列包含或由SEQ ID NO:6组成。在某些实施方式中,第一类引物包括由SEQ ID NO:7所示的序列组成的引物和/或由SEQ ID NO:11所示的序列组成的引物。在某些实施方式中,第一类引物包括由SEQ ID NO:8所示的序列组成的引物和由SEQ ID NO:12所示的序列组成的引物。在某些实施方式中,第一类引物包括由SEQ IDNO:7所示的序列组成的引物或由SEQ ID NO:11所示的序列组成的引物;以及由SEQ ID NO:8所示的序列组成的引物或由SEQ ID NO:12所示的序列组成的引物。在某些实施方式中,第一类引物包含由SEQ ID NO:7所示的序列组成的引物、由SEQ ID NO:11所示的序列组成的引物、由SEQ ID NO:8所示的序列组成的引物和由SEQ ID NO:12所示的序列组成的引物。
在某些实施方式中,第一类引物包含或者由选自SEQ ID NO:15-22所示的序列组成,其中各第一类引物的通用序列包含或由SEQ ID NO:1组成。在某些实施方式中,第一类引物包括由SEQ ID NO:15所示的序列组成的引物和/或由SEQ ID NO:19所示的序列组成的引物。在某些实施方式中,第一类引物包括由SEQ ID NO:16所示的序列组成的引物和/或由SEQ ID NO:20所示的序列组成的引物。在某些实施方式中,第一类引物括由SEQ ID NO:15所示的序列组成的引物或由SEQ ID NO:19所示的序列组成的引物;以及由SEQ ID NO:16所示的序列组成的引物或由SEQ ID NO:20所示的序列组成的引物。在某些实施方式中,第一类引物包含由SEQ ID NO:15所示的序列组成的引物、由SEQ ID NO:19所示的序列组成的引物、由SEQ ID NO:16所示的序列组成的引物和由SEQ ID NO:20所示的序列组成的引物。
在某些实施方式中,第一类引物包含或者由选自SEQ ID NO:23-30所示的序列组成,其中各第一类引物的的通用序列包含或由SEQ ID NO:2组成。在某些实施方式中,第一类引物包括由SEQ ID NO:23所示的序列组成的引物和/或由SEQ ID NO:27所示的序列组成的引物中的一种或两种。在某些实施方式中,第一类引物包括由SEQ ID NO:24所示的序列组成的引物和/或由SEQ ID NO:28所示的序列组成的引物中的一种或两种。在某些实施方式中,第一类引物括由SEQ ID NO:23所示的序列组成的引物或由SEQ ID NO:27所示的序列组成的引物;以及由SEQ ID NO:24所示的序列组成的引物或由SEQ ID NO:28所示的序列组成的引物。在某些实施方式中,第一类引物包含由SEQ ID NO:23所示的序列组成的引物、由SEQ ID NO:27所示的序列组成的引物、由SEQ ID NO:24所示的序列组成的引物和由SEQ IDNO:28所示的序列组成的引物。
在一些实施方式中,第一和第三引物在第一反应混合物中的总浓度为10-150ng/μL。在一些实施方式中,第一和第三引物在第一反应混合物中的总浓度为10-120ng/μL、10-100ng/μL、10-90ng/μL、10-80ng/μL、10-70ng/μL、10-60ng/μL、10-50ng/μL、10-40ng/μL、20-120ng/μL、20-100ng/μL、20-80ng/μL、20-70ng/μL、20-60ng/μL、20-50ng/μL、30-140ng/μL、30-120ng/μL、30-100ng/μL、30-80ng/μL、30-60ng/μL或30-40ng/μL。在一些实施方式中,第一和第三引物在第一反应混合物中的浓度分别为10-140ng/μL、10-120ng/μL、10-100ng/μL、10-80ng/μL、10-60ng/μL、10-30ng/μL、10-20ng/μL、20-120ng/μL、20-100ng/μL、20-80ng/μL、20-60ng/μL、20-40ng/μL或20-30ng/μL。在一些实施方式中,第一和第三引物在第一反应混合物中的浓度分别为15ng/μL、30ng/μL或60ng/μL。在一些实施方式中,第一引物和第三引物在第一反应混合物中的浓度相同。在一些实施方式中,在第一反应混合物中的第一和第三引物分别为100-800pmol。在一些实施方式中,在第一反应混合物中的第一和第三引物一共为400-600pmol。
iii.其他成分
第一反应混合物还包括DNA扩增所需的其他组分,例如核酸聚合酶、核苷酸单体混合物、以及酶活性所需的适当的金属离子和缓冲液成分等。至少一种或多种这些成分可以使用本领域已知的试剂。
核酸聚合酶在本申请中是指能够合成新的核酸链的酶。任何适用于本申请方法的核酸聚合酶都可以使用。优选使用DNA聚合酶。在某些实施方式中,本申请的方法使用热稳定的核酸聚合酶,例如那些在PCR扩增的温度下(例如95摄氏度)聚合酶活性不会下降或者下降小于1%、3%、5%、7%、10%、20%、30%、40%或者50%的那些核酸聚合酶。在某些实施方式中,本申请的方法使用的核酸聚合酶具有链置换活性。本申请所述的“链置换活性”是指核酸聚合酶的一种活性,其能够使得核酸模板和与其配对结合的互补链分离,并且这种分离以从5’到3’的方向进行并伴随着新的与模板互补的核酸链的生成。具有链置换能力的核酸聚合酶及其应用是本领域已知的,例如可以参见美国专利U.S.5824517,该专利的全部内容通过引用并入本申请。适合的核酸聚合酶包括,但不限于:Phi29DNA聚合酶、Bst DNA聚合酶、Bst 2.0DNA聚合酶、Pyrophage 3137、Vent聚合酶(例如Thermococcus litoralis的Vent聚合酶、Deep Vent聚合酶、Vent(-exo)聚合酶、Deep Vent(-exo)聚合酶)、TOPOTaqDNA聚合酶、9。Nm聚合酶、Klenow Fragment DNA聚合酶I、MMLV反转录酶、AMV反转录酶、HIV反转录酶、T7phase DNA聚合酶变种(缺少3’-5’外切酶活性)、超保真DNA聚合酶、Taq聚合酶、Psp GBD(exo-)DNA聚合酶、Bst DNA聚合酶(全长)、E.coli DNA聚合酶、LongAmpTaq DNA聚合酶、OneTaq DNA聚合酶中的一种或多种。
核苷酸单体混合物在本申请中是指dATP、dTTP、dGTP、dCTP的混合物。
在某些实施方式中,第一反应混合物中含有Thermococcus litoralis的Vent聚合酶、Deep Vent聚合酶、Vent(-exo)聚合酶、或Deep Vent(-exo)聚合酶中的一种或多种。在某些实施方式中,反应混合物中含有Thermococcus litoralis的Vent聚合酶。Thermococcus litoralis的Vent聚合酶是指分离自Thermococcus litoralis的天然的聚合酶。在某些实施方式中,反应混合物中含有Deep Vent聚合酶。Deep Vent聚合酶是指分离自Pyrococcus species GB-D的天然的聚合酶。在某些实施方式中,反应混合物中含有Vent(-exo)聚合酶。Vent(-exo)聚合酶是指将Thermococcus litoralis的Vent聚合酶进行过D141A/E143A基因改造的酶。在某些实施方式中,反应混合物中含有Deep Vent(-exo)聚合酶。Deep Vent(-exo)聚合酶是指对Deep Vent聚合酶进行过D141A/E143A基因改造的酶。本申请中所述的各种Vent聚合酶可以从商业途径获得,例如从New England Biolabs公司获得。
第一反应混合物中还可以包括核酸聚合酶发挥酶活性所需的适当的金属离子(例如,适当浓度的Mg2+离子(例如终浓度可以为约1.5mM到约8mM),核苷酸单体混合物(例如dATP、dGTP、dTTP和dCTP)、牛血清白蛋白(BSA)、dTT(例如终浓度可以为约2mM到约7mM)、纯水等。
在某些实施方式中,第一反应混合物中还可以进一步包括pH调节剂,使得混合物的pH值维持在7.0-9.0之间。适当的pH调节剂可以包括,例如Tris HCl和Tris SO4。在某些实施方式中,第一反应混合物中还可以进一步包括一种或多种其他成分,例如DNase抑制剂、RNase、SO4 2-、Cl-、K+、Ca2+、Na+、和/或(NH4)+等。
步骤(b):置于第一温度循环程序
本申请提供的方法包括步骤(b):将所述第一反应混合物置于第一温度循环程序,使得所述第一类引物(第一引物或第一引物和第三引物)的可变序列能够与所述基因组DNA通过碱基配对结合,在核酸聚合酶的作用下复制基因组DNA。
“扩增”在本申请中是指,在核酸聚合酶的作用下,在引物的3’端添加与核酸模板互补的核苷酸,从而合成得到与核酸模板碱基互补的新的核酸链。可以使用适合的扩增核酸的方法,例如聚合酶链式反应(PCR)、连接酶链式反应(LCR),或其他适合的扩增方法。这些方法都是本领域已知的,可以参见例如美国专利U.S.4,683,195和U.S.4,683,202,以及Innis等人"PCR protocols:a guide to method and applications"Academic Press,Incorporated(1990)和Wu等人(1989)Genomics 4:560-569,这些文献和专利的全部内容通过引用并入本申请。
在扩增过程中,将反应混合物置于适当的温度循环程序,使得DNA模板双链解开成单链,第一/第三引物与模板单链杂交,然后在DNA聚合酶的作用下在引物的3’端进行延伸。因此,温度循环程序通常包括:变性或解链温度,在该温度下DNA模板双链解开成单链;退火温度,在该温度下引物与DNA模板单链特异性杂交;以及延伸温度,在该温度下DNA聚合酶在引物的3’端添加与DNA模板碱基互补的核苷酸,使得引物得以延长,得到与DNA模板互补的新的DNA链。
在第一温度循环程序中的第一次循环,首先将第一反应混合物置于能够打开所述基因组DNA的双链的温度程序(步骤(b1))。在第一轮循环中,为确保基因组DNA双链完全解开成单链(即,变性/解链),可以使用较高的反应温度(例如90℃-95℃),并且可以保持较长的反应时间(例如在介于90-95℃之间的温度反应1-20分钟)。而在后续循环中,需要解开的双链为扩增过程中生成的双链,在此情况下,只要待扩增的半扩增子或全扩增子双链能够变性成为单链即可,因此需要的解链时间无需很长(例如在介于90-95℃的温度之间解链反应3-50秒)。
然后,将第一反应混合物置于能够使所述第一类引物(第一引物或第一引物和第三引物)与DNA单链模板结合的温度程序(步骤(b2))。在这个温度程序中,第一类引物中的可变序列与基因组DNA中的不同位置的互补序列通过碱基互补结合(即,退火),并由此在基因组DNA的不同位置开启复制。由于第一类引物中的可变序列各不相同,其中的碱基比例、序列都存在差异,因此每个可变序列与基因组DNA结合的最佳温度也存在较大的差别。这样,在某个特定的退火温度下,可能只有一部分的引物能够很好地与基因组DNA结合,而另一部分引物与基因组DNA的结合可能并不理想。在某些实施方式中,所述步骤(b2)包括将所述反应混合物置于多于一种温度的程序,以促使所述第一类引物充分与所述DNA模板有效结合。例如,可以将DNA变性的反应混合物快速降温至低温,例如约10℃-20℃,再通过梯度升温的方式,使得反应混合物分别在不同的退火温度下反应适当的时间,从而确保尽可能多的引物与基因组DNA配对结合。在某些实施方式中,步骤(b2)包括在介于10-20℃之间的第一退火温度(例如15℃)反应适当的时间(例如3-60秒),在介于20-30℃之间的第二退火温度(例如25℃)反应适当的时间(例如3-50秒),以及在介于30-50℃之间的第三退火温度(例如35℃)反应适当的时间(例如3-50秒)。
本领域公知,引物的退火温度通常不会比引物Tm值低5℃以上,而过低的退火温度会导致引物与引物之间发生非特异性结合,从而导致出现引物聚合体以及非特异性扩增产物。因此,通常在引物退火温度中不会使用如10℃-20℃这样的低温。但是,本申请的发明人意想不到地发现,即使从低温(例如10℃-20℃)开始梯度升温,引物与基因组DNA之间的配对仍然能够保持很好的特异性,扩增结果仍然保持非常低的变异性,表明扩增的结果准确可靠。同时,由于引物退火温度覆盖了低温的情况,因此可以确保更广范围的引物序列与基因组DNA的结合,从而能够提供更好的基因组覆盖率和扩增深度。在退火温度程序后,将所述反应混合物置于能够使与DNA单链模板结合的第一类引物在所述核酸聚合酶的作用下延伸长度的温度程序,以产生扩增产物(步骤(b3))。
延伸温度通常与DNA聚合酶的最适温度相关,本领域技术人员可以根据具体的反应混合物进行具体的选择。在某些实施方式中,在反应混合物中的DNA聚合酶可以具有链置换活性,这样,如果引物在延伸的过程中遇到与下游模板结合的引物或扩增子,DNA聚合酶的链置换活性可以使这些下游结合的引物与模板链分开,从而确保延伸中的引物可以继续延伸,以得到较长的扩增序列。具有链置换活性的DNA聚合酶包括但不限于,例如,phi29DNA聚合酶、T5DNA聚合酶、SEQUENASE 1.0和SEQUENASE 2.0。在某些实施方式中,在反应混合物中的DNA聚合酶是热稳定的DNA聚合酶。热稳定的DNA聚合酶包括但不限于,例如,Taq DNA聚合酶、OmniBaseTM序列酶、Pfu DNA聚合酶、TaqBeadTM热启动聚合酶、Vent DNA聚合酶(例如Thermococcus litoralis的Vent聚合酶、Deep Vent聚合酶、Vent(-exo)聚合酶、Deep Vent(-exo)聚合酶)、Tub DNA聚合酶、TaqPlus DNA聚合酶、Tfl DNA聚合酶、Tli DNA聚合酶和Tth DNA聚合酶。在某些实施方式中,反应混合物中的DNA聚合酶可以是热稳定并且具有链置换活性的DNA聚合酶。在某些实施方式中,在反应混合物中的DNA聚合酶选自:Phi29DNA聚合酶、Bst DNA聚合酶、Pyrophage 3137、Vent聚合酶(例如Thermococcus litoralis的Vent聚合酶、Deep Vent聚合酶、Vent(-exo)聚合酶、Deep Vent(-exo)聚合酶)、TOPOTaq DNA聚合酶、9。Nm聚合酶、Klenow Fragment DNA聚合酶I、MMLV反转录酶、AMV反转录酶、HIV反转录酶、T7phase DNA聚合酶变种(缺少3’-5’外切酶活性)、超保真DNA聚合酶、Taq聚合酶、Bst DNA聚合酶(全长)、E.coli DNA聚合酶、LongAmp Taq DNA聚合酶、OneTaq DNA聚合酶中的一种或多种。
在某些实施方式中,步骤(b3)包括在介于60-90℃之间的延伸温度(例如,在65-90℃、70-90℃、75-90℃、80-90℃、60-85℃、60-80℃、60-75℃、70-80℃之间,或在60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75℃下)反应10秒-15分钟(例如,1-14、1-13、1-12、1-11、1-10、1-9、1-8、1-7、1-6、1-5、1-4、1-3、1-2、2-14、3-14、5-14、6-14、7-14、8-14、9-14、10-14、11-14、12-14、13-14分钟,或者10-60、10-50、10-40、10-30、10-20、20-60、20-50、20-40、20-30、30-60、30-50、30-40秒)。在某些实施方式中,步骤(b3)包括在60-80℃之间的一个或多个温度下反应30秒-2分钟。在某些实施方式中,步骤(b3)包括在65℃反应40秒。在某些实施方式中,步骤(b3)包括在75℃反应40秒。在某些实施方式中,步骤(b3)包括在65℃反应40秒之后再在75℃反应40秒。
引物延伸程序后,重复步骤(b1)到(b3)至指定的第一循环次数,如上所述在后续循环中,步骤(b1)中的解链温度与第一轮循环中的解链温度相近,但反应时间可以略短。在某些实施方式中,在第一轮循环后的循环中步骤(b1)包括在90-95℃的温度之间反应10-50秒。
本申请所述的第一循环次数至少为2。在第一次循环时,第一类引物的可变序列的3’端的序列得以延长,得到的扩增产物在5’端为通用序列,3’端为与基因组模板单链序列互补的序列,这样的扩增产物也称为半扩增子。在第二次循环时,之前的半扩增子本身也可以作为DNA模板与第一类引物中的可变序列结合,引物在核酸聚合酶的作用下向扩增产物的5’端延伸,直到复制完扩增产物5’末端的通用序列,由此得到在5’端为通用序列,3’端为通用序列的互补序列的基因组扩增产物,这样的扩增产物也称为全扩增子。本申请所述的预扩增产物主要是指5’端为通用序列而3’端为通用序列的互补序列的全扩增子。
在第一次循环后的后续扩增中,反应混合物中的DNA单链不仅包含原始的基因组DNA单链,也包含扩增得到的新合成的DNA单链,其中原始基因组DNA模板以及初始扩增中产生的半扩增子均可再次作为新的DNA模板,与引物结合并开启新一轮的DNA合成;但由于全扩增子两端包含互补的序列(5’端包含的通用序列和3’端包含的通用序列的互补序列),因此会自身形成发卡结构,从而不能在下一个反应循环中再次作为新的DNA模板,进行新一轮的DNA合成。
在某些实施方式中,将第一循环的次数控制在适当的范围内,以确保既有足够的预扩增产物用于后续的反应,又不会因为循环次数过多影响整个流程的反应时间。在某些实施方式中,第一循环的次数为2-40个循环(例如,2-40个、4-40个、6-40个、8-40个、10-40个、12-40个、14-40个、16-40个、18-40个、20-40个、15-40个、20-40个、25-40个、30-40个、5-35个、10-35个、15-35个、20-35个、25-35个、30-35个、10-30个、15-30个、20-30个、25-30个、2-20个、2-18个、2-16个、2-14个、2-12个、2-10个、2-8个、2-6个、2-4个、4-20个、4-18个、4-16个、4-14个、4-12个、4-10个、4-8个、4-6个、6-20个、6-18个、6-16个、6-14个、6-12个、6-10个、6-8个、8-20个、8-18个、8-16个、8-14个、8-12个、8-10个、10-20个、10-18个、10-16个、10-14个、10-12个、12-20个、12-18个、12-16个、12-14个、14-20个、1-18个、14-16个、16-20个、16-18个和18-20个循环)。例如,第一循环次数次数至少为3、至少为4、至少为5、或至少为6、至少为7、至少为8、至少为9、或至少为10、至少为11、至少为12、至少为13、至少为14、至少为15、或至少为16、至少为17、至少为18、至少为19或至少为20,或者最好不超过8、不超过9、不超过10、不超过11、不超过12、不超过13、不超过14、不超过15、不超过16、不超过17、或不超过18、不超过19、不超过20、不超过21、不超过22、不超过23、不超过24、或不超过25、不超过26、不超过27、不超过28、不超过29、不超过30、不超过31、不超过32、不超过33、不超过34、不超过35、不超过36、不超过37、不超过38、不超过39或不超过40。如果第一循环次数过低,则得到的预扩增产物少,为获得足够的扩增产物,就需要在扩增步骤(d)中增加循环次数,这样会降低扩增结果的准确性。而如果第一循环次数过高,则会由于耗时较长而导致整个流程反应时间过长。
在某些实施方式中,在步骤(b3)后进一步包括步骤(b3’),其中将所述反应混合物置于适当的温度程序,使得所述基因组预扩增产物中全扩增子的3’端与5’端杂交结合以形成环状结构。此前认为,步骤(b3’)能够将全扩增子的末端保护起来,从而避免两条或多条全扩增子之间发生首尾聚合,从而避免将两个原本在基因组上不相邻的序列结合在一起。这将有助于提高扩增结果的准确性。
在某些实施方式中,所述方法在步骤(b3)后不经其他步骤(例如步骤(b3’))而直接到后续步骤(b1)或(c)。这样,全扩增子并未经过特定的步骤以避免首尾聚合的情况,因此,理论上,这样的扩增结果应该在准确性上存在一定的缺陷。但是,意想不到的是,在本申请的方法中,即使在步骤(b3)后不经特定的步骤使全扩增子成环,最终的扩增结果仍然具有相当高的准确度,与使用步骤(b3’)的方法相比效果差不多。这精简了反应步骤,同时仍然保持了反应的特异性。
步骤(c):提供第二反应混合物
在步骤(c)中,第二反应混合物中包含步骤(b)中得到的预扩增产物、第二引物、核苷酸单体混合物和核酸聚合酶,第二引物从5’端到3’端包含特定序列及所述通用序列。由于通用序列基本上不与基因组序列互补,因此如果第二类引物的其他部分被设计为基本不与基因组序列互补,那么第二类引物不会直接与基因组DNA发生配对并开启基因组DNA的复制,因而在某些特定的实施方式中可以通过直接在步骤(b)结束后获得的反应混合物中加入第二引物而获得第二反应混合物。在另一些实施方式中,在步骤(c)之前对步骤(b)结束后获得的反应混合物进行纯化,得到纯化的预扩增产物,然后与第二引物、核苷酸单体混合物和核酸聚合酶以及可选地与任何其他本领域公知的可以用于扩增反应的试剂混合得到第二反应混合物。
i.第二类引物
本文中所述的“第二引物”属于上文所述的第二类引物。第二类引物包含第一类引物中的通用序列,从而第二类引物可以结合全扩增子中的3’端的通用序列的互补序列,从而进一步复制该全扩增子,使其数量大大增加。
在某些实施方式中,第二类引物从5’到3’包含或由特定序列和通用序列组成。可以根据不同的测序平台针对性地选择第二类引物。在某些实施方式中,根据第二代测序平台针对性地选择第二类引物。在某些实施方式中,根据Illumina的NGS测序平台(例如但不限于Hiseq、Miseq等)或Life technologies的Ion torrent的NGS测序平台针对性地选择第二类引物。在某些实施方式中,第二类引物包括与测序用引物的部分或全部互补或者相同的序列。在某些实施方式中,上述第二类引物中的与测序用引物的部分或全部互补或者相同的序列包含或由所述的通用序列组成。
本申请中所述的第二引物可以是具有第二类引物结构特征的一对引物对或者是具有相同结构和序列的单一引物。在一些实施方式中,第二引物的特定序列在其3’端包括与测序用引物的部分或全部互补或者相同的序列。在一些实施方式中所述第二引物的特定序列中包含的与测序用引物的部分或全部互补或相同的序列包含或由SEQ ID NO:31[ACACTCTTTCCCTACACGAC]、或SEQ ID NO:32[GTGACTGGAGTTCAGACGTGT]组成。在一些实施方式中,第二引物中的特定序列在其5’端进一步包括与测序平台的捕捉序列部分或全部互补或者相同的序列。捕捉序列是指在测序平台中测序板上包含的用于捕捉待测序片段的序列。在一些实施方式中,第二引物的特定序列中包含的与测序平台的捕捉序列部分或全部互补或相同的序列包含或由SEQ ID NO:33[AATGATACGGCGACCACCGAGATCT]、或SEQ ID NO:34[CAAGCAGAAGACGGCATACGAGAT]组成。在一些实施方式中,第二引物的特定序列进一步在所述与测序平台的捕捉序列部分或全部互补或相同的序列和所述与测序用引物的部分或全部互补或相同的序列之间包括一段标识序列(barcode序列),所述标识序列是指用于标识特定的待测序片段集合的序列,当测序平台同时对多个测序片段集合进行测序时,可以通过在测序结果中筛选每个集合带有的标识序列来区分测序数据。
在一些实施方式中,第二引物是包括具有相同通用序列和不同特定序列的引物对,其中所述不同特定序列分别包含与同一测序平台中用到的一对捕捉序列的部分或全部互补或者相同的序列,和/或所述不同特定序列分别包含与同一测序中用到的测序引物对中不同引物的部分或全部互补或相同的特定序列。在一些实施方式中,第二引物包括SEQID NO:35[AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT]和[CAAGCAGAAGACGGCATACGAGATX…XGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT]所示的序列的混合物,其中X…X为标识序列,本领域技术人员可以根据实际需要选择标识序列的长度和其具体序列。在一些实施方式中,第二引物包括SEQ ID NO:35[AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT]、SEQ ID NO:36[CAAGCAGAAGACGGCATACGAGATCGTGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT]所示的序列的混合物。在一些实施方式中,第二引物包括SEQ ID NO:37[CCACTACGCCTCCGCTTTCCTCTCTATGGGCAGTCGGTGATGCTCTTCCGATCT]和SEQ ID NO:38[CCATCTCATCCCTGCGTGTCTCCGACTCAGCTAAGGTAACGATGCTCTTCCGATCT]所示的序列的混合物。在一些实施方式中,第二引物包括SEQ ID NO:39[CCACTACGCCTCCGCTTTCCTCTCTATGGGCAGTCGGTGATTTGGTAGTGAGTG]和SEQ ID NO:40[CCATCTCATCCCTGCGTGTCTCCGACTCAGCTAAGGTAACGATTTGGTAGTGAGTG]所示的序列的混合物。
在一些实施方式中,第二引物在第二反应混合物中的浓度为1-15ng/μL。在一些实施方式中,第二引物在第二反应混合物中的浓度为1-12ng/μL、1-10ng/μL、1-8ng/μL、1-7ng/μL、1-6ng/μL、1-5ng/μL、1-4ng/μL、2-3ng/μL、2-12ng/μL、2-10ng/μL、2-8ng/μL、2-6ng/μL、2-5ng/μL、2-4ng/μL、2-3ng/μL、3-12ng/μL、3-10ng/μL、3-8ng/μL、3-6ng/μL或3-4ng/μL。在一些实施方式中,在第二反应混合物中的第二引物浓度为2-3ng/μL。在一些实施方式中,在第二反应混合物中的第二引物为5-50pmol。在一些实施方式中,在第二反应混合物中的第二引物为10pmol、15pmol或20pmol。
ii.其它成分
在某些实施方式中,第二反应混合物中含有的核酸聚合酶为选自Thermococcuslitoralis的Vent聚合酶、Deep Vent聚合酶、Vent(-exo)聚合酶、或Deep Vent(-exo)聚合酶中的一种或多种。在某些实施方式中,第二反应混合物中含有Thermococcus litoralis的Vent聚合酶。在某些实施方式中,第二反应混合物中含有Deep Vent聚合酶。在某些实施方式中,第二反应混合物中含有Vent(-exo)聚合酶。在某些实施方式中,第二反应混合物中含有Deep Vent(-exo)聚合酶。本申请中所述的各种聚合酶均可以从商业途径获得,例如从New England Biolabs公司获得。
在某些实施方式中,第二反应混合物中还可以包括核酸聚合酶发挥酶活性所需的适当的金属离子(例如,适当浓度的Mg2+离子(例如终浓度可以为约1.5mM到约8mM);核苷酸单体混合物(例如dATP、dGTP、dTTP、和dCTP)、牛血清白蛋白(BSA)、dTT(例如终浓度可以为约2mM到约7mM)、纯水、适当的缓冲液成分(例如pH调节剂,如Tris HCl和Tris SO4)或其他本领域通用的一种或多种其他成分(例如DNase抑制剂、RNase、SO4 2-、Cl-、K+、Ca2+、Na+、和/或(NH4)+等)等。
步骤(d):置于第二温度循环程序
本申请提供的方法还包括步骤(d):将步骤(c)得到的第二反应混合物置于第二温度循环程序,使得所述第二类引物的通用序列能够与所述基因组预扩增产物的3’端配对并扩增所述基因组预扩增产物以得到扩大的基因组扩增产物。
由于步骤(b)得到的基因组预扩增产物,即全扩增子,在3’端具有通用序列的互补序列,因此可以与第二类引物的通用序列互补,在核酸聚合酶的作用下,第二类引物延伸,复制全扩增子的全长。
在第二温度循环程序中,首先将反应混合物置于能够打开DNA双链的温度程序(步骤(d1))。这里的DNA双链主要是指在步骤(b)中得到的基因组预扩增产物(即全扩增子)的双链(包括全扩增子的单链发卡结构分子)。虽然此时的第二反应混合物中仍然可能存在原始的基因组DNA,但由于第二类引物基本上不与基因组DNA配对结合,因此原始的基因组DNA并不是步骤(d)中的待扩增的DNA模板。可以使用较高的反应温度(例如90℃-95℃)反应适当的时间使得待扩增的全扩增子双链/发卡结构能够变性成为线性单链。在某些实施方式中,步骤(d1)中的温度程序中将反应混合物置于能够打开DNA双链的温度反应足够的时间,以确保模板DNA双链或发卡结构全部变性成单链,该温度程序包括在介于90-95℃之间(例如95℃)的变性温度反应5秒-20分钟(例如30秒或3分钟)。在步骤(d1)以后,将反应混合物置于能够使其中包含的第x轮(x为≥1的整数)扩增中生成的扩增产物双链解链为单链模板的温度程序(步骤(d2)),即在介于90-95℃之间(例如95℃)的解链温度反应3-50秒(例如20秒)。应当理解的是,在第一轮循环中步骤(d2)并非必须,但由于变性和解链程序中使用的温度相近,且相对于变性时间来说解链时间很短,所以可以认为其在第一轮中为步骤(d1)的延时。
在步骤(d2)以后,将反应混合物置于能够使所述第二类引物与步骤(d1)或(d2)中获得的DNA单链结合的温度程序(步骤(d3))。根据第二类引物中的碱基组成,可以计算出第二类引物的Tm值,并基于该Tm值找出对于第二类引物的适合的退火温度。在某些实施方式中,步骤(d3)中的温度程序包括在介于45-65℃之间的退火温度(例如63℃)反应3-50秒(例如40秒)。在某些实施方式中,第二类引物为SEQ ID NO:35、SEQ ID NO:36的混合物,且步骤(d3)中的温度程序包括在63℃反应3-50秒。在某些实施方式中,步骤(d3)中的退火温度高于在步骤(b2)中的退火温度。在步骤(d3)时,反应混合物可能仍然含有在步骤(b)中未反应的第一类引物,这些第一类引物中的可变序列可能与步骤(d3)中得到的DNA单链模板配对结合,从而产生不完整的扩增序列。当步骤(d3)中的退火温度高于第一类引物适合的退火温度时,可以减少或避免第一类引物与DNA单链模板结合,从而选择性地允许第二类引物进行扩增。
在引物退火完成以后,将所述反应混合物置于能够使与所述扩增产物单链结合的第二类引物在所述核酸聚合酶的作用下延伸长度的温度程序。在某些实施方式中,步骤(d4)中所述的温度程序包括在介于60-80℃之间的延伸温度(例如72℃)反应10秒-15分钟(例如40秒或3分钟)。
可以重复步骤(d2)到(d4)至第二循环次数,以获得所需的扩大的基因组扩增产物。在这个过程中,步骤(b)中得到的基因组扩增产物被进一步复制扩增,数量大大增加,以提供足够的基因组DNA序列用于后续的研究或操作。在某些实施方式中,步骤(d5)中的所述第二循环次数大于所述步骤(b4)中的第一循环次数。在某些实施方式中,将第二循环的次数控制在适当的范围内,使得其既能够提供足够量的DNA,又不会因为过多的循环数而影响扩增的准确度。在某些实施方式中,第二循环次数为2-40个循环(例如,2-40个、4-40个、6-40个、8-40个、10-40个、12-40个、14-40个、16-40个、18-40个、20-40个、15-40个、20-40个、25-40个、30-40个、5-35个、10-35个、15-35个、20-35个、25-35个、30-35个、10-30个、15-30个、20-30个、25-30个、15-28个、15-26个、15-24个、15-22个、15-20个、15-18个、15-17个、16-30个、17-30个、18-30个、20-30个、22-30个、24-30个、26-30个、28-30个、32-40个、32-38个、32-36个或32-34个循环)。
在某些实施方式中,步骤(d)进一步包括在第二温度循环程序以后,将反应混合物置于与步骤(d4)相同的温度程序(例如72℃)反应适当的时间(例如40秒)。然后将反应混合物置于4℃的温度下以结束反应。在某些实施方式中,步骤(d)反应结束后直接将反应混合物置于4℃的温度下以结束反应。
在某些特定的实施方式中,本申请还提供了一种扩增细胞基因组的方法,所述方法包括:
(a)提供第一反应混合物,其中所述第一反应混合物包括所述基因组DNA、第一引物、核苷酸单体混合物、和核酸聚合酶,其中所述第一引物从5’端到3’端包含通用序列和可变序列,其中所述第一引物从5’端到3’端包含通用序列和第一可变序列,所述第一可变序列包括第一随机序列,其中所述第一随机序列从5’端到3’端依次为Xa1Xa2……Xan,所述第一随机序列的Xai(i=1-n)均属于同一个集合,所述集合选自B、或D、或H、或V,其中B={T、G、C},D={A、T、G},H={T、A、C},V={A、C、G},其中Xai表示第一随机序列5’端的第i个核苷酸,n是选自3-20的正整数,其中所述通用序列和所述第一可变序列直接相连、或所述通用序列和所述第一可变序列通过第一间隔序列相连,所述第一间隔序列为Ya1……Yam,其中Yaj(j=1-m)∈{A、T、G、C},其中Yaj表示间隔序列5’端的第j个核苷酸,
可选地,其中所述第一反应混合物进一步包括第三引物,其中所述第三引物从5’端到3’端包含所述通用序列和第三可变序列,所述第三可变序列包括第三随机序列,其中所述第三随机序列从5’端到3’端依次为Xb1Xb2……Xbn,所述第三随机序列的Xbi(i=1-n)均属于同一个集合,所述集合选自B、或D、或H、或V,其中B={T、G、C},D={A、T、G},H={T、A、C},V={A、C、G},并且Xbi(i=1-n)和Xai(i=1-n)属于不同的集合,其中Xbi表示第一随机序列5’端的第i个核苷酸,n是选自3-20的正整数,其中所述通用序列和所述第三可变序列直接相连,或者所述通用序列和所述第三可变序列通过第三间隔序列相连,所述第三间隔序列为Yb1……Ybm,其中Ybj(j=1-m)∈{A、T、G、C},其中Ybj表示间隔序列5’端的第j个核苷酸,m是选自1-3的正整数;
(b)将所述第一反应混合物置于第一温度循环程序,使得所述第一引物和第三引物的可变序列能够与所述基因组DNA配对并扩增所述基因组DNA以得到基因组扩增产物,其中所述基因组扩增产物的5’端包含所述通用序列,3’端包含所述通用序列的互补序列;其中所述第一温度循环程序包括:
(b1)在介于90-95℃的温度之间的第一变性温度反应1-10分钟(第一轮循环中)或者10-50秒(后续循环中);
(b2)介于5-15℃之间的第一退火温度反应3-50秒,介于15-25℃之间的第二退火温度反应3-50秒,和介于30-50℃之间的第三退火温度反应3-50秒;
(b3)在介于60-80℃之间的(一个或多个)第一延伸温度反应10秒-15分钟;
(b4)重复步骤(b1)到(b3)至2-40个循环;
(c)提供第二反应混合物,所述第二反应混合物包括步骤(b)中得到的所述基因组预扩增产物、第二引物、核苷酸单体混合物、和核酸聚合酶,其中所述第二引物的从5’端到3’端包含特定序列及所述通用序列;
(d)将所述第二反应混合物置于第二温度循环程序,使得所述第二引物的所述通用序列能够与所述基因组预扩增产物的3’端配对并扩增所述基因组预扩增产物以得到扩大的基因组扩增产物,其中所述第二温度循环程序包括:
(d1)在介于90-95℃之间的第二变性温度反应5秒-20分钟;
(d2)在介于90-95℃之间的第二解链温度反应3-50秒;
(d3)在介于45-65℃之间的第四退火温度反应3-50秒;
(d4)在介于60-80℃之间的第二延伸温度反应10秒-15分钟;
(d5)重复步骤(d2)到(d4)2-40个循环,获得基因组扩增产物。
在某些实施方式中,在步骤(a)的反应混合物中的基因组DNA存在于细胞内部,即:反应混合物含有细胞,而在细胞中包含了待扩增的基因组DNA。在某些实施方式中,在步骤(a)的反应混合物含有细胞,而且还进一步包含能够裂解细胞的成分,例如表面活性剂和/或裂解酶等。可以使用适当的表面活性剂,例如NP-40、吐温、SDS、TritonX-100、EDTA、异硫氰酸胍中的一种或多种。也可以选择适当的裂解酶,例如蛋白酶K、胃蛋白酶、木瓜蛋白酶中的一种或多种。在这样的实施方式中,上述扩增细胞基因组的方法在步骤(a)之后以及步骤(b)之前进一步包括将所述反应混合物置于裂解温度循环程序(例如将反应混合物置于50℃20分钟,然后置于80℃10分钟),使得所述细胞裂解并释放出所述基因组DNA。
应用
在某些实施方式中,本申请方法扩增得到的产物可以进一步用于进行测序,如进行全基因测序。由于各种测序分析平台如新一代测序(NGS),基因芯片(Microarray),荧光定量PCR等均对待分析样本的起始量有较高的要求(100ng以上),因此如需要从单个人类细胞(6pg左右)或者少量起始量的样本中得到足量用于分析的核酸物质,则需要进行全基因组扩增。可以通过本申请的方法对生物样品(例如单细胞)中的基因组DNA进行扩增,再通过本领域适当的测序方法对扩增得到的产物进行测序。示例的测序方法包括,杂交测序法(SBH)、连接酶测序法(SBL)、定量增量荧光核酸增加测序法(QIFNAS)、逐步连接和切割法、分子信标法、焦磷酸测序法、原位荧光测序法(FISSEQ)、荧光共振能量转移法(FRET)、多重测序法(美国专利申请12/027039;porreca等人(2007)NAT.Methods 4:931)、聚合群体(POLONY)测序法(U.S.6,432,360、U.S.6,485,944和PCT/US05/06425)、摆动测序法(PCTUS05/27695)、TaqMan报告分子探针消化法、微粒滚动循环测序法(ROLONY)(美国专利申请12/120541)、FISSEQ小珠法(U.S.7,425,431)和等位基因特异的寡核苷酸连接分析法等。
在某些实施方式中,可以以高通量的方法实现对本申请方法的扩增产物的测序。高通量的方法通常将待测序的核酸分子片段化(例如通过酶解或机械剪切等方式),以形成大量的长度为几十bp到几百bp的短片段。通过在一次测序反应中平行地对几万个、几十万个、几百万个、几千万个、甚至上亿个这样的短片段测序,可以大大提高测序的通量、缩短测序所需的时间。将测得的短片段的序列通过软件进行数据处理,可以拼接成完整的序列。本领域已知多种高通量测序平台,例如Roche 454、Illumina Solexa、AB-SOLiD、Helicos、Polonator平台技术等。本领域还已知多种基于光的测序技术,例如可以参见Landegren等人(1998)Genome Res.8:769-76、Kwok(2000)Pharmacogenomics 1:95-100和Shi(2001)Clin.Chem.47:164-172中描述的那些。
在某些实施方式中,本申请方法扩增得到的产物还可以用于对基因组DNA中的基因型或遗传多态性进行分析,例如单核苷酸多态性(SNP)分析、短串联重复序列(STR)分析、限制性片段长度多态性(RFLP)分析、可变数目串联重复序列(VNTRs)分析、复杂重复序列(CTR)分析或微卫星分析等,例如可以参考Krebs,J.E.,Goldstein,E.S.和Kilpatrick,S.T.(2009).Lewin’s Genes X(Jones&Bartlett Publishers),其公开内容通过引用整体并入本申请。
在某些实施方式中,本申请的方法得到的扩增产物还可以用于医学分析和/或诊断分析。例如,可以对个体的生物样品用本申请的方法进行扩增,分析扩增产物中在感兴趣的基因或DNA序列中是否存在突变、缺失、插入或染色体之间的融合等异常情况,从而评估该个体患上某种疾病的风险、疾病的进展阶段、疾病的基因分型、疾病的严重程度、或者该个体对某种疗法反应的可能性。可以使用本领域已知的适当的方法对感兴趣的基因或DNA序列进行分析,例如但不限于,通过核酸探针杂交、引物特异性扩增、对感兴趣的序列测序、单链构象多态性(SSCP)等。
在某些实施方式中,本申请的方法可以用于比较来源于不同单细胞的基因组,特别是来自于同一个体的不同单细胞。例如,当同一个体的不同单细胞的基因组之间存在差异时,例如肿瘤细胞和正常细胞之间,可以使用本申请的方法分别扩增不同单细胞的基因组DNA,并对扩增产物进行进一步的分析,例如,通过测序分析和比较,或者进行比较基因组杂交(CGH)分析。可以参考Fan,H.C.,Wang,J.,Potanina,A.和Quake,S.R.(2011).Whole-genome molecular haplotyping of single cells.Nature Biotechnology 29,51–57.以及Navin,N.,Kendall,J.,Troge,J.,Andrews,P.,Rodgers,L.,McIndoo,J.,Cook,K.,Stepansky,A.,Levy,D.,Esposito,D.等人(2011).Tumour evolution inferred bysingle-cell sequencing.Nature 472,90–94,其公开内容通过引用整体并入本申请。
在某些实施方式中,本申请的方法可以用于识别在同源染色体中的单倍体结构或单倍体基因型。单倍体基因型是指同一单倍体的染色体上共同遗传的多个基因座上等位基因的组合。可以将生物样品(例如来自个体的二倍体的单细胞)分成足够多的部分,以使得同源的两个单倍体上的DNA序列在统计学意义上被分隔到不同的部分中。每一个部分配置成一个反应混合物,对每一个反应混合物通过本申请的方法进行DNA扩增,然后将扩增产物进行序列分析,并与参照的基因组序列(例如公开的人的标准基因组序列,请参见:International Human Genome Sequencing Consortium,Nature 431,931-945(2004))进行比对,以识别其中的单核苷酸突变情况。如果没有现成的参照基因组序列,也可以通过从头基因组组装(de-novo genome assembly)的方法从基因组的多个片段序列组装得到适当长度的一段区域以供比较。
在某些实施方式中,本申请的方法扩增得到的产物可以进一步用于基因克隆、荧光定量PCR等分析。
在某些实施方式中,本申请的方法还可以进一步包括分析所述扩增产物以识别与疾病或表型相关的序列特征。在一些实施方式中,分析所述扩增产物包括对DNA扩增物的基因型分析。在另一些实施方式中,分析所述扩增产物包括识别DNA扩增物的多态性,如单核苷酸多态性分析(SNP)。SNP可以通过一些众所周知的方法进行检测,例如寡核苷酸连接测定法(OLA)、单碱基延生法、等位基因特异性引物延伸法、错配杂交法等。可以通过比对SNP与已知疾病表型的关系来诊断疾病。
在一些实施方式中,所述与疾病或表型相关的序列特征包括染色体水平异常、染色体的异位、非整倍体、部分或全部染色体的缺失或重复、胎儿HLA单倍型和父源突变。
在一些实施方式中,所述疾病或表型可以是β-地中海贫血、唐氏综合征、囊性纤维化、镰状细胞病、泰-萨克斯病、脆性X综合征、脊髓性肌萎缩症、血红蛋白病、α-地中海贫血、X连锁疾病(由在X染色体上基因主导的疾病)、脊柱裂、无脑畸形、先天性心脏病、肥胖、糖尿病、癌症、胎儿性别、或胎儿RHD。
试剂盒
在本申请的另一方面还提供了可用于基因组DNA扩增的试剂盒,其中包括第一引物。在某些实施方式中,所述试剂盒同时包括第一引物和第三引物。在某些实施方式中,试剂盒进一步包括核酸聚合酶,其中所述核酸聚合酶选自:Phi29DNA聚合酶、Bst DNA聚合酶、Pyrophage 3137、Vent聚合酶、TOPOTaq DNA聚合酶、9。Nm聚合酶、Klenow Fragment DNA聚合酶I、MMLV反转录酶、AMV反转录酶、HIV反转录酶、T7phase DNA聚合酶变种、超保真DNA聚合酶、Taq聚合酶、Bst DNA聚合酶、E.coli DNA聚合酶、LongAmp Taq DNA聚合酶、OneTaq DNA聚合酶、Deep Vent DNA聚合酶、Vent(exo-)DNA聚合酶、Deep Vent(exo-)DNA聚合酶,及其任意组合。在某些实施方式中,试剂盒进一步包括一种或多种选自下组的成分:核苷酸单体混合物(例如dATP、dGTP、dTTP和dCTP,例如,总浓度介于1mmol-8mmol/μL)、dTT(例如,浓度介于1mmol-7mmol/μL)、Mg2+溶液(例如,浓度介于2mmol-8mmol/μL)、牛血清白蛋白(BSA)、pH调节剂(例如Tris HCl)、DNase抑制剂、RNase、SO4 2-、Cl-、K+、Ca2+、Na+、和/或(NH4)+。在某些实施方式中,试剂盒进一步包括能够裂解细胞的成分,例如一种或多种表面活性剂(例如,NP-40、吐温、SDS、TritonX-100、EDTA、异硫氰酸胍),和/或一种或多种裂解酶(例如,蛋白酶K、胃蛋白酶、木瓜蛋白酶)。在一些实施方式中,所述试剂盒进一步包括第二类引物(即,第二引物)。应当理解,试剂盒中的第一引物、第二引物及第三引物均具有如上文中具体描述的结构和序列特征。
在一些实施方式中,试剂盒中的所有组分均分别存放于单独的容器中。在一些实施方式中,试剂盒中的所有组分均共同存放在同一容器中。在一些实施方式中,试剂盒中的每种引物均分别各自存放在单独的容器中,而除引物以外的所有其他组分均存放在同一容器中。当试剂盒中包括核酸聚合酶时,核酸聚合酶可以以基本上纯的形式存放于单独的容器中,或者可选地可以与其他成分组成混合物。
在一些实施方式中,所述试剂盒可以包含含有线性扩增反应所需的除基因组DNA以外的全部反应物的混合物,当这样的试剂盒用于本申请所述的线性扩增反应时,可以将含有基因组DNA的样本与试剂盒中的混合物直接混合,可选地可以加入适量的纯水以获得需要的反应体积,即可获得本申请方法的步骤(a)中的第一反应混合物。在一些实施方式中,所述试剂盒可以包含含有指数扩增反应所需的除扩增模板以外的全部反应物的混合物,当这样的试剂盒用于本申请所述的指数扩增反应时,可以将含有步骤(b)中的扩增产物的DNA模板样本与试剂盒中的该混合物直接混合,可选地可以加入适量的纯水以获得需要的反应体积,即可获得本申请方法的步骤(c)中的第二反应混合物。在另一些实施方式中,所述试剂盒可以既包含含有指数扩增反应所需的除扩增模板以外的全部反应物的混合物又包含含有指数扩增反应所需的除扩增模板以外的全部反应物的混合物,上述混合物可以是分开的两种,也可以是混合的一种。
在本申请的另一方面还提供了可用于基因组DNA扩增的试剂盒,所述试剂盒包括第一类引物(例如,第一引物和/或第三引物)和第二类引物(例如,第二引物),并且还包括使用说明书,所述使用说明书记载了在开始进行所述扩增之前混合引物和其他组分得到第一/第三反应混合物的步骤。在另一些实施方式中,所述说明书还记载了如何进行本申请所述的扩增。试剂盒中的第一类引物和第二类引物可以分别置于不同的容器中,但说明书中可以包括在开始扩增前将两者混合在同一容器中的步骤。