具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。
本发明提出第一典型实施例,一种接头,所述接头为互补的双链核酸分子;所述双链核酸分子中只有一条链上含有至少一个用于切割的特异性切割位点;所述特异性切割位点为尿嘧啶核苷酸、P-S键或脱氧肌苷;所述P-S键为硫代磷酸酯键。
本方案的接头适于与任意长度的核酸片段连接,尤其适用于与接头长度相差不大的核酸片段,例如:核酸片段与接头的大小比值在6:1至1:4之间,更优选在4:1至3:8之间,更优选在2:1至1:2之间。因为在构建测序文库时,接头往往是与片段化的产物连接,而片段化的产物的往往是一定长度范围内的核酸片段的集合,所以,当用于与接头连接的核酸片段与接头的大小相差不大时,易导致接头与核酸片段的连接产物的大小和接头自连产物的大小相近,而不易分离,从而导致测序文库中掺入接头自连的产物,进而干扰后续的测序反应。而本方案的接头为互补的双链核酸分子,且只有一条链上含有至少一个特异性切割位点;因此,在构建测序文库的过程中,可将含有接头的连接产物上的特异性切割位点切开,此时接头自连产物被切出多个小核酸片段,正确连接的产物同样能够被切下小核酸片段,但是正确连接的产物的其余部分(目标切割产物)较接头自连产物的切割产物和正确连接的产物上切下的小核酸片段大很多;即,通过切割步骤,可加大接头自连产物与正确连接的产物之间的大小差异,从而有利于正确连接的产物与接头自连产物的分离,进而实现对接头自连产物的彻底清除。
需要说明的是:所述尿嘧啶核苷酸能够被USER酶或UDG酶特异性切割;所述脱氧肌苷能够被大肠杆菌核酸内切酶Ⅴ或大肠杆菌核酸内切酶Ⅴ同源物或DNA糖基化酶特异性切割;所述硫代磷酸酯键能够被含有Ag、Hg、Cu、Mn、Zn或Cd原子的切割剂特异性切割。
所述硫代磷酸酯键是指磷酸二酯键的桥接氧原子之一被硫原子取代。硫代磷酸脂键可以是图2中A所示的5’-S-硫代磷酸酯连接(3’-O-P-S-5’),也可以是图2中B所示的3’-S-硫代磷酸酯连接(3’-S-P-O-5’)。
可用各种含金属的物质切割硫代磷酸酯键。所述金属可以是Ag、Hg、Cu、Mn、Zn或Cd。优选的,该物质是提供Ag+、Hg++、Cu2+、Mn2+、Zn+或Cd+离子的可溶于水的盐(也可采用提供其它氧化状态的离子的盐)。特别优选含银盐如硝酸银(AgNO3)或其它提供Ag+离子的盐。切割的条件包括例如50 mM AgNO3,约22~37℃,10分钟或更长时间如30分钟。优选的,pH为4.0~10.0,更优选5.0~9.0,如约6.0~8.0,如约7.0。参见Mag, M.等,Nucleic Acids Res. , 19(7): 1437-1441, 1991。
如上所述,特异性切割位点为P-S键的接头与特异性切割位点为尿嘧啶核苷酸或脱氧肌苷的接头相比,所需的特异性切割试剂的成本更低,完成切割的速度更快,操作也更为简便,构建测序文库的成本更低;但其对环境造成的污染较大。相应的,特异性切割位点为尿嘧啶核苷酸或脱氧肌苷的接头能够避免环境污染的问题。
优选的,所述特异性切割位点均为尿嘧啶核苷酸。因为尿嘧啶核苷酸被特异性切割的速度较脱氧肌苷被特异性切割的速度更快,即本方案的接头能够提高构建测序文库的效率。
本方案中,所述小核酸片段是指从接头与核酸片段的连接反应的产物(可包括正确连接产物和接头自连产物)上被特异性切割试剂切割下的核酸片段。
基于第一典型实施例,本发明提出第二典型实施例,本实施例中对特异性切割位点,即尿嘧啶核苷酸、P-S键或脱氧肌苷在核酸链上的分布做了进一步的限定。所述特异性切割位点将其所在核酸链分隔成至少两个核酸片段,且所述核酸片段均小于15bp。
如图3所示,本方案的接头在构建测序文库的过程中,在经特异性切割试剂切割之后,所得的小核酸片段均小于15bp,这降低了这些小核酸片段与其互补链之间的结合能力,更容易形成单链分子,保证目标切割产物与接头自连产物的切割产物和正确连接的产物上切下的小核酸片段之间的大小差异处于易于分离的范围,即,通过切割步骤更有利于正确连接的产物与接头自连产物的分离,进而实现对接头自连产物的彻底清除。即,第二典型实施例的接头能够更好的避免构建的测序文库中掺入接头自连的产物。
优选的,所述特异性切割位点将其所在核酸链分隔成至少两个核酸片段,且所述核酸片段均小于10bp。
更优选的,所述特异性切割位点将其所在核酸链分隔成至少两个核酸片段,且所述核酸片段均小于8bp或7bp或6bp或5bp。本方案中的接头,通过对特异性切割位点之间的位置的进一步限定,在构建测序文库的过程中,在经特异性切割试剂切割之后,断裂形成的核酸片段在常温下即可与特异性切割位点所在链的互补链分离,即形成单链分子,从而在常温下即可实现对接头自连产物的彻底清除,这降低了分离实验对实验条件的要求,可更快的实现正确连接产物的分离纯化。
基于第二典型实施例,本发明提出第三典型实施例,本实施例在上述对特异性切割位点在核酸链上的分布的各种限定的基础上,还可有以下进一步限定:所述接头的用于与核酸片段连接的一端与距该端最近的特异性切割位点之间的距离小于等于10bp。
本方案能够进一步保证本发明的接头在构建测序文库的过程中,经特异性切割之后,接头自连产物被切割后的不含特异性切割位点的两条链相互之间能够互补配对的碱基数小于等于20bp,该两条链能够较容易的被解链,保证接头自连产物的切割产物与目标切割产物之间的大小差异处于能被更容易的分离的范围,即,更有利于正确连接的产物与接头自连产物的分离,进而实现对接头自连产物的彻底清除。所以,本方案的接头能够更好的避免构建的测序文库中掺入接头自连的产物。
更进一步的,所述接头的用于与核酸片段连接的一端与距该端最近的特异性切割位点之间的距离小于等于8bp、7bp、6bp、5bp或4bp。本方案中的接头,通过对接头的用于与核酸片段连接的一端与距该端最近的特异性切割位点之间距离的进一步限定,在利用本方案的接头构建文库时,可保证接头自连产物经特异性切割后形成的所有核酸片段在常温下均为单链形式,即,可在常温下实现对接头自连产物的彻底清除,即降低了分离实验对实验条件的要求,可更快的实现正确连接产物的分离纯化。
上述任一技术方案中的接头可以是单突出末端接头、双突出末端接头或平末端接头。即,所述接头为互补的双链核酸分子;所述双链核酸分子中只有一条链上含有至少一个尿嘧啶核苷酸、P-S键或脱氧肌苷;所述P-S键为硫代磷酸酯键。所述双链核酸分子为单突出末端双链核酸分子、双突出末端双链核酸分子或平末端双链核酸分子。
其中,所述单突出末端双链核酸分子的突出末端为(dN)a,所述dN为A或G或C或T,所述a为正整数。
进一步的,所述(dN)a自身之间不能互补配对。本方案的接头避免了接头之间的互补配对连接,使得基于本方案的接头构建测序文库时,进一步避免了构建的测序文库中掺入接头自连的产物的现象的出现,提高了接头的利用率。
更进一步的,所述(dN)a为T,即dN为T,a等于1;所述(dN)a位于含有至少一个尿嘧啶核苷酸、P-S键或脱氧肌苷的链的互补链的3’端。本方案的接头能利用其单突出的T末端与3’端为单突出A尾的核酸片段高效连接,进而提高用于构建测序文库的核酸片段和接头的利用率,并提高测序文库的构建效率。
其中,所述双突出末端双链核酸分子的突出末端分别为(dN)b和(dN)c,所述(dN)b和(dN)c中至少有一个位于其所在链的3’端,所述dN为A或G或C或T,所述b和c均为正整数。
进一步的,所述(dN)b自身之间不能互补配对,所述(dN)c自身之间不能互补配对,所述(dN)b和(dN)c之间不能互补配对。本方案的接头避免了接头之间的互补配对连接,使得基于本方案的接头构建测序文库时,进一步避免了构建的测序文库中掺入接头自连的产物的现象的出现,提高了接头的利用率。
应当说明的是,本发明所述的(dN)a自身之间不能互补配对,是指每一个确定序列的(dN)a与其本身之间不能互补配对;同样的,(dN)b之间不能互补配对,是指每一个确定序列的(dN)b与其本身之间不能互补配对;(dN)c之间不能互补配对,是指每一个确定序列的(dN)c与其本身之间不能互补配对。
更进一步的,当所述(dN)b和(dN)c均位于其所在链的3’端时,(dN)b为T,即dN为T,b等于1。本方案的接头能利用其T末端与3’端为单突出A尾的核酸片段高效连接,进而提高用于构建测序文库的核酸片段和接头的利用率,并提高测序文库的构建效率。
更进一步的,所述(dN)c的3’末端为G或C或T。本方案的接头彻底避免了(dN)b和(dN)c之间的互补配对连接。
上述任一方案中,所述双链核酸分子的两条核酸链的5’末端的核苷酸均不含磷酸分子。本方案的接头彻底避免了接头之间的自连现象的出现。
上述任一方案中,所述双链核酸分子含有至少一个Ⅱs型限制性内切酶酶切识别位点。
需要说明的是,所述的Ⅱs型限制性内切酶为切割位点在识别序列之外的限制性内切酶,包括但不限于:AcuⅠ、AlwⅠ、BbsⅠ、BbVⅠ、BccⅠ、BceAⅠ、BciVⅠ、BfuAⅠ、BmrⅠ、BpmⅠ、BpuEⅠ、BsaⅠ、BseMⅡ、BseRⅠ、BsgⅠ、BsmAⅠ、BsmBⅠ、BsmFⅠ、BspCNⅠ、BspMⅠ、BspQⅠ、BtgZⅠ、EarⅠ、EciⅠ、EcoP15Ⅰ、FauⅠ、FokⅠ、HgaⅠ、HphⅠ、HpyAV、MboⅡ、MlyⅠ、MmeⅠ、MnlⅠ、NmeAⅢ、PleⅠ、SapⅠ、SfaNⅠ和TspDTⅠ,优选为AcuⅠ、BsgⅠ、EcoP15Ⅰ或MmeⅠ。
进一步的,所述Ⅱs型限制性内切酶酶切识别位点与接头上用于和核酸片段连接的一端之间的距离为d,所述Ⅱs型限制性内切酶酶切识别位点与Ⅱs型限制性内切酶切割位点之间的距离为e,d和e均为自然数,d小于e,即,Ⅱs型限制性内切酶的酶切位点不在接头上。
本方案的接头可用于构建含有相同序列长度的待测序片段的测序文库,进而使得测序文库在后续的扩增和测序过程中均一性更佳。
上述任一方案中,所述双链核酸分子含有标记物。所述标记物为生物素、抗原、抗体、受体、配体、多聚组氨酸中的至少一种。利用含有与所述标记物特异性结合的配合物的固相载体,可对本方案的接头的连接产物进行快速的分离纯化,提高测序文库的构建效率。
进一步的,所述标记物为生物素标记。所述生物素标记能够与含有链酶亲和素或亲和素标记的固相载体特异性结合,从而实现对连接产物的快速分离纯化。
更进一步的,所述生物素标记位于双链核酸分子中含有至少一个尿嘧啶核苷酸、P-S键或脱氧肌苷的链的互补链的5’端。含有本方案的接头的连接产物(正确连接的产物和可能存在的接头自连产物的混合物)在被特异性切割试剂切割后,含有链酶亲和素或亲和素标记的固相载体可快速的将目标切割产物与小核酸片段分离,进而实现正确连接的产物与接头自连产物的分离。本方案的接头能够进一步提高测序文库的构建效率。
上述任一方案中,所述接头的大小无特殊限制。优选的,所述接头的大小在20至80bp之间。更优选的,所述接头的大小在25至60bp之间。
本发明提出第四典型实施例,一种构建测序文库的方法,包括以下步骤:
A.片段化处理源核酸,得片段化产物;
B.步骤A的产物与第一接头连接,得第一连接产物;
C.特异性切割试剂切割第一连接产物,除去被切下的小核酸片段;所述特异性切割试剂用于特异性的切割尿嘧啶核苷酸、P-S键或脱氧肌苷;
D.聚合酶延伸步骤C的产物,得聚合酶延伸产物。
所述第一接头为本发明的接头中的任一种。
图3示出了本典型实施例中的部分流程。本方案利用第一接头上的一条链含有的尿嘧啶核苷酸、P-S键或脱氧肌苷,利用特异性切割试剂进行切割,此时第一接头自连产物被切出多个小核酸片段,正确连接的产物同样能够被切下小核酸片段,但是正确连接的产物的其余部分(目标切割产物)较接头自连产物的切割产物和正确连接的产物上切下的小核酸片段大很多;即,通过切割步骤,可加大第一接头自连产物与正确连接的产物之间的大小差异,从而有利于正确连接的产物与第一接头自连产物的分离,进而实现对第一接头自连产物的彻底清除;然后再通过步骤D,聚合酶延伸步骤C的产物(目标切割产物),将正确连接的产物补上,最终实现无接头自连产物的测序文库的构建。
需要说明的是,步骤A中所述源核酸是双链核酸分子,可以是基因组中的任意片段,包括但不限于基因、基因的一部分、调控序列、内含子或内含子的一部分;也可以是基因组DNA、cDNA或DNA与RNA的杂合分子;还可以是基因组DNA、cDNA、RNA(包括但不限于mRNA和rRNA)上特定区域的扩增片段。源核酸的大小无特殊限制,优选的,源核酸大于等于150bp,更优选的,源核酸大于等于200bp。
所述片段化源核酸的方法有多种,包括但不限于:超声法、喷雾法、化学剪切法和酶切法。可根据实际情况,采用相适应的方法进行实验。上述方法均为本领域的常规技术,在此不再赘述。
根据后续建库步骤对核酸长度的需要,还可对片段化得到的核酸片段进行分离纯化,分离方法可以采用常用方法,如凝胶电泳、蔗糖梯度或氯化铯梯度沉降、柱层析分离等。本方案尤其适用于分离纯化得到的片段化产物与第一接头的大小比值在6:1至1:4之间的情况,更适用于上述比值在4:1至3:8之间的情况,更适用于上述比值在2:1至1:2之间的情况。
优选的,分离纯化得到的片段化产物在20bp至200bp之间;更优选的,分离纯化得到的片段化产物在25bp至100bp之间。
另外,根据所使用的片段化方法以及后续第一接头连接的需要,还可对所得的多核苷酸片段进行进一步的末端修饰,包括但不限于:磷酸化或去磷酸化、末端补平和末端加A,等等;以便于后续的步骤中与连接组件的连接。
所述步骤B中,第一接头与步骤A产物的连接反应可只发生在步骤A产物的一端,也可发生在步骤A产物的两端。
所述第一连接产物为第一接头与步骤A产物完成连接反应后得到的产物。
若第一接头与步骤A产物之间的连接反应被设计成只发生在步骤A产物的一端,则步骤B所得的第一连接产物可包括仅在一端含有已知序列(第一接头)的双链核酸分子和第一接头自连的产物,步骤D所得的聚合酶延伸产物只在一端含有已知序列(第一接头),为了成功构建测序文库,可在聚合酶延伸产物的另一端接上接头。
若第一接头与步骤A产物之间的连接反应被设计成可发生在步骤A产物的两端,则步骤B所得的第一连接产物可包括在两端均含有已知序列(第一接头)的双链核酸分子和第一接头自连的产物,步骤D所得的聚合酶延伸产物就是在两端均含有已知序列(第一接头),可直接作为测序文库,也可通过进一步的处理,从而得到符合特殊要求的测序文库。
步骤C中所述特异性切割试剂为USER酶、UDG酶、大肠杆菌核酸内切酶Ⅴ、大肠杆菌核酸内切酶Ⅴ同源物、DNA糖基化酶或含有Ag、Hg、Cu、Mn、Zn或Cd原子的切割剂,它们能够分别特异性的切割尿嘧啶核苷酸、P-S键或脱氧肌苷。
步骤C中所述被切下的小核酸片段的除去方式有多种,包括但不限于:在较高温度条件下对切割产物进行柱分离纯化,此时的温度需既低于目标连接产物的退火温度,又高于步骤C中被切下的小核酸片段与其互补片段的退火温度。上述温度的选择,为本领域技术人员的常规技术手段,在此不再详述。步骤C中所述的被切下的小核酸片段的除去方法还可以采用凝胶电泳、蔗糖梯度或氯化铯梯度沉降等。优选采用柱分离纯化,通过柱分离纯化的步骤更少,效率更高,成本更低。
所述小核酸片段是指在步骤C中,被特异性切割试剂从第一连接产物上切下的核酸片段。
所述目标切割产物是指被切去小核酸片段后的第一连接产物。
基于第四典型实施例,本发明提出第五典型实施例,在本实施例中,步骤B中所述的第一接头含有生物素标记;所述生物素标记位于双链核酸分子中含有至少一个尿嘧啶核苷酸、P-S键或脱氧肌苷的链的互补链的5’端。
本方案中,为了便于步骤B的连接产物的分离纯化,至少可以有以下两种实施方案。
第一种实施方案如下:步骤B中所述的第一接头在与步骤A的产物连接之前被固定在含有链酶亲和素标记的磁珠上。本方案中,步骤B的连接反应是发生在磁珠上的,连接反应完成后,通过磁铁的吸附作用,连接产物和未连接的第一接头能够简便的与未连接的步骤A的产物分离。
第二种实施方案如下:步骤B中所述的第一接头先与步骤A的产物进行连接反应,连接反应完成之后用含有链酶亲和素标记的磁珠捕获连接产物。本方案同样能够通过磁铁的吸附作用,使连接产物和未连接的第一接头与未连接的步骤A的产物分离。与上一实施方案相比,本方案能够避免在连接反应过程中,因为磁珠的沉降而导致的第一接头集中在连接反应体系的底部而导致的连接反应效率的降低。当然,上一实施方案也可以通过在连接反应的过程中使连接反应体系周期性振荡来避免这一问题的发生。
此外,利用含有链酶亲和素标记的磁珠进行捕获的步骤还可以发生在步骤C的特异性切割之后,也可以发生在步骤D的聚合酶延伸之后。优选发生在步骤D的聚合酶延伸之后,这样步骤B的连接反应、步骤C酶切反应、步骤D的聚合酶延伸反应过程中,相应的第一接头、连接产物、特异性切割产物均不会因磁珠的沉降作用而集中在反应体系的底部,从而避免了连接反应效率的降低、切割效率的降低和聚合酶延伸效率的降低。
更进一步的,步骤C的切割反应和步骤D的聚合酶延伸反应均能够发生在磁珠上。在步骤C中的切割反应完成之后,利用磁铁的吸附作用,可快速的将步骤C中切割下的小核酸片段除去;而在步骤D中的聚合酶延伸反应之后,利用磁铁的吸附作用,可快速的将步骤D所得聚合酶延伸产物分离纯化出来。
上述任一方案中,步骤B中所述的第一接头上的特异性切割位点将其所在核酸链分隔成至少两个核酸片段,且所述核酸片段均小于15bp。
更优选的,所述特异性切割位点将其所在核酸链分隔成至少两个核酸片段,且所述核酸片段均小于8bp或7bp或6bp或5bp。
更进一步的,所述第一接头的用于与片段化产物连接的一端与距该端最近的特异性切割位点之间的距离小于等于10bp。
本方案能够进一步保证第一接头在构建测序文库的过程中,经特异性切割之后,第一接头自连产物被切割后的不含特异性切割位点的两条链相互之间能够互补配对的碱基数小于等于20bp,该两条链能够较容易的被解链,保证接头自连产物的切割产物与目标切割产物之间的大小差异处于能被更容易的分离的范围,即,更有利于正确连接的产物与第一接头自连产物的分离,进而实现对第一接头自连产物的彻底清除。即,本方案能够更好的避免构建的测序文库中掺入接头自连的产物。
更进一步的,所述第一接头用于与片段化产物连接的一端与距该端最近的特异性切割位点之间的距离小于等于8bp、7bp、6bp、5bp或4bp。本方案中的第一接头,通过对第一接头的用于与片段化产物连接的一端与距该端最近的特异性切割位点之间距离的进一步限定,在利用本方案的第一接头构建文库时,可保证第一接头自连产物经特异性切割后形成的所有核酸片段在常温下均为单链形式,即,可在常温下实现对第一接头自连产物的彻底清除,这降低了分离实验对实验条件的要求,可更快的实现正确连接产物的分离纯化。
上述任一方案中,步骤B中所述的第一接头可以是单突出末端接头、双突出末端接头或平末端接头。即,所述第一接头为互补的双链核酸分子;所述双链核酸分子中只有一条链上含有至少一个尿嘧啶核苷酸、P-S键或脱氧肌苷;所述P-S键为硫代磷酸酯键;所述双链核酸分子为单突出末端双链核酸分子、双突出末端双链核酸分子或平末端双链核酸分子。
其中,所述单突出末端双链核酸分子的突出末端为(dN)a,所述dN为A或G或C或T,所述a为正整数。
进一步的,所述(dN)a自身之间不能互补配对。本方案中的第一接头能够避免第一接头之间的互补配对连接,从而进一步避免了构建的测序文库中掺入第一接头自连的产物的现象的出现,提高了第一接头的利用率。
更进一步的,所述(dN)a为T,即dN为T,a等于1;所述(dN)a位于含有至少一个尿嘧啶核苷酸、P-S键或脱氧肌苷的链的互补链的3’端。本方案的第一接头能利用其单突出的T末端与3’端为单突出A尾的核酸片段高效连接,进而提高用于构建测序文库的核酸片段和第一接头的利用率,并提高测序文库的构建效率。
其中,所述双突出末端双链核酸分子的突出末端分别为(dN)b和(dN)c,所述(dN)b和(dN)c中至少有一个位于其所在链的3’端,所述dN为A或G或C或T,所述b和c均为正整数。
进一步的,所述(dN)b自身之间不能互补配对,所述(dN)c自身之间不能互补配对,所述(dN)b和(dN)c之间不能互补配对。本方案的第一接头避免了第一接头之间的互补配对连接,使得本方案进一步避免了构建的测序文库中掺入第一接头自连的产物的现象的出现,提高了第一接头的利用率。
更进一步的,当所述(dN)b和(dN)c均位于其所在链的3’端时,(dN)b为T,即dN为T,b等于1。本方案的第一接头能利用其T末端与3’端为单突出A尾的核酸片段高效连接,进而提高用于构建测序文库的核酸片段和第一接头的利用率,并提高测序文库的构建效率。
更进一步的,所述(dN)c的3’末端为G或C或T。本方案的第一接头彻底避免了(dN)b和(dN)c之间的互补配对连接。
上述任一方案中,所述第一接头的两条核酸链的5’末端的核苷酸均不含磷酸分子。本方案彻底避免了第一接头自连现象的出现。
基于上述任一方案,本发明提出第六典型实施例,所述第一接头含有至少一个Ⅱs型限制性内切酶酶切识别位点;所述方法还包括以下步骤:
E.Ⅱs型限制性内切酶酶切聚合酶延伸产物,回收含第一接头的酶切产物;
F.步骤E的产物与第二接头连接,得两端分别是第一接头和第二接头的双链核酸分子;所述第二接头为互补的双链核酸分子,该双链核酸分子的一端与步骤E的产物中的酶切末端互补配对。
需要说明的是,所述的Ⅱs型限制性内切酶为切割位点在识别序列之外的限制性内切酶,包括但不限于:AcuⅠ、AlwⅠ、BbsⅠ、BbVⅠ、BccⅠ、BceAⅠ、BciVⅠ、BfuAⅠ、BmrⅠ、BpmⅠ、BpuEⅠ、BsaⅠ、BseMⅡ、BseRⅠ、BsgⅠ、BsmAⅠ、BsmBⅠ、BsmFⅠ、BspCNⅠ、BspMⅠ、BspQⅠ、BtgZⅠ、EarⅠ、EciⅠ、EcoP15Ⅰ、FauⅠ、FokⅠ、HgaⅠ、HphⅠ、HpyAV、MboⅡ、MlyⅠ、MmeⅠ、MnlⅠ、NmeAⅢ、PleⅠ、SapⅠ、SfaNⅠ和TspDTⅠ,优选为AcuⅠ、BsgⅠ、EcoP15Ⅰ或MmeⅠ。
进一步的,所述Ⅱs型限制性内切酶酶切识别位点与第一接头上用于和核酸片段连接的一端之间的距离为d,所述Ⅱs型限制性内切酶酶切识别位点与Ⅱs型限制性内切酶切割位点之间的距离为e,d和e均为自然数,d小于e,即,该Ⅱs型限制性内切酶的酶切位点不在第一接头上。
本方案构建的测序文库中的文库分子含有相同序列长度的待测序片段,这使得测序文库在后续的扩增和测序过程中均一性更佳。
以下将通过两个具体实施例对本发明进行进一步的详细说明。
第一具体实施例以一正常人的全血基因组DNA为源核酸,第一接头由SEQ ID NO:1和SEQ ID NO:2退火而成,其中,SEQ ID NO:1的5’端含双生物素标记,第一接头上含有AcuⅠ酶切识别位点。
一、片段化全血基因组DNA。
1、DnaseⅠ酶切片段化。
按以下配比在冰上配置片段化反应体系:基因组DNA,6μg;500mM Tris-HCl,8μL;100mM MnCl2,8μL;1mg/mL BSA,8μL;DnaseⅠ(Fermentas,#EN0521,1u/μL),6μL;ddH2O,补至80μL。
反应条件如下:37℃酶切20min,然后加入1μL 0.5mol/L的EDTA(Fermentas,#R1021,pH 8.0)终止反应。
2、柱回收。
利用QIAquick Nucleotide Removal Kit(Qiagen,Cat.nos.28304)回收片段化产物,具体操作如下:往酶切产物中加入500μL Buffer PNI;将QIAquick离心柱置入对应的2ml收集管,将上述需要纯化的DNA产物移入Quick离心柱,6000rpm离心1分钟;弃离心过柱的液体,加入750μL Buffer PE,6000rpm离心1分钟,弃离心过柱的液体,重复此步骤一次;将QIAquick离心柱再次放回收集管,13000rpm离心1分钟,然后将QIAquick离心柱转至一个新的1.5mL EP管内;向QIAquick离心柱内底部中心加入50μL Buffer EB,静置2分钟,13000rpm离心1分钟,离心所得液体即为过柱纯化得到的DNA。
二、DNA片段末端修复。
按以下配比在冰上配置DNA片段末端修复反应体系:5×Reaction Buffer,40μL;dNTP(各2mM,Fermentas,#R0241),4μL;步骤一产物,4μg;T4 DNA Polymerase(Fermentas,#EP0061,5u/μL),0.8μL;ddH2O,补至200μL。
反应条件:11℃孵育20min;然后加热至75℃,处理10min,以终止反应。
参考步骤一中2、柱回收步骤,对上述反应的产物进行柱纯化。
三、末端加A反应。
1、按以下配比在冰上配置末端加A反应体系:10×NEBuffer2,12μL;10mM dATP,2.4μL;Klenow Fragment(3’→5’ exo–,NEB,#M0212L,5u/μL),2.4μL;步骤二产物,3μg;ddH2O,补至120μL。
反应条件:37℃孵育30min;然后加热至75℃,处理20min,以终止反应。
2、对步骤1的产物进行切胶纯化,使用12%PAGE胶,180V电泳20min;然后在紫外线照射的条件下切取30bp至80bp间的DNA片段;将切下的凝胶转移至2mL的EP管中,捣碎凝胶,然后加入PAGE凝胶回收液(0.5M醋酸氨,10mM 醋酸镁,1mM EDTA,0.1%SDS),PAGE凝胶回收液至少需要没过凝胶,37℃孵育2h;将凝胶及凝胶液转移至3S柱中,12000rpm离心2min,将离心下的液体转移至新的1.5mL EP管中。然后参考步骤一中2、柱回收步骤对离心下的液体进行柱纯化。
四、与第一接头连接。
按以下配比在冰上配置连接反应体系:步骤三产物,200ng;第一接头,600ng;10×T4 DNA Ligase Buffer,8μL;50%PEG 4000,8μL;T4 DNA Ligase(Fermentas,#EL0011,5u/μL),4μL;ddH2O,补至80μL。
反应条件:16℃连接过夜。
然后参考步骤一中2、柱回收步骤,对连接反应的产物进行柱纯化。
五、USER酶酶切。
按以下配比在冰上配置USER酶酶切体系:步骤四产物,200ng;10×USER Buffer,10μL;USER(NEB,#M5505,1u/μL),10μL;ddH2O,补至100μL。
反应条件:37℃孵育1h。
利用QIAquick Nucleotide Removal Kit(Qiagen,Cat.nos.28304)回收USER酶酶切产物,具体操作如下:往酶切产物中加入500μL Buffer PNI,55℃孵育5min,使得被USER酶切下的小核酸片段、第一接头自连产物被切割后的不含尿嘧啶核苷酸的两条链均被变性成单链;将QIAquick离心柱置入对应的2ml收集管,将55℃孵育后的溶液移入Quick离心柱,6000rpm离心1分钟;弃离心过柱的液体,加入750μL Buffer PE,6000rpm离心1分钟,弃离心过柱的液体,重复此步骤一次;将QIAquick离心柱再次放回收集管,13000rpm离心1分钟,然后将QIAquick离心柱转至一个新的1.5mL EP管内;向QIAquick离心柱内底部中心加入50μL Buffer EB,静置2分钟,13000rpm离心1分钟,离心所得液体即为过柱纯化后得到的USER酶酶切后的目标产物。
六、聚合酶修复。
按以下配比在冰上配置聚合酶延伸体系:步骤五产物,120ng;10×Pyrobest BufferⅡ,15μL;dNTPs(各2.5mM),4μL;Pyrobest DNA Polymerase(Takara,DR005A,5u/μL),0.75μL;ddH2O,补至150μL。
反应条件:60℃孵育40min。
参考步骤一中2、柱回收步骤,对聚合酶延伸的产物进行柱纯化。
七、AcuⅠ酶切。
按以下配比在冰上配置AcuⅠ酶切反应体系:步骤六产物,2μg;10×NEBuffer4,4μL;AcuⅠ(NEB,#R0641L,5u/μL),1μL;400μM SAM,4μL;ddH2O,补至40μL。
反应条件:37℃孵育1.5h,然后加入1μL 0.5mol/L的EDTA(Fermentas,#R1021,pH 8.0)终止反应。
八、磁珠捕获。
利用链霉亲和素标记的磁珠M280(invitrogen,Dynabeads MyOneTM Streptavidin C1)捕获步骤七的产物。
具体操作如下:
1)取8μL M280,用磁铁吸附磁珠,然后用移液器吸去上清;
2)加入16μL TE(10mM Tris-HCl,1mM EDTA,pH7.5)洗涤,用磁铁吸附磁珠,然后用移液器吸去上清;重复三次;
3)加入40μL Binding Buffer(20mM Tris-HCl,1.0M LiCl,2mM EDTA,pH 7.5)悬浮磁珠,然后加入40μL步骤七的产物,混匀后至旋转转盘上低速转动,室温结合2h,每10至15min轻弹管壁或短暂涡旋混匀磁珠,使步骤七产物中含生物素标记的分子充分结合到磁珠上;
4)用磁铁吸附磁珠,小心除去上清,然后用20μL TE清洗磁珠2次;
5)用磁铁吸附磁珠,小心除去上清,然后加入20μL TE重悬磁珠。
九、与第二接头连接。
第二接头由SEQ ID NO:3和SEQ ID NO:4退火而成,其中,SEQ ID NO:3和SEQ ID NO:4的5’末端的均不含磷酸分子,SEQ ID NO:4上的N为通用碱基,可以是A、G、C或T。
按以下配比配置连接反应体系:步骤八产物,20μL;第二接头,600ng;10×T4 DNA Ligase Buffer,8μL;50%PEG 4000,8μL;T4 DNA Ligase(Fermentas,#EL0011,5u/μL),4μL;ddH2O,补至80μL。
反应条件:22℃连接2h,每10至15min轻弹管壁或短暂涡旋混匀磁珠,以避免磁珠沉降进而导致的连接效率较低。
用磁铁吸附磁珠,然后用移液器吸去上清,再用20μL TE清洗磁珠3次,最后重悬于20μL TE中,此时固定在磁珠上的核酸片段即为测序文库。
十、PCR验证测序文库。
分别以步骤九所得产物(实验组1)、步骤九所得产物的10倍稀释液(实验组2)和100被稀释液(实验组3)为模板,F-primer(SEQ ID NO:5)和R-primer(SEQ ID NO:6)为上下游引物进行PCR扩增,以验证测序文库构建是否成功,并确定扩增所得测序文库的最佳模版稀释度。同时设一空白对照和阳性对照,空白对照的模板为ddH2O;阳性对照的模板由SEQ ID NO:7和SEQ ID NO:8退火形成的20ng/μL的水溶液。
按以下配比在冰上配置PCR反应体系:模板,1μL;10×Taq Buffer,2.5μL;dNTPs(各2.5mM),0.5μL;10μM F-primer,1μL;10μM R-primer,1μL;Taq酶(Fermentas,#EP0401,5u/μL),0.25μL;ddH2O,补至25μL。
反应条件:
94℃变性,2min;
94℃变性,30s;57℃退火,30s;72℃延伸,30s;重复15个循环;
72℃延伸,5min。
本发明的发明人还设计了一个第一对比实验,该对比实验与第一具体实施例相比,采用第三接头替代第一接头,该第三接头与第一接头相比,只是将第一接头上的U碱基用T碱基替换;另外,在第一对比试验中无步骤五的USER酶酶切步骤、步骤六的聚合酶修复步骤,最后同样以F-primer(SEQ ID NO:5)和R-primer(SEQ ID NO:6)为上下游引物进行PCR扩增验证。
第一对比实验的PCR扩增产物与第一具体实施例的扩增产物同时进行PAGE电泳检测,PAGE凝胶浓度为12%,电压180V,点用时间50min。
结果如图4所示,其中M为20bp Marker(TaKaRa,D521A);实验组1(1)、实验组2(2)、实验组3(3)和阳性对照组(阳)均能得到预计大小的单一目标条带(110bp左右),而空白对照组(空)则无条带出现,说明测序文库构建成功;实验组3的目标条带与实验组2的目标条带大小相差不大,所以从节约模板的角度来说,扩增所得测序文库的最佳模版稀释度为100倍稀释。而对1(第一对比试验,PCR扩增模板为与第二接头连接后的原液)在目标条带下方明显出现杂带,且该杂带的大小与第二接头和第三接头之和(100bp左右)大致相同,后经进一步的测序证实,且确实是第二接头和第三接头自连的产物;对2(对比试验,PCR扩增模板为与第二接头连接后的10被稀释液)在目标条带下方的同一位置隐约出现杂带。
应当说明的是,第一具体实施例中的片段化的方法可用超声法、喷雾法或化学剪切法代替,相关方法的具体实现方法为本领域的常规技术,在此不再赘述。第一具体实施例中柱回收方法可采用其他类似的柱纯化试剂盒替代也可采用凝胶电泳纯化方法替代。
另外,如果不需要构建含有相同长度的待测片段的话,步骤六的产物即可作为测序文库,而无需进行后续的步骤,且如果需要对测序文库进行扩增,可采用F-primer引物作为上游引物和下游引物进行扩增。
当然,第一具体实施例中的第一接头仅是本具体实施例所采用的一种具体的双链核酸分子,符合本发明的精神的第一接头均可应用到本具体实施例中;第一具体实施例中的第二接头也仅是本具体实施例所采用的一种具体的双链核酸分子,符合本发明的精神的第二接头均可应用到本具体实施例中;例如可采用具有更短的序列长度的单突出末端双链核酸分子,该单突出末端位于其所在核酸链的3’端,突出碱基数为2,突出的碱基为两个通用碱基N,N为A、G、C或T。
还有,第一具体实施例中,可将步骤八的磁珠捕获步骤提前至步骤四中,替代步骤四的柱回收步骤,并使得后续的步骤中均可采用磁铁吸附磁珠的方式替代柱回收步骤,这样可以大大提到文库构建的效率,降低文库构建的成本。同样的,步骤八的磁珠捕获步骤也可置于步骤五、步骤六、步骤七或步骤九中。
第二具体实施例以Lambda噬菌体DNA(λDNA)的扩增产物作为源核酸。
一、源核酸的制备。
λDNA的PCR扩增反应体系如下:上游引物(10μM,SEQ ID NO:9),2μL;下游引物(10μM,SEQ ID NO:10),2μL;λDNA,50ng;10×Ex Taq Buffer,5μL;Ex Taq(5U/μL),0.5μL;dNTP(各2.5mM),4μL;ddH2O,加至50μL。
PCR反应条件如下:
95℃ 3min;
94℃ 30s,58℃ 30s,72℃ 30s;重复25个循环;
72℃ 7min。
对反应产物进行PCR产物清洁回收,得源核酸。
二、超声片段化。
在冰浴条件下,利用超声破碎方式对步骤一所得源核酸进行片段化处理。具体操作为:将扩增产物(10μg左右)放入100μL TE buffer溶液中,430W功率条件下超声4s,间隔5s,重复12次。超声破碎后的产物利用PAGE胶电泳分离,回收25bp~100bp的DNA片段。
三、DNA片段末端修复。
按以下配比在冰上配置DNA片段末端修复反应体系:5×Reaction Buffer,40μL;dNTP(各2mM,Fermentas,#R0241),4μL;步骤一产物,4μg;T4 DNA Polymerase(Fermentas,#EP0061,5u/μL),0.8μL;ddH2O,补至200μL。
反应条件:11℃孵育20min;然后加热至75℃,处理10min,以终止反应。
参考第一具体实施例中的步骤一中2、柱回收步骤,对上述反应的产物进行柱纯化。
四、连接第四接头。
第四接头由SEQ ID NO:11和SEQ ID NO:12退火而成,其中SEQ ID NO:11的5’端不含磷酸基团。
按以下配比在冰上配置连接反应体系:步骤三产物,200ng;第四接头,600ng;10×T4 DNA Ligase Buffer,8μL;50%PEG 4000,8μL;T4 DNA Ligase(Fermentas,#EL0011,5u/μL),4μL;ddH2O,补至80μL。
反应条件:16℃连接过夜。
然后参考第一具体实施例中的步骤一中2、柱回收步骤,对连接反应的产物进行柱纯化。
五、USER酶酶切。
按以下配比在冰上配置USER酶酶切体系:步骤四产物,200ng;10×USER Buffer,10μL;USER(NEB,#M5505,1u/μL),10μL;ddH2O,补至100μL。
反应条件:37℃孵育1h。
利用QIAquick Nucleotide Removal Kit(Qiagen,Cat.nos.28304)回收USER酶酶切产物,具体操作如下:往酶切产物中加入500μL Buffer PNI,55℃孵育5min,使得被USER酶切下的小核酸片段、第四接头自连产物被切割后的不含尿嘧啶核苷酸的两条链均被变性成单链;将QIAquick离心柱置入对应的2ml收集管,将55℃孵育后的溶液移入Quick离心柱,6000rpm离心1分钟;弃离心过柱的液体,加入750μL Buffer PE,6000rpm离心1分钟,弃离心过柱的液体,重复此步骤一次;将QIAquick离心柱再次放回收集管,13000rpm离心1分钟,然后将QIAquick离心柱转至一个新的1.5mL EP管内;向QIAquick离心柱内底部中心加入50μL Buffer EB,静置2分钟,13000rpm离心1分钟,离心所得液体即为过柱纯化后得到的USER酶酶切后的目标产物。
六、聚合酶修复。
按以下配比在冰上配置聚合酶延伸体系:步骤五产物,120ng;10×Pyrobest BufferⅡ,15μL;dNTPs(各2.5mM),4μL;Pyrobest DNA Polymerase(Takara,DR005A,5u/μL),0.75μL;ddH2O,补至150μL。
反应条件:60℃孵育40min。
参考第一具体实施例中的步骤一中2、柱回收步骤,对聚合酶延伸的产物进行柱纯化。
七、高通量测序验证。
以步骤六所得产物为测序文库进行高通量测序,对测序结果中得到的所有reads(即)进行分析,未发现有第四接头自连片段的序列,将这些reads进行处理、拼接得基因序列SEQ ID NO:13,经比对证实该基因序列为Lambda噬菌体DNA的一部分,可由SEQ ID NO:9和SEQ ID NO:10扩增而得。
本发明的发明人还设计了一个第二对比实验,该对比实验与第二具体实施例相比,采用第五接头替代第四接头,该第五接头与第四接头相比,只是将第一接头上的U碱基用T碱基替换;另外,在第二对比试验中无步骤五的USER酶酶切步骤、步骤六的聚合酶修复步骤,并将步骤四的产物同样进行高通量测序。对其测序结果中得到的所有reads(即)进行分析,发现有第四接头自连片段的序列(SEQ ID NO:14),将这些reads进行处理、拼接得同样能够得到基因序列SEQ ID NO:13。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
SEQUENCE LISTING
<110> 盛司潼
<120> 一种构建测序文库的方法
<130>
<160> 8
<170> PatentIn version 3.3
<210> 1
<211> 46
<212> DNA
<213> 人工序列
<400> 1
cctcgctgca gacactatgc gcacctctgg tagacgctga agtagt 46
<210> 2
<211> 42
<212> DNA
<213> 人工序列
<400> 2
ctactucagc gtcuaccaga ggugcgcata gtgtcugcag cg 42
<210> 3
<211> 53
<212> DNA
<213> 人工序列
<400> 3
agagattgag gcacctgggg cagtctccac gagatgtcag tccatcgatg agt 53
<210> 4
<211> 55
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (54)..(55)
<223> n is a, c, g, or t
<400> 4
actcatcgat ggactgacat ctcgtgtaga ctgccccagg tgcctcaatc tctnn 55
<210> 5
<211> 22
<212> DNA
<213> 人工序列
<400> 5
cctcgctgca gacactatgc gc 22
<210> 6
<211> 24
<212> DNA
<213> 人工序列
<400> 6
actcatcgat ggactgacat ctcg 24
<210> 7
<211> 111
<212> DNA
<213> 人工序列
<400> 7
cctcgctgca gacactatgc gcacctctgg tagacgctga agtagtagct tcggccttag 60
agattgaggc acctggggca gtctccacga gatgtcagtc catcgatgag t 111
<210> 8
<211> 111
<212> DNA
<213> 人工序列
<400> 8
actcatcgat ggactgacat ctcgtggaga ctgccccagg tgcctcaatc tctaaggccg 60
aagctactac ttcagcgtct accagaggtg cgcatagtgt ctgcagcgag g 111
<210> 9
<211> 20
<212> DNA
<213> 人工序列
<400> 9
tgggtttata aggggagcgg 20
<210> 10
<211> 20
<212> DNA
<213> 人工序列
<400> 10
tcttgtcggt tacgccctcc 20
<210> 11
<211> 29
<212> DNA
<213> 人工序列
<400> 11
cgcctccctg cagtctctat gggccatcg 29
<210> 12
<211> 29
<212> DNA
<213> 人工序列
<400> 12
cgutggcccu tagugactgc ugggaggcg 29
<210> 13
<211> 666
<212> DNA
<213> 人工序列
<400> 13
cgcctgccgg atgaagatcc gcagaatctg gcggacccgg cttaccgccg ccgtcgcatc 60
atcatgcaga acatgcgtga cgaagagctg gccattgctc aggtcgaaga gatgcaggca 120
gtttctgccg tgcttaaggg caaatacacc atgaccggtg aagccttcga tccggttgag 180
gtggatatgg gccgcagtga ggagaataac atcacgcagt ccggcggcac ggagtggagc 240
aagcgtgaca agtccacgta tgacccgacc gacgatatcg aagcctacgc gctgaacgcc 300
agcggtgtgg tgaatatcat cgtgttcgat ccgaaaggct gggcgctgtt ccgttccttc 360
aaagccgtca aggagaagct ggatacccgt cgtggctcta attccgagct ggagacagcg 420
gtgaaagacc tgggcaaagc ggtgtcctat aaggggatgt atggcgatgt ggccatcgtc 480
gtgtattccg gacagtacgt ggaaaacggc gtcaaaaaga acttcctgcc ggacaacacg 540
atggtgctgg ggaacactca ggcacgcggt ctgcgcacct atggctgcat tcaggatgcg 600
gacgcacagc gcgaaggcat taacgcctct gcccgttacc cgaaaaactg ggtgaccacc 660
ggcgat 666
<210> 14
<211> 58
<212> DNA
<213> 人工序列
<400> 14
cgcctccctg cagtctctat gggccatcgc gatggcccat agagactgca gggaggcg 58