CN104313699A

CN104313699A - 测序文库的构建方法及用于测序文库构建的试剂盒

Info

Publication number: CN104313699A
Application number: CN201410606175.7A
Authority: CN
Inventors: 曹志生; 王大伟; 蒋智; 李明洲; 刘运超; 朱海浩
Original assignee: TIANJIN NOVOGENE BIOLOGICAL INFORMATION TECHNOLOGY Co Ltd
Current assignee: TIANJIN NOVOGENE BIOLOGICAL INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-10-31
Filing date: 2014-10-31
Publication date: 2015-01-28

Abstract

本发明提供了一种测序文库的构建方法及用于测序文库构建的试剂盒。构建方法包括：对待测样本的基因组DNA进行酶切，得到具有粘性末端的酶切片段；在酶切片段的两端加P1接头，得到带P1接头片段；对带P1接头片段进行片段化，得到目标大小片段；以及在目标大小片段的两端加P2接头，得到测序文库；其中，基因组DNA中包括能被酶识别的识别序列，识别序列包括由识别序列两端的碱基构成的回文序列以及位于回文序列中间的可变序列，可变序列包括一个或多个碱基，并且粘性末端包括可变序列中的一个或多个碱基。本发明通过识别序列中包括可变序列的酶进行酶切，使得固定接头碱基的类型和数量来实现不同捕获标记数量的效果，提高了灵活性。

Description

测序文库的构建方法及用于测序文库构建的试剂盒

技术领域

本发明涉及高通量测序领域，具体而言，涉及一种测序文库的构建方法及用于测序文库构建的试剂盒。

背景技术

基于限制性酶切位点相关DNA(Restriction-site Associated DNA，RAD)的测序技术，即RAD-seq技术是在二代测序基础上发展起来的一项基于全基因组酶切位点的简化基因组测序技术。该方法技术流程简单，不受有无参考基因组的限制，可大大简化基因组的复杂性，减少实验费用，通过一次测序就可以获得数以万计的多态性标记。目前，RAD-seq技术已成功应用于超高密度遗传图谱的构建、重要性状的精细定位、辅助基因组序列组装、群体基因组学以及系统发生学等基因组研究热点领域。

利用限制性内切酶对基因组DNA样品进行酶切。一般情况下，八碱基酶在基因组中出现的频率最低，其次是六碱基酶，出现频率最高的为四碱基酶。限制性内切酶的选择需要对目标物种的参考基因组进行系统分析，根据基因组的GC含量、重复序列情况等信息选择合适的酶。但是针对不同的酶我们需要设计不同的接头，来达到构建RAD文库的目的。

RAD-seq的主要实验流程如下：首先，对基因组进行酶切，然后在酶切后的基因组片段两端加上P1接头。然后将加好P1接头的序列进行打断。通过琼脂糖胶检测，选择符合大小的目的条带，一般选择目标条带在400～500bp。打断后的DNA片段连接上P2接头。对加过接头的DNA进行PCR扩增。其中，P1接头为带有酶切位点的粘性末端序列，且P1接头上还具有高通量测序所需的其他序列，比如P7序列、标签序列以及第二目的片段测序引物序列；本领域常用的P2接头是P5接头序列以及第一目的片段测序引物序列。

目前针对基于限制性酶切位点相关的DNA测序(RAD-seq)文库的构建方法中，酶的选择有很多种，比如识别序列为6碱基的酶：PstI(CTGCAG)和EcoRI(GAATTC)；还有识别序列为8碱基的酶：SbfI(CCTGCAGG)等。根据基因组中每个位点都是A、T、C、G四种碱基中的其中一种，每个位点出现固定一个碱基的几率为1/4，这样4碱基，6碱基，8碱基酶的酶切位点在基因组上分布位点的间隔理论分别为：256bp，4096bp，65536bp。很显然，与八碱基酶SbfI相比，通过6碱基酶EcoRI、PstI的酶切能够产生更高密度的RAD标记。

在选择限制性内切酶时要根据物种基因组序列信息以及实验目的来选择，保证产生的RAD标记能够在基因组上均匀分布，同时所获得的RAD标记数量能够达到实验所需的饱和度。不同识别序列的酶在基因组上分布的密度也是不一样的，所得到的标记数目也是不一样的。同样数目识别序列的酶在小的基因组中标记数比基因组大的物种中要少。大的基因组比较适合识别序列多的酶，而在小的基因组中适合选识别序列少的酶。在大规模生产中，针对不同大小基因组的物种，我们可能需要选择不同识别序列个数的酶，但是针对不同的酶我们需要设计对应的接头，既浪费成本而且也不灵活。

因此，仍需要对现有的文库构建方法进行改进，以克服现有方法灵活性不够以及每次合成接头造成的成本浪费的缺陷。

发明内容

本发明的主要目的在于提供一种测序文库的构建方法及用于测序文库构建的试剂盒，以解决现有技术中在基于限制性酶切位点相关DNA的测序(RAD-Seq)文库构建时存在灵活性差、成本浪费的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种高通量测序文库的构建方法，该构建方法包括：对待测样本的基因组DNA进行酶切，得到具有粘性末端的酶切片段；在酶切片段的两端加P1接头，得到带P1接头片段；对带P1接头片段进行片段化，得到目标大小片段；以及在目标大小片段的两端加P2接头，得到高通量测序文库；其中，基因组DNA中包括能被酶识别的识别序列，识别序列包括由识别序列两端的碱基构成的回文序列以及位于回文序列中间的可变序列，可变序列包括一个或多个碱基，并且粘性末端包括可变序列中的一个或多个碱基。

进一步地，粘性末端包括可变序列中的至少3个碱基。

进一步地，上述酶为限制性内切酶AlwNI、DraIII、BglI、BstAPI或PflMI。

进一步地，P1接头与部分或全部酶切片段的粘性末端相适应。

进一步地，在酶的识别序列中，构成所述回文序列的碱基数是2n，n为≧2的整数。

进一步地，P1接头中含有P7序列、标签序列和第二测序引物序列，且P1接头的5’端或3’端含有与粘性末端相适应的一个或多个碱基；P2接头中含有P5序列和第一测序引物序列。

根据本发明的另一方面，提供了一种用于高通量测序文库构建的试剂盒，该试剂盒中包括：酶，酶在基因组DNA中的识别序列包括两端碱基构成的回文序列及位于回文序列中间的可变序列，可变序列包括一个或多个碱基；且酶酶切所述基因组DNA后的酶切产物具有粘性末端，粘性末端含有所述可变序列的一个或多个碱基；P1接头序列，P1接头中含有P7序列、标签序列和第二测序引物序列，且所1接头的5’端或3’端含有与粘性末端对应的一个或多个碱基；以及P2接头序列，P2接头中含有P5序列和第一测序引物序列。

进一步地，上述粘性末端中包括可变序列中的至少3个碱基。

进一步地，酶为限制性内切酶AlwNI、DraIII、BglI、BstAPI或PflMI。

进一步地，构成所述回文序列的碱基数是2n，n为≧2的整数。

进一步地，P1接头与部分或全部酶切产物的粘性末端相适应。

应用本发明的技术方案，通过从酶切后的酶切片段的粘性末端所具有的特点的角度来考虑，创造性地选择出具有以下特性的酶进行酶切，使得本发明的文库构建方法能够通过固定P1接头上可变序列中碱基的具体类型，来达到产生多种识别序列数目酶的捕获标记数目的效果。本发明采用的酶所识别的识别序列是在基因组DNA中包括由识别序列两端的碱基构成的回文序列以及位于回文序列中间的可变序列，可变序列包括一个或多个碱基，并且粘性末端包括可变序列中的一个或多个碱基。而且，本发明的上述构建方法还可以做到针对不同的物种类型和不同的标记密度要求，从所有符合条件的酶中选择酶切效率最高的来进行后续的文库构建，并选择对应的一套接头，不用再重新合成新的接头，不仅提高了灵活性，而且减少了单独合成新的接头的成本。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明一种典型的实施例所提供的测序文库的构建流程示意图；以及

图2示出了本发明的实施例所构建的文库中插入片段的大小。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

本发明中所说的酶、内切酶或限制性内切酶均是指限制性内切酶。而且，本发明中的酶在基因组DNA中的识别序列包括两端碱基构成的回文序列和位于中间的可变序列，而可变序列是指：对酶识别其识别序列来说，仅可变区的碱基数目是特定的，而其碱基类型并不是特定的，即在符合酶识别碱基数目的前提下，在基因组DNA中位于回文序列中间的所有存在的序列均能被该酶识别。

正如背景技术部分所提到的，现有技术中在构建基于限制性酶切位点相关DNA的测序(RAD-Seq)文库时存在接头灵活性差且成本浪费的缺陷。为了改善这一状况，在本发明一种典型的实施方式中，如图1所示，提供了一种高通量测序文库的构建方法，该构建方法包括：对待测样本的基因组DNA进行酶切，得到具有粘性末端的酶切片段；在酶切片段的两端加P1接头，得到带P1接头片段；对带P1接头片段进行片段化，得到目标大小片段；以及在目标大小片段的两端加P2接头，得到高通量测序文库；其中，基因组DNA中包括能被酶识别的识别序列，识别序列包括由识别序列两端的碱基构成的回文序列以及位于回文序列中间的可变序列，可变序列包括一个或多个碱基，并且粘性末端包括可变序列中的一个或多个碱基。

本发明的上述构建方法，通过从酶切后的酶切片段的粘性末端所具有的特点的角度来考虑，创造性地选择出具有以下特性的酶进行酶切，使得本发明的文库构建方法能够通过固定P1接头上可变序列中碱基的具体类型，来达到产生多种识别序列数目酶的捕获标记数目的效果。本发明采用的酶所识别的识别序列是在基因组DNA中包括由识别序列两端的碱基构成的回文序列以及位于回文序列中间的可变序列，可变序列包括一个或多个碱基，并且粘性末端包括可变序列中的一个或多个碱基。而且，本发明的上述构建方法还可以做到针对不同的物种类型和不同的标记密度要求，从所有符合条件的酶中选择酶切效率最高的来进行后续的文库构建，并选择对应的一套接头，不用再重新合成新的接头，不仅提高了灵活性，而且减少了单独合成新的接头的成本。

在本发明的上述构建方法中，上述酶的识别序列中只要含有可变序列，并且能够使在酶切后产生的带有粘性末端的酶切片段中的粘性末端上含有可变序列中的碱基的酶即可。由于本发明的酶的识别序列中包含了可变序列可以是A、T、C或G任意排列组合成的序列，并且酶切片段的粘性末端中也含有包括A、T、C或G的任意排列组合成的序列中的一种或多种，便可以通过固定该可变序列中碱基的类型来控制文库所捕获的酶切片段的数量。

包含上述可变序列的酶在酶切基因组DNA后，产生具有粘性末端的酶切片段，当将粘性末端中的碱基固定为A时，文库只捕获具有A的粘性末端片段，占整个酶切片段总量的1/4；同理，当将将粘性末端中的碱基固定为T、C或G时，文库所能捕获的分别是粘性末端为T、C或G的酶切片段，这类酶切片段的数量也是各占酶切片段总量的1/4。

上述构建方法中，当将粘性末端中的碱基固定为两种碱基类型时，如将粘性末端中的碱基设计为R时，在含有A、T、C和G的粘性末端的酶切片段中，文库能够捕获粘性末端为A和G的酶切片段，占总酶切片段数量的1/2；同理，将粘性末端中的碱基设计为Y时，能捕获粘性末端为C和T的酶切片段；将粘性末端中的碱基设计为M时，能捕获粘性末端为A和C的酶切片段；将粘性末端中的碱基设计为Y时，能捕获粘性末端为G和T的酶切片段；将粘性末端中的碱基设计为S时，能捕获粘性末端为C和G的酶切片段；当粘性末端中的碱基设计为W时，能捕获粘性末端为A和T酶切片段。

上述构建方法中，当粘性末端中的碱基固定为三种碱基类型时，如将粘性末端中的碱基确定为H时，能捕获粘性末端为A、C和T的片段；将粘性末端中的碱基确定为B时，能捕获粘性末端为C、G和T的片段；将粘性末端中的碱基确定为V时，能捕获粘性末端为A、C和G的片段；将粘性末端中的碱基确定为D时，能捕获粘性末端为A、G和T的片段，所捕获的具有三种不同类型的粘性末端的数量占中酶切片段数量的3/4。当然，在上述构建方法中，当粘性末端中的碱基不限定碱基类型时，即所构建的文库能够捕获A、T、C、G四种粘性末端的片度。

而且，本发明的上述构建方法还可以通过控制可变序列中碱基的个数来调节酶的识别序列的碱基数目，进而通过识别序列碱基数目的多少来实现调节酶切片段的大小和数目，从而为不同物种选择合适数量的酶切位点标记提供便利。在本发明一种优选的实施例中，上述可变序列中碱基的个数为多个，碱基数目越多，通过改变每个碱基的碱基类型，可以模拟更多种识别序列数目的酶的酶切捕获效果，并且可以通过使多种能够产生包含可变序列中多个碱基的酶的酶切片段在连接P1接头时，通过固定每个粘性末端中的碱基的具体类型而共用P1接头，无需单独另行设计，为大规模的不同物种的文库构建提供了更大的灵活性，实现“一酶一接头”为“多酶一接头”，节省了很多接头合成的成本。

在本发明另一种优选的实施例中，上述粘性末端上含有可变序列中的碱基数至少为3个。当碱基的个数至少为3个时，可以通过每个碱基的碱基类型的确定，捕获多种可能的不同数量的酶切位点相关DNA的片段。在已知的物种中，能够酶切产生的粘性末端中含有可变序列中的至少含有3个的碱基的酶的活性相对较好，而且使用率也比较高。

在本发明一种更优选的实施例中，提供了5种可以产生含有至少3个碱基的可变序列的酶：AlwNI，识别序列为CAGNNNCTG；DraIII，识别序列为CACNNNGTG；BglI，识别序列为GCCNNNGGC；BstAPI，识别序列为GCANNNNNTGC；PflMI，识别序列为CCANNNNNTGG。以AlwNI、DraIII、BglI为例，三种酶的识别序列中的三个N即为任意碱基。当所确定N的碱基类型不同时，所识别的碱基位点的数目是可以变化的，只有当3个位置的N都只固定为一种特定的碱基类型时，上述三种酶的识别序列才表示一个9个碱基的内切酶识别序列；当不限定N的碱基类型时，上述三种酶的识别序列表示为一个6个碱基的内切酶识别序列。因此，当限定一个N的碱基为一特定类型，而剩余2个N的碱基类型不限定时，上述三种酶代表的是7个碱基的识别序列；当限定一个N的碱基为两种碱基类型，而剩余2个N的碱基类型不限定时，该限定为2个碱基类型的N实际能够捕获该位置为4种碱基中的2种，相当于筛选了0.5个碱基，加上两端的固定碱基6个，这种情形下，上述三种酶实际所能识别的是类似于6.5个碱基的识别序列。同理，当限定一个N为三种碱基类型时，该位置的N能捕获该位置3/4的序列，因而，上述三种酶实际所能识别的是类似于6.75个碱基的识别序列。同理，根据所确定的N的碱基类型的不同以及所确定的N的数目不同，使上述酶能够显示出碱基数目为6、6.5、6.75、7、7.5、7.75、8、8.5、8.75或9个的识别序列的酶切效果。

在本发明的上述构建方法中，通过限定的可变序列中碱基的类型和数目的不同，可以产生多种不同的粘性末端；同样本发明的接头P1也可以设计成与所有酶切片段的粘性末端相适应的序列或与部分酶切片段的粘性末端相适应。比如，可以设计成粘性末端中每个位置的碱基能捕获1/4、1/2或3/4数量的酶切片段，这时所设计的P1接头上的碱基类型能够与部分酶切片段的粘性末端相适应，从而捕获相适应部分的酶切片段，而不适应部分的酶切片段不捕获。

在本发明的上述构建方法中，对本发明的酶的识别序列中对构成回文序列的碱基数并无特定要求，只要能够用于对基因组DNA进行酶切，且能达到所需要的与酶切位点相关的DNA片段的数量即可。在本发明中，优选上述构成回文序列的碱基数是2n，n为≧2的整数。在本发明的教导下，在实际使用中，根据所要酶切的物种的基因组大小以及所需要产生的与酶切位点相关的DNA片段的数量要求，合理选择合适数目的构成回文序列的碱基数目和合适数目的可变序列中的碱基所组成的识别序列的酶。在本发明中，更优选构成回文序列的碱基数中n为2或3，当n为2个或3个时，符合该要求的可用的酶相对较多。

在本发明的上述构建方法中，P1接头是在高通量测序领域通用的包含P7序列、标签序列和第二测序引物序列的P1接头序列的基础上，根据所用的酶对待测基因组DNA进行酶切后产生的带有粘性末端的酶切片段中粘性末端上可变序列中的碱基的数目和种类的不同，本发明的P1接头的5’端或3’端含有的与粘性末端相适应的碱基也不同。P2接头是高通量测序领域通用的接头，包含P5序列和第一测序引物序列。

在本发明一种更优选的实施例中，针对上述五种酶，本发明设计了更具灵活性的P1接头，序列如SEQ ID NO.1和SEQ ID NO.2所示：SEQ ID NO.1：

5-AGATCGGAAGAGCACACGTCTGAACTCCAGTCACTCCGTTATCTCGTATGCCGTCTTCTGCTTG-3；SEQ ID NO.2：

3-NNNTCTAGCCTTCTCGTGTGCAGACTTGAGGTCAGTGAGGCAATAGAGCATACGGCAGAAGACGAAC-5，其中，N表示A、T、C、G中的任何一种碱基。

本发明的上述P1序列根据N所确定的碱基类型及数目的不同，能够捕获不同数量的与酶切位点相关的DNA片段，从而可以适应不同基因组大小的物种对捕获合适数量的酶切片段的需求，大大提高了操作的灵活性，而且还节约了引物合成的成本。

在本发明另一种典型的实施方式中，提供了一种用于高通量测序文库构建的试剂盒，该试剂盒中包括：酶，酶在基因组DNA中的识别序列包括两端碱基构成的回文序列及位于回文序列中间的可变序列，可变序列包括一个或多个碱基；且酶酶切基因组DNA后的酶切产物具有粘性末端，粘性末端含有可变序列的一个或多个碱基；P1接头序列，P1接头中含有P7序列、标签序列和第二测序引物序列，且P1接头的5’端或3’端含有粘性末端相适应的一个或多个碱基；以及P2接头序列，P2接头中含有P5序列和第一测序引物序列。

本发明的上述试剂盒，通过包含能够识别两端为回文序列，中间为可变序列的识别序列，且酶切产物的粘性末端含有该可变序列中的碱基的酶，使得利用本发明的试剂盒在用于构建高通量测序文库时，能够针对不同基因组大小的物种，根据需要灵活选择所适合的酶进行建库，并可以通过调整P1接头上与粘性末端相适应的碱基类型和碱基数目来灵活调整不同基因组大小物种所需与酶切位点相关的片段的数目，以实现不同的分析目的。此外，本发明的试剂盒克服了现有技术中，每选择一种酶都要合成对应的接头，并且在需要调整密度时还需重新合成对应的引物的缺陷，不仅降低了成本，而且提高了操作灵活性。

在本发明的上述试剂盒中，P1接头是在高通量测序领域通用的包含P7序列、标签序列和第二测序引物序列的P1接头序列的基础上，根据所用的酶对待测基因组DNA进行酶切后产生的带有粘性末端的酶切片段中粘性末端上可变序列中的碱基的数目和种类的不同，本发明的P1接头的5’端或3’端含有的与粘性末端相适应的碱基也不同。P2接头是高通量测序领域通用的接头，包含P5序列和第一测序引物序列。

在本发明一种更优选的实施例中，针对上述五种酶，本发明的试剂盒设计了更具灵活性的P1接头，序列如SEQ ID NO.1和SEQ ID NO.2所示：SEQ ID NO.1：5-AGATCGGAAGAGCACACGTCTGAACTCCAGTCACTCCGTTATCTCGTATGCCGTCTTCTGCTTG-3；SEQ ID NO.2：3-NNNTCTAGCCTTCTCGTGTGCAGACTTGAGGTCAGTGAGGCAATAGAGCATACGGCAGAAGACGAAC-5，其中，N表示A、T、C、G中的任何一种碱基。

本发明的上述P1序列根据N所确定的碱基类型数目的不同可以捕获不同数量的与酶切位点相关的DNA片段。且可以根据不同文库构建目的需要选择可以产生合适数量的酶切片段的酶及相应的P1接头来进行，大大提高了操作的灵活性，还可以为高通量测序相关企业降低引物合成的成本。

在本发明的上述试剂盒中，上述酶的识别序列中只要含有可变序列，并且能够使在酶切后产生的带有粘性末端的酶切片段中的粘性末端上含有该可变序列中的一个或多个碱基的酶即可。由于本发明的酶的识别序列中包含了可变序列可以是A、T、C或G的任意排列组合成的序列，并且酶切片段的粘性末端中也含有包括A、T、C或G的任意排列组合成的序列中的一种或多种，便可以通过固定该可变序列中碱基的类型来控制文库所捕获的酶切片段的数量。

包含上述可变序列的酶在酶切基因组DNA后，产生具有粘性末端的酶切片段，当将粘性末端中的碱基固定为A时，文库只捕获具有A的粘性末端片段，占整个酶切片段总量的1/4；同理，当将粘性末端中的碱基固定为T、C或G时，文库所能捕获的分别是粘性末端为T、C或G的酶切片段，这类酶切片段的数量也是各占酶切片段总量的1/4。具体情况与方法部分描述相同，此处不再赘述。

本发明的上述试剂盒中的酶，还可以通过控制可变序列中碱基的个数来调节酶的识别序列的碱基数目，进而通过识别序列碱基数目的多少来实现调节文库所捕获的与酶切位点相关的酶切片段的大小和数目。在本发明一种优选的实施例中，上述试剂盒中，酶酶切基因组DNA后的酶切产物的粘性末端中包含可变序列中的碱基的数目至少为3个。当粘性末端中包含可变序列中的碱基的个数至少为3个时，可以通过固定每个碱基的碱基类型，捕获多种可能的不同数量的酶切位点相关DNA的片段。在已知的物种中，能够酶切产生至少含有3个可变序列中的碱基的酶的活性相对较好，而且使用率也比较高。

在本发明另一种优选的实施例中，本发明的试剂盒提供了5种可以产生含有可变序列中的至少3碱基的粘性末端的酶：AlwNI，识别序列为CAGNNNCTG；DraIII，识别序列为CACNNNGTG；BglI，识别序列为GCCNNNGGC；BstAPI，识别序列为GCANNNNNTGC；PflMI，识别序列为CCANNNNNTGG。以AlwNI、DraIII、BglI为例，三种酶的识别序列中的三个N即为任意碱基。当所确定N的碱基类型不同时，所识别的碱基位点的数目是可以变化的，只有当3个位置的N都只固定为一种特定的碱基类型时，上述三种酶的识别序列才表示一个9个碱基的内切酶识别序列；当不限定N的碱基类型时，上述三种酶的识别序列表示为一个6个碱基的内切酶识别序列。

在本发明所提供的上述酶中，当限定一个N的碱基为一特定类型，而剩余2个N的碱基类型不限定时，上述三种酶代表的是7个碱基的识别序列；当限定一个N的碱基为两种碱基类型，而剩余2个N的碱基类型不限定时，该限定为2个碱基类型的N实际能够捕获该位置为4种碱基中的2种，相当于筛选了0.5个碱基，加上两端的固定碱基6个，这种情形下，上述三种酶实际所能识别的是类似于6.5个碱基的识别序列。同理，当限定一个N为三种碱基类型时，该位置的N能捕获该位置3/4的序列，因而，上述三种酶实际所能识别的是类似于6.75个碱基的识别序列。同理，根据所确定的N的碱基类型的不同以及所确定的N的数目不同，使上述酶能够显示出碱基数目为6、6.5、6.75、7、7.5、7.75、8、8.5、8.75或9个的识别序列的酶切效果。

在本发明的上述试剂盒中，通过限定的可变序列中的碱基的类型和数目的不同，可以产生多种不同的粘性末端；同样本发明的接头P1也可以设计成与所有酶切片段的粘性末端相适应的序列或与部分酶切片段的粘性末端相适应。比如，可以设计成捕获率分别为1/4、1/2或3/4数量的酶切片段，这时所设计的P1接头上碱基能够与部分酶切片段的粘性末端相适应，从而捕获相适应部分的酶切片段，而不适应部分的酶切片段不捕获。

在本发明的上述试剂盒中，对本发明的酶的识别序列中对构成回文序列的碱基的数目并无特定要求，只要能够用于对基因组DNA进行酶切，且能达到所需要的与酶切位点相关的DNA片段的数量即可。在本发明中，优选上述构成回文序列的碱基数是2n，n为≧2的整数。在本发明的教导下，在实际制备的试剂盒中，根据所要酶切的物种的基因组大小以及所需要产生的与酶切位点相关的DNA片段的数量要求，合理选择合适数目的构成回文序列的碱基数目和合适数目的可变序列中的碱基所组成的识别序列的酶。在本发明中，更优选构成回文序列的碱基数中n为2或3，当n为2个或3个时，符合该要求的可用的酶相对较多。

下面将结合具体的实施例来进一步说明本发明的有益效果。

下列实施例按照图1所示的流程进行建库，其中所用的酶，除有特殊标注外，都为NEB公司提供，引物为Ilumina公司提供。

一、基因组DNA酶切

1)通过Qubit(荧光定量计，life technologies)对基因组DNA进行定量，确定来源于水稻的20个样本的浓度分别为50ng/ul、77ng/ul、101ng/ul、120ng/ul、34ng/ul、97ng/ul、105ng/ul、130ng/ul、110ng/ul、93ng/ul、132ng/ul、140ng/ul、45ng/ul、87ng/ul、66ng/ul、56ng.ul、68ng/ul、79ng/ul、100ng/ul、140ng/ul；

2)采用DraIII对上述基因组DNA进行酶切，酶切体系如下表1：

表1

试剂	体积
		基因组DNA	Xμl(300ng)
内切酶	1μl
		内切酶缓冲液(buffer2)	5μl
无核酸酶水	(44-X)μl
		总体积	50μl

3)将上述混合液置于37℃，温浴3小时；

4)将反应体系置于65℃，变性处理20分钟。

二、接头P1连接；

1)反应体系如下表2：

表2：

试剂	体积
		上述酶切体系	50μl
10mM ATP(三磷酸腺苷)	5μl
		buffer2(连接缓冲液)	1μl
T4DNA ligase(连接酶)	0.5μl
		无核酸酶水	1μl
改进接头P1(200nM)	2.5μl
		总体积	60μl

其中，改进接头P1的具体序列如SEQ ID NO.3和SEQ ID NO.4所示：

SEQ ID NO.3：

5-AGATCGGAAGAGCACACGTCTGAACTCCAGTCACTCCGTTATCTCGTATGCCGTCTTCTGCTTG-3；

SEQ ID NO.4：

3-ANNTCTAGCCTTCTCGTGTGCAGACTTGAGGTCAGTGAGGCAATAGAGCATACGGCAGAAGACGAAC-5，其中，N表示A、T、C、G中的任何一种碱基。

2)16℃条件下连接2个小时；

3)连接产物于65℃条件下温浴20分钟，使连接酶活性丧失。

三、样品混池，纯化和随机破碎；

1)将20个样本混合在一起；

2)使用PCR产物回收试剂盒(Qiagen)进行回收，用80μl无核酸酶水进行溶解；

3)纯化后使用超声破碎仪Covaris S220进行样本破碎，将样本破碎到300～700bp范围左右。具体打断参数如下表3：

表3：

峰值功率(Peak power)

负载比(Duty factor)

循环数/爆破(Cycle/burst)

时间(Time)

105瓦

5

200

90秒

四、混池样本末端修复

1)反应体系如下表4：

表4：

组分	所需体积
		上述样本	75μl
10×Blunting Buffer(末端补平缓冲液)	10μl
		1mM dNTP(脱氧核糖核酸三磷酸混合物)	10μl
Quick Blunting kit Enzyme Mix(末端修复酶)	5μl
		总体积	100μl

2)反应条件：25℃孵育30分钟；

3)纯化：用80μl AMPure XP Beads(磁珠)纯化一次，使用61ul无核酸酶水进行洗脱；五、末端加A

1)反应体系如下表5：

表5：

组分	体积
		上述反应体系	60μl
100mM dATP	1μl
		10×NEB Buffer 2(末端加A缓冲液)	8μl
Klenow exo-(末端加A酶)	5μl
		无核酸酶水	6μl
总体积	80μl

2)反应条件：充分混匀，37℃孵育30分钟；

3)纯化：128μl AMPure XP Beads(磁珠)纯化一次，使用41ul无核酸酶水进行洗脱。

六、接头P2连接

1)反应体系如下表6：

表6：

组分	Amount(群体样本)
		上述反应体系	40μl

NEB Buffer 2(连接缓冲液)	5μl
		接头P2(2uM)	2μl
T4DNA Ligase(连接酶)	3μl
		总体积	80μl

其中，接头P2序列具体见SEQ ID NO.5和SEQ ID NO.6所示。

SEQ ID NO.5：

5-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3；

SEQ ID NO.6：

5-AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTGGTCGCCGTATCATT-3

2)16℃条件下连接2个小时；

3)连接产物于65℃条件下反应20分钟，使连接酶失活；

4)加入80μl AMPure XP Beads(磁珠)，用60ul无核酸酶水进行洗脱。

八、PCR扩增

1)反应体系如下表7：

表7：

组分	体积
		上述反应体系	8μl
P5	1.5μl
		P7	1.5μl
2×Phusion PCR Master Mix(PCR反应缓冲液)	25μl
		无核酸酶水	14μl
总体积	50μl

2)反应条件如下表8：

表8：

3)使用浓度为2％的琼脂糖进行电泳，120伏电泳1个小时，切胶回收300～500bp范围，使用凝胶回收试剂盒(Qiagen)进行回收，使用40ul无核酸酶水进行洗脱。进行Qubit(荧光定量计)定量，将文库用无核酸酶水稀释到2ng/μl备用。

九、文库插入片段和浓度检测

用Aglilent 2100生物分析仪对文库插入片段大小进行检测，用q-PCR仪对文库浓度进行检测；检测结果见图2，从图2中可以看出，采用本发明的酶所构建的文库的大小在500bp左右，去掉两端的P1和P2接头序列112bp，本发明构建的文库中插入片段的大小在380bp左右，符合双端测序要求的插入片段大小。

十、库检合格上机

从本发明的上述结果看出，本发明上述的实施例实现了如下技术效果：相比现有的基于限制性酶切位点相关的DNA测序(RAD-seq)文库构建方法中，所用酶的类型主要有6碱基酶和8碱基酶，但是只能选择一种酶，在改变酶的同时需要改变对应的接头序列，灵活性差且浪费接头序列合成成本的缺陷，本发明的上述实施例通过对高通量测序领域中基于限制性酶切位点相关的DNA测序(RAD-seq)文库的构建方法进行了优化和调整，选择了五种可以应用于不同基因组大小物种中的酶(AlwNI、DraIII、BglI、PflMI、BstAPI)，并且设计了对应这五种酶的通用接头，使得本发明的方法更具有灵活性，且节约了成本。

而且，本发明所提供的文库构建方法和用于文库构建的试剂盒，可以针对不同的物种类型和不同的标记密度要求，从所适合的酶中选择一种酶切效率最高的来进行后续的文库构建，并且选择对应的一套接头，不用再重新合成新的接头，提高了操作灵活性，降低文库构建成本。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种测序文库的构建方法，其特征在于，所述构建方法包括：

对待测样本的基因组DNA进行酶切，得到具有粘性末端的酶切片段；

在所述酶切片段的两端加P1接头，得到带P1接头片段；

对所述带P1接头片段进行片段化，得到目标大小片段；以及

在所述目标大小片段的两端加P2接头，得到所述测序文库；

其中，所述基因组DNA中包括能被酶识别的识别序列，所述识别序列包括由所述识别序列两端的碱基构成的回文序列以及位于所述回文序列中间的可变序列，所述可变序列包括一个或多个碱基，并且所述粘性末端包括所述可变序列中的一个或多个碱基。

2.根据权利要求1所述的构建方法，其特征在于，所述粘性末端包括所述可变序列中的至少3个碱基。

3.根据权利要求1或2所述的构建方法，其特征在于，所述酶为限制性内切酶AlwNI、DraIII、BglI、BstAPI或PflMI。

4.根据权利要求1所述的构建方法，其特征在于，所述P1接头与部分或全部所述酶切片段的粘性末端相适应。

5.根据权利要求1所述的构建方法，其特征在于，在所述酶的识别序列中，构成所述回文序列的碱基数是2n，所述n为≧2的整数。

6.根据权利要求1所述的构建方法，其特征在于，

所述P1接头中含有P7序列、标签序列和第二测序引物序列，且所述P1接头的5’端或3’端含有与所述粘性末端相适应的一个或多个碱基；

所述P2接头中含有P5序列和第一测序引物序列。

7.一种用于测序文库构建的试剂盒，其特征在于，所述试剂盒中包括：

酶，所述酶在基因组DNA中的识别序列包括两端碱基构成的回文序列及位于所述回文序列中间的可变序列，所述可变序列包括一个或多个碱基；且所述酶酶切所述基因组DNA后的酶切产物具有粘性末端，所述粘性末端含有所述可变序列中的一个或多个碱基；

P1接头序列，所述P1接头中含有P7序列、标签序列和第二测序引物序列，且所述P1接头的5’端或3’端含有与所述粘性末端相适应的一个或多个碱基；以及

P2接头序列，所述P2接头中含有P5序列和第一测序引物序列。

8.根据权利要求7所述的试剂盒，其特征在于，所述粘性末端中包括所述可变序列中的至少3个碱基。

9.根据权利要求7或8所述的试剂盒，其特征在于，所述酶为限制性内切酶AlwNI、DraIII、BglI、BstAPI或PflMI。

10.根据权利要求7所述的试剂盒，其特征在于，构成所述回文序列的碱基数是2n，所述n为≧2的整数。

11.根据权利要求7所述的试剂盒，其特征在于，所述P1接头与部分或全部所述酶切产物的粘性末端相适应。