CN104232627A

CN104232627A - 2b-RAD混合建库技术

Info

Publication number: CN104232627A
Application number: CN201310233439.4A
Authority: CN
Inventors: 郭钰; 原辉; 刘勇; 方东明; 杨巍
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2013-06-13
Filing date: 2013-06-13
Publication date: 2014-12-24
Anticipated expiration: 2033-06-13
Also published as: CN104232627B

Abstract

本发明属于分子基因组学领域，尤其涉及简化基因组测序技术领域。更具体而言，本发明涉及一种2b-RAD混合建库技术。本发明设计了20个2b-RAD混合建库的条码物接头和1个通用接头，其中所述通用接头为SEQ ID No.31和32配对，并且SEQ ID No.1-10分别与SEQ ID No.21-30配对组成10个条码物接头和所述通用接头用来进行BsaXI酶切后的建库；SEQ ID No.11-20分别与SEQ ID No.21-30配对组成10个条码物接头和所述通用接头用来进行AlfI酶切后的建库。

Description

2b-RAD混合建库技术

技术领域

本发明属于分子基因组学领域，尤其涉及简化基因组测序技术领域。

背景技术

简化基因组测序（reduced-representation sequencing）技术是近几年在二代测序基础上发展起来的一系列技术的总称，主要包括RAD（restriction-site associated DNA）、GBS（genotyping-by-sequencing）、双酶切GBS（two-enzyme genotyping-by-sequencing）、双酶切RAD（double digest restriction-site associated DNA）等技术。

这些技术的基本原理是样品DNA经酶切处理后，对其进行上机测序。测序都只是对样品酶切位点周边区域进行测序，而不是对全基因组进行测序。从已经发表的文献来看，每个样本的下机数据量仅为全基因组大小的0.05-0.5×（不同简化基因组测序技术之间有差异）。由于简化基因组测序技术数据量小、且又能够均匀分布于整个基因组，所以这些技术在低成本基因分型方面正得到越来越广泛的应用，已经被大量用于基因分型之后的遗传连锁图构建、群体遗传多样性评估、种群进化分析等方面。

在目前发表的文献中，简化基因组测序技术主要在Illumina Hiseq平台上进行。因为简化基因组测序技术单个样本数据量小，而Illumina Hiseq测序仪单泳道（lane）容量较大（例如单泳道的SE50原始数据产量在7.5G左右，PE50的原始数据产量在15G左右），所以Illumina Hiseq测序仪单个泳道可容纳几十甚至上百个简化基因组测序的样本。面对如此多的样本，目前发表的文献都采取混合（pooling）建库的方式（见图1）：首先对样本DNA进行酶切，之后在粘性末端的一端连上一段含有条码物（barcode）序列的条码物接头(图1中的接头1)，在另外一端的粘性末端连上一段通用接头（图2中的接头2），然后将连好接头的DNA混合起来作为一个样品（即混合物），最后对这个样品进行末端修复、加A、PCR、切胶纯化等其余建库操作。这种建库方式，只在酶切及连接接头这两步需要对每个样本进行操作（即一样一库），而在混合之后，则相当于只对一个样本进行操作（即多样一库），与常规Illumina Hiseq建库的一样一库相比，这样就大大节省了人力与时间。

Illumina Hiseq平台的常规测序文库，比如小片段文库、转录本文库等，同样面临一个泳道容纳多个样本的问题。目前的解决方式是在建库进行到PCR步骤时，在两条PCR引物的其中一条上加入一段索引（index），这段引物称为索引引物，（图2中的PCR引物2）。另一段引物称为通用引物（图2中的PCR引物1）。目前，Illumina Hiseq 平台可使用的索引引物有100多个。这样，在PCR产物中将会带有索引，混合上机后根据索引就可区分样本。这样就能混合足够多的样本，使测序仪的所有容量都被使用，测序成本降到最低。这种建库是以一样一库的方式进行，即要对每个样本分别建库，然后在上机时混合起来测序。不如简化基因组的多样一库来得简便。

表1对简化基因组测序技术建库方式与小片段建库方式做了比较。

表1小片段测序与简化基因组测序建库方式比较

技术	建库方式	区分样本方式	上机方式
				小片段测序	一样一库	索引	多库混合物上一个泳道
简化基因组测序	多样一库	条码物	一库上一个泳道

上文提到的四种简化基因组测序技术（RAD、GBS、双酶切GBS、双酶切RAD）均是使用II-a型限制性内切酶对样品DNA进行酶切（见表2）。II-a型限制性内切酶的特点是酶切位点均位于识别序列的内侧，且只有一个切口。在DNA经过了完全酶切后，两个酶切位点之间的片段就能被切割下来，生成长短不同的片段。一般来说，酶切完之后DNA片段会呈现弥散状，各种长度的片段分布均匀。在已经发表的四种技术中，GBS、双酶切GBS和双酶切RAD连接上接头后，那些较长的片段（一般600bp以上）并不适合二代测序仪上机测序，所以在建库中的PCR阶段或之后的琼脂糖凝胶电泳片段选择时会将这些大片段去除掉。而RAD技术因为酶切之后加入了打断步骤，将长片段都打断为500bp左右的片段，因此，长片段也能够得到测序。

2b-RAD（type IIB restriction-site associated DNA），是由美国德克萨斯州大学生命科学院于2012年5月发表的一项新的基因分型技术，研究成果发表于《Nature Methods》。与前面4种基因分型的方法不同，此项技术使用的是II-b型限制性内切酶。此种酶的特点是酶切位点位于识别序列的外侧，且在两侧各有一个切口。表3列出了此篇文献中使用的两种II-b型限制性内切酶。从表中给出的酶切方式可以看出，DNA经过II-b型限制性内切酶消化后，也会产生弥散状条带，但是会产生出一组大小完全一致的片段。例如BsaXI的切下的片段为33bp，AlfI切下来的片段为36bp，于是产生出若干条33bp或36bp的片段。再对这些片段建库后进行二代测序，除了6个识别位点外，其他的序列均可进行样本之间SNP的寻找来进行基因分型，这就是2b-RAD技术的核心内容。这篇文献使用1个拟南芥样品，分别测试了BsaXI、AlfI这两种酶的2b-RAD建库流程，指出2b-RAD是一种便捷低成本新型基因分型技术。2b-RAD技术的优点在于含有一系列酶切片段大小为30多bp的酶切片段（称为标签（tag）），因此所有的酶切标签均能被测序，而不像GBS、双酶切GBS以及双酶切RAD等技术中大片段的标签就去除掉了。另外，2b-RAD技术不像RAD那样需要打断、末端修复、加A等操作之后才能对所有标签进行测序，所以是一种建库成本较低的简化基因组测序技术。

表2 简化基因组测序技术使用的限制性内切酶

表3 2b-RAD技术使用的限制性内切酶

发明内容

2b-RAD作为一种新型的基因分型技术，虽然已经作为文献发表出来，但文献中只做了一个拟南芥样本的建库，并未提出多样本如何进行混合建库。而简化基因组测序技术由于每个样品测序数据量少面对的必然是海量样本，所以建立一套快捷且又廉价的混合建库方式对于一种新型的简化基因组测序技术来说是非常必要的，这样才能适应生产的需要。文献在混合建库方面的不足之处主要体现在以下方面：

1）文献中使用的建库接头只是给出了一个单样本的建库接头，没有设计出适合II-b型限制性内切酶酶切片段的条码物接头。

2）文献中提出的2b-RAD的建库流程要经过两次PCR反应，过程繁琐，而现在常规的简化基因组建库方案都是只经过一次PCR反应。

3）文献中只是对单一样本进行建库测序，没有提出多样本如何混合建库，如何混合上机。

基于以上的考虑，本发明人开发出了2组分别适合BsaXI、AlfI这两种II-b型限制性内切酶酶切片段的条码物接头。另外，本发明将常规简化基因组测序技术使用条码物混合样本的方式与常规小片段建库使用索引混合样本的方式结合了起来，只需一次PCR反应，发明了一种适合于2b-RAD技术的快捷、廉价的混合建库的方法。

第一方面，发明人首次对2b-RAD的建库中的条码物接头和通用接头进行了设计。所以，本发明提供了20个2b-RAD混合建库的条码物接头和1个通用接头，其中通用接头为SEQ ID No.31和32配对，并且SEQ ID No.1-10分别与SEQ ID No.21-30配对组成10个条码物接头和所述通用接头用来进行BsaXI酶切后的建库；SEQ ID No.11-20分别与SEQ ID No.21-30配对组成10个条码物接头和所述通用接头用来进行AlfI酶切后的建库。

在本发明中，每种酶建库所用的条码物接头末端带有不同的条码物，5’端不用磷酸化。设计的条码物接头除条码物及最末端的部分外，其他与GBS技术所用的接头一致。条码物的设计采用双酶切GBS的方案进行设计：长度为4-8nt，两个条码物之间至少有2个错配，在所有条码物的每个对应位置，如果条码物数是偶数，A+C碱基的总数等于G+T碱基的总数，如果条码物数是奇数，则A+C碱基的总数等于G+T±1碱基的总数，这使得例如在Illumina Hiseq测序仪上吸光度一致。条码物接头和通用接头最末端设计为粘性的NNN状或NN状来与BsaXI或AlfI酶切后的的DNA片段相连接。

在第二方面，本发明提供了一种用于2b-RAD的混合建库技术，所述混合建库技术使用本发明第一方面设计的条码物接头。

在一个实施方案中，使用本发明第一方面设计的条码物接头对多个样本进行混合建库的方法包括如下步骤：

1）首先对所述样本的基因组DNA进行酶切，所述酶是BsaXI酶或AlfI酶；

2）将所述样本进行分组，每n（2<=n<=10）个样本归为一组，样本数如果不是n（2<=n<=10）的整数倍，则最后不足n（2<=n<=10）个的样本分为一组；建库时，为每组的每个样品选择一个本发明的条码物接头，同一组中每个样品的每个条码物接头各不相同，每组样本在加完相应条码物接头和通用接头后混合为一个样，即n（2<=n<=10）样1库；不足n（2<=n<=10）个的样本在加完相应条码物接头和通用接头后也混合为一个样；

3）对上述混合样进行PCR扩增，扩增时对每个混合样使用不同的索引引物和通用引物组成的引物对；所述引物对例如SEQ ID No.33和34，或者SEQ ID No.33和35；

4）将上述扩增产物进行测序；例如使用Illumina Hiseq平台进行测序；

5）对于测序的下机数据，首先使用所述索引对每个文库进行区分，然后根据条码物对每个文库中的每个样本进行区分。

本发明的技术方案总结如下：

第1项.2b-RAD混合建库的条码物接头，其中SEQ ID No.1-10分别与SEQ ID No.21-30配对组成10个条码物接头用来进行BsaXI酶切后的建库。

第2项.2b-RAD混合建库的条码物接头，其中SEQ ID No.11-20分别与SEQ ID No.21-30配对组成10个条码物接头用来进行AlfI酶切后的建库。

第3项.以上第1项的2-10个条码物接头和通用接头组成的试剂盒用来进行BsaXI酶切后的建库，其中所述通用接头为SEQ ID No.31和32配对，所述条码物接头选自SEQ ID No.1-10分别与SEQ ID No.21-30配对组成10个条码物接头。

第4项.以上第2项的2-10个条码物接头和通用接头组成的试剂盒用来进行AlfI酶切后的建库，其中所述通用接头为SEQ ID No.31和32配对，所述条码物接头选自SEQ ID No.11-20分别与SEQ ID No.21-30配对组成10个条码物接头。

第5项.本发明提供了一种用于2b-RAD的混合建库技术，所述混合建库技术使用第1或2项的2-10个条码物接头。

第6项.第5项的方法，所述方法包括如下步骤：

1）首先对所述样本的基因组DNA进行酶切，所述酶为BsaXI酶；

2）将所述样本进行分组，每n个样本归为一组，样本数如果不是n的整数倍，则最后不足n个的样本分为一组；建库时，为每组的每个样品选择一个第1项的条码物接头，同一组中每个样品的每个条码物接头各不相同，每组样本在加完相应的条码物接头后和通用接头混合为一个样，即n样1库；不足n个的样本在加完条码物接头和所述通用接头后也混合为一个样，其中n选自整数2-10；

3）对上述混合样进行PCR扩增，扩增时对每个混合样使用包括不同索引引物的引物对，所述引物对例如SEQ ID No.33和34，或者SEQ ID No.33和35；

4）将上述扩增产物进行测序；

5）对于测序的下机数据，首先使用所述索引引物中的索引对每个文库进行区分，然后根据所述条码物接头中条码物对每个文库中的每个样本进行区分。

第7项.第5项的方法，所述方法包括如下步骤：

1）首先对所述样本的基因组DNA进行酶切，所述酶为AlfI酶；

2）将所述样本进行分组，每n个样本归为一组，样本数如果不是n的整数倍，则最后不足n个的样本分为一组；建库时，为每组的每个样品选择一个第2项的条码物接头，同一组中每个样品的每个条码物接头各不相同，每组样本在加完相应的条码物接头后和通用接头混合为一个样，即n样1库；不足n个的样本在加完条码物接头和所述通用接头后也混合为一个样，其中n选自整数2-10；

4）将上述扩增产物进行测序；

第8项.第6或7项的方法，其中步骤2）中的通用接头为SEQ ID No.31和32配对。

第9项.第6或7项的方法，其中步骤4）中测序是Illumina Hiseq平台测序。

总之，本发明首次设计了适合于2b-RAD建库技术的条码物接头，并且提出了一种2b-RAD的混合建库流程，使2b-RAD技术可对任意多个样本进行混合建库操作。另外，此流程较之于其他简化基因组测序技术，价格低廉，并且比文献报道的2b-RAD技术方便快捷。最后我们对文库下机之后的数据经过生物信息学分析，这些数据的确是BsaXI、AlfI酶切产生的，酶切标签和预期一致，SNP数目多，证明我们的建库流程是科学严谨的。

因此，本发明克服了现有2b-RAD技术中的不足，可以使2b-RAD技术更好地应用于科学研究以及商业服务中。

附图说明

图1：简化基因组测序建库一般流程。

图2：小片段建库一般流程。

图3：2b-RAD混合建库流程。

图4：水稻DNA提取检测图，日1-日10表示未酶切的DNA，M1是λ-HindШ消化（Takara）；M2是D2000（Tiangen）。

图5：BsaXI酶切10个水稻样本示意图，日1-日10表示未酶切的DNA，切1-切10表示相应的酶切的DNA，M1表示λ-HindШ消化（Takara）。

图6：AlfI酶切10个水稻样本示意图，日1-日10表示未酶切的DNA，切1-切10表示相应的酶切的DNA，M1表示λ-HindШ消化（Takara）。

图7：BsaXI酶切后建库PCR产物示意图，200bp-150bp之间的亮带表示PCR产物，M1指50bp DNA Ladder（Tiangen）；M2指D2000（Tiangen）。

图8：AlfI酶切后建库PCR产物示意图，200bp-150bp之间的亮带表示PCR产物，M1指50bp DNA Ladder（Tiangen）；M2指D2000（Tiangen）。

具体实施方式

本发明涉及一种用于2b-RAD技术的混合建库方法，其中样本数是N个，所述方法包括如下步骤：

1）首次对2b-RAD的建库中的条码物接头和通用接头进行了设计。本发明设计了20个2b-RAD混合建库的条码物接头和1个相应的通用接头。其中，10个条码物接头和所述通用接头用来进行BsaXI酶切后的建库；另外10个条码物接头和所述通用接头用来进行AlfI酶切后的建库。每种酶建库所用的条码物接头末端带有不同的条码物，5’端不用磷酸化。设计的条码物接头除条码物及最末端的部分外，其他与GBS技术所用的接头一致。条码物的设计采用双酶切GBS的方案进行设计：长度为4-8nt，两个条码物之间至少有2个错配，在所有条码物的每个对应位置，如果条码物数是偶数，A+C碱基的总数等于G+T碱基的总数，如果条码物数是奇数，则A+C碱基的总数等于G+T±1碱基的总数，这使得例如在Illumina Hiseq测序仪上吸光度一致。条码物接头和通用接头最末端设计为粘性的NNN状或NN状来与BsaXI或AlfI酶切后的DNA片段相连接。

2）发明了使用10个条码物接头和1个通用接头对任意N个样本进行混合建库的一套建库方案，如图3所示，这套方案的核心是将已经发表的简化基因组测序建库方式与Illumina Hiseq小片段建库方式结合起来进行使用。首先，对N个样本进行分组，每n（2<=n<=10）个样本归为一组。样本数如果不是n（2<=n<=10）的整数倍，则最后不足n（2<=n<=10）个的样本分为一组。然后，根据计算出的理论的下机数据量来确定一个单泳道上几个文库以及最后一个不足n（2<=n<=10）个样本的文库的下机数据量。2b-RAD在建库时，因为酶切片段短（仅为33或36bp），在PCR时不会有所损失，所有的酶切标签均能被测序，因此下机数据量的计算应该与RAD一致，即约等于基因组×0.3至0.5的数据量。这样就计算出了单个样本的下机数据量，乘以相应的文库样本数目就知道了文库的下机数据量，从而安排混合上机的文库数目。建库时，每组样本在加完条码物接头后混合为一个样，即n（2<=n<=10）样1库；不足n（2<=n<=10）个的样本在加完条码物接头后也混合为一个样；PCR时对每个单泳道混合的每个文库使用不同的索引引物即可。一个单泳道一般混合几个文库就会填满容量，所以Illumina Hiseq平台自带100多对索引引物足够区分任意多个样本。例如，根据数据量计算得出每个单泳道混合3个文库，共6个文库，则单泳道1的3个文库分别使用索引1、2、3号，单泳道2的3个文库也分别使用索引1、2、3号。这样使用3个索引就能区分6个样本。文库建好后，根据之前的计算，得到混合上机方案，进行上机测序。2b-RAD文库的样本的DNA片段长度只有33或36bp，因此用SE50测序（单向50bp）即可。数据下机后，首先使用索引对每个文库进行区分，然后根据条码物对每个文库中的每个样本进行区分。这样，使用10对条码物接头，就能对任意多个样本进行建库区分。本发明提出的这种混合建库的方式，首先降低了成本。对于n=10，我们对每种酶只合成了10个条码物接头，而不像其他简化基因组测序技术一样合成48个（如RAD、双酶切RAD）或96（GBS、双酶切GBS）个接头。另外，诸如RAD、双酶切RAD技术使用的5’端接头都是经过磷酸化的，费用昂贵。本发明使用的是类似GBS、双酶切GBS技术所使用的没有经过磷酸化的接头。这样就大大降低了购买接头的成本。另外，本实验对每个文库只经过一次PCR，而无需两次PCR，节省了时间成本，使建库变得快捷。

下面举一例来说明建库流程的设计。例如有225个样本，物种基因组大小为1G。建库方案如下：样本分为23组，前220个分为22组，每组10个；余下的5个样本分为一组。前22组每组的10个样本分别加条码物接头1-10号和通用接头；最后余下的5个样本分别加条码物接头1-5号和通用接头。加完后将每组的样本混合起来，这样就形成了23个文库。前22个文库每个含10个样本，第23个文库含5个样本。先对上机方案进行设计。物种基因组大小为1G，则每个样本下机数据量为1×0.3至1×0.5，即0.3G至0.5G，则10样1库的每个文库的理论下机数据量为10×0.3至10×0.5，即3G到5G。同理5个样本组成为文库下机数据量为1.5G到2.5G。SE50测序每个单泳道总量为7G，一半约为3.5G，因此我们每个文库（10样1库的文库）下机数据量定为3.5G，每个单泳道可以添加2个这样的文库。这样可以计算出单个样本的数据量为3.5G/10，即0.35G，5个样本的文库下机数据量约为1.75G≈1.8G。因此，我们使用11个单泳道，每个单泳道上2个10样1库的文库，共22个文库；另使用一个单泳道，将5样1库的文库上样后，将其下机数据量设为1.8G，还剩7-1.8=6.2G的数据量，这些空白位置可以与生产中遇到的其他文库（如简化基因组文库、小片段文库、转录本文库等）混合一起进行测序，使单泳道所有空间都被使用。估计完成后，对每个文库进行PCR反应。每个单泳道混合两个文库，因此我们在Illumina Hiseq平台自带100多对索引引物，随机挑选2对即可。每个单泳道的文库使用选择好的2对不同的索引引物进行PCR反应，最后一个5样本的文库使用2对索引引物中任意一对均可，只要是能与其他混合的文库使用的索引引物能够区分即可。PCR完成后，按照既定方案进行上机测序，即为单泳道1-1和2号文库，单泳道2-3和4号文库......单泳道12-23号文库。数据下机后，首先，根据每个单泳道的两个索引区分文库。文库区分完之后，再用条码物区分每个文库中的样本。

在一个具体实施方案中，发明人使用10个水稻DNA样本，进行了建库实验以及数据分析，对本发明的适合于2b-RAD技术的混合建库了做了示例性说明。

具体地，所述示例性方法包括如下步骤：

1）本发明参考GBS的接头，对于2b-RAD常用的两种酶BsaXI和AlfI，分别设计了10个含有不同条码物的条码物接头以及1个通用接头（见表1和表2）。条码物的设计采用如下原则：长度为4-8nt，两个条码物之间至少有2个错配，在10个条码物的每个对应位置，如果条码物数是偶数，A+C碱基的总数等于G+T碱基的总数，如果条码物数是奇数，则A+C碱基的总数等于G+T±1碱基的总数，这使得在Illumina Hiseq测序仪上吸光度一致。条码物接头和通用接头最末端设计为粘性的NNN状或NN状来与BsaXI或AlfI酶切后的的DNA片段相连接；

2）使来自10个样本的DNA样品分别与上述10个条码物接头和通用接头连接后混合，然后对混合后的样品进行建库，即10样1库，在建库进行到PCR步骤时，仿照小片段建库的方式，使用了带有索引的PCR引物（见表3：其中索引引物1和索引引物2分别与通用引物一块组成引物对），便于在上机时和其他样本进行混合；

3）对10个样本的下机数据进行了群体的SNP寻找测试。我们的方案是经过质量值过滤、接头过滤、酶切位点过滤，然后使用Soap软件（Short Oligonucleotide Analysis Package，http://soap.genomics.org.cn/）对水稻样本进行了群体SNP寻找。

我们对文库下机之后的数据经过生物信息学分析，这些数据的确是BsaXI、AlfI酶切产生的，酶切标签和预期一致，SNP数目多，证明我们的建库流程是科学严谨的，是可以应用于生产中的。本发明设计的条码物接头能够很到很好的达到建库以及区分样本的效果。另外，本发明提出的2b-RAD的混合建库方案是一种价格低廉、方便快捷、可对任意多个样本进行混合建库的新型2b-RAD建库方式。

表1 10个条码物接头序列以及通用接头序列

（条码物用小写标出，适用于BsaXI酶切后样本）

表2.10个条码物接头序列以及通用接头序列（条码物用小写标出，适用于AlfI酶切后样本）

可以注意到：SEQ ID No.11-20分别是3’端少一个N的SEQ ID No.1-10。

表3 带有索引的PCR引物，索引用小写标出

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

1.材料：在大田中随机选择10株水稻（品种为日本晴），记为日1-日10，取其鲜嫩叶片，用CTAB法提取DNA，后用琼脂糖凝胶电泳检测提取效果，如图4所示，主带清晰、没有弥散的样本即可用于之后的建库操作中。

2.表1和2的条码物接头和通用接头均由invitrogen公司合成。首先将每个接头的正负链分别加蒸馏水溶解为100μM，然后在PCR仪上按照下表进行退火处理，退火参数设置如下：95℃10分钟，70℃10分钟，65℃10分钟，60℃10分钟，55℃10分钟，50℃10分钟，45℃10分钟，40℃10分钟，35℃10分钟，30℃10分钟，25℃30分钟。退火完成后，接头成为双链，且浓度变为25μM。再加入蒸馏水将接头稀释为5μM。

3.酶切反应：将步骤1中提取的DNA浓度调整为100ng/μl，分别用BsaXI和AlfI酶切后建立文库，建库步骤如下：

1）酶切反应：BsaXI购自NEB（货号R0609L），AlfI购自Fermentas（货号ER1801），后面酶切混合液使用试剂均为酶产品自带。每个样本DNA分别取两份，每份为500ng。一份进行BsaXI酶切反应，另一份进行AlfI酶切反应。酶切体系配制为10μl反应体系：

a）对于BsaXI，先配酶切混合液，配1管体系如下，配多管按倍数相乘：

试剂	1管加入量（μl）
		双蒸水	2
10×Buffer4	1
		BsaXI	2

然后，将酶切混合液与DNA混合，10μl体系如下：

试剂	1管加入量（μl）
		酶切混合液	5
100ng/μl DNA	5

最后，将上述10μl混合物在37℃下孵育3小时，取2μl（100ng）进行琼脂糖凝胶电泳，检测酶切效果，另外在左侧加入100ng没有酶切的DNA作为对照，结果如图5所示。

b）对于AlfI，先配酶切混合液，配1管体系如下，配多管按倍数相乘：

试剂	加入量（μl）
		双蒸水	1.8
10×Buffer R	1
		50×SAM	0.2
AlfI	2

然后，将酶切混合液与DNA混合，10μl体系如下：

试剂	加入量（μl）
		酶切混合液	5
100ng/μl DNA	5

最后，将上述10μl混合物在37℃下孵育3小时，取2μl（100ng）进行琼脂糖凝胶电泳，检测酶切效果，结果如图6所示。

对于上述a）和b），将剩余8μl混合物在65℃下热失活20分钟。

2）连接反应：使用步骤1中退火后的通用接头配制如下的连接混合液，BsaXI和AlfI分别使用表1和表2的通用接头。T4连接酶购自NEB（货号M0202L）：

试剂	1管加入量（μl）
		双蒸水	2.5
10mM ATP	0.5
		10×T4连接缓冲液	2
5μM通用接头	2.5
		T4连接酶	2

将上述连接混合液与步骤1中退火后的条码物接头、步骤1）的酶切产物混合。其中，样本日1的BsaXI酶切产物使用表1中B-1号条码物接头，日1的AlfI酶切产物使用表2中A-1号条码物接头。其他样本的酶切产物使用的条码物接头依次类推。20μl反应体系如下：

试剂	加入量（μl）
		连接混合液	9.5
5μM条码物接头	2.5
		步骤1）的酶切产物	8
总计	20

对于BsaXI，将上述混合物在4℃下连接16小时。对于AlfI，将上述混合物在16℃下连接16小时。将上述连接产物在-20℃下保存。

3）样品混合：上步连接产物的浓度约为20ng/μl，将所有连接产物混合为1μg左右的混合液，即10个样本混合为1μg，每个样本加100ng，即5μl。将步骤2）BsaXI酶切连接的10管样本混合为一个样，记为“B混”；将步骤2）AlfI酶切连接的10管样本混合为一个样，记为“A混”。用Qiangen PCR产物纯化试剂盒（货号28104）对B混和A混分别进行纯化，25μl EB（EB是Qiangen PCR产物纯化试剂盒自带的溶解液）溶解。

4）PCR反应：体系如下

试剂	加入量（μl）
		双蒸水	20
步骤3）的B混或A混	3
		Phusion Master Mix	25
10μM通用引物	1
		10μM索引引物1或2	1
总计	50

[0105] 将上述混合物置于PCR仪上按如下程序进行扩增：72℃维持5分钟，98℃维持30秒；18个循环：98℃维持30秒、65℃维持30秒、72℃维持30秒；72℃维持5分钟；4℃保持。其中，Phusion Master Mix购自NEB（货号M0531S）。通用引物和索引引物均由invitrogen公司合成。步骤3）的B混使用通用引物和索引引物1进行PCR；步骤3）的A混使用通用引物和索引引物2进行PCR。

（5）切胶回收：使用2%的琼脂糖在110V电泳1小时。因为最终的PCR产物应该是160bp左右（如图7和8所示），在电泳后会显示出一条亮带，故可切胶回收140-180bp的片段。用Qiangen胶回收试剂盒（货号28704）回收产物并进行纯化。这样，我们就完成了两个2b-RAD文库的构建。一个记为“BsaXI文库”，另一个记为“AlfI文库”。

对回收产物进行上机前质控检测，检测合格后在Illumina Hiseq2000测序平台上机测序，测序类型为SE50+8cycle-v3。每个文库的下机数据量=水稻基因组×0.3×10至水稻基因组×0.5×10。因为我们的水稻使用的是粳稻，因此用粳稻日本晴的基因组进行预估。因此，我们的预估下机数据量为380M×0.3×10=1140M至380M×0.5×10=1900M，即约1.14G至1.9G。我们取整按照每个文库2G来上机。目前Illumina Hiseq测序平台SE50一个泳道有7G，故我们所建立的两个文库（BsaXI与AlfI）可混合后进行上机，只使用一个泳道，单泳道还剩7-2×2=3G，其他3G我们混合了其他转录本文库。下机后这两个文库用索引从混合数据中提出。

数据下机后，首先使用索引引物1中的索引序列acgttagg将BsaXI文库数据区分出来；使用索引引物2中的索引序列cgcgaata将AlfI文库数据区分出来。之后，使用条码物将每个文库的每个样本数据区分出来。然后对BsaXI与AlfI分别酶切后建成的两个文库进行了群体SNP寻找的测试，结果如表4和表5所示：

表4：BsaXI酶切后的2b-RAD文库群体SNP寻找情况统计

表5：AlfI酶切后的2b-RAD文库群体SNP寻找情况统计

从最终的分析结果来看，两个文库数据的确是BsaXI、AlfI酶切产生的，酶切标签和预期一致，BsaXI文库最大读段与最小读段比值为1.8倍，AlfI文库相应比值为2.7倍。从比值来看，个体之间在数据量上相差不大，所以均匀度非常好。这说明我们的建库方案是成功的。

参考文献：

1.Baird NA,et al.Rapid SNP Discovery and Genetic Mapping Using Sequenced RAD Markers.Plos One,2008,3:e3376

2.Elshire RJ,et al.A Robust,Simple Genotyping-by-Sequencing(GBS)Approach for High Diversity Species.PLoS ONE,2011,6:e19379

3.Peterson BK,et al.Double Digest RADseq:An Inexpensive Method for De Novo SNP Discovery and Genotyping in Model and Non-Model Species.PLoS ONE,2012,7:e37135

4.Pfender WF,et al.Mapping with RAD(restriction-site associated DNA)markers to rapidly identify QTL for stem rust resistance in Lolium perenne.Theor Appl Genet,2011May,122:1467-80

5.Poland JA,et al.Development of High-Density Genetic Maps for Barley and Wheat Using a Novel Two-Enzyme Genotyping-by-Sequencing Approach.PLoS ONE,2012,7:e32253

6.Wang,et al.2b-RAD:a simple and flexible method for genome-wide genotyping.Nature Methods,2012May20,9:808-10 。

Claims

1.2b-RAD混合建库的条码物接头，其中SEQ ID No.1-10分别与SEQ ID No.21-30配对组成10个条码物接头用来进行BsaXI酶切后的建库。

2.2b-RAD混合建库的条码物接头，其中SEQ ID No.11-20分别与SEQ ID No.21-30配对组成10个条码物接头用来进行AlfI酶切后的建库。

3.权利要求1的2-10个条码物接头和通用接头组成的试剂盒，其中所述通用接头为SEQ ID No.31和32配对，所述条码物接头选自SEQID No.1-10分别与SEQ ID No.21-30配对组成10个条码物接头。

4.权利要求2的2-10个条码物接头和通用接头组成的试剂盒，其中所述通用接头为SEQ ID No.31和32配对，所述条码物接头选自SEQID No.11-20分别与SEQ ID No.21-30配对组成10个条码物接头。

5.本发明提供了一种用于2b-RAD的混合建库技术，所述混合建库技术使用权利要求1或2的至少2-10个条码物接头。

6.权利要求5的方法，所述方法包括如下步骤：

1）首先对所述样本的基因组DNA进行酶切，所述酶为BsaXI酶；

2）将所述样本进行分组，每n个样本归为一组，样本数如果不是n的整数倍，则最后不足n个的样本分为一组；建库时，为每组的每个样品选择一个权利要求1的条码物接头，同一组中每个样品的每个条码物接头各不相同，每组样本在加完相应的条码物接头后和通用接头混合为一个样，即n样1库；不足n个的样本在加完条码物接头和所述通用接头后也混合为一个样，其中n选自整数2-10；

3）对上述混合样进行PCR扩增，扩增时对每个混合样使用包括不同索引引物的引物对；

4）将上述扩增产物进行测序；

7.权利要求5的方法，所述方法包括如下步骤：

1）首先对所述样本的基因组DNA进行酶切，所述酶为AlfI酶；

2）将所述样本进行分组，每n个样本归为一组，样本数如果不是n的整数倍，则最后不足n个的样本分为一组；建库时，为每组的每个样品选择一个权利要求2的条码物接头，同一组中每个样品的每个条码物接头各不相同，每组样本在加完相应的条码物接头后和通用接头混合为一个样，即n样1库；不足n个的样本在加完条码物接头和所述通用接头后也混合为一个样，其中n选自整数2-10；

4）将上述扩增产物进行测序；

8.权利要求6或7的方法，其中步骤2）中的通用接头为SEQ ID No.31和32配对。

9.权利要求6或7的方法，其中步骤4）中测序是Illumina Hiseq平台测序。