CN104694540A

CN104694540A - 适用于多样本的扩增子文库构建的引物、扩增子文库及其构建方法

Info

Publication number: CN104694540A
Application number: CN201510152710.0A
Authority: CN
Inventors: 李宗文; 胡政; 王大伟; 蒋智; 李明洲; 刘运超; 朱海浩
Original assignee: Nuo Hezhi Source Beijing Bioinformation Science And Technology Ltd
Current assignee: Nuo Hezhi Source Beijing Bioinformation Science And Technology Ltd
Priority date: 2015-04-01
Filing date: 2015-04-01
Publication date: 2015-06-10

Abstract

本发明公开了一种适用于多样本的扩增子文库构建的引物、扩增子文库及其构建方法。该引物包括错位碱基序列和保守区扩增序列；错位碱基序列是一个或多个碱基排列形成的序列，且多样本的错位碱基序列在相同位置上的碱基的类型如下：当多样本的数量小于4时，各不相同；当多样本的数量为4n，n为≧1的自然数时，为A、T、C和G均匀分布；当多样本的数量为4n+m，n为≧1的自然数，m为1、2或3时，4n个样本为A、T、C和G均匀分布；剩余m个样本按照m的不同分别为A、T、C和G中的任意1种、2种或3种。上述引物中增加了错位碱基序列，所构建的文库测序时能将相似性较高的不同样本的序列分开，有效提高测序质量和有效数据量。

Description

适用于多样本的扩增子文库构建的引物、扩增子文库及其构建方法

技术领域

本发明涉及高通量测序领域，具体而言，涉及一种适用于多样本的扩增子文库构建的引物、扩增子文库及其构建方法。

背景技术

扩增子测序是对特定长度的PCR产物或者捕获的片段进行测序，主要包括16S rDNA测序、18S rDNA测序、ITS测序及功能基因检测等。采用illumina MiSeq第二代高通量测序平台测定的16S/18S/ITS某个高变区域的序列，来反应环境样品在细菌、真菌、古菌分类方面物种之间的差异，对研究海洋、土壤、肠道粪便等环境中的微生物构成有重要的指导作用；同样，也可通过对某些功能基因片段的测序，挖掘更多的生物学信息。

16S rDNA是编码细菌核糖体小亚基的DNA序列，分子大小约1540bp，由9个可变区和10个保守区交叉排列组成。保守区能反映物种间亲缘关系，可变区在不同菌种间存在差异。根据保守区序列设计引物，将可变区扩增出来进行测序，通过测序数据与相应数据库的比对，即可确定微生物在进化树中的位置，从而鉴定样本中可能存在的细菌种类。研究表明，V4靶基因区域(约300bp)对微生物进行分类较为准确。

ITS1是位于真核生物的18S rRNA和5.8S rRNA之间的内转录区域，ITS2位于真核生物的5.8S rRNA和28S rRNA之间的内转录区域。由于进化相对于18S rRNA、5.8S rRNA和28SrRNA迅速而具多态性，因而适合于等级水平较低的系统学研究。根据保守区序列设计引物，将其扩增出来进行测序，通过测序数据与相应数据库的比对，即可确定微生物在进化树中的位置，从而鉴定样本中可能存在的真菌种类，是目前非常常见的分析真菌方法。

微生物扩增子区域的测序，首先是对目标样本进行PCR扩增，然后构建适用于二代测序平台的文库。目前现有的扩增方法均为设计各菌株所通用的引物(即保守区扩增序列)对保守区进行扩增，由于16S、18S、ITS保守性较强，不同菌种的差异性较低，序列相似性较高，在测序过程中会影响测序仪的信噪比和簇成像，造成测序质量差(Q20占60％～80％，Q20是指illumina的测序质量，它是由Q＝-10log10(E)这个公式推导出来的，E代表该碱基测序错误率，如E＝0.01，那么Q值为20，同理可以算出E＝0.001，Q为30。那么Q(20)＝80％代表在该测序结果中，碱基测序质量在Q20以上的碱基数在总碱基数中的比例为80％，也就说这个值越大越好)，导致需要添加的平衡文库高(占总文库数量的20％-50％)、有效数据量低(只有50％-70％)等缺点。

因此，仍需要对现有的扩增子文库构建方法进行改进，以提高扩增子文库测序数据的质量和有效数据量。

发明内容

本发明的主要目的在于提供一种适用于多样本的扩增子文库构建的引物、扩增子文库及其构建方法，以提高多样本的扩增子文库测序数据的质量和有效数据量。

为了实现上述目的，根据本发明的一个方面，提供了一种适用于多样本的扩增子文库构建的引物，该引物包括错位碱基序列和保守区扩增序列；错位碱基序列是一个或多个碱基排列形成的序列，且当多样本的数量小于4时，多样本的错位碱基序列在相同位置上的碱基的类型各不相同；当多样本的数量为4n，且n为大于等于1的自然数时，多样本的错位碱基序列在相同位置上的碱基类型为A、T、C和G均匀分布；当多样本的数量为4n+m，且n为大于等于1的自然数，m为1、2或3时，其中，多样本中的4n个样本的错位碱基序列在相同位置上的碱基类型为A、T、C和G均匀分布；剩余m个样本的错位碱基序列在相同位置上的碱基类型按照m的不同分别为A、T、C和G中的任意1种、2种或3种。

进一步地，错位碱基序列中碱基的数目小于等于5。

进一步地，当多样本的数量小于等于5时，任意两个样本之间的错位碱基序序列中的碱基的数目至少相差1个。

进一步地，当多样本的数量大于5时，至少两个样本的错位碱基序序列中的碱基数目相同。

进一步地，引物还包括样本标签序列，样本标签序列为6～12个碱基随机排列所形成的序列。

进一步地，引物为16S V4、18S V4或ITS1多样本扩增子文库构建的引物；当引物为16SV4多样本扩增子文库构建的引物时，引物包括：16S V4正向序列：SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4和SEQ ID NO：5；16S V4反向序列：SEQ ID NO：6、SEQID NO：7、SEQ ID NO：8、SEQ ID NO：9和SEQ ID NO：10；当引物为18S V4多样本扩增子文库构建的引物时，引物包括：18S V4正向序列：SEQ ID NO：11、SEQ ID NO：12、SEQID NO：13、SEQ ID NO：14和SEQ ID NO：15；18S V4反向序列：SEQ ID NO：16、SEQ IDNO：17、SEQ ID NO：18、SEQ ID NO：19和SEQ ID NO：20；当引物为ITS1多样本扩增子文库构建的引物时，引物包括：ITS1正向序列：SEQ ID NO：21、SEQ ID NO：22、SEQ IDNO：23、SEQ ID NO：24和SEQ ID NO：25；ITS1反向序列：SEQ ID NO：26、SEQ ID NO：27、SEQ ID NO：28、SEQ ID NO：29和SEQ ID NO：30。

为了实现上述目的，根据本发明的一个方面，提供了一种多样本的扩增子文库的构建方法，该构建方法包括：利用目标区域扩增引物分别对多个不同样本的目标区域进行扩增，得到多个样本的目标片段；对多个样本的目标片段进行接头连接，得到多样本的扩增子文库；其中，目标区域扩增引物为上述任一种引物；或者目标区域扩增引物为上述任一种引物和由样本标签序列和保守区扩增序列组成的引物。

进一步地，当目标区域扩增引物为上述任一种引物和由样本标签序列和保守区扩增序列组成的引物时，多样本的扩增子文库中含有0～5个碱基排列形成的错位碱基序列。

进一步地，接头连接的步骤中，在多个样本的目标片段两端分别连上P5和P7接头，得到多样本的扩增子文库。

根据本发明的又一个方面，提供了一种多样本的扩增子文库，该扩增子文库采用上述任一种构建方法构建而成。

应用本发明的技术方案，通过在现有技术的通用引物的基础上，在其前面增加1个或多个错位碱基，使得所构建的文库在读取多个样本的目标扩增片段时，从不同的碱基位置开始读取其保守区扩增序列，减少了将多个样本的保守区域的相同碱基同时读取的概率；因而，更容易分辨不同样本来源的序列相似较高的序列，提高了测序质量；同时由于扩增片段本身在相同位置处的碱基类型相对均匀分布，更提高了保守区扩增序列的多样性，减少了平衡文库的占比，使得所得测序数据中目标片段的数据占比提高，即有效数据量得到提高。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明的优选实施例中适用于多样本的扩增子文库构建的引物的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

现有技术中在利用通用的保守区扩增序列扩增来源不同的样本时，由于样本间的序列相似性较高，在测序时存在测序质量差、有效数据量低等缺陷。为改善这一缺陷，在本发明一种典型的实施方式中，提供了一种适用于多样本的扩增子文库构建的引物，该引物包括错位碱基序列和保守区扩增序列；错位碱基序列是一个或多个碱基排列形成的序列，且当多样本的数量小于4时，多样本的错位碱基序列在相同位置上的碱基的类型各不相同；当多样本的数量为4n，且n为大于等于1的自然数时，多样本的错位碱基序列在相同位置上的碱基类型为A、T、C和G均匀分布；当多样本的数量为4n+m，且n为大于等于1的自然数，m为1、2或3时，其中，多样本中的4n个样本的错位碱基序列在相同位置上的碱基类型为A、T、C和G均匀分布；剩余m个样本的错位碱基序列在相同位置上的碱基类型按照m的不同分别为A、T、C和G中的任意1种、2种或3种。

现有技术的扩增子文库构建的引物是利用保守区域的序列作为多个样本的通用引物进行扩增，所构建得到的文库在测序时，测序仪在读取完标签序列之后，接着读取的是每个样本的扩增片段，但由于扩增片段的起始部分都是通用的保守区域序列，序列相似性较高，多样性较低，当序列相似性较高时，测序仪的信噪比会降低，同时会出现错误识别碱基信号或者丢失碱基信号现象，导致测序质量下降。因而，会导致部分样本的序列错误或丢失，导致测序质量下降。另一方面，为了增加扩增片段的多样性，在扩增子文库测序时通常会在文库中增加λ-DNA文库或其他碱基均衡性较高的DNA文库(这类文库俗称平衡文库，其添加方式是按照所测数据量比例添加，如illumina miseq测序仪，一次测序可得到25M数据，如果是扩增子文库，会按照扩增子文库为20M数据，平衡文库为5M的比例进行添加。平衡文库在构建时不会引入平衡文库标签序列，因而在最后的数据分析阶段，平衡文库的数据是不会用到的)，当通用的保守区域序列扩增的目标片段的差异性较低时，需要增加的平衡文库的占比就较高，测序所得数据中目标片段的数据占比就相对较少，因而测序有效数据量较低。

相比现有技术，本发明的上述引物是在现有技术的通用引物的基础上，在其前面增加1个或多个错位碱基，使得所构建的文库在读取多个样本的目标扩增片段时，从不同的碱基位置开始读取其保守区扩增序列，减少了将多个不同样本的相同的保守区域的相同碱基同时读取的概率，而且，在相同位置上的错位碱基的类型尽量不同，增加了相同位置的碱基类型的多样性，使得测序仪更容易分辨不同样本来源的序列相似较高的序列，提高了测序质量，同时由于扩增片段本身的序列多样性相对增加，也减少了平衡文库的占比，使得所得测序数据中目标片段的数据占比提高，即有效数据量得到提高。也就是说，在保守区扩增序列之前增加错位碱基序列使得各样本所构建的扩增子文库中的保守区扩增序列位于不同的碱基位置处，即各样本的保守区扩增序列的相同碱基并不会在同一轮的测序结果中出现，因而测序仪不会将相似度较低的序列错报为同一条序列，使得测序质量得到提高。

在上述引物中，错位碱基序列中错位碱基的数目可以根据样本数目的多少进行合理确定，只要错位碱基数目能够提高多个样本的扩增片段多样性，便于测序仪将多个不同样本区分开来即可。本发明考虑到错位碱基序列在测序仪的测序读长中也占有一定的比例，若其数目过大，则在测序所得数据中，错位碱基序列所占的碱基数越多，其后面读取的目标片段的长度就相对越短，因而本发明优选错位碱基的数目小于等于5。将错位碱基的数目控制在1～5之间，一方面能够增加目标片段的多样性，提高测序仪的分辨率，提高测序质量；另一方面又不占用过多的测序读长，提高测序数据有效量。当然，当目标片段比较短，测序仪的读长大于目标片段与错位碱基序列的总和时，为了进一步提高目标片段的多样性和测序仪的分辨率，错位碱基的数目还可以适当增加。

上述引物是适用于多样本的扩增子文库的构建，根据所欲扩增的样本的数量的不同，不同样本之间的上述引物也存在不同的要求或规律。在本发明一种优选的实施例中，当样本的数量小于等于5时，任意两个样本之间的错位碱基序序列中碱基的数目至少相差1个。当样本的数量小于等于5时，如样本的数量为5时，第一个样本的错位碱基序列可以为1个碱基；第二个样本的错位碱基序列为2个碱基组成的序列，第三个样本的碱基序列为3个碱基组成的序列，第四个样本的错位碱基序列为4个碱基组成的序列，第五个样本的碱基序列为5个碱基组成的序列，这样，不同样本不仅序列不同，而且保守区域碱基出现的顺序也不同。当每个样本读取1个碱基后，第一个样本即开始读取保守区域的第1个碱基，而此时，第二至第五个样本读取的是其第2个错位碱基；当每个读取2个碱基后，第一个样本读取保守区域的第2个碱基，第二个样本读取保守区域的第1个碱基；第三至第五个样本读取的是其第3个错位碱基。依次类推，每个样本的保守区域的碱基并不是同时被测序仪读取，因而能够将相同保守区域后面的序列相似性较高的目标片段的样本来源区分开来。

上述由不同碱基数目所形成的多个样本的错位碱基序列，相比由相同碱基数目所形成的不同序列构成的错位碱基序列，更有利于增加序列的多样性，提高测序仪的分辨率，从而提高测序质量。由于相同碱基数目所形成的错位碱基序列，在读取相同数目的碱基之后，仍会面临同样的保守区域碱基相同的状况，此时仍可能会将后续读取的来源于不同样本的碱基误读为同一样本的碱基，这样测序质量仍相对较低。

在本发明另一种优选的实施例中，当样本的数量大于5时，至少两个样本的错位碱基序列中的碱基数目相同。基于测序文库中不同数目的错位碱基序列相对均衡考虑，当多个样本的数量大于5时，本发明优选按照组成错位碱基序列的碱基数目，从1个到5个依次使用，不构成5的倍数的剩余的样本可以从1～5个碱基的错位碱基序列中随机选择。这样，相对于现有技术中保守区域读取的碱基100％相同的几率，大于5的样本中虽然至少两个样本的错位碱基序序列中的碱基数目相同，但所构建的文库在读取保守区域的碱基时，由于有其他错位碱基数目不同的样本的存在，样本间的序列多样性大大提高，因而读取相同碱基的概率就大大降低。

本发明的引物，通过含有上述错位碱基序列大大提高所构建文库的质量和有效数据量，为了进一步简化建库流程，提高建库效率，在本发明一种优选的实施例中，如图1所示，上述引物除了包括错位碱基序列2和保守区扩增序列3外，还包括样本标签序列1，样本标签序列1为6～12个碱基随机排列所形成的序列。该优选实施例中，将用于区别样本来源的样本标签序列1与带有错位碱基序列2的目标片段扩增序列3共同置于同一条引物上，只需通过一步PCR的过程即可完成目标片段扩增步骤和样本标签连接步骤，既简化工艺步骤，又提高了文库测序数据的质量和有效量。而样本标签序列1为本领域通常所用的6～12个碱基随机排列而成的序列，不同样本带有不同的标签序列。根据该标签序列的不同，可以对测序所得的数据的样本来源进行区分。更优选采用6～8个碱基随机排列而成的序列作为样本标签序列，利于标签序列的区分，且不占用太多的测序读长。

本发明的上述引物最常见的是用于微生物种群多样性的扩增子的扩增，只需要在保守区域引物前端加上不同数目的错位碱基序列，就能显著提高测序质量和产出的有效数据量。在本发明又一优选的实施例中，上述引物为16S V4、18S V4或ITS1多样本扩增子文库构建的引物；当引物为16S V4多样本扩增子文库构建的引物时，上述引物包括：16S V4正向序列：SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4和SEQ ID NO：5；16S V4反向序列：SEQ ID NO：6、SEQ ID NO：7、SEQ ID NO：8、SEQ ID NO：9和SEQ ID NO：10；当引物为18S V4多样本扩增子文库构建的引物时，上述引物包括：18S V4正向序列：SEQID NO：11、SEQ ID NO：12、SEQ ID NO：13、SEQ ID NO：14和SEQ ID NO：15；18S V4反向序列：SEQ ID NO：16、SEQ ID NO：17、SEQ ID NO：18、SEQ ID NO：19和SEQ ID NO：20；当引物为ITS1多样本扩增子文库构建的引物时，上述引物包括：ITS1正向序列：SEQ IDNO：21、SEQ ID NO：22、SEQ ID NO：23、SEQ ID NO：24和SEQ ID NO：25；ITS1反向序列：SEQ ID NO：26、SEQ ID NO：27、SEQ ID NO：28、SEQ ID NO：29和SEQ ID NO：30。

在上述优选的实施例中，采用上述序列的引物对环境中的微生物的16S V4、18S V4或ITS1的多样本扩增子文库进行构建时，所构建的多样本扩增子文库测序质量高且产出的有效数据量也较高。

在本发明另一种典型的实施方式中，提供了一种多样本的扩增子文库的构建方法，该构建方法包括：利用目标区域扩增引物分别对多个不同样本的目标区域进行扩增，得到多个样本的目标片段；对多个样本的目标片段进行接头连接，得到多样本的扩增子文库；其中，目标区域扩增引物为上述任一种引物；或者目标区域扩增引物为上述任一种引物和由样本标签序列和保守区扩增序列组成的引物。

本发明的上述扩增子文库构建方法，通过采用上述任一种带有错位碱基序列的引物作为目标区域扩增引物，使得扩增得到的文库在测序时能够大大减低测序仪的出错几率，提高测序质量，而且增加了目标片段的多样性，减少了平衡文库的添加比例，提高有效数据量。同样，当将上述任一种带有错位碱基序列的引物与现有技术中的由仅含有保守区扩增序列的引物同时用于多个样本的扩增子文库构建时，现有技术中的引物所扩增的样本的目标片段与本发明所改进后的引物所扩增的样本的目标片段混合，同时进行后续的文库构建流程，得到的多样本的测序文库，由于具有相同保守区域序列的样本数目相对降低，目标片段的多样性大大增加，因而所构建的文库的测序质量和测序数据有效量也得到大大提高。

上述当目标区域扩增引物为上述任一种带有错位碱基序列的引物和由现有技术中的样本标签序列和保守区扩增序列组成的引物时，多样本的扩增子文库中含有的错位碱基序列中的碱基数为0～5。当所构建得到的扩增子由现有技术的引物扩增而成时，因其中不含有错位碱基序列，也可以认为是错位碱基序列中含有0个碱基，因而所形成的多样本的扩增子文库中所含有的错位碱基序列中碱基的数目涵盖了0～5的6种情况。

本发明的上述构建方法中，除了所使用的引物与现有技术不同外，其余步骤与现有技术相同。这样既解决了所建文库测序质量差和有效数据量少的缺陷，又能与现有的测序平台接轨，采用通用的接头和扩增引物即可完成后续文库构建的工艺流程。因而在上述接头连接的步骤中，在多个样本的目标片段两端分别连上P5和P7接头，得到本发明的上述多样本的扩增子文库。

在本发明又一种典型的实施方式中，还提供了一种多样本的扩增子文库，该扩增子文库采用上述任一种构建方法构建而成。采用上述构建方法所构建的多样本的扩增子文库，由于在现有通用的保守区扩增序列之前增加了不同碱基数目的错位碱基序列，提高了目的扩增子的序列多样性，减少了平衡文库的占比，进而使得测序质量和有效数据量大大提高。

下面结合具体的实施例来进一步说明本发明的有益效果。

需要说明的是，下列实施例1～3中斜体部分的序列表示样本标签序列；黑体部分表示错位碱基序列，黑体部分后面的序列表示保守区扩增序列。

实施例1：一种应用于16SV4扩增子文库构建的引物设计如下：

正向引物：(5’—3’)

SEQ ID NO：1：GTGCCAGCMGCCGCGGTAA

SEQ ID NO：2：GTGCCAGCMGCCGCGGTAA

SEQ ID NO：3：GTGCCAGCMGCCGCGGTAA

SEQ ID NO：4：GTGCCAGCMGCCGCGGTAA

SEQ ID NO：5：GTGCCAGCMGCCGCGGTAA

反向引物：(5’—3’)

SEQ ID NO：6：GGACTACHVGGGTWTCTAAT

SEQ ID NO：7：GGACTACHVGGGTWTCTAAT

SEQ ID NO：8：GGACTACHVGGGTWTCTAAT

SEQ ID NO：9：GGACTACHVGGGTWTCTAAT

SEQ ID NO：10：GGACTACHVGGGTWTCTAAT

实施例2：一种应用于18SV4扩增子文库构建的引物设计如下:

正向引物：(5’—3’)

SEQ ID NO：11：GCGGTAATTCCAGCTCCAA

SEQ ID NO：12：GCGGTAATTCCAGCTCCAA

SEQ ID NO：13：GCGGTAATTCCAGCTCCAA

SEQ ID NO：14：GCGGTAATTCCAGCTCCAA

SEQ ID NO：15：GCGGTAATTCCAGCTCCAA

反向引物：(5’—3’)

SEQ ID NO：16：AATCCRAGAATTTCACCTCT

SEQ ID NO：17：AATCCRAGAATTTCACCTCT

SEQ ID NO：18：AATCCRAGAATTTCACCTCT

SEQ ID NO：19：AATCCRAGAATTTCACCTCT

SEQ ID NO：20：AATCCRAGAATTTCACCTCT

实施例3：一种应用于ITS1扩增子文库构建的引物设计如下:

正向引物：(5’—3’)

SEQ ID NO：21：GGAAGTAAAAGTCGTAACAAGG

SEQ ID NO：22：GGAAGTAAAAGTCGTAACAAGG

SEQ ID NO：23：GGAAGTAAAAGTCGTAACAAGG

SEQ ID NO：24：GGAAGTAAAAGTCGTAACAAGG

SEQ ID NO：25：GGAAGTAAAAGTCGTAACAAGG

反向引物：(5’—3’)

SEQ ID NO：26：GCTGCGTTCTTCATCGATGC

SEQ ID NO：27：GCTGCGTTCTTCATCGATGC

SEQ ID NO：28：GCTGCGTTCTTCATCGATGC

SEQ ID NO：29：GCTGCGTTCTTCATCGATGC

SEQ ID NO：30：GCTGCGTTCTTCATCGATGC

利用上述三个实施例的引物分别对40个样本的16SV4、18SV4和ITS1进行扩增，然后在扩增后的目的片段两端分别连上P5和P7接头，最后进行PCR扩增，得到上述三个实施例的扩增子文库。

对比例1～3：

利用现有技术的引物(不含有错位碱基序列)，分别对上述40个样本的16SV4、18SV4和ITS1进行文库构建，得到三个对比例的扩增子文库。

检测：

将上述实施例1～3和对比例1～3所构建的扩增子文库进行高通量测序，并根据illumina测序仪在测序完成后给出的测序质量及有效数据量进行比较，比较结果见下表1。此外，发明人还对后续样本间数据拆分率进行了统计和比对，具体结果见表1。

其中，上述数据拆分的原则是按照文库标签序列和样本标签序列对来源于不同样本的测序数据进行拆分。

表1:

/	测序质量Q30	有效数据量	样本间数据拆分率
				实施例1	85.4％	81％	86.4％
对比例1	75％	60.4％	65.4％
				实施例2	87.3％	83.6％	93.6％
对比例2	73％	59.2％	63.3％
				实施例3	80％	80.5％	91％
对比例3	65％	50％	60％

从上述表1的数据可以看出，采用本发明所改进的引物进行上述多样本的扩增子文库构建，所构建的文库的测序质量Q30提高了10％～15％；数据拆分率提高了21％～31％，有效数据量提高了19％～30.5％，可以大大减少建库和测序成本。

上述实施例的引物设计原则是通过PCR的扩增过程将错位碱基引入到测序样品中，这样测序时可以将不同保守区的相似序列分开，提高测序仪的成簇准确性和测序过程中信噪比。达到提高测序质量和有效数据利用率、降低平衡文库的目的。本发明所改进的引物在不改变现有的扩增建库流程和上机策略的情况下，仅仅替换扩增引物就可以使得扩增子(如16S、18S、ITS)文库测序质量和有效数据量得到有效提高。

本发明的方案除用于微生物种群多样性的扩增子扩增外，同样适用于其它功能基因的保守区域扩增，如与癌症发生密切相关的基因BRAC1，均可以使用该方法设计引物，只需要在保守区域引物前端加上不同数目的错位碱基，均能显著提高测序质量。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种适用于多样本的扩增子文库构建的引物，其特征在于，所述引物包括错位碱基序列和保守区扩增序列；所述错位碱基序列是一个或多个碱基排列形成的序列，且

当所述多样本的数量小于4时，所述多样本的所述错位碱基序列在相同位置上的碱基类型各不相同；

当所述多样本的数量为4n，且n为大于等于1的自然数时，所述多样本的所述错位碱基序列在相同位置上的碱基类型为A、T、C和G均匀分布；

当所述多样本的数量为4n+m，且n为大于等于1的自然数，m为1、2或3时，其中，所述多样本中的4n个样本的所述错位碱基序列在相同位置上的碱基类型为A、T、C和G均匀分布；剩余m个样本的所述错位碱基序列在相同位置上的碱基类型按照m的不同分别为A、T、C和G中的任意1种、2种或3种。

2.根据权利要求1所述的引物，其特征在于，所述错位碱基序列中碱基的数目小于等于5。

3.根据权利要求1所述的引物，其特征在于，当所述多样本的数量小于等于5时，任意两个样本之间的所述错位碱基序序列中的所述碱基的数目至少相差1个。

4.根据权利要求1所述的引物，其特征在于，当所述多样本的数量大于5时，至少两个样本的所述错位碱基序序列中的碱基数目相同。

5.根据权利要求1至4中任一项所述的引物，其特征在于，所述引物还包括样本标签序列，所述样本标签序列为6～12个碱基随机排列所形成的序列。

6.根据权利要求5所述的引物，其特征在于，所述引物为16S V4、18S V4或ITS1多样本扩增子文库构建的引物；

当所述引物为16S V4多样本扩增子文库构建的引物时，所述引物包括：

16S V4正向序列：SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4和SEQ ID NO：5；

16S V4反向序列：SEQ ID NO：6、SEQ ID NO：7、SEQ ID NO：8、SEQ ID NO：9和SEQ ID NO：10；

当所述引物为18S V4多样本扩增子文库构建的引物时，所述引物包括：

18S V4正向序列：SEQ ID NO：11、SEQ ID NO：12、SEQ ID NO：13、SEQ IDNO：14和SEQ ID NO：15；

18S V4反向序列：SEQ ID NO：16、SEQ ID NO：17、SEQ ID NO：18、SEQ IDNO：19和SEQ ID NO：20；

当所述引物为ITS1多样本扩增子文库构建的引物时，所述引物包括：

ITS1正向序列：SEQ ID NO：21、SEQ ID NO：22、SEQ ID NO：23、SEQ IDNO：24和SEQ ID NO：25；

ITS1反向序列：SEQ ID NO：26、SEQ ID NO：27、SEQ ID NO：28、SEQ IDNO：29和SEQ ID NO：30。

7.一种多样本的扩增子文库的构建方法，其特征在于，所述构建方法包括：

利用目标区域扩增引物分别对多个不同样本的目标区域进行扩增，得到多个样本的目标片段；

对所述多个样本的目标片段进行接头连接，得到所述多样本的扩增子文库；

其中，所述目标区域扩增引物为权利要求1至6中任一项所述的引物；或者所述目标区域扩增引物为权利要求1至6中任一项所述的引物和由样本标签序列和保守区扩增序列组成的引物。

8.根据权利要求7所述的构建方法，其特征在于，当所述目标区域扩增引物为权利要求1至6中任一项所述的引物和由样本标签序列和保守区扩增序列组成的引物时，所述多样本的扩增子文库中含有0～5个碱基排列形成的错位碱基序列。

9.根据权利要求7所述的构建方法，其特征在于，所述接头连接的步骤中，在所述多个样本的目标片段两端分别连上P5和P7接头，得到所述多样本的扩增子文库。

10.一种多样本的扩增子文库，其特征在于，所述扩增子文库采用权利要求7至9中任一项所述的构建方法构建而成。