CN111235248A

CN111235248A - 一种碱基平衡的扩增子分子标记方法

Info

Publication number: CN111235248A
Application number: CN202010222285.9A
Authority: CN
Inventors: 刘彬
Original assignee: Beijing Boao Huijiu Biotechnology Co Ltd
Current assignee: Beijing Boao Huijiu Biotechnology Co Ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-06-05
Anticipated expiration: 2040-03-26
Also published as: CN111235248B

Abstract

本发明公开了一种碱基平衡的扩增子分子标记方法，涉及分子生物学技术领域，扩增子正反向引物的5’端各有一个12碱基的分子标记，其中4个位置的碱基为简并碱基N，即可以为A/C/G/T四种碱基中的任意一种，7个位置的碱基为确定的单碱基，A/C/G/T，最后一个位置的碱基为非N的简并碱基。该碱基平衡的扩增子分子标记方法，正反向引物的分子标记的最后一个位置的碱基是排除了保守区在此位置对应的互补碱基，即常规引物在此处应出现的碱基，互补碱基后的所有可能碱基构成的简并碱基，通过这种方式，在有效区分样本的同时能够大幅缓解扩增子测序中存在的碱基不平衡问题，且使加了分子标记的引物的熔解温度更接近理论预期。

Description

一种碱基平衡的扩增子分子标记方法

技术领域

本发明涉及分子生物学技术领域，具体为一种碱基平衡的扩增子分子标记方法。适用于16S/18S/ITS等基因或者基因间区的扩增子测序，通过碱基平衡策列，在有效区分样本的同时能够大幅缓解扩增子测序中存在的碱基不平衡的问题。

背景技术

在做微生物群落结构分析时，常用的分子生物学方法是选取一段能够进行物种区分的基因区段(如细菌的16S基因区或者真菌的18S/ITS基因区)进行扩增，再通过测序手段对所扩增区域进行碱基序列读取，之后拿读取的序列与数据库中的已知物种序列进行相似性比对，最后得到相应的物种计数。

在做高通量测序时，由于是基于荧光信号或者电信号读取序列，需要在读取序列之前对四种不同碱基信号进行均衡化建模，通常的统计假设是所有四种碱基的数目大体相当，至少G和C的碱基数目以及A和T的碱基数目是分别相等的。而建模过程通常发生在序列读取的前若干个周期内，比如Illumina的测序仪通常选择前25个测序周期用于碱基建模。但在作扩增子测序时，扩增子序列的前部和尾部都是来自保守区的相同序列，不加额外的分子序列会导致测序时严重的碱基不平衡问题，从而导致统计模型构建错误以及后续碱基识别上的错误。另外，在识别分子簇(即来自相同测序模板的分子)时，也会用到前若干周期的分子序列，如果这些序列的区分度不够大，容易引起来源不同的分子的碱基序列混成一条序列，中间形成大量的简并碱基N，而这些简并碱基的位置恰恰是包含物种区分信息的可变区中的序列。即便是按照已公开的官方的加分子标记序列的方法加入扩增子分子标记序列，依然会存在严重的碱基不平衡。这就是为什么Illumina官方的实验流程中对于扩增子测序都建议采取减少通量并增加PhiX(一种碱基平衡的噬菌体序列文库)的配比的原因。在做扩增子测序时，Illumina建议的平衡库的比例为5％～10％，而通常平衡库只需要1％。而且测序通量在扩增子情形时也建议减半，即降为50％。或者与其他非扩增子文库混合测序。

以上的方法要么浪费测序通量，要么增加了很多人为限制，比如必须和不同类型文库混合测序的限制。都实际上增加了测序成本，并且在引入不同类型文库时对另外的文库的平衡性并无可靠的质控方法，引入了另外一些不可控的随机因素。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种碱基平衡的扩增子分子标记方法，在有效区分样本的同时解决了扩增子测序中存在的严重碱基不平衡的问题。

(二)技术方案

为达到以上目的，本发明采取的技术方案是：一种碱基平衡的扩增子分子标记方法，适用于16S/18S/ITS扩增子微生物群落结构分析中混样池中各个样本的分子标记，其特征是：扩增子正反向引物的5’端各有一个12碱基的分子标记，其中4个位置的碱基为简并碱基N，即可以为A/C/G/T四种碱基中的任意一种，7个位置的碱基为确定的单碱基，A/C/G/T，最后一个位置的碱基为非N的简并碱基。

优选的，正向引物的分子标记中的N简并碱基和反向引物的分子标记中的N简并碱基均不在同一位置，即N简并碱基在正反向引物的分子标记中分布在8个不同位置上。

优选的，引物分子标记的连续的N简并碱基的个数不超过3个。

优选的，正向引物中的分子标记中的7个确定的单碱基和反向引物中的分子标记中的7个确定的单碱基都分别构成了7位编码，一组正向引物分子标记的7位编码彼此之间的汉明距离(Hamming Distance)不小于5，同样一组反向引物分子标记的7位编码彼此之间的汉明距离也不小于5。

优选的，正反向引物的分子标记的最后一个位置的碱基是排除了保守区在此位置对应的互补碱基，即常规引物在此处应出现的碱基，互补碱基后的所有可能碱基构成的简并碱基。

优选的，添加了分子标记的引物序列3’端和自身5’端以及其他添加了分子标记的引物序列5’端均不能形成超过5个碱基的正向互补配对子序列。

优选的，添加了分子标记的引物序列3’端和自身以及其他添加了分子标记的引物序列均不能形成超过5个碱基的反向互补配对子序列。

优选的，341F之一和805R之一可用于扩增16S rDNA的V3V4可变区，519F之一和805R之一可以用于扩增16S rDNA的V4可变区；519F之一和926R之一可以用于扩增16S rDNA的V4V5可变区。

优选的，符合技术特征的实施例可以用基于字符串比对的计算机程序求解。

(三)有益效果

本发明的有益效果在于：

1、该碱基平衡的扩增子分子标记方法，可以使得扩增子测序的起始12个位置中有8个位置上都有N简并碱基，而另外的4个位置上的碱基可以按照A/C/G/T平衡的原则设计，既解决了前述扩增子测序中碱基不平衡的问题，又能保证分子标记有足够的区分度，从而能够有效地用于样本区分。

2、该碱基平衡的扩增子分子标记方法，正反向引物的分子标记的最后一个位置的碱基是排除了保守区在此位置对应的互补碱基，即常规引物在此处应出现的碱基，互补碱基后的所有可能碱基构成的简并碱基，通过这种方式，能够使得引物的熔解温度更接近理论预期。

3、该碱基平衡的扩增子分子标记方法，添加了分子标记的引物序列3’端和自身5’端以及其他添加了分子标记的引物序列5’端均不能形成超过5个碱基的正向互补配对子序列，添加了分子标记的引物序列3’端和自身以及其他添加了分子标记的引物序列均不能形成超过5个碱基的反向互补配对子序列，通过这样的设计，能够避免出现引物序列自生的结合，保证引物和目标保守区结合时的效率。

具体实施方式

下面将结合本发明的实施例对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种技术方案：一种为扩增子增加分子标记的方法，设计的分子标记同时解决了样品间区分问题以及扩增子测序的碱基平衡问题。所述方法具体包括：

在扩增子正反向引物的5’端各有一个12碱基的分子标记，其中4个位置的碱基为简并碱基N(即可以为A/C/G/T四种碱基中的任意一种)，7个位置的碱基为确定的单碱基(A/C/G/T)，最后一个位置的碱基为非N的简并碱基。正向引物的分子标记中的N简并碱基和反向引物的分子标记中的N简并碱基均不在同一位置，即N简并碱基在正反向引物的分子标记中分布在8个不同位置上。通过这种方法，可以使得有8个位置上都有N简并碱基，而另外的4个位置上的碱基也是按照A/C/G/T平衡的原则设计的。实际使用时按4个的倍数配合使用为佳。

引物分子标记的连续的N简并碱基的个数不超过3个。通过这种方式能够精确控制不出现某些特定序列的组合，从而避免出现引物序列自生的结合，保证引物和目标保守区结合时的效率。

正向引物中的分子标记中的7个确定的单碱基和反向引物中的分子标记中的7个确定的单碱基都分别构成了7位编码，一组正向引物分子标记的7位编码彼此之间的汉明距离(Hamming Distance)不小于5，同样一组反向引物分子标记的7位编码彼此之间的汉明距离也不小于5。通过这种方式，能够保证不同样本间足够的区分度。相比传统的分子标记方法1％左右的错分样品的比例，在允许分子标记中1位碱基失配的情况下，7个位置中需要至少测错4个碱基才会错分到不同样品中，已知测序的前12个周期单碱基测错的概率在1％左右，如果保守估计只考虑会正确区分，而不考虑错分和无法识别的情况，这样的占比大概在99.797％的样子(0.99⁷+C(7,1)*0.99⁶*0.01)，远超过传统分子标记方法。

正反向引物的分子标记的最后一个位置的碱基是排除了保守区在此位置对应的互补碱基(即常规引物在此处应出现的碱基)后的所有可能碱基构成的简并碱基。通过这种方式，能够使得引物的熔解温度更接近理论预期。

添加了分子标记的引物序列3’端和自身5’端以及其他添加了分子标记的引物序列5’端均不能形成超过5个碱基的正向互补配对子序列。添加了分子标记的引物序列3’端和自身以及其他添加了分子标记的引物序列均不能形成超过5个碱基的反向互补配对子序列。通过这样的设计，能够避免出现引物序列自生的结合，保证引物和目标保守区结合时的效率。

实施例

包含分子标记的341F正向引物：

包含分子标记的805R反向引物：

名称	序列(5'to3')
		805R-1	GCNGCATNNNAHGACTACHVGGGTATCTAATCC
805R-2	TANTAGCNNNGHGACTACHVGGGTATCTAATCC
		805R-3	CGNCGTANNNTHGACTACHVGGGTATCTAATCC
805R-4	ATNATCGNNNCHGACTACHVGGGTATCTAATCC
		805R-5	GANAGTCNNNCHGACTACHVGGGTATCTAATCC
805R-6	TGNGTCANNNAHGACTACHVGGGTATCTAATCC
		805R-7	CTNTCAGNNNGHGACTACHVGGGTATCTAATCC
805R-8	ACNCAGTNNNTHGACTACHVGGGTATCTAATCC
		805R-9	CGNAACTNNNGHGACTACHVGGGTATCTAATCC
805R-10	ATNGGACNNNTHGACTACHVGGGTATCTAATCC
		805R-11	GCNTTGANNNCHGACTACHVGGGTATCTAATCC
805R-12	TANCCTGNNNAHGACTACHVGGGTATCTAATCC

包含分子标记的519F正向引物：

包含分子标记的926R反向引物：

名称	序列(5'to3')
		926R-1	GCNGCATNNNADCCGTCAATTCMTTTRAGTTT
926R-2	TANTAGCNNNGDCCGTCAATTCMTTTRAGTTT
		926R-3	CGNCGTANNNTDCCGTCAATTCMTTTRAGTTT
926R-4	ATNATCGNNNCDCCGTCAATTCMTTTRAGTTT
		926R-5	GANAGTCNNNCDCCGTCAATTCMTTTRAGTTT
926R-6	TGNGTCANNNADCCGTCAATTCMTTTRAGTTT
		926R-7	CTNTCAGNNNGDCCGTCAATTCMTTTRAGTTT
926R-8	ACNCAGTNNNTDCCGTCAATTCMTTTRAGTTT
		926R-9	CGNAACTNNNGDCCGTCAATTCMTTTRAGTTT
926R-10	ATNGGACNNNTDCCGTCAATTCMTTTRAGTTT
		926R-11	GCNTTGANNNCDCCGTCAATTCMTTTRAGTTT
926R-12	TANCCTGNNNADCCGTCAATTCMTTTRAGTTT

341F之一和805R之一可用于扩增16S rDNA的V3V4可变区；519F之一和805R之一可以用于扩增16S rDNA的V4可变区；519F之一和926R之一可以用于扩增16S rDNA的V4V5可变区。并且，以上所述方法，很容易扩展到其他基因区的引物分子标记设计中。符合技术特征的实施例可以用基于字符串比对的计算机程序求解。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种碱基平衡的扩增子分子标记方法，适用于16S/18S/ITS扩增子微生物群落结构分析中混样池中各个样本的分子标记，其特征是：扩增子正反向引物的5’端各有一个12碱基的分子标记，其中4个位置的碱基为简并碱基N，即可以为A/C/G/T四种碱基中的任意一种，7个位置的碱基为确定的单碱基，A/C/G/T，最后一个位置的碱基为非N的简并碱基。

2.根据权利要求1所述的一种碱基平衡的扩增子分子标记方法，其特征在于：正向引物的分子标记中的N简并碱基和反向引物的分子标记中的N简并碱基均不在同一位置，即N简并碱基在正反向引物的分子标记中分布在8个不同位置上。

3.根据权利要求2所述的一种碱基平衡的扩增子分子标记方法，其特征在于：引物分子标记的连续的N简并碱基的个数不超过3个。

4.根据权利要求1所述的一种碱基平衡的扩增子分子标记方法，其特征在于：正向引物中的分子标记中的7个确定的单碱基和反向引物中的分子标记中的7个确定的单碱基都分别构成了7位编码，一组正向引物分子标记的7位编码彼此之间的汉明距离不小于5，同样一组反向引物分子标记的7位编码彼此之间的汉明距离也不小于5。

5.根据权利要求1所述的一种碱基平衡的扩增子分子标记方法，其特征在于：正反向引物的分子标记的最后一个位置的碱基是排除了保守区在此位置对应的互补碱基，即常规引物在此处应出现的碱基，互补碱基后的所有可能碱基构成的简并碱基。

6.根据权利要求2或3或4或5所述的一种碱基平衡的扩增子分子标记方法，其特征在于：添加了分子标记的引物序列3’端和自身5’端以及其他添加了分子标记的引物序列5’端均不能形成超过5个碱基的正向互补配对子序列。

7.根据权利要求2或3或4或5所述的一种碱基平衡的扩增子分子标记方法，其特征在于：添加了分子标记的引物序列3’端和自身以及其他添加了分子标记的引物序列均不能形成超过5个碱基的反向互补配对子序列。

8.根据权利要求2或3或4或5所述的一种碱基平衡的扩增子分子标记方法，其特征在于：

a.包含分子标记的341F正向引物为如下8个之一：

名称序列(5'to3') 341F-A NGCGNNNCATARCCTACGGGNGGCWGCAG 341F-B NTATNNNAGCGRCCTACGGGNGGCWGCAG 341F-C NCGCNNNGTATRCCTACGGGNGGCWGCAG 341F-D NATANNNTCGCRCCTACGGGNGGCWGCAG 341F-E NCGANNNACTGRCCTACGGGNGGCWGCAG 341F-F NATGNNNGACTRCCTACGGGNGGCWGCAG 341F-G NGCTNNNTGACRCCTACGGGNGGCWGCAG 341F-H NTACNNNCTGARCCTACGGGNGGCWGCAG

b.包含分子标记的805R反向引物为如下12个之一：

c.包含分子标记的519F正向引物为如下8个之一：

名称序列(5'to3') 519F-A NGCGNNNCATADCAGCMGCCGCGGTAA 519F-B NTATNNNAGCGDCAGCMGCCGCGGTAA 519F-C NCGCNNNGTATDCAGCMGCCGCGGTAA 519F-D NATANNNTCGCDCAGCMGCCGCGGTAA 519F-E NCGANNNACTGDCAGCMGCCGCGGTAA 519F-F NATGNNNGACTDCAGCMGCCGCGGTAA 519F-G NGCTNNNTGACDCAGCMGCCGCGGTAA 519F-H NTACNNNCTGADCAGCMGCCGCGGTAA

d.包含分子标记的926R反向引物为如下12个之一：

9.根据权利要求8所述的一种碱基平衡的扩增子分子标记方法，其特征在于：341F之一和805R之一可用于扩增16S rDNA的V3V4可变区，519F之一和805R之一可以用于扩增16SrDNA的V4可变区；519F之一和926R之一可以用于扩增16S rDNA的V4V5可变区。

10.根据权利要求2或3或4或5所述的一种碱基平衡的扩增子分子标记方法，其特征在于：符合技术特征的实施例可以用基于字符串比对的计算机程序求解。