CN111235248A - 一种碱基平衡的扩增子分子标记方法 - Google Patents
一种碱基平衡的扩增子分子标记方法 Download PDFInfo
- Publication number
- CN111235248A CN111235248A CN202010222285.9A CN202010222285A CN111235248A CN 111235248 A CN111235248 A CN 111235248A CN 202010222285 A CN202010222285 A CN 202010222285A CN 111235248 A CN111235248 A CN 111235248A
- Authority
- CN
- China
- Prior art keywords
- bases
- base
- molecular
- primer
- molecular marker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种碱基平衡的扩增子分子标记方法,涉及分子生物学技术领域,扩增子正反向引物的5’端各有一个12碱基的分子标记,其中4个位置的碱基为简并碱基N,即可以为A/C/G/T四种碱基中的任意一种,7个位置的碱基为确定的单碱基,A/C/G/T,最后一个位置的碱基为非N的简并碱基。该碱基平衡的扩增子分子标记方法,正反向引物的分子标记的最后一个位置的碱基是排除了保守区在此位置对应的互补碱基,即常规引物在此处应出现的碱基,互补碱基后的所有可能碱基构成的简并碱基,通过这种方式,在有效区分样本的同时能够大幅缓解扩增子测序中存在的碱基不平衡问题,且使加了分子标记的引物的熔解温度更接近理论预期。
Description
技术领域
本发明涉及分子生物学技术领域,具体为一种碱基平衡的扩增子分子标记方法。适用于16S/18S/ITS等基因或者基因间区的扩增子测序,通过碱基平衡策列,在有效区分样本的同时能够大幅缓解扩增子测序中存在的碱基不平衡的问题。
背景技术
在做微生物群落结构分析时,常用的分子生物学方法是选取一段能够进行物种区分的基因区段(如细菌的16S基因区或者真菌的18S/ITS基因区)进行扩增,再通过测序手段对所扩增区域进行碱基序列读取,之后拿读取的序列与数据库中的已知物种序列进行相似性比对,最后得到相应的物种计数。
在做高通量测序时,由于是基于荧光信号或者电信号读取序列,需要在读取序列之前对四种不同碱基信号进行均衡化建模,通常的统计假设是所有四种碱基的数目大体相当,至少G和C的碱基数目以及A和T的碱基数目是分别相等的。而建模过程通常发生在序列读取的前若干个周期内,比如Illumina的测序仪通常选择前25个测序周期用于碱基建模。但在作扩增子测序时,扩增子序列的前部和尾部都是来自保守区的相同序列,不加额外的分子序列会导致测序时严重的碱基不平衡问题,从而导致统计模型构建错误以及后续碱基识别上的错误。另外,在识别分子簇(即来自相同测序模板的分子)时,也会用到前若干周期的分子序列,如果这些序列的区分度不够大,容易引起来源不同的分子的碱基序列混成一条序列,中间形成大量的简并碱基N,而这些简并碱基的位置恰恰是包含物种区分信息的可变区中的序列。即便是按照已公开的官方的加分子标记序列的方法加入扩增子分子标记序列,依然会存在严重的碱基不平衡。这就是为什么Illumina官方的实验流程中对于扩增子测序都建议采取减少通量并增加PhiX(一种碱基平衡的噬菌体序列文库)的配比的原因。在做扩增子测序时,Illumina建议的平衡库的比例为5%~10%,而通常平衡库只需要1%。而且测序通量在扩增子情形时也建议减半,即降为50%。或者与其他非扩增子文库混合测序。
以上的方法要么浪费测序通量,要么增加了很多人为限制,比如必须和不同类型文库混合测序的限制。都实际上增加了测序成本,并且在引入不同类型文库时对另外的文库的平衡性并无可靠的质控方法,引入了另外一些不可控的随机因素。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种碱基平衡的扩增子分子标记方法,在有效区分样本的同时解决了扩增子测序中存在的严重碱基不平衡的问题。
(二)技术方案
为达到以上目的,本发明采取的技术方案是:一种碱基平衡的扩增子分子标记方法,适用于16S/18S/ITS扩增子微生物群落结构分析中混样池中各个样本的分子标记,其特征是:扩增子正反向引物的5’端各有一个12碱基的分子标记,其中4个位置的碱基为简并碱基N,即可以为A/C/G/T四种碱基中的任意一种,7个位置的碱基为确定的单碱基,A/C/G/T,最后一个位置的碱基为非N的简并碱基。
优选的,正向引物的分子标记中的N简并碱基和反向引物的分子标记中的N简并碱基均不在同一位置,即N简并碱基在正反向引物的分子标记中分布在8个不同位置上。
优选的,引物分子标记的连续的N简并碱基的个数不超过3个。
优选的,正向引物中的分子标记中的7个确定的单碱基和反向引物中的分子标记中的7个确定的单碱基都分别构成了7位编码,一组正向引物分子标记的7位编码彼此之间的汉明距离(Hamming Distance)不小于5,同样一组反向引物分子标记的7位编码彼此之间的汉明距离也不小于5。
优选的,正反向引物的分子标记的最后一个位置的碱基是排除了保守区在此位置对应的互补碱基,即常规引物在此处应出现的碱基,互补碱基后的所有可能碱基构成的简并碱基。
优选的,添加了分子标记的引物序列3’端和自身5’端以及其他添加了分子标记的引物序列5’端均不能形成超过5个碱基的正向互补配对子序列。
优选的,添加了分子标记的引物序列3’端和自身以及其他添加了分子标记的引物序列均不能形成超过5个碱基的反向互补配对子序列。
优选的,341F之一和805R之一可用于扩增16S rDNA的V3V4可变区,519F之一和805R之一可以用于扩增16S rDNA的V4可变区;519F之一和926R之一可以用于扩增16S rDNA的V4V5可变区。
优选的,符合技术特征的实施例可以用基于字符串比对的计算机程序求解。
(三)有益效果
本发明的有益效果在于:
1、该碱基平衡的扩增子分子标记方法,可以使得扩增子测序的起始12个位置中有8个位置上都有N简并碱基,而另外的4个位置上的碱基可以按照A/C/G/T平衡的原则设计,既解决了前述扩增子测序中碱基不平衡的问题,又能保证分子标记有足够的区分度,从而能够有效地用于样本区分。
2、该碱基平衡的扩增子分子标记方法,正反向引物的分子标记的最后一个位置的碱基是排除了保守区在此位置对应的互补碱基,即常规引物在此处应出现的碱基,互补碱基后的所有可能碱基构成的简并碱基,通过这种方式,能够使得引物的熔解温度更接近理论预期。
3、该碱基平衡的扩增子分子标记方法,添加了分子标记的引物序列3’端和自身5’端以及其他添加了分子标记的引物序列5’端均不能形成超过5个碱基的正向互补配对子序列,添加了分子标记的引物序列3’端和自身以及其他添加了分子标记的引物序列均不能形成超过5个碱基的反向互补配对子序列,通过这样的设计,能够避免出现引物序列自生的结合,保证引物和目标保守区结合时的效率。
具体实施方式
下面将结合本发明的实施例对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种技术方案:一种为扩增子增加分子标记的方法,设计的分子标记同时解决了样品间区分问题以及扩增子测序的碱基平衡问题。所述方法具体包括:
在扩增子正反向引物的5’端各有一个12碱基的分子标记,其中4个位置的碱基为简并碱基N(即可以为A/C/G/T四种碱基中的任意一种),7个位置的碱基为确定的单碱基(A/C/G/T),最后一个位置的碱基为非N的简并碱基。正向引物的分子标记中的N简并碱基和反向引物的分子标记中的N简并碱基均不在同一位置,即N简并碱基在正反向引物的分子标记中分布在8个不同位置上。通过这种方法,可以使得有8个位置上都有N简并碱基,而另外的4个位置上的碱基也是按照A/C/G/T平衡的原则设计的。实际使用时按4个的倍数配合使用为佳。
引物分子标记的连续的N简并碱基的个数不超过3个。通过这种方式能够精确控制不出现某些特定序列的组合,从而避免出现引物序列自生的结合,保证引物和目标保守区结合时的效率。
正向引物中的分子标记中的7个确定的单碱基和反向引物中的分子标记中的7个确定的单碱基都分别构成了7位编码,一组正向引物分子标记的7位编码彼此之间的汉明距离(Hamming Distance)不小于5,同样一组反向引物分子标记的7位编码彼此之间的汉明距离也不小于5。通过这种方式,能够保证不同样本间足够的区分度。相比传统的分子标记方法1%左右的错分样品的比例,在允许分子标记中1位碱基失配的情况下,7个位置中需要至少测错4个碱基才会错分到不同样品中,已知测序的前12个周期单碱基测错的概率在1%左右,如果保守估计只考虑会正确区分,而不考虑错分和无法识别的情况,这样的占比大概在99.797%的样子(0.997+C(7,1)*0.996*0.01),远超过传统分子标记方法。
正反向引物的分子标记的最后一个位置的碱基是排除了保守区在此位置对应的互补碱基(即常规引物在此处应出现的碱基)后的所有可能碱基构成的简并碱基。通过这种方式,能够使得引物的熔解温度更接近理论预期。
添加了分子标记的引物序列3’端和自身5’端以及其他添加了分子标记的引物序列5’端均不能形成超过5个碱基的正向互补配对子序列。添加了分子标记的引物序列3’端和自身以及其他添加了分子标记的引物序列均不能形成超过5个碱基的反向互补配对子序列。通过这样的设计,能够避免出现引物序列自生的结合,保证引物和目标保守区结合时的效率。
实施例
包含分子标记的341F正向引物:
包含分子标记的805R反向引物:
名称 | 序列(5'to3') |
805R-1 | GCNGCATNNNAHGACTACHVGGGTATCTAATCC |
805R-2 | TANTAGCNNNGHGACTACHVGGGTATCTAATCC |
805R-3 | CGNCGTANNNTHGACTACHVGGGTATCTAATCC |
805R-4 | ATNATCGNNNCHGACTACHVGGGTATCTAATCC |
805R-5 | GANAGTCNNNCHGACTACHVGGGTATCTAATCC |
805R-6 | TGNGTCANNNAHGACTACHVGGGTATCTAATCC |
805R-7 | CTNTCAGNNNGHGACTACHVGGGTATCTAATCC |
805R-8 | ACNCAGTNNNTHGACTACHVGGGTATCTAATCC |
805R-9 | CGNAACTNNNGHGACTACHVGGGTATCTAATCC |
805R-10 | ATNGGACNNNTHGACTACHVGGGTATCTAATCC |
805R-11 | GCNTTGANNNCHGACTACHVGGGTATCTAATCC |
805R-12 | TANCCTGNNNAHGACTACHVGGGTATCTAATCC |
包含分子标记的519F正向引物:
包含分子标记的926R反向引物:
名称 | 序列(5'to3') |
926R-1 | GCNGCATNNNADCCGTCAATTCMTTTRAGTTT |
926R-2 | TANTAGCNNNGDCCGTCAATTCMTTTRAGTTT |
926R-3 | CGNCGTANNNTDCCGTCAATTCMTTTRAGTTT |
926R-4 | ATNATCGNNNCDCCGTCAATTCMTTTRAGTTT |
926R-5 | GANAGTCNNNCDCCGTCAATTCMTTTRAGTTT |
926R-6 | TGNGTCANNNADCCGTCAATTCMTTTRAGTTT |
926R-7 | CTNTCAGNNNGDCCGTCAATTCMTTTRAGTTT |
926R-8 | ACNCAGTNNNTDCCGTCAATTCMTTTRAGTTT |
926R-9 | CGNAACTNNNGDCCGTCAATTCMTTTRAGTTT |
926R-10 | ATNGGACNNNTDCCGTCAATTCMTTTRAGTTT |
926R-11 | GCNTTGANNNCDCCGTCAATTCMTTTRAGTTT |
926R-12 | TANCCTGNNNADCCGTCAATTCMTTTRAGTTT |
341F之一和805R之一可用于扩增16S rDNA的V3V4可变区;519F之一和805R之一可以用于扩增16S rDNA的V4可变区;519F之一和926R之一可以用于扩增16S rDNA的V4V5可变区。并且,以上所述方法,很容易扩展到其他基因区的引物分子标记设计中。符合技术特征的实施例可以用基于字符串比对的计算机程序求解。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种碱基平衡的扩增子分子标记方法,适用于16S/18S/ITS扩增子微生物群落结构分析中混样池中各个样本的分子标记,其特征是:扩增子正反向引物的5’端各有一个12碱基的分子标记,其中4个位置的碱基为简并碱基N,即可以为A/C/G/T四种碱基中的任意一种,7个位置的碱基为确定的单碱基,A/C/G/T,最后一个位置的碱基为非N的简并碱基。
2.根据权利要求1所述的一种碱基平衡的扩增子分子标记方法,其特征在于:正向引物的分子标记中的N简并碱基和反向引物的分子标记中的N简并碱基均不在同一位置,即N简并碱基在正反向引物的分子标记中分布在8个不同位置上。
3.根据权利要求2所述的一种碱基平衡的扩增子分子标记方法,其特征在于:引物分子标记的连续的N简并碱基的个数不超过3个。
4.根据权利要求1所述的一种碱基平衡的扩增子分子标记方法,其特征在于:正向引物中的分子标记中的7个确定的单碱基和反向引物中的分子标记中的7个确定的单碱基都分别构成了7位编码,一组正向引物分子标记的7位编码彼此之间的汉明距离不小于5,同样一组反向引物分子标记的7位编码彼此之间的汉明距离也不小于5。
5.根据权利要求1所述的一种碱基平衡的扩增子分子标记方法,其特征在于:正反向引物的分子标记的最后一个位置的碱基是排除了保守区在此位置对应的互补碱基,即常规引物在此处应出现的碱基,互补碱基后的所有可能碱基构成的简并碱基。
6.根据权利要求2或3或4或5所述的一种碱基平衡的扩增子分子标记方法,其特征在于:添加了分子标记的引物序列3’端和自身5’端以及其他添加了分子标记的引物序列5’端均不能形成超过5个碱基的正向互补配对子序列。
7.根据权利要求2或3或4或5所述的一种碱基平衡的扩增子分子标记方法,其特征在于:添加了分子标记的引物序列3’端和自身以及其他添加了分子标记的引物序列均不能形成超过5个碱基的反向互补配对子序列。
8.根据权利要求2或3或4或5所述的一种碱基平衡的扩增子分子标记方法,其特征在于:
a.包含分子标记的341F正向引物为如下8个之一:
b.包含分子标记的805R反向引物为如下12个之一:
c.包含分子标记的519F正向引物为如下8个之一:
d.包含分子标记的926R反向引物为如下12个之一:
9.根据权利要求8所述的一种碱基平衡的扩增子分子标记方法,其特征在于:341F之一和805R之一可用于扩增16S rDNA的V3V4可变区,519F之一和805R之一可以用于扩增16SrDNA的V4可变区;519F之一和926R之一可以用于扩增16S rDNA的V4V5可变区。
10.根据权利要求2或3或4或5所述的一种碱基平衡的扩增子分子标记方法,其特征在于:符合技术特征的实施例可以用基于字符串比对的计算机程序求解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010222285.9A CN111235248B (zh) | 2020-03-26 | 2020-03-26 | 一种碱基平衡的扩增子分子标记方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010222285.9A CN111235248B (zh) | 2020-03-26 | 2020-03-26 | 一种碱基平衡的扩增子分子标记方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111235248A true CN111235248A (zh) | 2020-06-05 |
CN111235248B CN111235248B (zh) | 2022-11-29 |
Family
ID=70867566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010222285.9A Active CN111235248B (zh) | 2020-03-26 | 2020-03-26 | 一种碱基平衡的扩增子分子标记方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111235248B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011125345A (ja) * | 1999-05-19 | 2011-06-30 | Cornell Research Foundation Inc | 核酸分子の配列決定の方法 |
CN104293783A (zh) * | 2014-09-30 | 2015-01-21 | 天津诺禾致源生物信息科技有限公司 | 适用于扩增子测序文库构建的引物、构建方法、扩增子文库及包含其的试剂盒 |
CN106497926A (zh) * | 2016-11-03 | 2017-03-15 | 承启医学(深圳)科技有限公司 | 一种用于构建微生物细菌16s rDNA可变区测序文库的扩增子引物及构建方法 |
-
2020
- 2020-03-26 CN CN202010222285.9A patent/CN111235248B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011125345A (ja) * | 1999-05-19 | 2011-06-30 | Cornell Research Foundation Inc | 核酸分子の配列決定の方法 |
CN104293783A (zh) * | 2014-09-30 | 2015-01-21 | 天津诺禾致源生物信息科技有限公司 | 适用于扩增子测序文库构建的引物、构建方法、扩增子文库及包含其的试剂盒 |
CN106497926A (zh) * | 2016-11-03 | 2017-03-15 | 承启医学(深圳)科技有限公司 | 一种用于构建微生物细菌16s rDNA可变区测序文库的扩增子引物及构建方法 |
Non-Patent Citations (2)
Title |
---|
MELANIE SCHIRMER等: "Insight into biases and sequencing errors for amplicon sequencing with the Illumina MiSeq platform", 《NUCLEIC ACIDS RESEARCH》 * |
鞠峰等: "活性污泥微生物群落宏组学研究进展", 《微生物学通报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN111235248B (zh) | 2022-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108203847B (zh) | 用于二代测序质量评估的文库、试剂及应用 | |
CN106497926A (zh) | 一种用于构建微生物细菌16s rDNA可变区测序文库的扩增子引物及构建方法 | |
CN104694540A (zh) | 适用于多样本的扩增子文库构建的引物、扩增子文库及其构建方法 | |
CN105543352B (zh) | 一种检测秦川牛fgf13基因拷贝数变异的方法及其应用 | |
CN112662788B (zh) | 与中国南方荷斯坦奶牛产奶性状相关的snp标记及其应用 | |
CN109652497A (zh) | 一种从预文库中富集靶标序列的方法和应用 | |
CN110283895A (zh) | 基于二代Illumina测序平台的高效纯化与识别环状RNA的方法 | |
CN111235248B (zh) | 一种碱基平衡的扩增子分子标记方法 | |
CN101921857B (zh) | 一种中国地方黄牛Pax7基因的单核苷酸多态性的PCR-RFLP检测方法 | |
CN113322335A (zh) | 一组snp位点在北京鸭品种鉴定中的应用 | |
CN111326210B (zh) | 一种基于k-mer算法的引物设计方法及系统 | |
CN116179725A (zh) | 一种鰤鱼诺卡氏菌多重pcr检测用引物对组合及检测方法 | |
CN106521017B (zh) | 用两核苷酸重复的微卫星鉴定人源亲缘关系的方法 | |
CN114196765B (zh) | 奶山羊slc7a5基因单核苷酸多态性标记在产奶性状早期选择中的应用 | |
US11739319B2 (en) | PCR primer pair and application thereof | |
CN111394474B (zh) | 一种检测黄牛gal3st1基因拷贝数变异的方法及其应用 | |
CN114836558A (zh) | 与西兰花花球低温变紫性状连锁的InDel标记物及引物组和应用 | |
CN105331729B (zh) | Snp位点基因型分型的方法 | |
CN107674920A (zh) | 嵌合体多重pcr引物组合物和检测方法 | |
CN107523634B (zh) | 一种基于猪erv转座子插入多态性研发新型分子标记的方法 | |
Lee et al. | Viruses of soil ammonia oxidising archaea identified using a novel DNA stable isotope probing approach for low GC mol% genomes | |
CN107338285B (zh) | 一种用于检测brca1和brca2基因大片段重组的引物组合、方法及试剂盒 | |
CN112980971B (zh) | 绿尾虹雉同舍鸟蛋亲缘关系鉴定的微卫星引物组合及应用 | |
CN116622859B (zh) | 一种纯种茶花鸡的分子生物学鉴定方法及应用 | |
CN110317883B (zh) | 一组用于鉴别乌龟、花龟及其杂交种的snp标记 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |