CN110511988A - 基于PacBio测序的麦类植物基因组中LMW-GS基因拷贝数的鉴定方法 - Google Patents
基于PacBio测序的麦类植物基因组中LMW-GS基因拷贝数的鉴定方法 Download PDFInfo
- Publication number
- CN110511988A CN110511988A CN201910679622.4A CN201910679622A CN110511988A CN 110511988 A CN110511988 A CN 110511988A CN 201910679622 A CN201910679622 A CN 201910679622A CN 110511988 A CN110511988 A CN 110511988A
- Authority
- CN
- China
- Prior art keywords
- lmw
- gene
- wheat
- assemble
- reads
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 96
- 241000209140 Triticum Species 0.000 title claims abstract description 53
- 235000021307 Triticum Nutrition 0.000 title claims abstract description 46
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000004458 analytical method Methods 0.000 claims abstract description 8
- 210000004899 c-terminal region Anatomy 0.000 claims abstract description 6
- 238000012408 PCR amplification Methods 0.000 claims abstract description 3
- 239000000463 material Substances 0.000 claims description 15
- 108091036078 conserved sequence Proteins 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000003780 insertion Methods 0.000 claims description 2
- 230000037431 insertion Effects 0.000 claims description 2
- 230000001788 irregular Effects 0.000 claims description 2
- 235000015170 shellfish Nutrition 0.000 claims 1
- 239000005418 vegetable material Substances 0.000 claims 1
- 238000011160 research Methods 0.000 abstract description 13
- 238000002493 microarray Methods 0.000 abstract description 2
- 230000003321 amplification Effects 0.000 description 9
- 239000000047 product Substances 0.000 description 9
- 238000004519 manufacturing process Methods 0.000 description 8
- 238000003199 nucleic acid amplification method Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 108700028369 Alleles Proteins 0.000 description 4
- 108010068370 Glutens Proteins 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 235000018102 proteins Nutrition 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 238000011144 upstream manufacturing Methods 0.000 description 4
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 3
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 3
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 244000098338 Triticum aestivum Species 0.000 description 3
- 235000013312 flour Nutrition 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000002096 quantum dot Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000009395 breeding Methods 0.000 description 2
- 230000001488 breeding effect Effects 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 239000012154 double-distilled water Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 235000021312 gluten Nutrition 0.000 description 2
- 108010050792 glutenin Proteins 0.000 description 2
- 230000005298 paramagnetic effect Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 229920000642 polymer Polymers 0.000 description 2
- 238000000746 purification Methods 0.000 description 2
- 238000004062 sedimentation Methods 0.000 description 2
- 238000002415 sodium dodecyl sulfate polyacrylamide gel electrophoresis Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- GUAHPAJOXVYFON-ZETCQYMHSA-N (8S)-8-amino-7-oxononanoic acid zwitterion Chemical compound C[C@H](N)C(=O)CCCCCC(O)=O GUAHPAJOXVYFON-ZETCQYMHSA-N 0.000 description 1
- 241001522110 Aegilops tauschii Species 0.000 description 1
- 101150076489 B gene Proteins 0.000 description 1
- 230000004544 DNA amplification Effects 0.000 description 1
- 101150074355 GS gene Proteins 0.000 description 1
- 241000405070 Percophidae Species 0.000 description 1
- 241001529246 Platymiscium Species 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 235000007264 Triticum durum Nutrition 0.000 description 1
- 241000209143 Triticum turgidum subsp. durum Species 0.000 description 1
- UELITFHSCLAHKR-UHFFFAOYSA-N acibenzolar-S-methyl Chemical compound CSC(=O)C1=CC=CC2=C1SN=N2 UELITFHSCLAHKR-UHFFFAOYSA-N 0.000 description 1
- 238000000246 agarose gel electrophoresis Methods 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 239000011324 bead Substances 0.000 description 1
- 230000004087 circulation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 125000000151 cysteine group Chemical group N[C@@H](CS)C(=O)* 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012214 genetic breeding Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000005291 magnetic effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 235000012149 noodles Nutrition 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 239000012264 purified product Substances 0.000 description 1
- 239000011535 reaction buffer Substances 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 239000003039 volatile agent Substances 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于PacBio测序的麦类植物基因组中LMW‑GS基因拷贝数的鉴定方法,其特征在于:本发明目的是克服麦类植物基因组中LMW‑GS多拷贝基因家族的基因鉴定困难的问题。LMW‑GS基因不同拷贝在N端和C端间具有较高的序列相似性,采用常规3730测序成本太高,采用Illumina公司的测序平台由于其读长较短导致拼接时容易形成不同LMW‑GS基因的嵌合基因。因此,采用一般的研究方法鉴定LMW‑GS基因在某个小麦品种中的基因构成比较困难。本发明根据对GenBank数据库中下载的大量LMW‑GS基因序列的分析设计了一套引物,再结合PacBio相关barcode引物,采用两轮PCR扩增结合PacBio测序及DNASTAR Lasergene version7.1.0软件中的SeqMan组件进行LMW‑GS基因组装的方法进行麦类植物全基因组中LMW‑GS基因拷贝数的鉴定。
Description
技术领域
本发明属于遗传育种和分子生物学交叉的技术领域,具体涉及基于PacBio测序的麦类植物基因组中 LMW-GS基因拷贝数的鉴定方法。
背景技术
低分子量谷蛋白(LMW-GS)约占麦谷蛋白的60%,通过二硫键与高分子量谷蛋白(HMW-GS)形成多聚体,对面粉加工品质有着重要影响。LMW-GS基因拷贝数多,其编码的蛋白产物分子量与醇溶蛋白相近,普通SDS-PAGE电泳难以将其分离开来,因此对LMW-GS及其编码基因的研究远远落后于HMW-GS。生产实践调查发现,年际间不同的优质小麦品种品质指标都有波动,有的波动甚至很大,从优质强筋直接下降到中筋水平。品质性状的波动与其控制基因的数量及表达有重要关系。准确鉴定不同小麦材料中 LMW-GS基因构成及其等位变异是小麦品质育种和生产中亟待解决的难题。
LMW-GS基因为单外显子基因,位于小麦第一同源群染色体短臂上,编码区长度约900bp~1200bp,为典型的多拷贝基因。据估计,六倍体小麦中LMW-GS基因总数变化在35~40之间。从普通小麦、硬粒小麦、圆锥小麦、节节麦等小麦属植物中已经克隆和扩增出的LMW-GS基因、部分基因和假基因已超过 200个,其中约70个已分别定位到普通小麦的Glu-A3、Glu-B3或Glu-D3位点。因此,LMW-GS基因在麦类植物基因组中存在丰富的等位变异,特定LMW-GS等位变异含量的差异与普通小麦的不同品质关系密切。最近有人认为Glu-D3位点的编码基因数目较多,对品质贡献较大,就不同位点等位基因对面筋强度的贡献而言:Glu-A3位点表现为Glu-A3b>Glu-A3c>Glu-A3e,Glu-B3位点表现为Glu-B3b>Glu-B3c, Glu-D3位点表现为Glu-D3e>Glu-D3c=Glu-A3b>Glu-D3a>Glu-D3d。就面团延伸性来说,Cornish等研究认为,亚基组合为Glu-A3b、Glu-B3b和Glu-D3b的品种最好。He等和Liu等认为Glu-B3位点的b和d 等位基因对面团延展性的作用大于其它等位基因,对中国干白面条品质的贡献来说,Glu-A3d和Glu-B3d 较其它等位基因稍大。
LMW-GS根据分子量大小的不同,在SDS-PAGE图谱上主要分成B亚基和C亚基两个区域,在部分品种含有D亚基。由于B型亚基含量丰富、易于检测且对小麦加工特性的影响最大,大多数对LMW-GS 品质特性的研究主要在B型亚基上,而对C型、D型亚基的品质特性知之甚少。C型亚基与γ和α醇溶蛋白的带谱重叠,不容易区分;D型亚基与ω醇溶蛋白的带谱重叠,不容易区分。有研究报道D型亚基中由于出现单个半胱氨酸残基而阻碍了谷蛋白多聚体的增大,也有报道D型亚基的生物型其沉降值也较低,因此,D型亚基对面团粘、弹性可能具有负效应,暗示D型亚基与品质可能呈负相关。然而,Nieto-Taladriz 等研究结果表明,品种Prinqual中的一个由1B染色体编码的D型亚基与高SDS沉降值呈正相关。有学者通过小量的流变学特性测定以及烘烤测试研究发现,两倍量的LMW-GS对面团韧性的影响与HMW-GS相当。这些研究结果说明,从籽粒蛋白水平上进行LMW-GS对小麦面粉品质影响的研究面临的困难较大,目前这方面的研究成果也相对较少。
因此,从DNA序列水平上先搞清不同品质类型小麦材料的LMW-GS基因构成,进而进行基因表达与相应品质性状间的关系研究不失为一个好的策略。遗憾的是由于该基因属于复杂的多拷贝基因家族,目前还没有一个合适方法来弄清某个小麦材料中LMW-GS基因构成。根据小麦优质育种及高产优质生产上遇到的实际问题和需求,经过不断探索和反复试验,我们发明了一种基于PacBio测序的麦类植物基因组中 LMW-GS基因拷贝数的鉴定方法,为进行该类基因对小麦面粉加工品质影响的研究打下良好基础,进而为我国优质小麦品种培育与生产提供一定的技术支撑。
发明内容
本发明目的是克服麦类植物基因组中LMW-GS多拷贝基因家族的基因鉴定困难的问题。LMW-GS基因不同拷贝在N端和C端间具有较高的序列相似性,采用常规3730测序成本太高,采用Illumina公司的测序平台由于其读长较短导致进行LMW-GS基因序列拼接时其保守的N端和C端容易误拼,而形成不同LMW-GS基因的嵌合基因。因此,采用一般的研究方法都不能真正搞清LMW-GS基因在某个小麦品种中的基因构成。本发明介绍了一种用于麦类植物全基因组LMW-GS基因拷贝数鉴定的方法,为进行该类基因的表达及其对小麦品质性状影响的研究奠定了良好的基础。
本发明的技术方案是:
基于PacBio测序的麦类植物基因组中LMW-GS基因拷贝数的鉴定方法,其特征在于:本发明根据对 GenBank数据库中下载的大量LMW-GS基因序列的分析设计了一套引物,再结合PacBio相关barcode引物,采用两轮PCR扩增结合新一代高通量PacBio测序及DNASTAR Lasergene version7.1.0软件中的SeqMan 组件进行LMW-GS基因组装的方法进行麦类植物全基因组中LMW-GS基因拷贝数的鉴定。
附图说明
图1为麦类植物基因组中LMW-GS基因鉴定流程图
具体实施方式
从GenBank数据库中下载了小麦中标记为LMW-GS的DNA序列,共计807条,去除重复后共计441 条序列。然后采用Geneious_win64_9_1_2_with_jre软件进行引物设计。由于序列太多,引物设计前先用该软件的进化分析功能进行系统发育重建,再根据具体进化分支上的序列进行保守引物设计。LMW-GS基因的两端序列高度保守,中间序列变化较大,因此,引物设计时尽量将上下游引物设在靠近两端的部分。统计结果表明,最终设计了198条引物,将序列完全重复的引物保留一条其余去掉后共计108条。为了检测所合成的引物是否能最大程度的涵盖上述GenBank上下载的LMW-GS基因,笔者开发了相关perl语言编写的scripts package。程序运行结果表明,所设计保守引物理论上共计能扩增出807条序列中的794条 (98.39%),余下未能扩增的13条序列经检查都没有LMW-GS基因的C端保守序列,其中有四条(629、 650、668、390)具有一定相似性的N端保守序列,因此,理论上本次设计的保守引物能够扩增807条LMW-GS 的所有含有两个保守端部的基因。统计结果还表明,保守引物扩增产物最大为1026bp,最小为409bp;扩增产物最多的保守引物对能扩增43条LMW-GS基因,平均每对引物能扩增15.26条LMW-GS基因。
根据引物初筛及LMW-GS基因的进化分析的结果最终确定了84条引物(引物合成时上游加上“gcagtcgaacatgtagctgactcaggtcac”序列,下游加上“tggatcacttgtgcaagcatcacatcgtag”序列,这是与PacBio Barcoded Universal F/RPrimers kit匹配的universal sequence)用于麦类植物全基因组LMW-GS基因的扩增 (见表1),这些引物配对使用方法见表2。根据对LMW-GS基因DNA序列分析结果将相应引物分为42 组,其中1、8、14、17、25、30、31、37~42等13个组为一对引物,第4组为4对引物,其余各组为2~3 对引物。针对不同的小麦材料进行LMW-GS基因扩增时可以先用pair1中的引物对,对于不容易扩增的组且pair1扩增效果不好时可以采用pair2,以此类推,可以采用pair3或者pair4。经58个小麦材料验证,约有74.14%的小麦材料能够用pair1的所有42对引物对扩增出目标条带,pair1的42对引物中有1对、2对、 3对、5对、7对在这58个小麦材料中扩增不出产物的材料数量占比分别是6.90%、10.34%、1.72%、5.17%、 1.72%。不同的小麦材料由于其亲缘关系的远近会导致其基因组中含有的LMW-GS基因有一定的差异,或者某个LMW-GS基因拷贝在某个小麦材料中不存在,因此,会出现pair1~pair4的引物对可能会在个别材料中没有扩增,这是正常现象。
表1本发明所设计的引物编号及引物序列
引物编号 | 上游引物序列 | 引物编号 | 下游引物序列 |
F6 | AAACCATCGCAACAACAACCATTA | H33 | AATGGAAGTCATCACCTCAAGCT |
F10 | AAGACCTTCCTCGTCTTTGCC | R7 | AATTGTTGTTGTTGAGGTTGTTGC |
Q6 | AATTCACCATGAAGACCTTCCTCA | R12 | ACATTAACACTGCACATCGTTGG |
F7 | ACAACAACCCATCCAACAACAAC | H43 | ACATTGACACTGCACATCGTT |
Q24 | ACAGCAACAACAACCACCATTTTC | H14 | ACCTGTTGTTGTTGAGGTTGTTG |
G3-1 | ACCTTCCTCGTCTTTGCCCTCCTC | H35 | ACGGAGYGCAATGGAAGTCAY |
F12 | ACCTTCCTCRTCTTTGCCCTCCT | R11 | ACTAGTGATGGAGCTGTACAACG |
Q58 | AGACCTTCCTCRTCTTTGCCCTCC | H34 | ACTAGTGGTGGTTCCGTACAA |
Q21 | AGCAACAACAACCAGTTCTACC | H2-12 | ACTAGTGGTGGTTTCGTACAACG |
Q26 | AGCARCAACCATTACCACCACA | G3-4 | AGCTGAGCTATCTGGTGTGGCT |
Q2-19 | AGCCACCATTTTCACAACAACAA | R4 | ATGGAAGTCATCACCTCAAGTTGA |
Q5 | ATCATCACAAGCACAAGCATCA | H42 | ATTGACACTGCACATCGTTGG |
Q10 | ATCATCACAAGCACAAGCATCAAA | R9 | CACTAGTGGTGGAGCTGTACAAC |
Q18 | ATCCAACAACAACCACAACCATTT | H17 | CACTAGTGGTGGTGCCGTAC |
F2 | ATTGCACAAATGGAGAATAGCCAC | R6 | CACTAGTGGTGGTTTCGTACAAC |
Q1 | ATTGCACAAATGGAGACTAGCC | G3-2 | CAGGGTACGGAGTGCAATGGAAGTC |
F8 | ATTGCACAGATGGAGACTAGCTG | R2 | CATCACCTCAAGCTGAGCTATTTG |
Q2-12 | CAACAACAACCACCATTTTCACAG | H2-11 | CTCAARCTGAGCTATCTGGTGTGG |
G3-3 | CAACACTAGTTAACACCAATCCACAA | R14 | DCCKAATGGCACAMTAGTGGTGG |
F1 | CACAAATGGAGAATAGCCACATCC | H2-20 | GAATTCATCACCTCAAGCTGAGC |
Q7 | CACCAATTCACCATGAAGACCTTC | R1 | GCAATGGAAGTCATCACCTCAA |
Q2-4 | CACTAGTCCACCATGAAGACCTTC | R13 | GCAATGGAAGTCATCACCTCAAG |
Q39 | CAGATGGAGACTAGATGCATCCC | H2-6 | GGTTCTATACAACGGCACATTGAC |
Q23 | CAGCAACAACAACCACCATTTTC | R10 | GTCATCACCTCAAGCTGAGCTATC |
F3 | CATCACAAGCACAAGCATCAAAAC | R3 | GTGCAATGGAAGTCATCAACTCAA |
Q2-5 | CATGAAGACCTTCCTCATCTTTGC | R8 | GTGGTGGYKCTRTACAACGGCACA |
Q37 | CATTGCACAGATGGAGACTAGCT | H13 | GTTGTTGACCCAGTTGTTGTTGA |
Q13 | CCATTGCACARATGGAGACTAGC | H29 | RTACGGAGYGCAATGGAAGTCA |
Q34 | CCGTTGCGCAAATTTCACAG | H40 | TACTGAGGGCAATGGAAGTCATC |
F11 | CGCAAATTTCACAGCAACAACAA | H5 | TATCTGGTGTGGCTGCAAAAAG |
Q8 | CTGATGCAAAGAAGGAAAGAGGTG | H15 | TCATCACCTCAAGCTGAGCTATC |
F9 | CTTCCTCGTCTTTGCCCTTCTAG | H3 | TCATCACCTCAAGCTGAGCTATTT |
Q35 | CTTCCTCGTCTTTGCCCTYCT | R5 | TCTTATCAGTAGGCACCAACTTGG |
Q31 | GACAAGTACCATTGCGCAGATG | H2-21 | TGGAATTCATCACCTCAAGCTGA |
Q59 | GACCTTCCTCRTCTTTGCCCTCCT | H11 | TTGTTGTTGTTGAGGTTGTTGGAA |
Q38 | GATGGAGACTAGATGCATCCCTG | R15 | VCACCAACTCSGRTGCCAACGCC |
F5 | GCAACAACAACCATTACCACTACA | ||
F4 | GCACAACCAAAAAGCAACTTTGAT | ||
Q14 | GCCATTGCACARATGGAGACTAG | ||
Q28 | GTTGYGGCGACAAGTGCCATT | ||
Q63 | GYGGCGACAAGTGCCATTGCRCA | ||
Q30 | TACCATTGCGCAGATGGAGACTAG | ||
Q2-11 | TCACAGCARCARCAACCACCATTT | ||
Q16 | TCCAACAACAACCACAACCATT | ||
Q15 | TCCAACAACAACCACAACCATTTC | ||
Q29 | TGCGGCRACAAGTGCMATTGC | ||
Q62 | TGYGGCGACAAGTGCCATTGCRC | ||
Q27 | TTGYGGCGACAAGTGCCATTG |
表2本发明所设计引物的配对使用表
本套引物扩增体系如下:模板DNA(稀释成10ng/μl)3μl,2×Taq Master Mix 12.5μl,上下游引物各0.3μl,30%glycerol 1.2μl,ddH2O 7.7μl,扩增体系采用的总体积为25μl。扩增程序如下:95℃, 5min→(95℃,30s→56℃,30s→72℃,60s)30个循环→72℃,7min→15℃保存。采用1.5%琼脂糖凝胶电泳检测PCR产物条带。绝大多数引物对的扩增产物大小都在800~1100bp之间。对PCR产物采用磁珠法进行纯化,得到的纯化产物进行Qubit定量。
为实现在多个小麦材料中同时进行LMW-GS基因拷贝数的鉴定,需要对上述不同的小麦材料第一轮扩增产物用barcode序列加上universal sequence后的引物进行第二轮扩增,以便于在同一个测序cell中同时进行不同小麦材料LMW-GS基因的测序及后续分析,还能大幅度降低基因鉴定成本。先进行混样:每个样本已纯化的42个PCR产物各取40ng,等量混合成一个样本,并进行Qubit定量,接着进行第二轮barcode 扩增。第二轮barcode扩增引物为PacBio Barcoded Universal F/R Primers,其引物组成为:16碱基barcode+universal sequence。第二轮扩增体系如下:混合PCR产物样本10ng,5×Reaction Buffer10μl,10mM dNTPs 1.5μl,正反向barcode引物(10uM)引物各1μl,KAPA HiFi HotStart DNAPolymerase 1μl,加ddH2O至总体积50μl。扩增程序如下:98℃,30s→(98℃,15s→64℃,15s→72℃,60s)8个循环→ 72℃,7min→4℃保存。采用磁珠法进行PCR产物纯化,即得到加双端加barcode序列的样本。每个纯化后的样本进行Qubit定量。根据每个cell的混样个数,按照混合后总量不少于3ug,计算每个样本所需的 DNA量,随后等量混合。混合后样本用QIAquick PCR purification Kit进行纯化,再用0.8倍磁珠纯化得到25ul的样本,进入下一步PacBio建库步骤。采用SMRTbellTM Template Prep Kit进行文库构建。构建好的SMRTbell templates利用PacBio DNA/Polymerase Kit,退火测序引物并将Polymerase结合到 SMRTbell templates上,随后在PacBio RS II平台上进行测序反应。由于测序的片段较小(1kb左右)且PacBio 的原始错误为随机错误,故可通过CCS模式进行单一片段多轮测序的自身纠正,来提升数据的准确性。 CCS reads无需二代测序数据再次纠错,本身就具有较高准确性,为麦类植物基因组中多拷贝的LMW-GS 基因组装提供了更有利的支持。据PacBio官方数据,同一片段测序5次后,单一read的准确性可达99%。
将PacBio测序结果根据barcode序列进行不同样本测序数据的区分。分析拆分后的不同样本测序数据表明,测序准确率都在99%以上。之后采用DNASTAR Lasergeneversion7.1.0软件中的SeqMan组件进行序列组装,以中国春及小偃54两个小麦材料中已经发表的LMW-GS基因序列为reference,经过反复试验探索出的组装参数为match size,30;minimum match percentage,95%;minimum sequence length,300。在进行多个麦类植物材料的LMW-GS基因拷贝数鉴定时,以中国春、小偃54中鉴定到LMW-GS基因为参考,采用前述相同的组装参数,用SeqMan组件进行其它材料所测序列的逐一组装。根据各个LMW-GS 基因的assemble结果,必要时可以删除一部分差异较大或影响assemble结果的reads;对于组装出的Contig 两个末端,如果有个别reads的个别碱基不同,可以通过SeqMan的序列末端的拖拽功能进行reads末端适当调整;如果发现组装的Consensus Contig序列不整齐,assemble到同一个Contig的reads中有部分reads 有大的deletion或insertion或较多的SNPs,此时如果少于5条可直接删除reads,5条以上可将minimum match percentage参数调整为97%,其它参数不变,进行二轮assemble,根据二轮assemble结果必要时可以进行多轮assemble。大于或等于5个reads支持的assemble出的Contig,且assemble出的该Contig序列含有 LMW-GS基因特有的N端及C端的保守序列的为该材料中的一个LMW-GS拷贝。如果鉴定出来的LMW-GS 基因不同于中国春或小偃54中的,则认为是新鉴定出来的LMW-GS基因。下一个材料组装时,将该鉴定出来的新的LMW-GS基因与中国春和小偃54的LMW-GS基因一起作为参考序列,进行下一个材料的 LMW-GS基因组装与鉴定,标准同前,以此类推,直到所有完成测序的材料鉴定完为止,整个鉴定流程见附图。
用本发明所介绍的方法在中国春和小偃54两个材料中进行扩增、测序及序列分析,结果表明,中国春中鉴定到的LMW-GS基因与已经有全基因组序列的中国春中LMW-GS基因完全一致,其中A基因组中有4个,B基因组中有5个,D基因组中有8个,共计17个(其中假基因8个);Dong等在小偃54中鉴定到的LMW-GS基因数A、B、D基因组中分别为4个、3个、7个,共计14个(其中假基因2个),但采用本发明的方法鉴定到的基因数A、B、D基因组中分别为6个、6个、8个(共计20个,其中假基因7 个),也就是本发明所鉴定到的小偃54的基因组中LMW-GS基因数目比前人多出了6个,均为中国春基因组中已有基因的同源基因,而前人的研究在小偃54中没有鉴定出来的。进一步采用本发明所介绍的方法在郑麦103、周麦22、郑麦366、新麦26、偃展4110、高优503、西农979、百农207、百农3217、晋麦31等材料中分别鉴定到LMW-GS基因数目为15个、16个、18个、16个、12个、16个、17个、15个、 15个、15个。这暗示本发明所介绍的方法在鉴定小麦基因组中的LMW-GS基因拷贝数上是比较有效的,这为进行该类基因的表达及其与小麦品质性状间的关系研究奠定了良好的基础,也将为优质小麦品种的培育和生产提供一定的技术支持。
Claims (1)
1.基于PacBio测序的麦类植物基因组中LMW-GS基因拷贝数的鉴定方法,其特征在于:本发明根据对GenBank数据库中下载的大量LMW-GS基因序列的分析设计了一套引物,再结合PacBio相关barcode引物,采用两轮PCR扩增结合新一代高通量PacBio测序及DNASTARLasergene version7.1.0软件中的SeqMan组件进行LMW-GS基因组装的方法进行麦类植物全基因组中LMW-GS基因拷贝数的鉴定。SeqMan组件进行麦类植物全基因组中LMW-GS基因拷贝数的具体鉴定方法为:组装参数match size,30;minimum match percentage,95%;minimum sequence length,300。在进行多个麦类植物材料的LMW-GS基因拷贝数鉴定时,以中国春、小偃54中鉴定到LMW-GS基因为参考,采用前述相同的组装参数,用SeqMan组件进行其它材料所测序列的逐一组装。根据各个LMW-GS基因的assemble结果,必要时可以删除一部分差异较大或影响assemble结果的reads;对于组装出的Contig两个末端,如果有个别reads的个别碱基不同,可以通过SeqMan的序列末端的拖拽功能进行reads末端适当调整;如果发现组装的Consensus Contig序列不整齐,assemble到同一个Contig的reads中有部分reads有大的deletion或insertion或较多的SNPs,此时如果少于5条可直接删除reads,5条以上可将minimum match percentage参数调整为97%,其它参数不变,进行二轮assemble,根据二轮assemble结果必要时可以进行多轮assemble。大于或等于5个reads支持的assemble出的Contig,且assemble出的该Contig序列含有LMW-GS基因特有的N端及C端的保守序列的为该材料中的一个LMW-GS拷贝。如果鉴定出来的LMW-GS基因不同于中国春或小偃54中的,则认为是新鉴定出来的LMW-GS基因。下一个材料组装时,将该鉴定出来的新的LMW-GS基因与中国春和小偃54的LMW-GS基因一起作为参考序列,进行下一个材料的LMW-GS基因组装与鉴定,标准同前,以此类推,直到所有完成测序的材料鉴定完为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910679622.4A CN110511988A (zh) | 2019-07-20 | 2019-07-20 | 基于PacBio测序的麦类植物基因组中LMW-GS基因拷贝数的鉴定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910679622.4A CN110511988A (zh) | 2019-07-20 | 2019-07-20 | 基于PacBio测序的麦类植物基因组中LMW-GS基因拷贝数的鉴定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110511988A true CN110511988A (zh) | 2019-11-29 |
Family
ID=68624104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910679622.4A Pending CN110511988A (zh) | 2019-07-20 | 2019-07-20 | 基于PacBio测序的麦类植物基因组中LMW-GS基因拷贝数的鉴定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110511988A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110835654A (zh) * | 2019-12-25 | 2020-02-25 | 安徽农业大学 | 检测小麦Glu-B3位点拷贝数的引物、探针及其检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102952877A (zh) * | 2012-08-06 | 2013-03-06 | 深圳华大基因研究院 | 检测α珠蛋白基因拷贝数的方法和系统 |
CN106995845A (zh) * | 2017-04-01 | 2017-08-01 | 中国科学院遗传与发育生物学研究所 | 利用三代测序平台(PacBio RS II)进行多倍体中基因等位变异挖掘的方法 |
-
2019
- 2019-07-20 CN CN201910679622.4A patent/CN110511988A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102952877A (zh) * | 2012-08-06 | 2013-03-06 | 深圳华大基因研究院 | 检测α珠蛋白基因拷贝数的方法和系统 |
CN106995845A (zh) * | 2017-04-01 | 2017-08-01 | 中国科学院遗传与发育生物学研究所 | 利用三代测序平台(PacBio RS II)进行多倍体中基因等位变异挖掘的方法 |
Non-Patent Citations (3)
Title |
---|
NAXIN HUO等: "Dynamic Evolution of α-Gliadin Prolamin Gene Family in Homeologous Genomes of Hexaploid Wheat", 《SCIENTIFIC REPORTS》 * |
WEI ZHANG等: "PacBio sequencing of gene families-A case study with wheat gluten genes", 《GENE》 * |
ZHANG WEI等: "PacBio for Haplotyping in Gene Families", 《METHODS IN MOLECULAR BIOLOGY》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110835654A (zh) * | 2019-12-25 | 2020-02-25 | 安徽农业大学 | 检测小麦Glu-B3位点拷贝数的引物、探针及其检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Capilla-Pérez et al. | The synaptonemal complex imposes crossover interference and heterochiasmy in Arabidopsis | |
Song et al. | Rare allele of a previously unidentified histone H4 acetyltransferase enhances grain weight, yield, and plant biomass in rice | |
Duan et al. | Regulation of OsGRF4 by OsmiR396 controls grain size and yield in rice | |
Sun et al. | A zinc finger motif-containing protein is essential for chloroplast RNA editing | |
Uchida et al. | Regulation of inflorescence architecture by intertissue layer ligand–receptor communication between endodermis and phloem | |
Lamb et al. | Functional divergence within the APETALA3/PISTILLATA floral homeotic gene lineages | |
Fei et al. | Secondary si RNA s from Medicago NB‐LRR s modulated via mi RNA–target interactions and their abundances | |
Zhang et al. | TOND1 confers tolerance to nitrogen deficiency in rice | |
Hong et al. | Alternative polyadenylation is involved in auxin‐based plant growth and development | |
Liu et al. | Molecular evolution and genetic variation of G2-like transcription factor genes in maize | |
Duwadi et al. | Identification, characterization and down-regulation of cysteine protease genes in tobacco for use in recombinant protein production | |
Yu et al. | Novel insights into the effect of nitrogen on storage protein biosynthesis and protein body development in wheat caryopsis | |
Zhang et al. | The requirement of WHIRLY1 for embryogenesis is dependent on genetic background in maize | |
Shrestha et al. | Simultaneous detection of eight genetically modified maize lines using a combination of event-and construct-specific multiplex-PCR technique | |
Zwack et al. | Vascular expression and C-terminal sequence divergence of cytokinin response factors in flowering plants | |
Nirmal et al. | Influence of gene expression on hardness in wheat | |
Ishii et al. | Preferential recruitment of the maternal centromere-specific histone H3 (CENH3) in oat (Avena sativa L.)× pearl millet (Pennisetum glaucum L.) hybrid embryos | |
Zhang et al. | MicroRNA775 regulates intrinsic leaf size and reduces cell wall pectin levels by targeting a galactosyltransferase gene in Arabidopsis | |
Liu et al. | Integration of developmental and environmental signals via a polyadenylation factor in Arabidopsis | |
Fukuzawa et al. | Structure and organization of Marchantia polymorpha chloroplast genome: III. Gene organization of the large single copy region from rbcL to trnI (CAU) | |
CN110106278A (zh) | 玉米百粒重及粒长性状紧密连锁的分子标记及应用 | |
Yang et al. | Suppression subtractive hybridization identified differentially expressed genes in pistil mutations in wheat | |
Guo et al. | Molecular characterization of two novel Glu-D1-encoded subunits from Chinese wheat (Triticum aestivum L.) landrace and functional properties of flours possessing the two novel subunits | |
CN110511988A (zh) | 基于PacBio测序的麦类植物基因组中LMW-GS基因拷贝数的鉴定方法 | |
Jesionek et al. | Fundamentally different repetitive element composition of sex chromosomes in Rumex acetosa |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191129 |
|
WD01 | Invention patent application deemed withdrawn after publication |