CN114854893B - 一种与谷子抽穗期性状关联的SNPs标记及其鉴定方法 - Google Patents
一种与谷子抽穗期性状关联的SNPs标记及其鉴定方法 Download PDFInfo
- Publication number
- CN114854893B CN114854893B CN202210498462.5A CN202210498462A CN114854893B CN 114854893 B CN114854893 B CN 114854893B CN 202210498462 A CN202210498462 A CN 202210498462A CN 114854893 B CN114854893 B CN 114854893B
- Authority
- CN
- China
- Prior art keywords
- millet
- snps
- mutation
- software
- sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 244000062793 Sorghum vulgare Species 0.000 title claims abstract description 52
- 235000019713 millet Nutrition 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 25
- 239000002773 nucleotide Substances 0.000 title claims abstract description 7
- 125000003729 nucleotide group Chemical group 0.000 title claims abstract description 7
- 102000054765 polymorphisms of proteins Human genes 0.000 title abstract description 4
- 238000012163 sequencing technique Methods 0.000 claims abstract description 30
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 16
- 238000010219 correlation analysis Methods 0.000 claims abstract description 10
- 210000000349 chromosome Anatomy 0.000 claims abstract description 8
- 230000009466 transformation Effects 0.000 claims abstract description 8
- 108091026890 Coding region Proteins 0.000 claims abstract description 4
- 230000035772 mutation Effects 0.000 claims description 31
- 238000001914 filtration Methods 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 13
- 108020004414 DNA Proteins 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000012098 association analyses Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 239000000463 material Substances 0.000 claims description 7
- 235000007164 Oryza sativa Nutrition 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000003205 genotyping method Methods 0.000 claims description 4
- 238000012165 high-throughput sequencing Methods 0.000 claims description 4
- 230000036438 mutation frequency Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 235000009566 rice Nutrition 0.000 claims description 4
- 101150095292 CESA5 gene Proteins 0.000 claims description 3
- 108700028369 Alleles Proteins 0.000 claims description 2
- 241000726221 Gemma Species 0.000 claims description 2
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000002373 gas-phase electrophoretic mobility molecular analysis Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 240000007594 Oryza sativa Species 0.000 claims 1
- 230000009418 agronomic effect Effects 0.000 abstract description 11
- 230000009456 molecular mechanism Effects 0.000 abstract description 4
- 238000009412 basement excavation Methods 0.000 abstract 1
- 238000009395 breeding Methods 0.000 abstract 1
- 230000001488 breeding effect Effects 0.000 abstract 1
- 230000002596 correlated effect Effects 0.000 abstract 1
- 239000003550 marker Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 235000013339 cereals Nutrition 0.000 description 5
- 230000002068 genetic effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 241000209094 Oryza Species 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000007614 genetic variation Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- DCXYFEDJOCDNAF-REOHCLBHSA-N L-asparagine Chemical compound OC(=O)[C@@H](N)CC(N)=O DCXYFEDJOCDNAF-REOHCLBHSA-N 0.000 description 2
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 description 2
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 description 1
- DCXYFEDJOCDNAF-UHFFFAOYSA-N Asparagine Natural products OC(=O)C(N)CC(N)=O DCXYFEDJOCDNAF-UHFFFAOYSA-N 0.000 description 1
- LZZYPRNAOMGNLH-UHFFFAOYSA-M Cetrimonium bromide Chemical compound [Br-].CCCCCCCCCCCCCCCC[N+](C)(C)C LZZYPRNAOMGNLH-UHFFFAOYSA-M 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 239000004472 Lysine Substances 0.000 description 1
- 235000005775 Setaria Nutrition 0.000 description 1
- 241000232088 Setaria <nematode> Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 229940024606 amino acid Drugs 0.000 description 1
- 235000001014 amino acid Nutrition 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 229960001230 asparagine Drugs 0.000 description 1
- 235000009582 asparagine Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
- C12Q1/6895—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for plants, fungi or algae
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/13—Plant traits
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Organic Chemistry (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Medical Informatics (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Immunology (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mycology (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Botany (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明属于分子生物学技术领域,为了提高谷子关键农艺性状的关联代表性和显著程度,解析重要农艺性状的分子机制,提供一种与谷子抽穗期关联的SNPs标记及其鉴定方法。所述SNPs标记位于9号染色体Millet_GLEAN_10005912编码区上;该位点在1101330 bp位置标记为非同义变换变异位点。本发明基于表型多样性的谷子代表群体,作物群体大小适宜、群体结构不明显、多样的基因型,结合高深度测序基因型数据和可靠的关联分析方法,优化目前影响关联分析的各项因素,提高谷子关键农艺性状的关联代表性和显著程度,解析重要农艺性状的分子机制,为谷子优良农艺性状的关联功能基因挖掘和基因组辅助育种奠定基础。
Description
技术领域
本发明属于分子生物学技术领域,具体涉及一种与谷子抽穗期性状关联的SNPs标记及其鉴定方法。
背景技术
谷子起源于我国黄河流域的粮饲兼用作物,也是世界范围内最古老的禾谷类作物之一。我国是世界谷子的主产国,产量约占全球总量的80%,同时也是谷子遗传多样性最丰富的国家。作物种质资源是种质创新和生物学研究的物质基础。近些年来,随着谷子种质资源科学化、系统化收集工作的持续推进,以及高通量测序技术的不断发展,使人们更进一步对谷子重要农艺性状的分子机制研究,寻找与重要农艺性状显著关联的分子位点变得可能。
抽穗期是禾谷类作物重要的农艺性状,是决定作物结实粒数的关键时期,属于典型数量性状,其遗传基础较为复杂,一般认为由多基因共同控制。当前,抽穗期研究在水稻中报道较多,而对谷子而言,目前仅有少量报道。专利申请号CN 201110072772.2、CN201110072416.0和CN 201110072646.7公开报道了数个与谷子抽穗期基因连锁的分子标记及标记开发方法。专利申请号CN 201810339552.3公开报道了一种与谷子抽穗期性状相关的SNP标记及其检测引物和应用,标记位于第四号染色体10989324 bp – 12555548 bp的标记内。
然而,作物群体大小、群体结构、表型多样性、基因型多样性、测序方法及深度,关联软件及方法等这些因素,都会很大程度的影响关联精度和显著性。目前已报道的关联标记和研究方法主要受限于:1、技术发展的阶段,目前谷子参考基因组已获得很大的提升和更新;2、测序方法的发展,当前测序不限于SSR标记及简并测序,可以获得更高深度及更全的基因组测序数据;3、基因型多样性发展,自然群体的多样性较之杂交家系群体更高,结合表型可以有更好的代表性和关联效果。
基于上述原因,迫切需要寻找一种新的谷子抽穗期性状关联位点及其鉴定方法。
发明内容
本发明为了解决目前存在的技术不足,为了提高谷子关键农艺性状的关联代表性和显著程度,解析重要农艺性状的分子机制,提供一种与谷子抽穗期关联的SNPs标记及其鉴定方法。
为实现上述目的,本发明提供如下技术方案:
一种与谷子抽穗期关联的SNPs标记,所述SNPs标记位于9号染色体Millet_GLEAN_10005912编码区上;该位点在该基因第9个外显子区域内1101330 bp位置标记为非同义变换变异位点。
在标记区间1101330 bp位置处发生点突变G→C,为非同义变换点突变;所述SNPs位点的点突变频率与群体的抽穗期时间长短紧密相关。
所述基因Millet_GLEAN_10005912在水稻中的同源基因为CESA5基因,命名为SiCESA5,该基因的核苷酸序列如SEQ ID NO:1所示;该基因第9个外显子区域的核苷酸序列如SEQ ID NO:2所示。
鉴定所述的一种与谷子抽穗期关联的SNPs标记的方法,包括以下步骤:
1)多份代表性谷子样品DNA材料收集与高通量建库测序,获得测序数据;
2)单份测序样品数据的过滤、比对及变异检测,获得单份样品变异元数据;
3)多份变异数据集合并、质控及过滤,获得过滤后的变异数据集;
4)结合多份样品表型和基因型进行关联分析,获得关联分析结果;
5)显著关联区域样品基因型分析与位点变异注释鉴定。
步骤(1)中所述高通量测序技术平台为DNBSEQ平台,采用全基因组重测序WGS进行测序数据生产;测序深度≥10X-15X。
步骤(2)中数据过滤采用SOAPnuke软件或Trimmomatic软件;比对采用bwa软件进行分析,用张谷Setaria italica cv. Zhang gu, version 2.3作为参考基因组;比对和变异检测流程选用GATK、Sentieon DNAseq或samtools、bcftools流程,获得每份样品的遗传变异GVCF格式元数据。
所述比对和变异检测流程选用Sentieon DNAseq 流程。
步骤(3)中变异数据集合并采用Sentieon GVCFtyper流程,并进行基因分型,获得群体样品的初始变异数据集;过滤的具体方法为:(1)初始变异数据集采用GATK软件使用常规推荐的硬过滤标准进行变异数据集质量过滤,且只保留双等位基因变异位点,包含SNPs和Indels;(2)采用BCFtools软件或VCFtools软件,针对SNPs数据集,进行DP深度位点过滤,保留DP频率分布0.5%~99.5%之间,保留SNP位点缺失率≤10%,及MAF频率在≥5%的SNPs数据集。
步骤(4)中样品表型数据去除极端异常值,若样品表型仍不符合正态分布,进行数据标准化处理;关联分析采用Plink、EMMAX、GEMMA、GAPIT、TASSEL中的一种或多种进行关联分析。
步骤(5)中基因型分析用BCFtools软件或VCFtools软件分析;变异注释用snpEff软件或ANNOVA软件进行分析。
本发明谷子的品种原则上无限制,优选为山西省境内收集的谷子地方品种种质资源。谷子DNA材料的份数要求大于150份以上,优选300份以上。谷子DNA材料为采用常规DNA制备技术和等效方案制备的DNA样品,满足常规二代高通量建库测序的样品质量要求。
与现有技术相比,本发明的有益效果是:(1)采用更新的参考基因组,改善比对准确性和完整性;(2)采用10-15X以上的全基因组重测序,较之简并测序位点更多更全;(3)采用大规模的自然群体样品,改善群体基因型多样性和表型多样性分布。本发明整体上改善了谷子抽穗期关联分析受影响的群体大小、测序数据深度和完整性、群体代表性等影响因素,可提高关联精度和显著性,补充新的谷子抽穗期关联的位点及其鉴定方法应用。
附图说明
图1为谷子抽穗期表型数据正态化分布图;图中:A为表型数据正态化处理后的QQ图;B为表型数据正态化处理后的直方图和密度分布图;C为表型数据正态化处理后的Shapiro-Wilk检验结果 ;
图2为基于SNPs标记对谷子抽穗期关联分析的曼哈顿图和QQ图;图中:A为曼哈顿图;B为QQ图;
图3为染色体chr9:1101330位置基因型分布统计图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,所有在此使用的技术和科学术语,和本发明所属领域内的技术人员所通常理解的意思相同,在此公开引用及他们引用的材料都将以引用的方式被并入。
本领域技术人员意识到的通过常规实验就能了解到的描述的特定实施方案的等同技术,都将包含在本申请中。
下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的仪器设备,如无特殊说明,均为实验室常规仪器设备;下述实施例中所用的实验材料,如无特殊说明,均为由常规生化试剂商店购买得到的。
与谷子抽穗期关联的SNPs标记,所述SNPs标记位于9号染色体Millet_GLEAN_10005912编码区上;该位点在1101330 bp位置属于一个非同义变换变异位点。
在标记区间1101330 bp位置处发生点突变G→C,为非同义变换点突变;所述SNPs位点的点突变频率与群体的抽穗期时间长短紧密相关。
该基因Millet_GLEAN_10005912在水稻中的同源基因为CESA5基因,可命名为SiCESA5。
鉴定所述与谷子抽穗期关联的SNPs标记的方法,包括以下步骤:
(1)谷子DNA样品收集与测序
通过多年的科学系统收集6000余份谷子品种,构建了山西省谷子资源初选核心种质,筛选出609份代表性的地方品种和少量育成品种。所有研究材料均由山西农业大学农业基因资源研究中心系统收集,于2019年在东阳试验示范基地统一种植,观察记录各样品的抽穗时间,记录不同种质抽穗期在47~86天之间,平均抽穗期为67.6天,标准差SD为5.8天。所采用的品种来源如表1所示。
表1
采集大田栽培的嫩叶组织,通过常规CTAB法的DNA提取试剂盒制备出合格的谷子DNA样品用于测序。针对609份质控合格的谷子DNA样品,构建PE100标准化全基因组文库,并基于DNBseqTM高通量测序平台进行全基因组测序。谷子样品共产出测序数据11.8 Tb,平均每份测序数据量为19.8Gb。谷子样品整体测序数据量和质量良好。
(2)测序数据过滤、比对及变异检测
每份样品测序下机的数据,经Trimmomatic(version 0.38)软件过滤去除接头及低质量数据。然后采用Sentieon DNAseq 流程(http://www.sentieon.com, version:sentieon-genomics-201911)比对至谷子参考基因组(Setaria italica cv. Zhang gu,version 2.3),比对数据经重新排序及去除PCR重复后,进行比对统计。采用SentieonHaplotyper分析模块进行遗传变异检测,最终获得每份样品的遗传变异GVCF数据,该数据是后续构建群体变异数据集的基础数据。
比对统计发现,所有谷子样品比对平均reads mapping 率为93.6%~98.2%,基因组覆盖率范围为94.8%~98.6%,比对深度为19 X~190X之间。
(3)变异数据集合并、质控及过滤
采用Sentieon GVCFtyper流程合并所有样品的GVCF变异数据,并进行基因分型,获得群体样品的初始变异数据集。初始变异数据集采用GATK软件 (version 4.1.2.0)使用常规推荐的硬过滤标准进行变异数据集质量过滤,且只保留Bia-alleles变异位点,获得9,907,770个 SNPs位点。进一步采用BCFtools软件(version 1.9)进行DP深度位点过滤,只保留SNP位点缺失率10%以下,及MAF频率在5%以上的SNPs数据集,共保留3,160,066个SNPs位点,用于谷子功能关联位点挖掘分析。
(4)谷子抽穗期表型处理与关联分析
收集谷子品种抽穗期的表型记录数据,去除极端异常值,及数据标准化处理后,样品抽穗期表型数据正态化分布图如图1所示,显然样品表型符合正态分布。结合前述步骤获得的约3.2M SNPs数据集,采用EMMAX软件(version 20120210)进行全基因组关联分析。
采用GCTA软件(version 1.93.0beta)进行谷子群体主成分分析,获得前10个主成分因子矩阵结果;采用EMMAX软件(version 20120210)进行群体遗传亲缘关系矩阵分析,获取aBN亲缘关系矩阵结果;使用谷子群体主成分分析的前10个主成分因子和Kinship遗传亲缘关系矩阵作为关联协变量,以Bonferroni correction定义关联显著性阈值(P=0.05/n ,n为用于关联分析的SNPs数量)。关联分析结果如图2所示,结果显示,与谷子抽穗期农艺性状关联最显著的信号峰位于在9号染色体1Mb区间附近。
5)显著关联区域样品基因型分析与位点变异注释鉴定
采用ANNOVA软件对变异位点进行了变异注释,结合显著关联信号峰区间及变异注释结果,筛选获得候选关联基因Millet_GLEAN_10005912。在该基因区间第9个外显子区域内1101330 bp位置处发生了点突变(G→C),经注释为非同义变换点突变,该位点突变导致了氨基酸编码改变,也由赖氨酸(Lys)替换为天冬酰胺(Asn)。通过该位点的基因型分布统计,染色体chr9:1101330位置基因型分布统计结果如图3所示,结果可知,鉴定出该SNPs位点的点突变频率与群体的抽穗期时间长短呈紧密相关趋势。
本发明与现有技术相比,采用更新的参考基因组,改善比对准确性和完整性;同时,采用10-15X以上的全基因组重测序,较之简并测序位点更多更全;通过采用大规模的自然群体样品,改善群体基因型多样性和表型多样性分布。因此,本发明整体上改善了谷子抽穗期关联分析受影响的群体大小、测序数据深度和完整性、群体代表性等影响因素,可提高关联精度和显著性,补充新的谷子抽穗期关联的位点及其鉴定方法应用。
上面对本专利的较佳实施方式作了详细说明,但是本专利并不限于上述实施方式,在本领域的普通技术人员所具备的知识范围内,还可以在不脱离本专利宗旨的前提下做出各种变化。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
序列表
<110> 山西农业大学农业基因资源研究中心
<120> 一种与谷子抽穗期性状关联的SNPs标记及其鉴定方法
<150> 2021115882086
<151> 2021-12-23
<160> 2
<170> SIPOSequenceListing 1.0
<210> 1
<211> 4674
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 1
atggcgagcc aggggtacgt gcgcctcgcc gacctcgctg gcgggggttc cctgctctcc 60
ggcgcggggg cggtgctgat ttttgtttgt tttgctttgc agccgaagcc gatgaaccag 120
cagaacgggc aggtgtgcca gatttgcggc gacgacgtgg ggctcaaccc cgacggggaa 180
cccttcgtcg cctgcaacga gtgcgccttc cccatctgcc gggactgcta cgagtacgag 240
cgccgcgagg gcacgcagaa ctgcccccag tgcaagaccc gcttcaagcg cctcaagggc 300
aagtccctca cccgcaatgc agcaaccgat cgctcgccga ttttgccgga gtcctgtctc 360
acgtctcgcg gggattccgt tgttgttgca gggtgcgcgc gtgtcccggg ggatgaggag 420
gaggacggcg tcgatgacct ggagaacgag ttcaactggt cggacaagca cgactcgcag 480
tatgtcgccg agtccatact ccacgcccac atgagctacg gccgcggcgc cgacttcgac 540
ggcgtgccgc agcccttcca gcccatccca aatgttcccc tcctcaccaa cgggcagatg 600
gtactggaaa atcccacgcc gctgcattgc tcctcctcct cggactttgc tttacctgag 660
cgctgaattg ctttgtgctt ccaggttgat gacatcccgc cggagcagca cgcccttgtg 720
ccgtcattca tgggcggcgg ggggaagagg attcaccctc ttccatacgc ggatccgaac 780
cttcctggtg cgtattctga tcatcagcgg ctagcattca gttgccatgg tacctcctga 840
atacaatcaa ttaatagctt ctgcgacttg cagtgcaacc aaggtctatg gacccatcca 900
aggatctcgc tgcgtatggc tacgggagtg tagcatggaa ggagaggatg gagagctgga 960
agcagaagca ggagaggatg caccagatga ggaacgacgg aggtggcaac gatgatggtg 1020
atgatgcaga tctaccactg tatgaccctg aaacttagct gacctctatt agctggtacc 1080
tagctgtcat gctattttgc acagtggatt ggtcaacttt gaaattttat aatctggccc 1140
atttaaaaac taaaaaacta gtagcatatg agtttgtttt tgtgcatgtt atagaactct 1200
tccatttgct tagcaagatg aaggatggaa ttgcataaac agacactata tcatacggtt 1260
tagaaaataa atactctttt tctgtacttg tatctctgac tggatggaaa aaactgtcca 1320
tctggtattt ttttaataat agatatgttg ttctcctttt tgcaaaacat tctactggac 1380
tcaaacacca actatttctt gttttttttt ctcttaccag aatggatgaa gctaggcaac 1440
cattgtccag aaagattcca cttccttcaa gcctgatcaa cccctataga atgattataa 1500
taattcggct agtggttttg gggttcttct tccactaccg tgtgatgcat ccggtgcctg 1560
atgcattcgc tctatggctc atatctgtga tctgtgaaat atggtttgcc atgtcttgga 1620
ttcttgatca gtttccaaag tggtttccta ttgagaggga aacctatctt gaccggttga 1680
ctttgaggtt ggttactggc ttactgctgc cacctagtat tacttgcctc ctctcttctt 1740
tgctgatttt ttttggtaat ttattgtctt tctaggtttg acaaggaagg gcagccttct 1800
caactcgccc cagttgattt ctttgtcagt acggttgatc ccttgaagga acctccgttg 1860
gtcacagcaa atactgttct atctatcctg gcagtggatt atccagttga taaggtttct 1920
tgctatgttt ctgatgatgg tgctgccatg ctgacatttg aagcactgtc tgaaacatcc 1980
gaatttgcaa agaaatgggt tcctttctgc aaaaggtaca gtattgagcc tcgtgctcca 2040
gaatggtact tccaacagaa gatagactac ctgaaagata aggtggcaca gaactttgtt 2100
agggagcgga gagcaatgaa ggtgaattac tttgtatctt ttgaacccgt tgctacagtc 2160
ctttatctgg taagcgttgt gctaatttag ggcaatctta ttattttttc agagagagta 2220
tgaggagttc aaggtcagaa tcaatgcctt ggttgctaaa gcccaaaagg taccggagga 2280
aggatggaca atgcaggatg gaactccatg gcctggaaac aacgttcgtg atcatcctgg 2340
aatgattcag gtatgctttg agtgtcatgg aattaactgt acatgtgatg ggatgtttcg 2400
atggccattt tttctttcac tttcacccca ataaaaaagt ttcaattttc tcgaataggt 2460
cttccttggt caaagcggtg gccatgatgt ggaaggaaat gagctgcctc gattggttta 2520
tgtttcaaga gaaaaacggc caggctacaa ccatcataag aaggctggtg ctatgaatgc 2580
attggtaaat ataccttgat tgatgtgtct actctcactc ctctatgcat tgtagaagca 2640
taatttgggt ttcttattcc ttgttttggc tcctatgaca ggtccgagtc tctgctgtac 2700
taactaatgc accatatttg ctgaacttgg attgtgatca ctacatcaat aacagcaagg 2760
ctattaagga agcaatgtgt tttatgatgg atcctttgct aggaaagaaa gtttgctatg 2820
tgcagtttcc tcaaaggttc gatgggattg atcgtcatga tcgatacgcc aaccggaatg 2880
ttgtcttttt cgatgtaaga tccgtcatcc aaatttatat gaagttctct tgtctagctt 2940
gagacgttca acttagaatg cacatttcta acatttcatt tgtgcagatc aacatgaaag 3000
gtttggatgg tattcaaggc cccatttatg tcggtactgg atgtgtcttc agaagacagg 3060
cattatacgg ctatgatgcc cccaaaacaa agaagccacc atcgaggact tgcaactgct 3120
ggccaaagtg gtgcatctgc tgttgctgtt ttggtaacag gaaaaccaag aagaagacca 3180
agacctcaaa gcctaaattc gagaagctaa agaaactttt caagaaaaag gaaaatcaag 3240
cccctgctta tgctcttggt gaaattgacg aagctgctcc aggtatcaca taacctccaa 3300
agagaacatc atggtttttc tgtaggcatc cttaataata tctaacattg caatttcttg 3360
gcaggagcgg aaaacgaaaa ggctagtatt gtaaatcaac agaagttaga aaagaaattt 3420
ggccagtctt cagtttttgt tgcttccaca cttcttgaga atggtgggac ccttaagagt 3480
gccagtccag cttctcttct aaaggaagct atacatgtca tcagttgcgg ctacgaggac 3540
aagacaggct gggggaaaga tgtaagtctg cagcttgttt gttgtttcta tatgttggtt 3600
gaattgtcga aataatgatt acatactcaa tcatatgttt tgttacagat tggttggatt 3660
tatggatcag ttacagaaga tattcttact gggtttaaga tgcactgcca tggttggcga 3720
tcaatttact gcatacctaa acgggccgcc ttcaaaggtt ctgcacctct caatctttct 3780
gatcgtcttc accaggttct tcggtgggct cttggttcaa ttgaaatttt cttcagcaac 3840
cattgtcctc tttggtatgg gtatggtggt gggctaaaat ttctggaaag attttcctac 3900
attaactcca tcgtgtaccc ttggacatcc atcccactcc tggcctattg cacattgcct 3960
gccatctgct tgctgacagg gaaatttatt acacctgagg taaagtttga aaactgtaat 4020
tctattatat tgtgttaaac tgcggaagat tatgaacctt acgtttatca tccttttcat 4080
ctcctgcagc ttaccaatgt tgccagcctc tggttcatgt cactttttat ctgcattttt 4140
attacgggta tcctggaaat gagatggagt ggtgtaggta tcgatgattg gtggagaaat 4200
gagcagtttt gggtcattgg aggtgtgtct tcacatctct ttgccgtgtt ccaaggactt 4260
ctcaaggtca tagctggtat agacacgagc ttcactgtga catcaaaggg tggagatgat 4320
gaggagttct cagagctgta cacattcaaa tggacgaccc ttcttatacc tccaaccact 4380
ctgctcctct tgaacttcat tggagtggta gccggtattt ccaatgcgat caacaacgga 4440
tatgaatcct ggggacccct cttcgggaag ctcttctttg cattttgggt gattgtccat 4500
ctgtacccgt tcctcaaggg tttggttggg aggcagaaca ggacgccaac cattgtcatt 4560
gtctggtcca tcctcttggc ttcaatcttc tcgctgctct gggtccggat cgatcctttc 4620
cttgcgaaga acgatggtcc cctcttggag gagtgtggtt tggattgcaa ctag 4674
<210> 2
<211> 295
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 2
atcaacatga aaggtttgga tggtattcaa ggccccattt atgtcggtac tggatgtgtc 60
ttcagaagac aggcattata cggctatgat gcccccaaaa caaagaagcc accatcgagg 120
acttgcaact gctggccaaa gtggtgcatc tgctgttgct gttttggtaa caggaaaacc 180
aagaagaaga ccaagacctc aaagcctaaa ttcgagaagc taaagaaact tttcaagaaa 240
aaggaaaatc aagcccctgc ttatgctctt ggtgaaattg acgaagctgc tccag 295
Claims (8)
1.一种SNPs分子标记在谷子群体抽穗期关联分析中的应用,其特征在于:所述SNPs分子标记位于9号染色体Millet_GLEAN_10005912编码区上;该位点在1101330 bp位置属于一个非同义变换变异位点;在标记区间1101330 bp位置处发生点突变G→C,为非同义变换点突变;SNPs分子标记的点突变频率与群体的抽穗期时间长短紧密相关;基因Millet_GLEAN_10005912的核苷酸序列如SEQ ID NO:1所示;该基因Millet_GLEAN_10005912在水稻中的同源基因为CESA5基因,命名为SiCESA5。
2.根据权利要求1所述的应用,其特征在于:鉴定所述SNPs分子标记的方法包括以下步骤:
1)多份代表性谷子样品DNA材料收集与高通量建库测序,获得测序数据;
2)单份测序样品数据的过滤、比对及变异检测,获得单份样品变异元数据;
3)多份变异数据集合并、质控及过滤,获得过滤后的变异数据集;
5)结合多份样品表型和基因型进行关联分析,获得关联分析结果;
3)显著关联区域样品基因型分析与位点变异注释鉴定。
3.根据权利要求2所述的应用,其特征在于:步骤(1)中所述高通量测序技术平台为DNBSEQ平台,采用全基因组重测序WGS进行测序数据生产;测序深度≥10X-15X。
4.根据权利要求2所述的应用,其特征在于:步骤(2)中数据过滤采用SOAPnuke软件或Trimmomatic软件;比对采用bwa软件进行分析,用张谷Setariaitalicacv. Zhang gu,version 2.3作为参考基因组;比对和变异检测流程选用GATK、SentieonDNAseq或samtools、bcftools流程,获得每份样品的遗传变异GVCF格式元数据。
5.根据权利要求4所述的应用,其特征在于:所述比对和变异检测流程选用SentieonDNAseq流程。
6.根据权利要求2所述的应用,其特征在于:步骤(3)中变异数据集合并采用SentieonGVCFtyper流程,并进行基因分型,获得群体样品的初始变异数据集;过滤的具体方法为:(1)初始变异数据集采用GATK软件使用常规推荐的硬过滤标准进行变异数据集质量过滤,且只保留双等位基因变异位点,包含SNPs和Indels;(2)采用BCFtools软件或VCFtools软件,针对SNPs数据集,进行DP深度位点过滤,保留DP频率分布0.5%~99.5%之间,保留SNP位点缺失率≤10%,及MAF频率在≥5%的SNPs数据集。
7.根据权利要求2所述的应用,其特征在于:步骤(4)中样品表型数据去除极端异常值,若样品表型仍不符合正态分布,进行数据标准化处理;关联分析采用Plink、EMMAX、GEMMA、GAPIT、TASSEL中的一种或多种进行关联分析。
8.根据权利要求2所述的应用,其特征在于:步骤(5)中基因型分析用BCFtools软件或VCFtools软件分析;变异注释用snpEff软件或ANNOVA软件进行分析。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2021115882086 | 2021-12-23 | ||
CN202111588208 | 2021-12-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114854893A CN114854893A (zh) | 2022-08-05 |
CN114854893B true CN114854893B (zh) | 2023-06-20 |
Family
ID=82637149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210498462.5A Active CN114854893B (zh) | 2021-12-23 | 2022-05-09 | 一种与谷子抽穗期性状关联的SNPs标记及其鉴定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114854893B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116463445B (zh) * | 2023-03-24 | 2024-04-30 | 西南大学 | 一种柑橘全基因组40k液相芯片及应用 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102154281B (zh) * | 2011-03-24 | 2012-09-19 | 深圳华大基因科技有限公司 | 与谷子抽穗期基因紧密连锁的分子标记SIsv0010 |
US20140359422A1 (en) * | 2011-11-07 | 2014-12-04 | Ingenuity Systems, Inc. | Methods and Systems for Identification of Causal Genomic Variants |
CN105734056B (zh) * | 2016-03-31 | 2018-03-27 | 中国水稻研究所 | 水稻抽穗期主效qtl的分子标记及其应用 |
CN108642200A (zh) * | 2018-04-16 | 2018-10-12 | 张家口市农业科学院 | 与谷子抽穗期性状相关的snp标记及其检测引物和应用 |
CN110491446B (zh) * | 2019-08-27 | 2023-04-07 | 上海美吉生物医药科技有限公司 | 一种快速的批量化SNP/Indel引物设计的方法及系统 |
CN111206113B (zh) * | 2020-02-12 | 2021-07-02 | 广西壮族自治区农业科学院 | 一种辅助选择水稻早抽穗基因的InDel分子标记及其应用 |
-
2022
- 2022-05-09 CN CN202210498462.5A patent/CN114854893B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114854893A (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Genome-wide analysis of Cushion willow provides insights into alpine plant divergence in a biodiversity hotspot | |
Kwong et al. | Development and validation of a high-density SNP genotyping array for African oil palm | |
AU3221699A (en) | A method for obtaining a plant with a genetic lesion in a gene sequence | |
Liu et al. | Genome-wide association study reveals the genetic basis of fiber quality traits in upland cotton (Gossypium hirsutum L.) | |
CN115232880B (zh) | 一种海南黑山羊液相芯片及其应用 | |
Hossain et al. | High density linkage map construction and QTL mapping for runner production in allo-octoploid strawberry Fragaria× ananassa based on ddRAD-seq derived SNPs | |
CN112289384B (zh) | 一种柑橘全基因组kasp标记库的构建方法及应用 | |
Hu et al. | Resequencing of 388 cassava accessions identifies valuable loci and selection for variation in heterozygosity | |
CN109897909A (zh) | 一种与玉米籽粒大小相关的分子标记及其应用 | |
CN110846429A (zh) | 一种玉米全基因组InDel芯片及其应用 | |
CN114854893B (zh) | 一种与谷子抽穗期性状关联的SNPs标记及其鉴定方法 | |
Yu et al. | Seed weight differences between wild and domesticated soybeans are associated with specific changes in gene expression | |
CN116479164B (zh) | 大豆百粒重与尺寸相关的snp位点、分子标记、扩增引物及其应用 | |
CN108456740A (zh) | 一个水稻稻瘟病抗性位点‘Pi-jx’及其Indel标记引物和育种应用 | |
CN109439741B (zh) | 检测特发性癫痫病基因探针组合物、试剂盒及应用 | |
Zhao et al. | Bulked segregant analysis coupled with whole-genome sequencing (BSA-Seq) and identification of a novel locus, qGL3. 5, that regulates grain length | |
CN116287421A (zh) | 大豆百粒重相关的snp位点、分子标记、扩增引物及其应用 | |
CN109554445B (zh) | 一种解析花生属种间遗传关系有效简易的方法 | |
CN110055317B (zh) | 小麦远缘杂交后代小片段易位系中发掘外源功能候选基因的方法 | |
Yan et al. | Genome-wide association study identifies candidate genes responsible for inorganic phosphorus and sucrose content in rubber tree latex | |
CN117230240B (zh) | 与大豆籽粒油分含量相关的InDel位点、分子标记、引物及其应用 | |
Zhou et al. | Convergence within divergence: Insights of wheat adaptation from Triticum population sequencing | |
CN113897443B (zh) | 一个与南方荷斯坦奶牛乳脂率相关的snp分子标记、试剂盒及应用和选育方法 | |
CN117248061B (zh) | 与大豆籽粒油分含量相关的InDel位点、分子标记、引物及其应用 | |
Masters et al. | Phylogenomic analysis reveals five independently evolved African forage grass clades in the genus Urochloa |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |