CN116469466B - 一种高效预测菊花耐涝性的方法及其应用 - Google Patents

一种高效预测菊花耐涝性的方法及其应用 Download PDF

Info

Publication number
CN116469466B
CN116469466B CN202310379493.3A CN202310379493A CN116469466B CN 116469466 B CN116469466 B CN 116469466B CN 202310379493 A CN202310379493 A CN 202310379493A CN 116469466 B CN116469466 B CN 116469466B
Authority
CN
China
Prior art keywords
chrysanthemum
waterlogging
tolerance
flooding
snp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310379493.3A
Other languages
English (en)
Other versions
CN116469466A (zh
Inventor
陈发棣
苏江硕
欧潇莉
楼啦
张飞
陈素梅
管志勇
房伟民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Agricultural University
Original Assignee
Nanjing Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Agricultural University filed Critical Nanjing Agricultural University
Priority to CN202310379493.3A priority Critical patent/CN116469466B/zh
Publication of CN116469466A publication Critical patent/CN116469466A/zh
Application granted granted Critical
Publication of CN116469466B publication Critical patent/CN116469466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/6895Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for plants, fungi or algae
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/13Plant traits
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Abstract

本发明公开了一种高效预测菊花耐涝性的方法及其应用。本发明通过全基因组关联分析鉴定菊花耐涝性显著相关的SNP位点,并在此基础上,比较了不同统计模型和不同密度SNP标记对全基因组预测效果的影响,建立了一种快速、高效、精准筛选优异耐涝菊花品种的方法,预测准确度可达0.949。基于本发明的方法预测出的体系在选育耐涝菊花品种时,不仅能够实现菊花耐涝性的早期选择,缩短育种周期,还有效克服了耐涝性田间鉴定工作量大、周期长、易受环境因素和人为主观因素的影响等技术难题,在菊花耐涝性分子育种领域具有广阔的应用前景,同时本发明也可为菊花其他重要性状的分子育种提供依据。

Description

一种高效预测菊花耐涝性的方法及其应用
技术领域
本发明属于植物分子育种领域,涉及一种高效预测菊花耐涝性的方法及其应用。
背景技术
涝渍胁迫是影响植物生长发育和地理分布的重要逆境因子之一。涝害主要是由于土壤水分过多引起植物根系缺氧,影响植物正常的生理活动,进而产生的一系列次生危害(Pedersen et al.2017)。菊花(Chrysanthemum morifolium Ramat.)是我国十大传统名花和世界四大切花之一,观赏和经济价值极高。菊花喜通气、排水良好的砂质土壤,忌积涝,短时间的根系积水就会对菊花造成严重伤害,持续降雨积水会使菊花根系腐烂、生长发育受阻、观赏品质和产量下降,甚至导致植株大面积死亡,严重影响菊花规模化生产与园林应用。因此,培育耐涝新品种一直是菊花育种工作的重要目标之一。
近年来,通过传统QTL定位和全基因组关联分析(genome wide associationstudy,GWAS),已经挖掘出多个控制菊花耐涝性的位点(Su et al.2016,2018,2019)。然而这些位点仅停留在研究层面,并未应用到育种实践中,其原因主要体现在以下三个方面:(1)前期研究主要基于SRAP、SSR等传统PCR-分子标记,数目少,效率低,无法覆盖全基因组,且群体样本量偏小,严重影响了QTL定位和关联分析的检测效率和准确性;(2)获得的QTLs或关联位点多为环境特异,不稳定,且主要为微效效应;(3)菊花基因组数据不完备,很难确定检测到的菊花耐涝性QTL或关联位点在基因组的物理位置,全基因组SNP(Singlenucieotide poiymorphism,单核苷酸多态性)分型困难。此外,由于耐涝性是一个受微效多基因控制的复杂的数量性状,利用MAS(molecular assisted selection,分子标记辅助选择)育种对菊花耐涝性进行遗传改良收效甚微。
全基因组选择(Genomic selection,GS)是一种利用覆盖全基因组的高密度标记对候选个体的基因组估计育种值(GEBV,genomic estimated breeding value)进行预测的育种新策略(Meuwissen et al.2001),可通过早期选择缩短育种进程。相比MAS,GS涵盖了全基因组的标记,能更好解释表型变异,提高对复杂数量性状以及低遗传力性状的选择效率(Song et al.2022)。统计模型是全基因组选择的核心,极大地影响了预测的准确度和效率。GS统计模型主要包括BLUP、贝叶斯和机器学习三类方法。随着研究的不断深入,研究者发现将GWAS鉴定到的目标性状显著关联位点考虑进GS模型,即GWAS辅助基因组预测,可能在一定程度上提升GS的预测能力,但具体表现与物种本身及性状的遗传特性有关。目前菊花耐涝品种筛选主要通过繁琐的田间鉴定试验,尚未有菊花耐涝性GS分析的相关报道。因此,建立一种高效菊花耐涝性GS预测体系迫在眉睫。
发明内容
发明目的:针对现有技术的不足,本发明所要解决的第一个技术问题是提供一种高效预测菊花耐涝性的方法。
本发明所要解决的第二个技术问题是提供基于上述方法预测出的体系在菊花耐涝性育种中的应用。
技术方案:为了解决上述技术问题,本发明提供了一种高效预测菊花耐涝性的方法,包括以下步骤:
(1)选取多份来源不同且无直接亲缘关系的代表性菊花品种,采用盆栽模拟淹水法温度下对所选苗期为10~12叶龄的菊花进行动态耐涝性鉴定,通过隶属函数法对菊花耐涝性进行综合评价,获得每个品种分别在不同淹水时期的耐涝性隶属函数值;
(2)对步骤(1)中选用的菊花品种进行双末端PE150测序,并将测序结果以菊花‘钟山紫桂’基因组为参考进行序列比对,再经过变异检测、注释和筛选,获得高质量SNP数据;
(3)利用GCTA软件对全基因组数据进行主成分分析,选取前10个主成分作为特征值PCs矩阵;利用TASSEL软件的“Centered_IBS”方法获得亲缘关系K矩阵;
(4)基于步骤(1)中得到的不同淹水时期的耐涝性隶属函数值和步骤(2)中得到的高质量SNP数据,将步骤(3)中的PCs矩阵和K矩阵作为协变量,采用TASSEL软件的压缩混合线性模型进行全基因组关联分析,获得每个SNP位点的P值;
(5)设置分子标记数据集,将SNP位点按照P值从小到大排序,筛选P<1E-4的SNPs和5个含有不同SNP位点个数的集合分别作为6个显著SNP集合;利用Plink v1.9软件的“--thin-countnum”命令选取与6个显著SNP集合相同数量的SNP位点作为随机SNP集合;
(6)准备全基因组选择所需表型数据和基因型数据文件,其中以步骤(1)中获得的不同淹水时期的耐涝性隶属函数值的均值作为全基因组选择分析的表型数据,以步骤(5)中12个SNP集合作为基因型数据;
(7)采用5-倍交叉验证方法,基于不同统计模型和步骤(6)中的表型和基因型数据分别进行全基因组选择分析,在R软件中,设置种子set.seed(123)后,应用sample()函数抽取80%的菊花品种作为训练集,剩余20%作为测试集,训练集的表型数据和基因型数据用于建立全基因组选择模型,将测试集的基因型数据导入训练集的全基因组选择模型,即获得测试集的基因组估计育种值GEBV;以重复计算n次后的测试集的实际耐涝表型观测值和基因组估计育种值的Pearson相关系数r的均值作为评价全基因组选择预测准确性的指标,根据r值最大原则选取确定最佳统计模型和最佳分子标记数据集,得到菊花耐涝性全基因组预测的最优体系。
进一步地,步骤(1)中所述各淹水时期分别为淹水处理第10~16d。
进一步地,所述各淹水时期分别为淹水处理第10d、12d、14d、16d。
进一步地,步骤(1)中菊花耐涝性进行综合评价包括至少2次不同环境的动态耐涝性鉴定,其中每次鉴定的菊花品种保持一致。
进一步地,步骤(2)中所述高质量SNP数据的筛选条件为测序深度>6×、完整度>0.85、次要等位基因频率MAF>0.05。
进一步地,步骤(5)中所述5个含有不同SNP位点个数的集合为将SNP位点按照P值从小到大排序后的前500个、1000个、2500个、5000个、10000个。
进一步地,步骤(6)还包括填补缺失值的步骤:若表型数据有缺失,利用R软件Hmisc包中的impute()函数进行平均值自动插补;若基因型数据有缺失,利用rrBLUP包中的A.mat()函数填补,并将纯合非突变基因型、杂合基因型和纯合突变基因型分别统一编码。
进一步地,步骤(7)中所述全基因组选择统计模型包括岭回归最佳线性无偏预测rrBLUP、支持向量机SVM、随机森林RF、贝叶斯模型A、贝叶斯模型B、贝叶斯模型C、贝叶斯模型BL、贝叶斯模型BRR,前三个统计模型分别通过R软件包‘rrBLUP’、‘e1071’和‘randomForest’实现,五个贝叶斯模型通过R软件包‘BGLR’实现。
步骤(7)中所述Pearson相关系数r由R软件cor()函数计算;所述n>100次。
本申请还提供了一种基于上述方法预测出的体系在菊花耐涝性育种中的应用,在步骤(7)后还包括以下步骤:
(1)利用公式Y=μ+Xg+e估计每个品种耐涝性的育种值GEBV,其中Y为预测表型值,μ为训练群表型均值,X为测试群体标记矩阵,g为标记效应矩阵,e为随机效应矩阵;
(2)筛选育种值GEBV大于0.9的菊花作为耐涝菊花育种的优异材料。
有益效果:与现有技术相比,本发明具有如下突出的显著优点:本发明提供的一种高效预测菊花耐涝性的方法,通过全基因组关联分析鉴定菊花耐涝性显著相关的SNP位点,并在此基础上,比较了不同统计模型和不同密度SNP标记对全基因组预测效果的影响,建立了一种基于GWAS辅助全基因组选择快速、高效、精准预测菊花耐涝性的方法,预测准确度可达0.949。基于本发明的方法预测出的体系在选育耐涝菊花品种时,不仅能够实现菊花耐涝性的早期选择,缩短育种周期,还有效克服了耐涝性田间鉴定工作量大、周期长、易受环境因素和人为主观因素的影响等技术难题,在菊花耐涝性育种领域具有广阔的应用前景,同时本发明也可为菊花其他重要性状的GS育种提供依据。
附图说明
图1为两个环境四个淹水时期条件下的菊花耐涝性隶属函数值的表型分布图;其中a为E1环境,b为E2环境。
图2为不同条件下菊花耐涝性隶属函数值全基因组关联分析的曼哈顿图;其中,a为E1环境的四个淹水时期,b为E2环境的四个淹水时期;x轴代表染色体物理位置,y轴代表-log10(P),圆点代表SNP标记;水平虚线代表经验阈值P=1E-4。
图3为基于8个统计模型和12个SNP标记集的菊花耐涝性全基因组选择预测准确度的分布箱图;其中,x轴代表12个SNP标记集,前缀为“sig”的表示显著位点集合,前缀为“ran”的表示位点集合,数字为该集合包含的分子标记数目;y轴代表模型预测准确度r;箱子从左到右依次为统计模型rrBLUP、BayesA、BayesB、BayesC、BL、BRR、SVM和RF。
图4为最优全基因组预测体系中sig5000集合的5,000个耐涝性显著关联SNPs在菊花基因组上的位置分布;其中,红色横线代表P<1E-4的显著位点。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
实施例1
1不同品种菊花耐涝性隶属函数值MFVW的获得
1.1试验材料和模拟涝害处理方法
选取保存于南京农业大学“中国菊花种质资源保存中心”的200个不同来源且无直接亲缘关系的代表性菊花品种(表1)作为试验材料,本领域技术人员可以从“中国菊花种质资源保存中心”中获得上述种质。
表1 200个代表性菊花品种及其耐涝性隶属函数值MFVW均值
采用盆栽模拟淹水法,对上述200个菊花品种在约10~12叶龄时分别进行2次不同环境的菊花动态耐涝性鉴定,2次耐涝性鉴定环境分别为2020年6~8月(E1)和9~11月(E2)。试验在温湿度可调控的玻璃温室中开展,日平均温度为26℃,夜平均温度为20℃。采用完全随机区组设计,每个品种设置3个处理组,2个对照组,每个处理重复4株。使用32孔穴盘(上口径6cm,下口径2cm,深度11cm)育苗,将其放置于蓝色塑料周转箱(长65cm×宽43cm×高16cm),处理组通过向周转箱注入自来水造成淹水胁迫。处理期间对处理组及时补水以保持水面高于土面3cm,对照组植株正常浇水,保持土壤含水量在60%。
1.2耐涝表型数据处理与分析
淹水处理10d(T1)、12d(T2)、14d(T3)和16d(T4)后根据地上部形态变化进行打分并统计黄叶率,采用隶属函数法分别计算每个品种的耐涝性隶属函数值(MFVW)。其中,MFVW值越大,说明该品种耐涝性越好。利用R软件的‘ggplot2’包绘制表型分布图;‘pastecs’包的stat.desc()函数对多环境多时期下的耐涝性表型数据进行简单描述统计;‘lm4’包计算方差组分和广义遗传力;aov()函数进行方差分析。结果表明,不同品种耐涝性差异明显(图1);随着淹水时间的延长,变异系数逐渐增加,介于26.87%~46.27%之间(表2);菊花耐涝性具有中等偏高的遗传力(68.10%~72.97%)(表2);方差分析结果显示(表3),基因型、环境、时期、区组以及基因型×环境互作、环境×时期互作均存在极显著差异(P<0.01),而基因型×时期互作和基因型×环境×时期互作没有显著性差异,说明该自然群体的耐涝性存在真实的遗传差异,且菊花耐涝性受一定程度的环境因素的影响。获得的不同环境和淹水时期的耐涝性隶属函数值MFVW用于后续全基因组关联分析。
表2 200个菊花品种苗期耐涝性隶属函数值MFVW的简单描述统计
表3菊花耐涝性隶属函数值MFVW的方差分析
2全基因组关联分析鉴定菊花耐涝性显著SNP
2.1GBS测序和基因分型
采用GBS(genotyping by sequencing)简化基因组测序技术和IlluminaHiSeq测序平台对上述200个菊花品种进行双末端PE150测序。使用BWA软件(参数:mem-t 4-k 32-M)将有效测序数据与菊花参考基因组(https://doi.org/10.6084/m9.figshare.21655364.v2)进行序列比对;使用SAMtools软件和ANNOVAR软件检测并注释SNPs;根据测序深度>6×、完整度>0.85以及次要等位基因频率MAF>0.05筛选标准,使用vcftools软件进行SNP过滤,最终获得330,710个高质量SNPs用于后续遗传分析。
2.2群体结构和亲缘关系分析
基于330,710个高质量SNP标记,利用GCTA软件(v1.6)进行主成分分析,选取前10个主成分作为其特征值PCs矩阵;利用TASSEL软件的“Centered_IBS”方法获得亲缘关系系数K矩阵。
2.3全基因组关联分析
基于两个环境和四个淹水时期的MFVW值和330,710个高质量SNP标记,将PCs矩阵和K矩阵作为协变量控制群体结构造成全基因组关联分析的假阳性,采用TASSEL软件的压缩混合线性模型(Compressed mixed linear model,cMLM)(PCs+K)进行全基因组关联分析(图2),计算每个位点的P值及其对菊花耐涝性变异解释率(R2)。根据经验阈值(P<1E-4)筛选耐涝性显著关联位点,共检测到52个特异关联位点,主要分布在Chr2、Chr3、Chr9、Chr21染色体上(表4)。在E1环境下,不同淹水时期T1、T2、T3、T4分别检测到18、3、4、7个显著SNPs,表型变异解释率(贡献率)介于8.99%~14.55%之间;在E2环境下,T1、T2、T3、T4分别检测到16、12、11、11个显著SNPs,表型变异解释率(贡献率)介于8.71%~15.43%之间。其中,Chr2__209139078、Chr3__287567035、Chr3__287567161、Chr11__108081610、Chr24__64072634和Chr25__15064378等6个SNPs在E2环境下四个淹水时期均能检测到。Chr13__197775029在两个环境重度淹水胁迫T4时期均能检测到(表4)。
表4GWAS检测到的菊花耐涝性显著SNPs(P<1E-4)
注:加粗SNP为不同条件下可稳定检测到的关联位点。
3最优全基因组选择预测模型确定
3.1表型和基因型文件准备
以两个环境四个淹水时期的MFVW均值(表1)作为菊花耐涝性全基因组选择分析的表型数据,表型缺失值使用R软件Hmisc包中的impute()函数指定平均值替换,最终表型文件为一列性状值(耐涝性隶属函数值),无需行名和列名。使用vcftools软件的“--012”参数将纯合非突变基因型编码为0,杂合基因型编码为1,纯合突变基因型编码为2,采用R软件rrBLUP包中的A.mat()函数填补基因型,最终基因型文件行为个体,列为标记,无需行名和列名。
3.2核心参数设置
全基因组选择预测候选模型的核心参数包括统计模型、分子标记密度、模型预测准确度和运行时长。共选取8个统计模型,分别为岭回归最佳线性无偏预测(ridgeregression best linear unbiased prediction,rrBLUP)、5个贝叶斯模型(BayesA、BayesB、BayesC、BL、BRR)以及支持向量机(support vector machine,SVM)和随机森林(random forest,RF)两个经典机器学习算法。rrBLUP、贝叶斯、SVM和RF模型分别通过R包‘rrBLUP’、‘BGLR’、‘e1071’和‘randomForest’实现。BGLR模型的Gibbs抽样设置迭代次数5000(nlter=5000),舍弃样本500(burnIn=1000)。RF模型的决策树数目设置为500(ntree=500)。
共设置了6个标记密度(分别为52、500、1000、2500、5000、10000),根据实施例步骤2中GWAS分析结果,将不同条件下检测到的SNP标记信息进行汇总,对于每个SNP,把8个耐涝性状(表4)中最小的P值作为该位点的显著性P值,再按照P值从小到大排序,选取P<1E-4条件下的52个(sig52)以及最显著的500个(sig500)、1000个(sig1000)、2500个(sig2500)、5000个(sig5000)、10000个(sig10000)SNPs分别作为6个显著SNP集合。为了验证检测到的显著位点是否能够提升GS预测能力,利用Plinkv1.9软件的“--thin-countnum”命令随机选取相同数量的标记作为随机SNP集合(ran52、ran500、ran1000、ran2500、ran5000和ran10000)用于GS分析。
采用5-倍交叉验证方法,在R软件中,设置种子set.seed(123)后,应用sample()函数随机抽取80%的菊花品种作为训练集,剩余20%作为测试集,重复500次以消除取样误差。训练集的表型数据和基因型数据用于建立全基因组选择模型,将测试集的基因型数据导入“训练”的预测模型,即可获得测试集的基因组估计育种值(genomic estimatedbreeding value,GEBV)。以测试集的实际观测值(即表型数据)和GEBV的Pearson相关系数重复500次的均值作为评价全基因组选择预测准确性的指标。
3.3GS分析及最优预测体系确定
基于上述8个统计模型和12个SNP标记集(sig52、sig500、sig1000、sig2500、sig5000、sig10000、ran52、ran500、ran1000、ran2500、ran5000和ran10000),分别对菊花耐涝性隶属函数值MFVW进行GS分析。从表5和图3可以看出,rrBLUP、5个贝叶斯模型和SVM模型的预测准确度均显著优于RF模型。利用不同密度的显著性关联位点建立的全基因组选择预测模型均显著优于基于同等数目随机位点建立的预测模型,准确度可提升0.99~8.84倍。其中,基于52个显著位点(sig52)的预测准确度是使用10000个随机位点(ran10000)预测准确度的2.15~2.39倍。可见,基于GWAS分析检测到的显著性位点大大提高了GS预测的准确度。对于6个显著SNP集合来说,当显著性位点数目为5000时绝大部分模型的预测准确度达到峰值,且rrBLUP和贝叶斯模型BRR的预测准确度最高,均为0.949。然而,相比于贝叶斯模型BRR(约为rrBLUP的42.4倍;表5),rrBLUP模型的运行时间更短。此外,在rrBLUP模型下,虽然标记集sig10000的预测准确度(0.950)稍高于sig5000的预测准确度(0.949),但是增加5000个标记的代价并没有显著提升预测效果。综上,选择rrBLUP模型和sig5000分子标记数据集(图4)为菊花耐涝性全基因组预测的最优体系。
表5不同模型和分子标记数据集的全基因组预测准确度
注:mean为均值,SD为标准差。
4根据最优预测体系选择育种值较高的优良材料
根据上述实施例步骤3.3中确定的最佳模型和最佳SNP数据集,利用公式Y=μ+Xg+e(Y为预测表型值,μ为训练群表型均值,X为测试群体标记矩阵,g为标记效应矩阵,e为随机效应矩阵)估计每个品种耐涝性的育种值GEBV,并以10%的选择强度筛选育种值排名在前的品种作为候选耐涝优异材料。排名前15的品种名称及其GEBV参见表6。
表6基于最优GS预测体系筛选到的高度耐涝品种
其中,‘精の光彩’、‘光彩’、‘QD3-110’、‘兰茂绿茵’、‘南农粉墨’、‘粉萝莉’和‘南农冰雪’等7个品种的估计GEBV值大于0.9,可用于后续的菊花耐涝育种和分子机制研究。

Claims (9)

1.一种高效预测菊花耐涝性的方法,其特征在于,包括以下步骤:
(1)选取多份来源不同且无直接亲缘关系的代表性菊花品种,采用盆栽模拟淹水法在昼夜温度为26℃/20℃环境下对所选苗期为10~12叶龄的菊花进行动态耐涝性鉴定,通过隶属函数法对菊花耐涝性进行综合评价,获得每个品种分别在不同淹水时期的耐涝性隶属函数值;
(2)对步骤(1)中选用的菊花品种进行双末端PE150测序,并将测序结果以菊花‘钟山紫桂’基因组为参考进行序列比对,再经过变异检测、注释和筛选,获得高质量SNP数据;
(3)利用GCTA软件对全基因组数据进行主成分分析,选取前10个主成分作为特征值PCs矩阵;利用TASSEL软件的“Centered_IBS”方法获得亲缘关系K矩阵;
(4)基于步骤(1)中得到的不同淹水时期的耐涝性隶属函数值和步骤(2)中得到的高质量SNP数据,将步骤(3)中的PCs矩阵和K矩阵作为协变量,采用TASSEL软件的压缩混合线性模型进行全基因组关联分析,获得每个SNP位点的P值;
(5)设置分子标记数据集,将SNP位点按照P值从小到大排序,筛选P < 1E-4的SNPs和5个含有不同SNP位点个数的集合分别作为6个显著SNP集合;利用Plink v1.9软件的“--thin-countnum”命令选取与6个显著SNP集合相同数量的SNP位点作为随机SNP集合;所述5个含有不同SNP位点个数的集合为将SNP位点按照P值从小到大排序后的前500个、1000个、2500个、5000个、10000个;
(6)准备全基因组选择所需表型数据和基因型数据文件,其中以步骤(1)中获得的不同淹水时期的耐涝性隶属函数值的均值作为全基因组选择分析的表型数据,以步骤(5)中12个SNP集合作为基因型数据;
(7)采用5-倍交叉验证方法,基于不同统计模型和步骤(6)中的表型和基因型数据分别进行全基因组选择分析,在R软件中,设置种子set.seed(123)后,应用sample()函数抽取80%的菊花品种作为训练集,剩余20%作为测试集,训练集的表型数据和基因型数据用于建立全基因组选择模型,将测试集的基因型数据导入训练集的全基因组选择模型,即获得测试集的基因组估计育种值GEBV;以重复计算n次后的测试集的实际耐涝表型观测值和基因组估计育种值的Pearson相关系数r的均值作为评价全基因组选择预测准确性的指标,根据r值最大原则选取确定最佳统计模型和最佳分子标记数据集,得到菊花耐涝性全基因组预测的最优体系。
2.根据权利要求1所述的方法,其特征在于,步骤(1)中所述各淹水时期分别为淹水处理第10 ~16 d。
3.根据权利要求2所述的方法,其特征在于,所述各淹水时期分别为淹水处理第10 d、12 d、14 d、16 d。
4.根据权利要求1所述的方法,其特征在于,步骤(1)中菊花耐涝性综合评价包括至少2次不同环境的动态耐涝性鉴定,其中每次鉴定的菊花品种保持一致。
5.根据权利要求1所述的方法,其特征在于,步骤(2)中所述高质量SNP数据的筛选条件为测序深度> 6×、完整度> 0.85、次要等位基因频率MAF > 0.05。
6.根据权利要求1所述的方法,其特征在于,步骤(6)还包括填补缺失值的步骤:若表型数据有缺失,利用R软件Hmisc包中的impute()函数进行平均值自动插补;若基因型数据有缺失,利用rrBLUP包中的A.mat()函数填补,并将纯合非突变基因型、杂合基因型和纯合突变基因型分别统一编码。
7.根据权利要求1所述的方法,其特征在于,步骤(7)中所述全基因组选择统计模型包括岭回归最佳线性无偏预测rrBLUP、支持向量机SVM、随机森林RF、贝叶斯模型A、贝叶斯模型B、贝叶斯模型C、贝叶斯模型BL、贝叶斯模型BRR,前三个统计模型分别通过 R软件包‘rrBLUP’、‘e1071’和‘randomForest’实现,五个贝叶斯模型通过R软件包‘BGLR’实现。
8.根据权利要求1所述的方法,其特征在于,步骤(7)中所述Pearson相关系数r由R软件cor()函数计算;所述n > 100次。
9.一种基于权利要求1~8中任一项所述的方法预测出的体系在菊花耐涝性育种中的应用,其特征在于,权利要求1步骤(7)后还包括以下步骤:
(8)利用公式Y = μ + Xg + e估计每个品种耐涝性的育种值GEBV,其中Y为预测表型值,μ为训练群表型均值,X为测试群体标记矩阵,g为标记效应矩阵,e为随机效应矩阵;
(9)筛选育种值GEBV大于0.9的菊花作为耐涝菊花育种的优异材料。
CN202310379493.3A 2023-04-11 2023-04-11 一种高效预测菊花耐涝性的方法及其应用 Active CN116469466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310379493.3A CN116469466B (zh) 2023-04-11 2023-04-11 一种高效预测菊花耐涝性的方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310379493.3A CN116469466B (zh) 2023-04-11 2023-04-11 一种高效预测菊花耐涝性的方法及其应用

Publications (2)

Publication Number Publication Date
CN116469466A CN116469466A (zh) 2023-07-21
CN116469466B true CN116469466B (zh) 2024-02-09

Family

ID=87172897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310379493.3A Active CN116469466B (zh) 2023-04-11 2023-04-11 一种高效预测菊花耐涝性的方法及其应用

Country Status (1)

Country Link
CN (1) CN116469466B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117238363B (zh) * 2023-10-25 2024-04-16 青岛极智医学检验实验室有限公司 一种表型预测方法、预测系统、设备及介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101387626A (zh) * 2008-09-02 2009-03-18 南京农业大学 一种菊花耐涝性的评价鉴定方法
CN102986403A (zh) * 2012-09-27 2013-03-27 江苏沿海地区农业科学研究所 一种辣椒耐涝种质评价鉴定方法
US8779233B1 (en) * 2010-07-14 2014-07-15 Iowa State University Research Foundation, Inc. QTL regulating ear productivity traits in maize
CN104498475A (zh) * 2014-11-26 2015-04-08 南京农业大学 一种菊花抗旱性关联分子标记的获得方法及应用
CN106446596A (zh) * 2016-07-15 2017-02-22 南京农业大学 一种与菊花耐涝性显著相关的分子标记及其鉴定方法和应用
CN107046852A (zh) * 2017-04-20 2017-08-18 湖南省蔬菜研究所 一种通过种子测定辣椒品种耐涝性的方法
CN107815502A (zh) * 2017-11-23 2018-03-20 南京农业大学 一种鉴定菊花耐涝性的dCAPS标记开发及应用
WO2018064208A1 (en) * 2016-09-28 2018-04-05 The Broad Institute, Inc. Systematic screening and mapping of regulatory elements in non-coding genomic regions, methods, compositions, and applications thereof
CN108368515A (zh) * 2015-07-23 2018-08-03 中国科学院植物研究所 耐旱玉米
CN110610744A (zh) * 2019-09-11 2019-12-24 华中农业大学 一种高效可并行运算且高准确性的全基因组选择方法
CN112048568A (zh) * 2020-10-13 2020-12-08 湖北省农业科学院粮食作物研究所 玉米苗期耐渍主效QTL qWT7.02的获得及其分子标记引物的开发及应用
CN112687340A (zh) * 2020-12-17 2021-04-20 河南省农业科学院粮食作物研究所 一种基于全基因组关联分析和全基因组选择选育玉米高产材料的方法
CN112673918A (zh) * 2021-01-21 2021-04-20 上海市农业科学院 一种菜用大豆耐涝性的鉴定方法
CN114118761A (zh) * 2021-11-22 2022-03-01 贵州大学 一种美人蕉耐涝的综合评价方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101387626A (zh) * 2008-09-02 2009-03-18 南京农业大学 一种菊花耐涝性的评价鉴定方法
US8779233B1 (en) * 2010-07-14 2014-07-15 Iowa State University Research Foundation, Inc. QTL regulating ear productivity traits in maize
CN102986403A (zh) * 2012-09-27 2013-03-27 江苏沿海地区农业科学研究所 一种辣椒耐涝种质评价鉴定方法
CN104498475A (zh) * 2014-11-26 2015-04-08 南京农业大学 一种菊花抗旱性关联分子标记的获得方法及应用
CN108368515A (zh) * 2015-07-23 2018-08-03 中国科学院植物研究所 耐旱玉米
CN106446596A (zh) * 2016-07-15 2017-02-22 南京农业大学 一种与菊花耐涝性显著相关的分子标记及其鉴定方法和应用
WO2018064208A1 (en) * 2016-09-28 2018-04-05 The Broad Institute, Inc. Systematic screening and mapping of regulatory elements in non-coding genomic regions, methods, compositions, and applications thereof
CN107046852A (zh) * 2017-04-20 2017-08-18 湖南省蔬菜研究所 一种通过种子测定辣椒品种耐涝性的方法
CN107815502A (zh) * 2017-11-23 2018-03-20 南京农业大学 一种鉴定菊花耐涝性的dCAPS标记开发及应用
CN110610744A (zh) * 2019-09-11 2019-12-24 华中农业大学 一种高效可并行运算且高准确性的全基因组选择方法
CN112048568A (zh) * 2020-10-13 2020-12-08 湖北省农业科学院粮食作物研究所 玉米苗期耐渍主效QTL qWT7.02的获得及其分子标记引物的开发及应用
CN112687340A (zh) * 2020-12-17 2021-04-20 河南省农业科学院粮食作物研究所 一种基于全基因组关联分析和全基因组选择选育玉米高产材料的方法
CN112673918A (zh) * 2021-01-21 2021-04-20 上海市农业科学院 一种菜用大豆耐涝性的鉴定方法
CN114118761A (zh) * 2021-11-22 2022-03-01 贵州大学 一种美人蕉耐涝的综合评价方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Genome-wide association study identifies favorable SNP alleles and candidate genes for waterlogging tolerance in chrysanthemums;Jiangshuo Su等;《Horticulture Research》;第6卷(第2019期);第1-13页 *
Mixed linear model approach adapted for genome-wide association studies;Zhiwu Zhang等;《nature genetics》;第1-9页 *
菊花耐涝性遗传机制解析与候选基因挖掘;苏江硕;《中国博士学位论文全文数据库 农业科技辑》(第8期);第D048-17页 *
菜豆花色全基因组关联分析;卢甜甜;《园艺学报》;第49卷(第2期);第332-340页 *
黄瓜种质资源耐涝性鉴定及主效QTL定位研究;屠静韵;《中国优秀硕士学位论文全文数据库 农业科技辑》(第1期);第D048-172页 *

Also Published As

Publication number Publication date
CN116469466A (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
Muranty et al. Potential for marker-assisted selection for forest tree breeding: lessons from 20 years of MAS in crops
Chen et al. Genetic diversity, population structure, and linkage disequilibrium of a core collection of Ziziphus jujuba assessed with genome-wide SNPs developed by genotyping-by-sequencing and SSR markers
Wang et al. Collection and evaluation of genetic diversity and population structure of potato landraces and varieties in China
Corrado et al. SNP genotyping reveals genetic diversity between cultivated landraces and contemporary varieties of tomato
Abrinbana et al. Genetic structure of Mycosphaerella graminicola populations in Iran
Chen et al. Genome sequencing reveals evidence of adaptive variation in the genus Zea
AU2011261447B2 (en) Methods and compositions for predicting unobserved phenotypes (PUP)
Zhu et al. Genetic diversity analysis of olive germplasm (Olea europaea L.) with genotyping-by-sequencing technology
CN111128306B (zh) 一种罗非鱼基因组选择育种方法
Gailing et al. Quantitative trait loci affecting stomatal density and growth in a Quercus robur progeny: implications for the adaptation to changing environments
CN108192990B (zh) 与西瓜果皮底色相关的snp分子标记及其应用
CN116469466B (zh) 一种高效预测菊花耐涝性的方法及其应用
De Souza et al. Linkage disequilibrium and population structure in wild and cultivated populations of rubber tree (Hevea brasiliensis)
Haas et al. Single nucleotide polymorphism charting of P. patens reveals accumulation of somatic mutations during in vitro culture on the scale of natural variation by selfing
Kuhn et al. Estimation of genetic diversity and relatedness in a mango germplasm collection using SNP markers and a simplified visual analysis method
Zeinalabedini et al. Extensive genetic diversity in Iranian pomegranate (Punica granatum L.) germplasm revealed by microsatellite markers
CN113122651B (zh) 与莲根状茎膨大性状主效qtl位点连锁的snp分子标记及应用
CN116564407B (zh) 一种基于全基因组选择高效预测菊花花期的方法
CN110853711B (zh) 一种预测烟草果糖含量的全基因组选择模型及其应用
CN108416189B (zh) 一种基于分子标记技术的农作物品种杂种优势模式鉴定方法
Macaya‐Sanz et al. Causes and consequences of large clonal assemblies in a poplar hybrid zone
CN115141893A (zh) 包含7个分子标记的预测猕猴桃果实干物质含量的分子标记组及其应用和试剂盒
Liu et al. Comparison of the Genetic Structure betweenIn Situ and Ex Situ Populations of DongxiangWild Rice (Oryza rufipogon Griff.)
CN116732222B (zh) 一种基于全基因组高效预测菊花耐盐性的方法
CN113005215B (zh) 一种与杨树木材产量相关的单体型分子标记及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210043 Jiangsu Nanjing Qixia District Bagua Zhou street Jiangsu Qixia modern agriculture industrial park Nanjing Agricultural University modern horticulture industry science and Technology Innovation Center

Applicant after: NANJING AGRICULTURAL University

Address before: Weigang Xuanwu District of Nanjing Jiangsu province 210095 No. 1

Applicant before: NANJING AGRICULTURAL University

GR01 Patent grant
GR01 Patent grant