CN115691660A - 玉米籽粒镉积累性状的全基因组选择研究的方法 - Google Patents

玉米籽粒镉积累性状的全基因组选择研究的方法 Download PDF

Info

Publication number
CN115691660A
CN115691660A CN202210900341.9A CN202210900341A CN115691660A CN 115691660 A CN115691660 A CN 115691660A CN 202210900341 A CN202210900341 A CN 202210900341A CN 115691660 A CN115691660 A CN 115691660A
Authority
CN
China
Prior art keywords
corn
whole genome
cadmium
cadmium content
snp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210900341.9A
Other languages
English (en)
Inventor
何振艳
骆永明
闫慧莉
许文秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Botany of CAS
Institute of Soil Science of CAS
Original Assignee
Institute of Botany of CAS
Institute of Soil Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Botany of CAS, Institute of Soil Science of CAS filed Critical Institute of Botany of CAS
Priority to CN202210900341.9A priority Critical patent/CN115691660A/zh
Publication of CN115691660A publication Critical patent/CN115691660A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了玉米籽粒镉积累性状的全基因组选择研究的方法。本发明所保护的方法包括对模型构建群体玉米的籽粒镉含量进行测定获得所述玉米个体的表型数据集,通过全基因组关联分析获得玉米籽粒镉含量关联的SNP分子标记和所述玉米个体的所述SNP分子标记的基因型数据集,通过全基因组选择的算法,基于所述表型数据集和所述基因型数据集构建预测玉米籽粒镉含量的全基因组选择模型,根据所述全基因组选择模型可预测玉米籽粒镉含量。使用本发明建立的模型可获得测试群体中已进行基因分型但无表现型的个体的基因组估计表型,以提前筛选出优良品系,而不必在育种后期进行表型分析,可广泛应用于低镉含量玉米品种选育。

Description

玉米籽粒镉积累性状的全基因组选择研究的方法
技术领域
本发明涉及生物技术领域,具体涉及玉米籽粒镉积累性状的全基因组选择研究的方法。
背景技术
镉(cadmium,Cd)是一种人体非必需元素,单质为银白色金属,密度为8.65g/cm3,是一种有毒的重金属元素。2012年,镉及其化合物被国际癌症研究机构(IARC)列 为I类致癌物。
镉可通过食物链进入人体并富集,人体内镉积累量达到2.6g时会产生毒害作用。镉在人体内的生物学半衰期是15~45年,镉的长期累积会对呼吸系统、循环系统、泌 尿系统、神经系统、骨骼系统等造成毒害,造成骨质疏松、肾功能衰竭、肾结石、肺 气肿等症状,进而诱发癌症。
镉对植物也具有毒害作用,具体效应表现为生理损伤与生长抑制。生理损伤包括光合效率降低、水分含量减少与必需元素吸收受到抑制。镉在植物体内会抑制碳固定 与叶绿素合成,进而影响植物光合作用。镉在植物体内累积会诱导活性氧过量产生, 造成植物细胞器的生理损伤。此外,镉元素的存在会干扰Ca、P、Mg、Fe、Zn等植 物必需元素的吸收,导致植物叶片失绿、根系生长受损等,最终造成植物死亡。
农田土壤镉污染的来源主要分为自然源和人为源两种。自然源包括各种地质活动, 例如火山喷发等,沉积后的镉元素会改变土壤中的镉环境背景值。人为源包括矿石开采、三废排放、污水灌溉等人为活动。
全基因组选择(Genomic Selection,GS)技术是加速新品种开发最有希望的育种方法,具有广阔的应用前景。全基因组选择以分子标记辅助选择的形式,通过利用覆 盖全基因组的高密度分子标记对个体的基因组估计育种值(genomic estimated breedingvalues,GEBV)进行预测。与传统的分子标记辅助育种相比,全基因组选择同时对所 有标记的效应进行评估,对于复杂性状的预测更为准确。
全基因组选择的计算方法主要是基因组估计育种值的算法,目前主要分为三类:基于混合线性模型的BLUP(Best Linear Unbiased Prediction)方法、基于MCMC (Markovchain Monte Carlo)和Gibbs抽样的贝叶斯(Bayes)方法和机器学习 (Machine Learning)法。
BLUP法以混合线性模型为基础,其假设所有的SNP对表型性状贡献一致,将随 机效应和遗传分组的固定效应都加以考虑,然后基于表型和系谱A计算个体的基因组 估计育种值。目前常用的BLUP方法包括以全基因组亲缘关系矩阵(G矩阵)为核心 的GBLUP和基于等位基因效应的RRBLUP。二者运算时间均较短,适合于群体数量 较大时的建模和预测分析。
贝叶斯法是基于SNP与QTL的连锁效应提出的,属于非线性模型,主要包括BayesA、Bayes B、Bayes C和Bayesian Lasso等,不同的贝叶斯方法选择不同的先验分布, 即对于各个SNP的效应计算不同Bayesian Lasso(。贝叶斯模型的特点为运算时间一 般较长,不同贝叶斯模型之间的预测准确度接近。
机器学习法是指利用计算机算法对大量数据进行不断模拟,从而实现对目标性状的预测,主要包括支持向量机(support vector machine,SVM)、随机森林法(RandomForest,RF)、LightGBM(Light Gradient Boosting Machine)等(Meng,2018;Ogutu andSchulz-Streeck,2011;Moser et al.,2009)。与传统算法相比,机器学习法具有高效智能的优点,可以对复杂形状进行较为准确的预测,且模型不易过拟合,但仍需对参数进 行调整,从而获得最为准确的预测效果。
在全基因组选择研究中,预测准确度是指实际育种值与估计育种值之间的相关系数,该系数越接近1,则表示预测准确度越高。影响全基因组选择预测准确度的因素 主要包括目标性状的遗传力、所选算法、分子标记密度与来源、训练群体大小、训练 群体与测试群体之间的亲缘关系等。
遗传力是指遗传方差占表型方差的比例,遗传力越大,证明该性状受基因控制的程度越大,受到环境因素的影响越小,进行全基因组选择研究的预测准确度越高。对 于低遗传力的性状,可通过增加表型记录世代数来提高预测准确度。
不同全基因组算法对于预测准确度的影响主要是由于对分子标记效应及方差的假 设分布不同,目前准确度较高的算法为Bayes模型,其次为GBLUP和RRBLUP,二 者预测能力接近,而LS法准确度最低。已有研究表明,考虑显性效应和上位效应的 统计模型更能提高选择的准确度,Bayes B的准确度大于Bayes A,RRBLUP次之。
分子标记密度与来源是指全基因组选择研究中覆盖训练群体基因组分子标记的数 量、分布以及与目标性状的关联程度。通常预测准确性与分子标记的密度成正比,但 当分子标记数目到达某一数量时,预测准确度会达到最大值,随后下降。标记来源对 准确度也具有一定影响,通常所用标记与目标性状关联程度越高,预测效果越好。
训练群体数目大小是影响预测准确度的重要因素之一,通常随着训练群体数目增加,预测准确度也有所提升。训练群体与测试群体比例也会影响预测准确度,研究表 明,两类群体比例增加有助于提升全基因组选择预测准确度。训练群体与测试群体间 的亲缘关系也与预测准确度成正比,二者间遗传距离越小,亲缘关系越接近,预测准 确度越高。
为了避免食用高镉污染的粮食作物,一个有效的方法是筛选和培育低镉粮食作物。 在过去几十年中,人们为降低粮食作物中的镉浓度付出了巨大努力;然而,传统育种过程主要基于表型选择(PS),这意味着育种家需要进行多轮杂交和大规模镉积累测 定,以获得低镉粮食作物。这无疑是耗时和昂贵的。迫切需要更高效、更省时的方法 来评估Cd在粮食作物中的积累,加快育种周期。然而这种方法仍有待开发。
发明内容
本发明所要解决的技术问题是如何建立玉米籽粒镉积累性状的全基因组选择模型和/或如何预测玉米籽粒镉含量和/或如何培育低镉玉米。
为了解决上述技术问题,本发明首先提供了预测玉米籽粒镉含量的方法。所述方法包括对模型构建群体玉米的籽粒镉含量进行测定获得所述玉米个体的表型数据集, 通过全基因组关联分析获得玉米籽粒镉含量关联的SNP分子标记(即在镉积累性状上 全基因组关联系数<5×10-8的SNP位点)和所述玉米个体的所述SNP分子标记的基 因型数据集,通过全基因组选择的算法,基于所述表型数据集和所述基因型数据集构 建预测玉米籽粒镉含量的全基因组选择模型。对待测玉米的所述SNP分子标记进行测 定获得所述待测玉米的SNP基因分型,使用所述全基因组选择模型和所述SNP基因 分型计算获得所述待测玉米的基因组估计育种值,使用所述基因组估计育种值预测所 述待测玉米籽粒的镉含量。
所述基因组估计育种值与待测玉米籽粒的镉含量经线性拟合验证符合y=x的函数关系。
上述方法中,所述全基因组选择的算法可为岭回归最佳线性无偏预测(rrBLUP)、贝叶斯A或随机森林。上述方法中,所述全基因组选择的算法具体可为岭回归最佳线 性无偏预测(rrBLUP)。
上述方法中,所述模型构建群体由训练群体与测试群体组成,所述训练群体与所述测试群体均由玉米自交系组成,所述训练群体和所述测试群体的玉米自交系的个数 数比可为1:1。所述SNP分子标记的分布密度可为每个玉米基因组上50000个。也就 是,所述SNP分子标记的数量可为50000个。
上述方法中,所述训练群体规模大(数量多)的全基因组选择方程的预测效果好于训练群体规模小(数量少)的全基因组选择方程。所述训练群体可为所述模型构建 群体数量的一半。
为了解决上述技术问题,本发明还提供了预测玉米籽粒镉含量的装置。所述装置可包括如下模块:
A1)表型数据集获得模块:用于获得模型构建群体玉米的籽粒镉含量表型数据集;
A2)基因型数据集获得模块:用于通过全基因组关联分析获得玉米籽粒镉含量关联的SNP分子标记(即在镉积累性状上全基因组关联系数可为小于5×10-8的SNP位 点)和所述玉米个体的SNP分子标记的基因型数据集;
A3)全基因组选择模型构建模块:用于通过全基因组选择的算法,基于所述表型数据集和所述基因型数据集构建预测玉米籽粒镉含量的全基因组选择模型;
A4)待测玉米SNP基因分型获得模块:用于对待测玉米群体的所述SNP分子标 记进行测定获得所述待测玉米群体个体的SNP基因分型;
A5)基因组估计育种值计算模块:用于使用所述全基因组选择模型和所述SNP 基因分型计算获得所述待测玉米群体个体的基因组估计育种值;根据所述基因组估计 育种值预测所述待测玉米籽粒的镉含量。
上述装置中,所述全基因组选择的算法可为岭回归最佳线性无偏预测(rrBLUP)、贝叶斯A或随机森林。所述模型构建群体可由训练群体与测试群体组成。所述训练群 体与所述测试群体均由玉米自交系组成。所述训练群体和所述测试群体的玉米自交系 的个数比可为1:1。所述SNP分子标记的分布密度可为每个玉米基因组上50000个。 也就是,所述SNP分子标记的数量可为50000个。
上述装置中,所述训练群体规模大(数量多)的全基因组选择方程的预测效果好于训练群体规模小(数量少)的全基因组选择方程。所述训练群体可为所述模型构建 群体数量的一半。为了解决上述技术问题,本发明还提供了上述所述方法和/或上述装 置的下述任一种应用:
P1、在培育低镉含量玉米中的应用;
P2、在制备检测低镉含量玉米的产品中的应用;
P3、所述低镉含量玉米品种选育中的应用。
为了解决上述技术问题,本发明还提供了一种培育低镉含量玉米的方法。所述方法可包括使用上文所述的方法预测待测玉米籽粒的镉含量,选用所述镉含量低或候选 低的玉米进行育种。
为了解决上述技术问题,本发明还提供了一种计算机可读存储介质。所述计算机可读存储介质可使计算机执行上文所述方法的步骤。
为了解决上述技术问题,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质可使计算机建立上文所述装置中的模块。
由于基因分型技术、计算机科学和大数据的空前发展,基因组选择(GS)为在较 短时间内培育低镉粮食作物提供了机会。本发明建立的玉米籽粒镉含量全基因组选择 研究与标记辅助选择(MAS)不同,在MAS中,只有有限数量的先前确定的相关性 最强的标记用于选择最佳品系,而本发明的方法利用全基因组水平上的基因型-表型关 系,以便为无表型的样本制作可靠的全基因组选择模型。简言之,该方法需要两个步 骤:(i)通过在训练群体(TRN)中结合分子(高密度SNP标记)和表型数据集来 构建全基因组选择模型,以及(ii)使用建立好的模型来获得测试群体(TST)中已进 行基因分型但无表现型的个体的基因组估计表型;这样,可以提前筛选出优良品系, 而不必在育种后期进行表型分析。
附图说明
图1为玉米籽粒镉含量的采样环境和表型数据分析。A为A-C环境型下土壤性质 和玉米籽粒镉含量(ZmKCd);纵坐标为土壤镉浓度和219个玉米自交系的籽粒镉浓 度,横坐标为A-C环境型。B为A-C环境型下219份玉米自交系的籽粒镉浓度和BLUP 值(ZmKCd_BLUP)之间的相关性系数;纵坐标和横坐标为A-C环境型玉米籽粒镉浓 度和ZmKCd_BLUP,条形图显示相关系数的值,灰色到黑色代表相关性系数从高到 低;星号表示显著性差异P<0.001(***),由单因素方差分析得到。C为219个玉米 自交系的ZmKCd_BLUP值的频率分布;纵坐标为材料数,横坐标为ZmKCd_BLUP 值。
图2为用于全基因组选择分析的SNP标记数据集。A为从MLM GWAS方法获得 的ZmKCd的曼哈顿图。下面的条形图显示了用于GWAS的单核苷酸多态性位点(SNP) 的密度;纵坐标为P值的负对数-log10(P),横坐标为每条染色体上的SNP。B为10 条染色体上全部SNP的-log10(P)值的从大到小排序;纵坐标为-log10(P)值,横坐 标为SNP的密度。C和D为跨10条的染色体的SNP数据集;C为结合GWAS的SNP 数据集,D为随机选取的SNP数据集,从内到外的圆形表示不同SNP数据集的SNP 密度图,SNP数量为50、100、500、1000、5000、10000、50000和100000,条形图 表示的是SNP的密度。E为比较GWAS辅助的SNP数据集和随机选点的SNP数据集 的P值差异;纵坐标为-log10(P)值,横坐标为GWAS辅助SNP数据集和随机选点 SNP数据集。
图3为本研究中全基因组选择的基本流程。
图4为玉米籽粒镉含量全基因组选择模型的最优统计方法、SNP数据集和训练群体大小。A为种群大小和SNP密度保持不变,使用GWAS辅助SNP数据集的SNP, 在9组TRN与TST比率下比较Bayes A、Light GBM、RF和rrBLUP的建模准确性; 纵坐标为建模准确性,横坐标为TRN与TST的比率。B为种群大小和TRN与TST比 率保持不变,使用GWAS辅助SNP数据集的SNP在8组SNP密度下比较了Bayes A、 Light GBM、RF和rrBLUP的建模准确性;纵坐标为预测模型的准确性,横坐标为8 组SNP密度。C为SNP密度和TRN与TST比率保持不变,使用GWAS辅助SNP数 据集的SNP在6组种群大小下比较了Bayes A、Light GBM、RF和rrBLUP的建模准 确性;纵坐标为建模准确性,横坐标为6组群体大小。D为使用GWAS辅助SNP数 据集和随机SNP数据集在9组TRN与TST比率的建模准确性,纵坐标为TRN与TST 的比率,横坐标为Bayes A,rrBLUP,RF三种算法和两种不同的SNP数据集。E为8 组SNP密度下进行的比较,F为在6组种群大小下进行比较。条形图显示建模准确性 的值,颜色由浅到深代表从高到低的值;TRN,训练群体;TST,测试群体;rMG, 建模精度;RF,随机森林。
图5为100个玉米自交系田间试验的全基因组选择模型预测数据。A为采用rrBLUP、RF和Bayes A统计方法(浅灰色),对100个玉米自交系的表型(深灰色) 和预测ZmKCd值的频率分布进行了分析;纵坐标为材料数,横坐标为ZmKCd值。B 为使用rrBLUP算法下,100个玉米自交系的表型值和预测ZmKCd值的相关系数, MAE表示绝对误差;纵坐标为预测ZmKCd值,横坐标为表型值。C为使用RF算法 下,100个玉米自交系的表型值和预测ZmKCd值的相关系数。D为使用Bayes A算法 下,100个玉米自交系的表型值和预测ZmKCd值的相关系数。
图6为GO注释和与用于全基因组选择模型的玉米籽粒镉积累性状相关SNP的 重要基因家族的Sankey图。
具体实施方式
下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本发明,而不是为了限制本发明的范围。以下提供的实施例可作为本技术领域 普通技术人员进行进一步改进的指南,并不以任何方式构成对本发明的限制。
下述实施例中的实验方法,如无特殊说明,均为常规方法,按照本领域内的文 献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等, 如无特殊说明,均可从商业途径得到。
本发明实施例中的219个不同玉米自交系和100个不同的玉米自交系均为华中 农业大学严建兵教授实验室馈赠(相关文献:Liu H,Luo X,Niu L,Xiao Y,Chen L,Liu J,Wang X,Jin M,Li W,Zhang Q,Yan J.Distant eQTLs and Non-coding Sequences PlayCritical Roles in Regulating Gene Expression and Quantitative Trait Variationin Maize. Mol Plant.2017Mar 6;10(3):414-426)。
实施例1、玉米籽粒镉积累性状的全基因组选择研究的方法
1.玉米籽粒镉含量测定与表型数据分析
1.1玉米材料的种植与收获
在本发明中,模型训练群体为219个不同玉米自交系组成的关联小组,验证群体为100个玉米自交系。在三个不同的镉污染农田中种植了219个不同的玉米自交系, 以收集籽粒镉含量表型。
设置三个镉污染环境型A、B、C区,镉浓度分别为:A区-0.053mg/kg、B区-0.906 mg/kg和C区-1.820mg/kg。A、B、C区用于模型训练群体,B区另种植的100个玉 米自交系用于验证群体。播种前施用复合肥(N:P:K=15:15:15,百分比),用量为750 kg·hm-2。每个玉米自交系以40厘米的窄间距种植10株。每个玉米自交系通过人工自 交进行自花授粉,并按品种单独收获。这三个地区的田间试验的农艺管理相同。
1.2玉米籽粒镉含量测定与表型数据获得
成熟后收获玉米籽粒进行镉浓度测定,方法如下:
(1)所有样品在80℃干燥至恒重。
(2)干燥样品用3mL HNO3冷消化过夜。
(3)在200℃下进行9h样品消解。
(4)冷却后,用去离子水将消解溶液稀释至50mL,并通过0.22μM醋酸纤维素 膜过滤器过滤。
质量控制:每批测定设置三个空白对照品(HNO3)和三个标准物质对照品(GBW10012(GSB-3))。所有样品测定均重复三次。
219个不同的玉米自交系在田间A-C三个镉污染区中,籽粒镉含量的平均值分别为0.006、0.008和0.044mg/kg。三个区域中所有基因型的籽粒镉含量范围为0.0001 至0.5313mg/kg,跨越4个数量级(图1中A)。虽然土壤中镉浓度的多样性导致玉 米籽粒镉含量的数量级不同,但籽粒镉含量在田间A-C三个区域之间表现出良好的相 关性,平均Pearson相关系数为0.833(P<0.001)(图1中B)。这与Feng等人研究 的结果一致,其中三个镉污染场地中籽粒镉含量的平均Pearson相关性为0.84。观察 到显著的基因型影响效应,广义遗传力(h2)达到0.52(表1),表明遗传因素在决 定籽粒镉含量性状方面有一定作用。
表1.三个不同环境中玉米籽粒镉含量的分析
Figure BDA0003770707840000071
注:***表示显著性差异P<0.01;G:基因型;E:环境;G×E:基因型与环境交互作用。
1.3表型数据分析
鉴于多种镉污染环境型中玉米籽粒镉含量的高度相关性,采用BLUP方法对A-C 三个区域种植的219个不同的玉米自交系的籽粒镉含量数据进行整合,以获得稳定的 个体遗传籽粒镉含量的BLUP值。利用Excel 2019对玉米品种的籽粒镉含量进行描述性 统计分析。使用R的3.6.3Windows版本分析玉米籽粒中镉含量表型数据 (https://www.r-project.org/)为了尽量减少环境的影响,使用R的lme4软件包的lmer函 数估计了三个镉污染田玉米籽粒中镉积累的BLUP表型;使用R的ggplot2和patchwork 软件包分析相关系数并绘制方框图;利用GraphPad Prism软件(version 8.0)与ggplot2 包绘制散点图和箱线图。
结果显示,该BLUP值在群体中的分布符合正态分布。方差分析(ANOVA)表明, 不同玉米自交系的BLUP值中存在显著差异(P<0.01),平均变异系数(CV)超过 76.2%(图1中C的C.V表示变异系数);在A-C三个环境型中,BLUP值和籽粒镉 含量之间存在良好的相关性(R2≥0.85),表明BLUP方法对三种镉污染环境下的玉 米籽粒镉含量具有良好的拟合效果。然后使用BLUP值作为表型数据集进行后续 GWAS和全基因组选择分析。
2.全基因组选择的SNP标记
对219个玉米自交系进行高通量测序,通过与B73玉米参考基因组序列对比,查 找具有核苷酸多态性的位点作为SNP,在全基因组范围内检测到1217217个SNP。采 用全基因组关联分析(GWAS)辅助选择和随机选择两种策略建立SNP(分子标记) 基因型数据集。
利用R软件中的MVP程序包进行玉米籽粒镉积累性状的全基因组关联分析,本 发明中使用了混合线性模型(Mixed Linear Model,MLM)。通过R软件包中的qqman 程序包和ggplot2程序包绘制QQ图和曼哈顿图。
结果如图2所示,图2中A为使用MLM算法进行GWAS(全基因组关联分析); 在10条染色体中,SNP Chr2 158408660的相关系数最高,-log10(P)值为9.23; SNP Chr5 9191008的最低值为1.8e-7。根据-log10(P)值,选择前50、100、500、 1000、5000、10000、50000和100000个单核苷酸多态性,其中-log10(P)值分别大 于6.67、5.88、4.14、3.47、2.33、1.90、1.14和0.89,作为8个GWAS-SNP标记 数据集。
每个GWAS-SNP数据集中SNP标记的分布和密度如图2中C所示。在单核苷酸 多态性密度为50-1000的群体(图2中C的50、100、500、1000所示)中,单核苷酸 多态性主要分布在2号染色体上,这是由2号染色体上的一个高相关信号区引起的。 在单核苷酸多态性密度达到5000之前,所有10条染色体都分布着100多个单核苷酸 多态性。
此外,还为全基因组选择建立了8个随机SNP标记数据集,包括50、100、500、 1000、5000、10000、50000和100000个SNP。与GWAS-SNP标记数据集相比,随机 选择的SNP更均匀地分布在10条染色体上(图2中D),但log10(P)值较低(图2 中E的Random所代表)。后续用两个SNP标记数据集(GWAS-SNP数据集和随机 SNP标记数据集)进行全基因组选择分析。
3.玉米籽粒镉积累性状的全基因组选择研究
3.1全基因组选择算法
在先前的研究中,比较了现有统计方法(如rrBULP、Bayes方法和机器学习)对 几个性状的全基因组选择方程的准确性(Azodi et al.,2019;Kaler et al.,2022), 并获得了每个性状的最佳统计方法。然而,由于这些统计方法对标记效应的分布有不 同的先验假设和不同的假设,因此使用不同统计方法的全基因组选择方程精确度因物 种和性状而异。在比较个别统计方法时,未发现最佳统计方法。因此,选择最佳的统 计方法是提高玉米籽粒镉含量全基因组选择方程精度的关键因素。
本发明共采用4种算法进行全基因组选择研究,分别为岭回归最佳线性无偏预测(rrBLUP)、随机森林(RF)、贝叶斯A(Bayes A)和LightGBM算法,每次预测 结果进行100次交叉验证,取平均值作为最终预测结果。
RRBLUP算法是一种间接法模型,具体分析通过R软件的rrblup包完成(Lozada etal.,2019),具体公式如下:
Y=μ+Xg+e…(2.1)
其中Y是训练群体(219个不同的玉米自交系)中各玉米品种的表型向量;μ是 计算出的固定效应,即训练群体中各品种的表型平均值;X是对基因型进行编码得到 的关联矩阵;g是指根据模型估算出的分子标记效应向量;e为残余误差(Endelman, 2011)。
随机森林算法是通过集成多个决策树来进行预测的分类器(张莉彬和宋凯利,2019),其基本原理是采用Bootstrap子自采样的方法获得不同的样本集用于构建模型, 各模型之间的差异度不同,因此提高了预测的能力(董红瑶等,2021),通过R中 的randomforest软件包来进行分析。
Bayes A统计方法假设标记的加性效应遵循学生分布,即方差遵循卡方逆分布的正态分布(Gonzalez Recio和Forni,2011)。根据上述假设,加性效应符号(aj)的 方向、加性效应的绝对值|aj|和显性效应dj具有层次依赖性,模型可描述如下:
|aj||σaj 2~(iid)|N(0,σaj 2)|i=1,...,m…(2.2)
σaj 2~χ-2(va,sa 2)…(2.3)
dj||aj||,σaj 2~N(μ(|aj|),σd 2(|a|,σaj 2))…(2.4)
b,σe 2~unifrom…(2.5)
均值和方差为:
μd(|aj|)=E(dj||a|)σd 2(|a|,σaj 2)=Var(dj||aj|,σaj 2)…(2.6)
LightGBM是微软于2017年提出的一个新的boosting框架,LightGBM统计方法 使用基于梯度的单边采样(GOSS)来缩小分割点的搜索范围,使用基于直方图的统计 方法来寻找最佳分割点,并采用深度限制的叶生长策略。LightGBM采用了一种更有 效的图形统计方法。首先,将一维特征划分为多个区域,每个区域构成一个面元。然 后,将得到的多个箱子形成直方图。直方图中的每个箱子存储两种类型的信息,即实 例数和梯度的总和。对于具有多维特征的数据集,lightGBM扫描多个直方图以找到要 分割的节点的最佳分割点。在本发明中,LightGBM由Python包LightGBM V3 3.2构 造组成(Yan et al.,2021)。
3.2全基因组选择研究参数设置
本发明采用的分子标记来源为步骤2中基于全基因组关联分析筛选出的玉米籽粒镉积累关联分子标记(GWAS-SNP数据集),将全部SNP的-log10(P)值从大到小排序, 取前50、100、500、1000、5000、10000、50000、100000作为GWAS-SNP数据集, 另一种策略为随机选取相应数目的SNP作为SNP数据集,分析所用分子标记密度对 全基因组选择预测准确度的影响。分别设置训练集群体占比为10%~90%,通过改变训 练集占比大小来探究训练群体数量对于预测准确度的影响(刘小刚,2018)。设置群 体规模为20、60、100、140、219用于探究群体规模大小对预测准确性的影响。
3.3玉米籽粒镉积累性状全基因组选择模型建立
以单一建模训练群体的籽粒镉含量为表型数据,籽粒镉积累关联SNP分子标记(GWAS-SNP数据集)为基因型数据,通过比对不同算法、分子标记密度、训练集占比 和群体大小,四种参数下模型的预测准确度,建立适合单一环境型下的全基因组选择 预测模型。选取10-fold交叉验证重复100次的结果的均值作为最终预测准确度。
3.3.1算法模型选择
使用了4种经典的统计方法(Bayes A、rrBULP、RF和Light GBM)来构建玉米 籽粒镉含量的全基因组选择方程。使用步骤2中得到的GWAS-SNP数据集作为基因 型。结果表明,在所有参数下,Bayes A、rrBULP和RF比Light GBM具有更好的预 测精度和计算效率:BayesA、rrBLUP和RF的rMG分别小于0.83、0.89和0.75,而 Light GBM的rMG小于0.28(图4中A和B)。因此,Bayes A、rrBLUP和RF的统 计方法被视为玉米籽粒镉含量全基因组选择模型的最佳统计方法,并用于后续分析。
3.3.2训练群体与测试群体比例和群体规模分析
适当的训练群体(TRN)占比可以优化测试群体的全基因组选择模型预测准确性。对训练群体与测试群体比率的多项调查表明,当比率为1倍时,预测精度达到稳定水 平(Cao等人,2017年;Guo等人,2019年)。随着训练群体规模的增加,全基因组 选择方程预测准确率不断提高,最终达到一个平台(Liu et al.,2018;Zhang et al., 2017)。但训练群体与测试群体的最佳比例和训练群体大小取决于性状。
在第一种情况下(图4中A)中,GWAS-SNP密度保持不变,训练群体规模从 197逐渐减少到22,设定了9个训练群体和测试群体样本的比率(9:1、7:1、5:1、3:1、 1:1、1:3、1:5、1:7和1:9),结果表明,1:1的比例是两种方法的精度和稳定性开始 下降的转折点,表明TRN的最佳大小为所用种群总数的50%。
在第二种情况中(图4中C),1:1的比率(训练群体与测试群体)保持不变, 种群规模从219逐渐减少到20。随着种群规模的减少,rMG从0.83逐渐下降到0(Bayes A),平均从0.89下降到-0.25(rrBLUP),平均从0.75下降到-0.27(RF),这表 明玉米籽粒镉含量性状的全基因组选择方程需要较大的训练群体规模。训练群体规模 大(数量多)的全基因组选择方程的预测效果好于训练群体规模小(数量少)的全基 因组选择方程。
3.3.3SNP标记密度分析
SNP标记密度是影响预测精度的重要因素。通常,增加SNP标记密度可以提高 预测精度,直到达到一个平台,然后随着SNP标记密度的不断增加,进一步变平或降 低(Zhao等人,2012)。最佳的SNP标记密度可以保证性状相关QTL在连锁不平衡 (LD)中至少有一个标记,从而获得较高的预测性能。但最佳参数因植物种类、种群 大小和性状而异。如第二种情况(图4中B)所示,训练群体种群规模保持不变, GWAS-SNP密度从每个玉米基因组上50(个)逐渐增加到100000(个)。随着SNP 密度的增加,Bayes A、rrBULP和RF的rMG逐渐增加,在50000个SNP处(图4 中B的5e+04,即SNP密度为每个玉米基因组上50000个)平均达到0.83,0.89和 0.75的最大值,在100000个SNP处(1e+05)急剧下降,这表明50000个SNP足以 确保至少一个标记可以与玉米籽粒镉含量相关位点连锁。因此,适量的SNP标记密度 可以达到最高的全基因组选择方程预测准确性。
3.3.4SNP标记的相关性分析
全基因组选择模型的准确性与可由标记表示的染色体片段的实际效果有关。LD中与感兴趣性状相关的基因或QTL标记可以被用于提高全基因组选择模型的准确性。 GWAS方法已广泛用于通过计算基因型和相应表型变异之间的关联来研究许多物种 重要性状的遗传基础。通过整合全基因组选择模型和GWAS-SNP数据集标记,玉米 籽粒镉含量的rMG平均可以达到0.83(Bayes A),0.89(rrBLUP)和0.75(RF)(图 4中A-C)。
为了进行比较,使用步骤2中获得的随机SNP数据集建立全基因组选择模型,与GWAS-SNP数据集建模结果进行比较,其-log10(P)值低于GWAS-SNP数据集(图2 中E);如图4中D和E所示,随机SNP数据集在不同统计方法、训练群体规模和 SNP标记密度之间未观察到建模准确性的差异,平均值为0.13(Bayes A)、0.14 (rrBLUP)和0.12(RF)。随机SNP数据集的总体精度显著低于GWAS-SNP数据集 的精度,证明全基因组选择与GWAS的结合(即选用GWAS-SNP数据集进行全基因 组选择模型构建)可以作为玉米籽粒镉含量性状育种的最佳策略。
通过以上优化统计方法(rrBLUP)、SNP数据集(GWAS-SNP数据集)和训练 群体大小(219个自交系,训练群体大的模型预测效果好于训练群体大的模型预测效 果)、训练群体占比(50%)和SNP标记密度(50000)等参数,玉米籽粒镉含量的 全基因组选择模型准确性rMG最终达到0.89。所有这些参数都是决定全基因组选择模 型预测基线精度的关键因素,在设计低镉粮食作物时需要考虑这些参数。
4.玉米籽粒镉含量全基因组选择模型的高效SNP的生物学解释
位于基因附近、能够影响基因功能或已知的因果突变的标记对于提高全基因组选择模型的准确性至关重要。因此,全基因组选择模型中的SNP标记可以捕获这些显著 促成玉米籽粒镉含量变异的性状相关SNP。表现最好的50000个SNP针对10360个基 因。
通过参考玉米基因组序列(V2版本),在MaizeGDB数据库(https://maizegdb.org/) 中获得并注释了步骤3中玉米籽粒镉含量全基因组选择(ZmKCd-GP)模型中与单核 苷酸多态性相关的基因。
利用GO数据库对SNP针对10360个基因功能进行分析。GO富集分析是使用OmicShare工具执行和生成的,OmicShare工具是一个免费的在线数据分析平台 (https://www.omicshare.com/tools)。Sankey图由Python 3.10.4for windows制作 (https://www.python.org/)。
根据GO功能注释,这些富含GO术语的基因包括转运体活性(GO:0005215, MF)、膜(GO:0016020,CC)和生物过程调节(GO:0050789,BP)等。其中,获得 了玉米镉转运蛋白ZmHMA3(GRMZM2G175576)。四个基因(GRMZM2G064563、 GRMZM2G455491、GRMZM2G340578和GRMZM2G153488)与水稻镉积累相关基因 OsCd1、OsHMA3、OsCCX2和CAL1具有高度的序列同源性。此外,还发现了41个 属于重金属相关结构域蛋白(HMA)、自然抗性相关巨噬细胞蛋白(NRAMP)、ATP 结合盒(ABC)转运蛋白、主要促进因子超家族(MFS)、钠/钙交换蛋白、黄色条带 样蛋白(YSL)、金属硫蛋白样蛋白和防御素蛋白的基因(图6)。
此前,来自这些家族的基因,如AtHMA2、OsHMA2、OsHMAs3(Kumagai et al., 2014;Miyadate et al.,2011;Satoh Nagasawa et al.,2013;Wong and Cobbett,2009),OsNRAMP1(Takahashi et al.,2011a;Takahashi et al.,2011b),OsNRAMP5(Sasaki etal.,2012;Yang et al.,2014),OsCd1(Yan et al.,2019),CAL1(Luo et al.,2018), 据报道,OsCCX2(Hao等人,2018)对拟南芥和水稻中的镉积累至关重要。然而, 对于玉米,只有ZmHMA3(GRMZM2G175576)被证实参与玉米镉积累(Cao等人, 2019年;Tang等人,2021年)。玉米籽粒镉积累性状变异的机制仍缺乏深入了解。 在此,籽粒镉含量全基因组选择研究鉴定了一系列可能与玉米镉积累有关的基因。来 自HMA、NRAMP、MFS等家族的基因在某种程度上负责调节籽粒镉含量表型。巧合 的是,GRMZM2G175576、GRMZM2G085939和GRMZM2G124103也被认为是有助 于玉米叶片镉积累的候选品种(Zhao等人,2018)。因此,这些基因及其在本发明中 产生的有利等位基因信息可能有助于进一步阐明玉米中镉积累的机制。
实施例2、全基因组选择模型在玉米籽粒镉含量预测中的应用
为了探索全基因组选择模型在实践中的能力,在田间试验中,应用实施例1中筛选获得的表现最好的Bayes A、rrBLUP和RF算法构建的玉米籽粒镉含量全基因组选 择模型估算100个玉米自交系(与上述219个模型群体无交叉,测定50000个SNP的 基因分型)每个个体的基因组估计育种值(genomic estimated breeding values,GEBV), 基于基因组估计育种值预测100个玉米自交系每个个体的籽粒镉含量。同时,还对100 个玉米自交系的籽粒镉含量进行了表型分析,以评估全基因组选择模型预测的准确性。
玉米材料的种植与收获、以及玉米籽粒镉含量的测定同实施例1。
对100个玉米自交系,通过全基因组测序和序列比对获得每个玉米个体的实施例1中分析得到的50000个SNP的基因分型。
图5中A显示了100个玉米自交系rrBLUP、Bayes A和RF的预测和表型Z籽粒 镉含量值。对于rrBLUP统计方法,预测的籽粒镉含量值接近表型值如表2所示 MG=0.81,平均绝对误差(MAE)=0.0037。然而,对于RF和Bayes A统计方法,rMG仅为0.70和0.57,MAE分别为0.0051和0.0126。因此,rrBLUP算法为构建玉米籽粒 镉积累性状全基因组选择模型的最佳算法,预测值与表型值最为接近,最符合y=x 的线性关系。
表2.100个玉米自交系表型和rrBLUP建模预测表型
Figure BDA0003770707840000141
Figure BDA0003770707840000151
Bayes A、rrBLUP和RF统计方法对标记效应的分布有不同的先验假设和不同的假设。前两种是线性统计方法(Endelman,2011),而后一种是非线性统计方法(Breiman,2001)。此前,一些研究利用植物、酵母和其他物种的数据评估了线性和非线性统计 方法的基因组预测准确性。没有一种统计方法在所有情况下都表现最好。Azodi等人 利用六种植物的18个性状的数据,比较了6种线性和6种非线性统计方法的性能 (Azodi等人,2019)。结果表明,线性统计方法往往表现良好,而非线性统计方法 的表现因性状而异。当性状具有主要的加性遗传基础时,线性统计方法优于非线性统 计方法。在另一项针对小麦和水稻数据集的研究中,最好的两种方法是SVM和线性 混合BLUP(Grinberg et al.,2020)。在种群结构存在的情况下,线性混合BLUP是 最好的。确定哪种统计方法可能表现良好取决于性状和物种。对于玉米籽粒镉含量, 本发明得出结论,具有最佳参数的rrBLUP优于Bayes A和RF。
以上对本发明进行了详述。对于本领域技术人员来说,在不脱离本发明的宗旨 和范围,以及无需进行不必要的实验情况下,可在等同参数、浓度和条件下,在较 宽范围内实施本发明。虽然本发明给出了特殊的实施例,应该理解为,可以对本发 明作进一步的改进。总之,按本发明的原理,本申请欲包括任何变更、用途或对本 发明的改进,包括脱离了本申请中已公开范围,而用本领域已知的常规技术进行的 改变。按以下附带的权利要求的范围,可以进行一些基本特征的应用。

Claims (10)

1.预测玉米籽粒镉含量的方法,其特征在于:所述方法包括对模型构建群体玉米的籽粒镉含量进行测定获得所述玉米个体的表型数据集,通过全基因组关联分析获得玉米籽粒镉含量关联的SNP分子标记和所述玉米个体的所述SNP分子标记的基因型数据集,通过全基因组选择的算法,基于所述表型数据集和所述基因型数据集构建预测玉米籽粒镉含量的全基因组选择模型;对待测玉米的所述SNP分子标记进行测定获得所述待测玉米的SNP基因分型,使用所述全基因组选择模型和所述SNP基因分型计算获得所述待测玉米的基因组估计育种值,使用所述基因组估计育种值预测所述待测玉米籽粒的镉含量。
2.根据权利要求1所述的方法,其特征在于:所述全基因组选择的算法为岭回归最佳线性无偏预测、贝叶斯A或随机森林。
3.根据权利要求1或2所述的方法,其特征在于:所述模型构建群体由训练群体与测试群体组成,所述训练群体与所述测试群体均由玉米自交系组成,所述训练群体和所述测试群体的玉米自交系的个数数比为1:1。
4.根据权利要求1-3中任一权利要求所述的方法,其特征在于:所述SNP分子标记的分布密度为每个玉米基因组上50000个。
5.预测玉米籽粒镉含量的装置,其特征在于:所述装置包括如下模块:
A1)表型数据集获得模块:用于获得模型构建群体玉米的籽粒镉含量表型数据集;
A2)基因型数据集获得模块:用于通过全基因组关联分析获得玉米籽粒镉含量关联的SNP分子标记和所述玉米个体的SNP分子标记的基因型数据集;
A3)全基因组选择模型构建模块:用于通过全基因组选择的算法,基于所述表型数据集和所述基因型数据集构建预测玉米籽粒镉含量的全基因组选择模型;
A4)待测玉米SNP基因分型获得模块:用于对待测玉米群体的所述SNP分子标记进行测定获得所述待测玉米群体个体的SNP基因分型;
A5)基因组估计育种值计算模块:用于使用所述全基因组选择模型和所述SNP基因分型计算获得所述待测玉米群体个体的基因组估计育种值;根据所述基因组估计育种值预测所述待测玉米籽粒的镉含量。
6.根据权利要求5所述的装置,其特征在于:所述全基因组选择的算法为岭回归最佳线性无偏预测、贝叶斯A或随机森林;所述模型构建群体由训练群体与测试群体组成,所述训练群体与所述测试群体均由玉米自交系组成;所述训练群体和所述测试群体的玉米自交系的个数比为1:1;所述SNP分子标记的分布密度为每个玉米基因组上50000个。
7.权利要求1-4中任一权利要求所述方法和/或权利要求5或6所述装置的下述任一种应用:
P1、在培育低镉含量玉米中的应用;
P2、在制备检测低镉含量玉米的产品中的应用;
P3、所述低镉含量玉米品种选育中的应用。
8.一种培育低镉含量玉米的方法,其特征在于:所述方法包括使用权利要求1-4中任一权利要求所述的方法预测待测玉米籽粒的镉含量,选用所述镉含量低或候选低的玉米进行育种。
9.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质使计算机执行权利要求1-4中任一权利要求所述方法的步骤。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质使计算机建立权利要求5或6所述装置中的模块。
CN202210900341.9A 2022-07-28 2022-07-28 玉米籽粒镉积累性状的全基因组选择研究的方法 Pending CN115691660A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210900341.9A CN115691660A (zh) 2022-07-28 2022-07-28 玉米籽粒镉积累性状的全基因组选择研究的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210900341.9A CN115691660A (zh) 2022-07-28 2022-07-28 玉米籽粒镉积累性状的全基因组选择研究的方法

Publications (1)

Publication Number Publication Date
CN115691660A true CN115691660A (zh) 2023-02-03

Family

ID=85061443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210900341.9A Pending CN115691660A (zh) 2022-07-28 2022-07-28 玉米籽粒镉积累性状的全基因组选择研究的方法

Country Status (1)

Country Link
CN (1) CN115691660A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115995262A (zh) * 2023-03-21 2023-04-21 济南大学 基于随机森林及lasso回归解析玉米遗传机理的方法
CN116343913A (zh) * 2023-03-15 2023-06-27 昆明市延安医院 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法
CN117672360A (zh) * 2024-01-30 2024-03-08 北京市农林科学院信息技术研究中心 基于迁移学习的基因组选择方法、装置、设备及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116343913A (zh) * 2023-03-15 2023-06-27 昆明市延安医院 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法
CN116343913B (zh) * 2023-03-15 2023-11-14 昆明市延安医院 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法
CN115995262A (zh) * 2023-03-21 2023-04-21 济南大学 基于随机森林及lasso回归解析玉米遗传机理的方法
CN115995262B (zh) * 2023-03-21 2023-05-23 济南大学 基于随机森林及lasso回归解析玉米遗传机理的方法
CN117672360A (zh) * 2024-01-30 2024-03-08 北京市农林科学院信息技术研究中心 基于迁移学习的基因组选择方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US8321147B2 (en) Statistical approach for optimal use of genetic information collected on historical pedigrees, genotyped with dense marker maps, into routine pedigree analysis of active maize breeding populations
Xiao et al. Genome-wide association studies in maize: praise and stargaze
Pace et al. Genome-wide association analysis of seedling root development in maize (Zea mays L.)
Minamikawa et al. Genome-wide association study and genomic prediction using parental and breeding populations of Japanese pear (Pyrus pyrifolia Nakai)
CN115691660A (zh) 玉米籽粒镉积累性状的全基因组选择研究的方法
Sukumaran et al. Association mapping of genetic resources: achievements and future perspectives
Caruana et al. Validation of genotyping by sequencing using transcriptomics for diversity and application of genomic selection in tetraploid potato
Spindel et al. Genomic selection in rice breeding
Jiang et al. Genome optimization for improvement of maize breeding
Lin et al. Phenotypic and genetic variation in phosphorus-deficiency-tolerance traits in Chinese wheat landraces
Kelly Deleterious mutations and the genetic variance of male fitness components in Mimulus guttatus
Yoosefzadeh-Najafabadi et al. Genome-wide association study statistical models: A review
Yang et al. Target-oriented prioritization: targeted selection strategy by integrating organismal and molecular traits through predictive analytics in breeding
Monteiro et al. Genetic distinctiveness of rye in situ accessions from Portugal unveils a new hotspot of unexplored genetic resources
Yu et al. Comparison of sequencing-based and array-based genotyping platforms for genomic prediction of maize hybrid performance
Yan et al. GWAS-assisted genomic prediction of cadmium accumulation in maize kernel with machine learning and linear statistical methods
Bakare et al. Parsimonious genotype by environment interaction covariance models for cassava (Manihot esculenta)
Yu et al. Genome-wide association study and genomic prediction for yield and grain quality traits of hybrid rice
Wang et al. Identification of the QTL-allele system underlying two high-throughput physiological traits in the Chinese soybean germplasm population
Park et al. Development of genome-wide single nucleotide polymorphism markers for variety identification of F1 hybrids in cucumber (Cucumis sativus L.)
Hill et al. A global barley panel revealing genomic signatures of breeding in modern cultivars
Nkoulou et al. Analysis of genetic diversity and agronomic variation in banana sub-populations for genomic selection under drought stress in southern Benin
Seck et al. Realized genetic gain in rice: Achievements from breeding programs
Zeng et al. Genome-wide association study of low nitrogen tolerance traits at the seedling stage of rapeseed
Long et al. Utilizing evolutionary conservation to detect deleterious mutations and improve genomic prediction in cassava

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination