CN117637023A - 一种整合基因组和根际微生物组学数据的玉米杂交种表型预测方法 - Google Patents

一种整合基因组和根际微生物组学数据的玉米杂交种表型预测方法 Download PDF

Info

Publication number
CN117637023A
CN117637023A CN202311670146.2A CN202311670146A CN117637023A CN 117637023 A CN117637023 A CN 117637023A CN 202311670146 A CN202311670146 A CN 202311670146A CN 117637023 A CN117637023 A CN 117637023A
Authority
CN
China
Prior art keywords
hybrid
abundance
species
genome
phenotype
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311670146.2A
Other languages
English (en)
Inventor
马娟
乔江方
丁勇
程泽强
曹言勇
刘京宝
张美微
张盼盼
李川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute Of Grain Crop Henan Academy Of Agricultural Sciences
Original Assignee
Institute Of Grain Crop Henan Academy Of Agricultural Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute Of Grain Crop Henan Academy Of Agricultural Sciences filed Critical Institute Of Grain Crop Henan Academy Of Agricultural Sciences
Priority to CN202311670146.2A priority Critical patent/CN117637023A/zh
Publication of CN117637023A publication Critical patent/CN117637023A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

发明公开了一种整合基因组和根际微生物组学数据的玉米杂交种表型预测方法。该方法包含杂交种物种丰度矩阵构建、杂交种物种丰度G矩阵构建和基因组加性、显性效应和杂交种物种丰度的整合模型。本发明提出的杂交种表型预测方法对玉米重要农艺性状例如单穗粒重、百粒重、穗长和穗粗均具有较高的预测精度,能够提高基因组选择的准确性,对利用基因组选择育种技术定向选择优良玉米杂交组合具有重要意义。

Description

一种整合基因组和根际微生物组学数据的玉米杂交种表型预 测方法
技术领域
本发明属于作物育种技术领域,具体涉及一种整合基因组和根际微生物组学数据的玉米杂交种表型预测方法。
背景技术
玉米是杂种优势利用最典型、最成功的作物。如何选择合适的亲本进行杂交是玉米杂交育种的难点。传统杂交育种主要依赖于育种家的经验和历史数据,优良杂交组合筛选的效率较低,同时又需要大量的土地、人力和时间资源,极大限制了我国新品种选育的进程。
全基因组选择(genomic selection,GS)是利用训练群体全基因组分子标记基因型和表型数据建模,从而对表型未知的育种群体做出预测和选择的一种生物育种技术。玉米杂交种的基因型可由亲本基因型推断,只需获得亲本基因型和少部分杂交种表型,即可实现对其它未组配杂交种进行预测和选择,可以大大提高优良杂交组合的筛选效率。
尽管GS为玉米等作物育种提供了新的前景,但其仍存在一些制约性问题,例如难以捕获基因间复杂互作及其下游调控,对于产量等一些复杂性状,基因组预测精度仍较低。随着多组学技术的快速发展,利用亲本的转录组、小RNA数据和代谢组信息预测杂交种表型逐渐受到关注,表明了中间组学数据在预测复杂性状方面提供了额外的信息。根际微生物是受作物影响最大的土壤微生物群体,也被称为作物的第二基因组,在植株养分获取中发挥重要作用。已有研究表明,根际微生物对玉米地上部性状杂种优势起着关键作用。但目前利用根际微生物组学数据进行杂交种表型预测尚缺乏相关研究方法。
发明内容
本发明的目的在于提供一种整合基因组单核苷酸多样性标记和根际微生物组物种信息的玉米杂交种表型预测方法。为解决背景技术提出的技术问题,本发明利用宏基因组测序技术获得的根际微生物组学数据建立了整合基因组加性效应、显性效应和根际微生物nr(non-redundant protein sequence database)物种的预测模型。
实验过程中,本发明利用135个玉米杂交种的单穗粒重、百粒重、穗长和穗粗表型验证了上述整合基因组和根际微生物组物种预测方法进行基因组选择时的优势。
本发明的目的可以通过以下技术方案实现:
一种整合基因组和根际微生物组学数据的玉米杂交种表型预测方法,该方法包括如下步骤:
(1)自交系根际土取样和杂交种表型鉴定:选择多种玉米自交系,种植多种玉米自交系和由不同玉米自交系组配的F1杂交种;收集玉米自交系根际土壤,统计杂交种表型Y;
(2)基因组测序和分析:提取玉米自交系的基因组DNA并对玉米自交系进行基因型鉴定获得基因组SNP位点,将自交系亲本基因组SNP位点基因型合并获得杂交种的基因组SNP位点基因型;
(3)宏基因组测序和分析:提取玉米自交系根际土壤DNA并进行处理,获得自交系的物种丰度矩阵;
根据公式(1)(2)/>(3)/>分别构建杂交种物种的丰度矩阵,P1和P2分别是自交系双亲的物种丰度;
(4)构建预测模型:
根据公式(4)Y~Am+E构建基于物种丰度的预测模型nr,Y为杂交种表型,m是物种丰度随机效应,A是m的设计矩阵,是由公式(1)或公式(2)或公式(3)计算得到,E是随机误差;
根据公式(5)Y~Am+Z1a+E构建整合物种丰度和基因组SNP加性效应的预测模型nr+Add,a是基因组SNP的加性效应,Z1是a的设计矩阵;
根据公式(6)Y~Am+Z1a+Z2d+E构建整合物种丰度、基因组SNP加性效应和显性效应的预测模型nr+Add+Dom,d是基因组SNP的显性效应,Z2是d的设计矩阵;
采用构建的整合物种丰度、基因组SNP加性效应和显性效应的预测模型nr+Add+Dom进行玉米杂交种表型预测;
基因组加性模型Add中纯合基因型编码为0和2,杂合基因型编码为1,基因组SNP加性效应-显性效应模型Add+Dom中显性模型纯合基因型均编码为0,杂合基因型编码为1;
利用R语言scale函数对杂交种物种丰度进行中心化和标准化;杂交种物种丰度G矩阵利用R语言tcrossprod(A)/ncol(A)计算得到;所有模型均采用10倍交叉验证,迭代次数为12000次,预烧为3000次,重复100次;利用验证集中基因组估计育种值与真实值之间的Pearson相关系数均值作为评价模型准确性的指标;所述的预测模型均利用R语言BGLR包实现。
作为一种优选技术方案,所述的整合物种丰度、基因组SNP加性效应和显性效应的预测模型nr+Add+Dom为基于杂交种丰度矩阵的nr+Add+Dom模型。
进一步优选的,所述的杂交种表型为单穗粒重、百粒重、穗长和穗粗。
进一步优选的,步骤(3)中对玉米自交系根际土壤DNA进行处理的过程为:利用UltraTMDNA Library PrepKit构建DNA文库,利用Illumina novaseq 6000PE150进行宏基因组测序,利用SOAPaligner 2.21分别将每个样品的高质量reads与非冗余基因集进行比对,计算基因在对应样品的丰度,利用diamond v0.9.19.120将非冗余基因集序列与NR(non-redundant protein sequence database)数据库进行比对,根据比对结果进行物种注释并统计其丰度,将nr物种丰度缺失率>10%以及均值小于1的物种去掉,获得自交系的物种丰度矩阵。
进一步优选的,步骤(2)中利用玉米5.5K液相芯片对玉米自交系进行基因型鉴定,测序平台为Illumina NovaSeq 6000;利用BWA软件将过滤的reads与玉米B73第4版参考基因(ftp://ftp.gramene.org/pub/gramene/CURRENT_RELEASE/fasta/zea_mays/dna/Zea_mays.AGP v4.dna.toplevel.fa.gzB73-v4)进行比对;利用GATK v4.1.2.0软件检测得到原始单核苷酸多态性标记;将无多态性、缺失和杂合的标记过滤后,将亲本基因型合并获得杂交种的基因型。
本发明的有益效果:
本发明公开了一种整合基因组单核苷酸多样性标记和根际微生物组物种信息的玉米杂交种表型预测方法。该方法包含杂交种物种丰度矩阵构建、杂交种物种丰度G矩阵构建和基因组加性、显性效应和杂交种物种丰度的整合模型。本发明提出的杂交种表型预测方法对玉米重要农艺性状例如单穗粒重、百粒重、穗长和穗粗均具有较高的预测精度,能够提高基因组选择的准确性,对利用基因组选择育种技术定向选择优良玉米杂交组合具有重要意义。
附图说明:
图1为单穗粒重、百粒重、穗长和穗粗次数分布和相关性图。
图2为基因组不同预测模型和基于3种杂交种物种丰度矩阵的不同预测模型对单穗粒重、百粒重、穗长和穗粗的预测准确性。
具体实施方式:
下面结合具体实施实例,进一步阐释本发明,本发明的实施例仅用于解释本发明,并不意味着限制本发明的保护范围。
实施例1整合基因组单核苷酸多样性标记和根际微生物组物种信息的玉米杂交种表型预测方法
1材料和方法
1.1试验设计、自交系根际土取样和杂交种表型鉴定
利用昌7-2、掖478、B73、X178、郑H71等19个玉米自交系为材料,采用部分双列杂交交配设计组配了135个F1杂交种。19个自交系和135个F1杂交种于2023年夏种植在河南新乡七里营。自交系和杂交种均采用随机区组试验设计,分别设置3个和2个重复。2023年9月7号利用无菌铲将根部取出,剥离根系连带的大块土壤,利用毛刷收集附着在根系周围1~2mm的土壤。每个玉米自交系随机选取3株,共57个样品,每个样品将3~5g的土壤封入10mL的离心管,置于-80℃冰箱,干冰运输送样。收获脱粒前,每个杂交种每个重复选取3个果穗测量穗长和穗粗,收获脱粒后,测量所选取果穗的单穗粒重、百粒重。
1.2基因组测序和分析
利用CTAB方法提取19个玉米自交系的新鲜叶片DNA。利用玉米5.5K液相芯片对19个玉米自交系进行基因型鉴定,测序平台为Illumina NovaSeq 6000。利用BWA软件将过滤的reads与玉米B73第4版参考基因(ftp://ftp.gramene.org/pub/gramene/CURRENT_RELEASE/fasta/zea_mays/dna/Zea_mays.AGP v4.dna.toplevel.fa.gzB73-v4)进行比对。利用GATK v4.1.2.0软件检测到26983个原始单核苷酸多态性(single nucleotidepolymorphisms,SNPs)标记。将无多态性、缺失和杂合的标记过滤后,获得12039个SNPs,将亲本基因型合并获得135个杂交种的基因型。
1.3宏基因组测序和分析
利用HiPure Soil DNA Mini Kit(Magen)提取玉米自交系根际土DNA。利用UltraTMDNA Library PrepKit构建DNA文库。利用Illumina novaseq 6000PE150进行宏基因组测序。利用SOAPaligner 2.21分别将每个样品的高质量reads与非冗余基因集进行比对,计算基因在对应样品的丰度。利用diamond v0.9.19.120将非冗余基因集序列与NR(Non-redundant protein sequence database)数据库进行比对,根据比对结果进行物种注释并统计其丰度。将57个样品nr物种丰度缺失率>10%以及均值小于1的物种去掉,共获得12038个物种。每个自交系3个重复计算均值,获得19个自交系的物种丰度矩阵。
根据公式(1)(2)/>(3)/>分别构建杂交种物种的丰度矩阵,P1和P2分别是双亲的物种丰度。
1.4构建预测模型
根据公式(4)Y~Am+E(Y为杂交种表型,m是物种丰度随机效应,A是m的设计矩阵,是由公式(1)或公式(2)或公式(3)计算得到,E是随机误差)构建基于物种丰度的预测模型(nr)。
根据公式(5)Y~Am+Z1a+E(a是基因组SNP的加性效应,Z1是a的设计矩阵)构建整合物种丰度和基因组SNP加性效应的预测模型(nr+Add)。
根据公式(6)Y~Am+Z1a+Z2d+E(d是基因组SNP的显性效应,Z2是d的设计矩阵)构建整合物种丰度、基因组SNP加性效应和显性效应的预测模型(nr+Add+Dom)。
基因组加性模型(Add)中纯合基因型编码为0和2,杂合基因型编码为1,基因组SNP加性效应-显性效应模型(Add+Dom)中显性模型纯合基因型均编码为0,杂合基因型编码为1。
利用R语言scale函数对杂交种物种丰度进行中心化和标准化。杂交种物种丰度G矩阵利用R语言代码tcrossprod(A)/ncol(A)计算得到。所有模型均采用10倍交叉验证,迭代次数为12000次,预烧为3000次,重复100次。利用验证集中基因组估计育种值与真实值之间的Pearson相关系数均值作为评价模型准确性的指标。上述预测模型均利用R语言BGLR包实现。
2结果与分析
2.1单穗粒重和百粒重表型分布
135个玉米杂交种的单穗粒重、百粒重、穗长和穗粗均值分别为165.01g、33.63g、17.36cm和4.95cm(表1)。根据峰度、偏度和Shapiro-Wilk正态性检验结果,单穗粒重、百粒重和穗长符合正态分布(表1),穗粗不符合正态分布。次数分布图表明,单穗穗重、百粒重、穗长和穗粗主要分布区间为125~150g、32.5-35g、17~18cm和5~5.25cm(图1)。百粒重、穗长和穗粗与单穗粒重均表现为极显著正相关关系,相关系数为0.69~0.79。穗长、穗粗与百粒重也表现出较高正相关关系(0.58~0.66)。
表1单穗粒重、百粒重、穗长和穗粗描述性统计结果
2.2不同杂交种物种丰度矩阵预测准确性
对于nr模型,相比其他矩阵,杂交种丰度矩阵对单穗粒重和穗粗的预测准确性最高,/>杂交种丰度矩阵对百粒重和穗长估计的准确性最高,/>杂交种丰度矩阵仅对穗粗表现出最高的预测准确性。4个性状总均值结果表明,基于/>杂交种丰度矩阵的预测准确性最高(图2)。
对于nr+Add模型,相比其他矩阵,杂交种丰度矩阵对单穗粒重、穗粗表现出最高的预测准确性,/>杂交种丰度矩阵对百粒重和穗长的预测精度最高,/>杂交种丰度矩阵仅对穗粗具有最高的预测准确性。4个性状总均值结果表明,基于/>杂交种丰度矩阵的预测准确性最高。
对于nr+Add+Dom模型,相比其他矩阵,杂交种丰度矩阵对单穗粒重等4个性状以及4个性状总均值均具有最高的预测精度。
2.3单穗粒重、百粒重、穗长和穗粗不同模型的预测准确性
相比其他10个模型,基于杂交种丰度矩阵的nr+Add+Dom模型对4个性状的预测精度最高,而且该模型对单穗粒重、百粒重、穗长和穗粗取得了较高的预测精度,尤其单穗粒重和百粒重的预测准确性高达0.70以上(图2)。穗长和穗粗的预测准确性也较高,为0.68和0.67。相比基因组加性和基因组加-显模型,nr+Add+Dom(P1+P2)/2模型可将4个性状基因组估计育种值的预测精度提高2.94~52.17%。相比仅利用物种信息的模型,nr+Add+Dom(P1+P2)/2模型可将单穗粒重、百粒重、穗长和穗粗的预测精度提高13.43%~52.17%。
由此表明,本发明公布的整合基因组加性、显性效应和根际微生物组物种信息的预测方法对玉米杂交种重要产量性状具有较高的预测精度,可用于基因组选择育种,加快优良杂交组合的筛选效率。

Claims (5)

1.一种整合基因组和根际微生物组学数据的玉米杂交种表型预测方法,其特征在于,该方法包括如下步骤:
(1)自交系根际土取样和杂交种表型鉴定:选择多种玉米自交系,种植多种玉米自交系和由不同玉米自交系组配的F1杂交种;收集玉米自交系根际土壤,统计杂交种表型Y;
(2)基因组测序和分析:提取玉米自交系的基因组DNA并对玉米自交系进行基因型鉴定获得基因组SNP位点,将自交系亲本基因组SNP位点基因型合并获得杂交种的基因组SNP位点基因型;
(3)宏基因组测序和分析:提取玉米自交系根际土壤DNA并进行处理,获得自交系的物种丰度矩阵;
根据公式(1)(2)/>(3)/>分别构建杂交种物种的丰度矩阵,P1和P2分别是自交系双亲的物种丰度;
(4)构建预测模型:
根据公式(4)Y~Am+E构建基于物种丰度的预测模型nr,Y为杂交种表型,m是物种丰度随机效应,A是m的设计矩阵,是由公式(1)或公式(2)或公式(3)计算得到,E是随机误差;
根据公式(5)Y~Am+Z1a+E构建整合物种丰度和基因组SNP加性效应的预测模型nr+Add,a是基因组SNP的加性效应,Z1是a的设计矩阵;
根据公式(6)Y~Am+Z1a+Z2d+E构建整合物种丰度、基因组SNP加性效应和显性效应的预测模型nr+Add+Dom,d是基因组SNP的显性效应,z2是d的设计矩阵;
采用构建的整合物种丰度、基因组SNP加性效应和显性效应的预测模型nr+Add+Dom进行玉米杂交种表型预测;
基因组加性模型Add中纯合基因型编码为0和2,杂合基因型编码为1,基因组SNP加性效应-显性效应模型Add+Dom中显性模型纯合基因型均编码为0,杂合基因型编码为1;
利用R语言scale函数对杂交种物种丰度进行中心化和标准化;杂交种物种丰度G矩阵利用R语言tcrossprod(A)/ncol(A)计算得到;所有模型均采用10倍交叉验证,迭代次数为12000次,预烧为3000次,重复100次;利用验证集中基因组估计育种值与真实值之间的Pearson相关系数均值作为评价模型准确性的指标;所述的预测模型均利用R语言BGLR包实现。
2.根据权利要求1所述的玉米杂交种表型预测方法,其特征在于,所述的整合物种丰度、基因组SNP加性效应和显性效应的预测模型nr+Add+Dom为基于杂交种丰度矩阵的nr+Add+Dom模型。
3.根据权利要求1所述的玉米杂交种表型预测方法,其特征在于,所述的杂交种表型为单穗粒重、百粒重、穗长和穗粗。
4.根据权利要求1所述的玉米杂交种表型预测方法,其特征在于,步骤(3)中对玉米自交系根际土壤DNA进行处理的过程为:利用UltraTMDNA Library PrepKit构建DNA文库,利用Illumina novaseq 6000 PE150进行宏基因组测序,利用SOAPaligner 2.21分别将每个样品的高质量reads与非冗余基因集进行比对,计算基因在对应样品的丰度,利用diamond v0.9.19.120将非冗余基因集序列与NR数据库进行比对,根据比对结果进行物种注释并统计其丰度,将nr物种丰度缺失率>10%以及均值小于1的物种去掉,获得自交系的物种丰度矩阵。
5.根据权利要求1所述的玉米杂交种表型预测方法,其特征在于,步骤(2)中利用玉米5.5K液相芯片对玉米自交系进行基因型鉴定,测序平台为Illumina NovaSeq 6000;利用BWA软件将过滤的reads与玉米B73第4版参考基因(ftp://ftp.gramene.org/pub/gramene/CURRENT_RELEASE/fasta/zea_mays/dna/Zea_mays.AGP v4.dna.toplevel.fa.gzB73-v4)进行比对;利用GATK v4.1.2.0软件检测得到原始单核苷酸多态性标记;将无多态性、缺失和杂合的标记过滤后,将亲本基因型合并获得杂交种的基因型。
CN202311670146.2A 2023-12-07 2023-12-07 一种整合基因组和根际微生物组学数据的玉米杂交种表型预测方法 Pending CN117637023A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311670146.2A CN117637023A (zh) 2023-12-07 2023-12-07 一种整合基因组和根际微生物组学数据的玉米杂交种表型预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311670146.2A CN117637023A (zh) 2023-12-07 2023-12-07 一种整合基因组和根际微生物组学数据的玉米杂交种表型预测方法

Publications (1)

Publication Number Publication Date
CN117637023A true CN117637023A (zh) 2024-03-01

Family

ID=90037413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311670146.2A Pending CN117637023A (zh) 2023-12-07 2023-12-07 一种整合基因组和根际微生物组学数据的玉米杂交种表型预测方法

Country Status (1)

Country Link
CN (1) CN117637023A (zh)

Similar Documents

Publication Publication Date Title
Chung et al. Population structure and domestication revealed by high-depth resequencing of Korean cultivated and wild soybean genomes
AU2011261447B2 (en) Methods and compositions for predicting unobserved phenotypes (PUP)
Pace et al. Genomic prediction of seedling root length in maize (Zea mays L.)
CN106028794B (zh) 改良的分子育种方法
CN111128306B (zh) 一种罗非鱼基因组选择育种方法
BRPI0812744B1 (pt) Métodos para melhoramento molecular direcionado por sequência
CN108103235B (zh) 一种苹果砧木抗寒性鉴定的snp分子标记、引物及其应用
CN114292928B (zh) 一种与母猪繁殖性状有关的分子标记及筛选方法和应用
CN114015789A (zh) 一种东星斑抗病良种培育的基因组选择方法
Zhou et al. Development of a 50K SNP array for Japanese flounder and its application in genomic selection for disease resistance
Ng et al. The genome of Shorea leprosula (Dipterocarpaceae) highlights the ecological relevance of drought in aseasonal tropical rainforests
Zhang et al. A phased genome based on single sperm sequencing reveals crossover pattern and complex relatedness in tea plants
Skarzyńska et al. Genome-wide discovery of DNA variants in cucumber somaclonal lines
US20220205053A1 (en) Combination of Soybean Whole Genome SNP Loci, Gene Chip and Application Thereof
CN113421612A (zh) 玉米收获期籽粒含水量预测模型、其构建方法和相关snp分子标记组合
Ge et al. Genome-wide selection and introgression of Chinese rice varieties during breeding
CN106755413B (zh) 水稻氮素吸收利用位点qNUE6及其分子标记方法
CN111088389B (zh) 玉米叶宽紧密连锁的ssr分子标记及其扩增引物和应用
CN116844641A (zh) 基于全基因组选择预测甘蓝型油菜杂种优势的方法
CN107447022B (zh) 一种预测玉米杂种优势的snp分子标记及应用
CN113793637B (zh) 基于亲本基因型与子代表型的全基因组关联分析方法
CN117637023A (zh) 一种整合基因组和根际微生物组学数据的玉米杂交种表型预测方法
Alekya et al. Chapter-7 whole genome strategies for marker assisted selection in plant breeding
CN113981113B (zh) 鉴定三疣梭子蟹氨氮耐受性状的InDel标记C142、引物及其应用
CN117230246B (zh) 用于鉴定易结香沉香的核心snp标记及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination