CN107205352A - 改进的分子育种方法 - Google Patents
改进的分子育种方法 Download PDFInfo
- Publication number
- CN107205352A CN107205352A CN201580068850.8A CN201580068850A CN107205352A CN 107205352 A CN107205352 A CN 107205352A CN 201580068850 A CN201580068850 A CN 201580068850A CN 107205352 A CN107205352 A CN 107205352A
- Authority
- CN
- China
- Prior art keywords
- colony
- individual
- breeding
- merging
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009395 breeding Methods 0.000 title claims description 19
- 238000000034 method Methods 0.000 claims description 43
- 230000000694 effects Effects 0.000 claims description 35
- 239000003550 marker Substances 0.000 claims description 22
- 230000001488 breeding effect Effects 0.000 claims description 17
- 230000002068 genetic effect Effects 0.000 claims description 16
- 235000002017 Zea mays subsp mays Nutrition 0.000 claims description 14
- 240000008042 Zea mays Species 0.000 claims description 13
- 238000003976 plant breeding Methods 0.000 claims description 8
- 241000196324 Embryophyta Species 0.000 claims description 6
- 235000013339 cereals Nutrition 0.000 claims description 6
- 108090000623 proteins and genes Proteins 0.000 claims description 6
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 claims description 5
- 238000003975 animal breeding Methods 0.000 claims description 5
- 235000005822 corn Nutrition 0.000 claims description 5
- 238000003205 genotyping method Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 2
- 238000013179 statistical model Methods 0.000 claims description 2
- 235000014698 Brassica juncea var multisecta Nutrition 0.000 claims 1
- 235000006008 Brassica napus var napus Nutrition 0.000 claims 1
- 240000000385 Brassica napus var. napus Species 0.000 claims 1
- 235000006618 Brassica rapa subsp oleifera Nutrition 0.000 claims 1
- 235000004977 Brassica sinapistrum Nutrition 0.000 claims 1
- 108091033409 CRISPR Proteins 0.000 claims 1
- 229920000742 Cotton Polymers 0.000 claims 1
- 108020004414 DNA Proteins 0.000 claims 1
- 244000068988 Glycine max Species 0.000 claims 1
- 235000010469 Glycine max Nutrition 0.000 claims 1
- 244000299507 Gossypium hirsutum Species 0.000 claims 1
- 244000020551 Helianthus annuus Species 0.000 claims 1
- 235000003222 Helianthus annuus Nutrition 0.000 claims 1
- 240000005979 Hordeum vulgare Species 0.000 claims 1
- 235000007340 Hordeum vulgare Nutrition 0.000 claims 1
- 240000007594 Oryza sativa Species 0.000 claims 1
- 235000007164 Oryza sativa Nutrition 0.000 claims 1
- 241001520808 Panicum virgatum Species 0.000 claims 1
- 240000000111 Saccharum officinarum Species 0.000 claims 1
- 235000007201 Saccharum officinarum Nutrition 0.000 claims 1
- 240000006394 Sorghum bicolor Species 0.000 claims 1
- 235000011684 Sorghum saccharatum Nutrition 0.000 claims 1
- 241000219793 Trifolium Species 0.000 claims 1
- 235000021307 Triticum Nutrition 0.000 claims 1
- 244000098338 Triticum aestivum Species 0.000 claims 1
- 238000013480 data collection Methods 0.000 claims 1
- 230000004060 metabolic process Effects 0.000 claims 1
- 238000009400 out breeding Methods 0.000 claims 1
- 102000004169 proteins and genes Human genes 0.000 claims 1
- 235000009566 rice Nutrition 0.000 claims 1
- 238000009394 selective breeding Methods 0.000 claims 1
- 230000008685 targeting Effects 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 18
- 108700028369 Alleles Proteins 0.000 description 10
- 238000009826 distribution Methods 0.000 description 10
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 description 8
- 235000009973 maize Nutrition 0.000 description 8
- 238000011160 research Methods 0.000 description 6
- 238000004088 simulation Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 239000012141 concentrate Substances 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 241000228438 Bipolaris maydis Species 0.000 description 2
- 241000223195 Fusarium graminearum Species 0.000 description 2
- 229920002472 Starch Polymers 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- LINOMUASTDIRTM-QGRHZQQGSA-N deoxynivalenol Chemical compound C([C@@]12[C@@]3(C[C@@H](O)[C@H]1O[C@@H]1C=C(C([C@@H](O)[C@@]13CO)=O)C)C)O2 LINOMUASTDIRTM-QGRHZQQGSA-N 0.000 description 2
- 229930002954 deoxynivalenol Natural products 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 235000019698 starch Nutrition 0.000 description 2
- 239000008107 starch Substances 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- LINOMUASTDIRTM-UHFFFAOYSA-N vomitoxin hydrate Natural products OCC12C(O)C(=O)C(C)=CC1OC1C(O)CC2(C)C11CO1 LINOMUASTDIRTM-UHFFFAOYSA-N 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 208000035240 Disease Resistance Diseases 0.000 description 1
- 231100000678 Mycotoxin Toxicity 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 241000482268 Zea mays subsp. mays Species 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 235000015278 beef Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000008429 bread Nutrition 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 235000013365 dairy product Nutrition 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000012636 effector Substances 0.000 description 1
- 150000002085 enols Chemical class 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000009399 inbreeding Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 125000002950 monocyclic group Chemical group 0.000 description 1
- 239000002636 mycotoxin Substances 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000009987 spinning Methods 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A01—AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
- A01H—NEW PLANTS OR NON-TRANSGENIC PROCESSES FOR OBTAINING THEM; PLANT REPRODUCTION BY TISSUE CULTURE TECHNIQUES
- A01H1/00—Processes for modifying genotypes ; Plants characterised by associated natural traits
- A01H1/04—Processes of selection involving genotypic or phenotypic markers; Methods of using phenotypic markers for selection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Medical Informatics (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Developmental Biology & Embryology (AREA)
- Environmental Sciences (AREA)
- Botany (AREA)
- Physiology (AREA)
- Ecology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
- Exposure And Positioning Against Photoresist Photosensitive Materials (AREA)
- Image Analysis (AREA)
Abstract
披露了贝叶斯多水平全基因组回归模型,并将其预测性能与流行的BayesA模型相比应用于单独的每个群体(无合并)和联合数据集(完全合并)。对于小的群体大小(例如,<50),部分合并超越无合并或完全合并增加了在估计集中表示的群体的预测准确度。使用多水平模型的部分合并可以最佳利用在多群体估计集中的信息。
Description
背景
估计集大小是基因组预测准确度的重要决定因素。特别是在群体中,植物育种计划的特征在于高度的结构化。这阻碍了每个群体的大量估计集的建立。
在动物和植物育种中基因组选择的使用是基于产生准确的基因组估计育种值(GEBV)的能力。预测准确度的重要决定因素是估计集的大小。在动物育种方面,对于奶牛品种像迄今为止应用基因组选择最为成功的荷斯坦奶牛(Holstein Friesian),汇编大的单品种估计集比较直截了当。然而,对于一些奶牛品种,特别是对于肉牛品种,汇编足够大小的单品种估计集往往是不可能的。因此,通过将来自几个品种的数据合并在一起创建多品种估计集具有重大意义并且是主动研究的主题。
植物育种也存在类似的情况,其特征在于育种者诱导结构的程度高。这种结构起因于保持不同杂种优势群以最大限度利用杂种优势的重要性,起因于不同的双亲育种群体的使用以及针对特异性性状或环境的专门育种计划的需要。这要求将育种计划可用的表型分型和基因型分型资源必须分配给多个群体,这可以防止为每个群体创建大的估计集。因此,几项研究调查了组合多个群体或甚至杂种优势群的合并估计集的优点。
然而,合并估计集由于群体间遗传性质的差异(例如与连锁不平衡、等位基因频率或关系结构有关的)而变得复杂。这可能是在植物和动物育种中使用合并估计集在一些应用中未能增加预测准确度的原因。
附图说明
图1是多水平模型(A)和传统的BayesA模型(B)的图形可视化。
图2是用于评估预测准确度的测试策略的图形可视化。估计集包括来自群体P1和P2的Λ1和Λ2(集П)。从Λ1和Λ2计算在估计集(rΠ)中表示的来自群体的系的预测准确度,来自P3和P4中的系的估计集(集)中未表示来自群体的系的预测准确度。
详细说明
已经提出为每个群体使用单独的估计集,但是使用来自其他群体的数据来导出基因组位置特异性先验。以这种方式,可以考虑每个群体的独特的基因组特征,同时仍然使用来自其他群体的信息。类似的,更正式的方法是由贝叶斯多水平模型促成的部分合并。在多水平模型中,针对每个群体估计特异性标记效应。然而,与非特异性标记效应同时地,从所有群体的数据估计可能被解释为总体或非特异性标记效应的这些特异性标记效应的先验平均值。由于特异性标记效应在总体效应上收缩,所以前者在一定程度上依然通过来自其他群体的数据获知。因此部分合并采取了一种中间路线,其介于无合并(仅从特异性群体的数据估计的特异性标记效应)和完全合并(从合并估计集估计的共同标记效应)之间。
合并群体增加估计集大小,但忽略每个群体的独特遗传特征。一个可能的解决方案是用多水平模型进行部分合并,这样允许估算群体特异性标记效应,同时仍然利用群体间的信息。
目的是(i)证明使用贝叶斯多水平全基因组回归模型可进行基因组预测,以及(ii)调查部分合并可能优于估计集的无合并或完全合并的情境。这些调查是基于两个公开可获得的玉米育种数据集,并由模拟研究提供支持。
材料和方法
多水平全基因组回归模型
拟合数据的统计模型是
其中yij是来自第j个群体的第i个个体的观测的表型值,且μij是其线性预测值。表型数据yij以平均值零为中心,并缩放为单位方差。用作数据模型的正态密度函数表示为N,表示剩余方差。共同截距为β0。最后,ujk表示在群体j中第k个双等位基因的单核苷酸多态性(SNP)标记的累加效应。来自群体j的个体i在标记k处的基因型由zijk表示,并且其表示参考等位基因的数量,以参考等位基因频率的两倍为中心。选择哪个等位基因作为参考等位基因取决于数据集,且如下所述。效应ujk只有当对应的标记k在群体j中具有多态性时得以估计。否则它被设置为0并被视为常数。
分层先验分布设置的图形显示如图1A所示。ujk的先验是
其中uk是第k个标记的总体效应,而方差参数量化了来自uk的特异性效应ujk的偏差。向uk的收缩越强,越小。uk和两个参数本身与先验分布相关联并且从数据估计而来。对于uk这是这里,方差参数σk 2控制向0收缩的量。它与具有4.001自由度和尺度参数S2的缩放逆卡方先验相关联。因此,对于uk的先验对应于“BayesA”先验。
对于方差参数
γk~N(m,d2,0<a,b=∞) 3)
这是关于γk的正态分布先验,其中平均值参数为m且标准偏差为d,左截尾为零。作为m、d和截尾点a和b的函数的截尾分布N(m,d2,0<a,b=∞)的平均值可以被解释为来自uk的特异性标记效应ujk的“典型”偏差。N(m,d2,0<a,b=∞)的平均值的较高值表示较大的偏差,反之亦然。因此,此参数可以用于量化群体散度。
对于超参数S2、m和d,使用均匀先验Uni(0.001,0.5)。截距β0的先验是具有平均值0和非常大的方差的正态分布。对于剩余方差指定了对σe在间隔[0,1]上的均匀分布先验,这与方差分量上的无信息先验的建议一致。
来自后验分布的样本用吉布斯(Gibbs)采样绘制,在JAGS吉布斯采样环境中实施。用于推断的样本总数为1000,从长度为510000的单个链抽取。将前10000个样本作为退火(burn in)丢弃,并且仅将每第500个随后的样本进行存储。这些设置确保了所有参数(uk和ujk的ESS通常>500)的收敛和>100的有效样本大小(ESS)。
ESS用R程序包CODA计算,该R程序包CODA也用于使用诊断图监测收敛。
常规全基因组回归模型
使用贝叶斯全基因组回归方法“BayesA”,对超参数S2进行修改(参见图1B的图解表示)。线性模型是
其与模型(1)相同,除了将群体指数j从标记效应uk除去。对于无合并,该模型依次应用于每个群体,用于完全合并到联合数据集。对于σe 2,使用了自由度为-1和尺度等于零的不当缩放逆卡方先验。这相当于关于σe的均匀先验,如同用于多水平模型,但是利用共轭。
将BayesA吉布斯采样器作为与R统计软件环境兼容的C程序实施。再次,用于推断的样本总数为1000,从长度为510000的单个链中抽取,退火为10000,稀疏(thinning)间隔为500。
估计、预测和测试程序
П表示在估计集中表示的P个群体的集且在П中来自群体的Np个个体的集为Λp,其中p指示П中的群体。在图2给出了图解表示。而且,将来自П中的、不存在于Λp中的群体的那些个体表示为并且将不存在于П中的群体的集表示为在中的群体被称为“新”群体。因此,对于p∈П,估计集包括属于Λp的所有个体。测试集用于计算预测准确度,包括来自П中的群体的中的个体和来自在中的群体的所有个体。测试个体的表型观测值在估计程序中被掩盖。随机将群体分为П和并且将群体内的个体随机分为Λp和
在每个群体中,预测准确度被计算为在测试集中个体的GEBV与观测到的表型值之间的相关性。随后,对于П和中的群体,对群体内预测准确度进行平均。此后,将这些群体内预测准确度平均值表示为rΠ和因此,r∏和分别对应于估计集中表示和未表示的群体的预测准确度。
当使用部分合并时,使用针对相应群体估计的标记效应(即,ujk)的后验平均值预测Λp中的个体的GEBV。使用总体(非特异性)标记效应uk的后验平均值预测来自中群体的个体的GEBV。
当使用完全合并时,测试集中所有个体的GEBV从用模型(4)的联合数据集估计的标记效应uk的后验平均值进行预测。
最后,当使用无合并时,Λp中的个体的GEBV使用在将模型(4)应用于相应集Λp的估计数据之后获得的标记效应uk的后验平均值进行预测。无合并方法没有提供预测来自中群体的个体的GEBV的直接方法。因此,对于无合并方法没有评估
应用于嵌套关联映射(NAM)玉米群体
NAM数据集从http://www.panzea.org获得。它包括从遗传多样化的一组玉米近交系和B73系作为共同亲本之间的25个双亲杂交的4699个重组近交系(RIL)。平均群体大小为188。用覆盖整个基因组的1106个多态性SNP标记对RIL进行基因分型。将非B73等位基因被定义为参考等位基因。所有SNP均为双等位基因,因此参考等位基因对应于所有25个群体中相同的核苷酸。为了方便计算,使用了285个标记的稀疏集(thinned set),以平均每5cM间隔有一个标记的这样的方式进行选择。每10cM间隔有一个标记的密度对于NAM群体中的基因组预测是足够的。多环境田间试验中,对性状吐丝期(DS)、果穗高度(EH)、果穗长度(EL)、小斑病抗性(SLB)、近红外淀粉测量(NS)和上叶角(ULA)进行了分析和表型分型。用于拟合模型的表型记录是单环境表型的平均值。DS、EH、EL、SLB、NS和ULA的环境数量分别为10、11、8、3、7和9。所选择的性状代表可获得的主要性状类别:产量组分(EL)、农艺学(EH)、抗病性(SLB)、开花(DS)、质量(NS)和形态学(ULA)。
为了调查估计集中的系的总数N、群体数量P和每个群体中系的数量Np对合并方法的预测准确度和相对性能的影响,考虑了P和Np的以下组合:P=5且Np=50和100,P=10且Np=25、50和100,P=20且Np=12.5、25和50。对于P=20且Np=12.5,我们抽取了19个群体,每个群体具有12个个体,且一个群体有22个个体,这导致平均Np为12.5。因此,P和Np组合产生了250、500或1000的N。对于性状的每个组合P和Np,如上所述通过重复П和Λp的抽样产生50个估计测试数据集。自始至终,将三种合并方法应用于相同的数据集。因此,不同数据集之间的抽样变化不会进入合并方法之间的比较。
应用于相互联系的双亲(IB)玉米群体
该数据集从Riedelsheimer等人(2013)的补充信息中获得。它包括来自五个平均大小为127的双亲群体的635个双单倍体(DH)系。群体来自四个欧洲硬粒型自交系之间的杂交。对于所有DH系,可获得16741个群体间多态性的SNP标记。缺失的标记基因型以两倍于参考等位基因的频率被替换,该参考等位基因是具有较低频率的等位基因。当分析数据时,我们使用了285个标记的稀疏集。因为数据集不包括标记的图谱,所以随机地选择标记。
DH系在多环境田间试验中针对Giberella穗腐病严重性(GER)(由禾谷镰刀菌(Fusarium graminearum)引起的真菌病)、脱氧雪腐镰刀菌烯醇含量(DON,由真菌产生的主要霉菌毒素)、果穗长度(EL)、粒行数(KR)和每行粒数(KpR)进行表型分型。该数据集的更详细的描述可以在Riedelsheimer等人(2013)和Martin等人(2012)中找到。
如上所述,将群体随机分为Λp和但是,由于总共只有5个群体,不排除来自П的群体。因此集是空集,且没有被评估。
集Λp包括每个群体中25%、50%和75%的系,其分别对应于31、63和95的平均Np。对于估计个体的每个性状和百分比值,产生100个估计测试数据集,每次还是重新抽样285个标记的子集。
应用于模拟的数据集
进行了模拟研究来专门调查群体中在QTL效应的差异水平增加的情况下合并方法的性能。模拟的基础是NAM群体中系的标记基因型。为了模拟遗传值,随机地选择20个标记位点作为QTL,其随后从观测到的标记的集中移除。从标准正态分布中提取累加总体效应aq。然后,群体特异性QTL效应ajq从N(aq,τq 2)中抽样。选择方差参数τ2使得相对标准偏差(rSD)即τq/aq等于2、1、0.5、0.25和0.0。rSD越大,群体特异性QTL效应越不相似。根据每个个体的QTL基因型通过对QTL效应ajq进行求和获得真实的遗传值。最后,通过将正态分布的噪声变量相加到真实的遗传值来模拟表型值。选择噪声变量的方差使得群体间的遗传力等于0.70。家族遗传力的平均值必然随着rSD的降低而增加,在rSD 2、1、0.5、0.25和0.0处分别为0.53、0.58、0.64、0.68和0.70。
集П包括P=10个群体且集Λp具有大小Np=25。对于每个rSD值,产生了50个估计测试数据集。对于每个数据集,重新随机产生QTL位置和效应。在这种情况下也使用了285个标记的稀疏集。因为真实的遗传值是已知的,rП和被计算为真实的遗传值和GEBV之间的相关性。
结果
NAM玉米群体
趋势通常在性状之间保持。因此,提供和讨论的结果适用于所有性状,除非另有说明。
在保持N恒定的同时增加Np(即在估计集中具有较少但较大的群体)通常增加rП并减少(表1)。然而,r∏的增加比减少远远更加显著。
当增加Np且P为常数时或当增加P且Np为常数时,rП和两者都增加(表1)。然而,在第一种情况下,rП和以同样的幅度增加,在第二种情况下,rП的增加远远小于的增加,特别是当Np很高时。根据定义,只要Np保持恒定,预期无合并的准确度不会改变。
对于低P和高Np,例如P=5且Np=100,无合并达到最高rП且完全合并达到最低(表1)。对于高P和低Np,例如P=20且Np=25,部分合并达到最高rП。这里无合并导致最低rП。对此唯一的例外是性状DS,该DS中对于低Np无合并具有等于或高于部分和完全合并的rΠ。
对于新群体,部分和完全合并实现了几乎相同的预测准确度(表1)。一般来说,特定的合并方法的比相应的rП要低得多。对于高Np,在rП和之间的差异趋于较大。
表1:NAM玉米群体的群体内测准确度平均值。显示的值是测试个体的群体内预测准确度平均值,对超过50个随机估计-测试数据分割进行了平均。标准误差为<0.013。P给出了集П的大小,即估计集中表示的群体数,列Np给出了用于估计的П中每个群体的个体数,即集Λp的大小。性状为:吐丝期(DS)、果穗高度(EH)、果穗长度(EL)、小斑病抗性(SLB)、近红外淀粉测量(NS)和上叶角(ULA)。
IB玉米群体
对于所有性状和合并方法,预测准确度r∏随着Np的增加而增加(表2)。在性状上的平均,无合并的增加最大,其中准确度从在Np=31时的平均值0.35增加到在Np=95时的0.48。部分和完全合并方法的准确度分别从在Np=31时的0.39和0.38增加到在Np=95时的0.48。
在Np=31时,对于性状EL、KpR部分合并最高,对于性状DON和KR,完全合并最高rП。对于GER,两者都具有相同的准确度。无合并方法具有最低的rП,除了EL和KpR之外,在EL和KpR中其与完全合并具有相同的准确度。对于95的最高Np,合并方法之间的准确度差异减小。部分合并对于EL和KpR仍然具有最高的准确度,与对于DON和GER的完全合并相同。虽然不比部分合并更好,但是对于EL和KpR,无合并比完全合并具有更高的预测准确度。
表2:在相互关联的双亲玉米群体中的群体内预测准确度平均值。显示的值是测试个体的群体内预测准确度平均值,对超过100个随机估计-测试数据分割进行了平均。标准误差为<0.01。Np表示估计集中每个群体的个体平均数量。性状是果穗长度(EL)、脱氧雪腐镰刀菌烯醇含量(DON)、Giberella穗腐病严重性(GER)、粒行数(KR)和每行粒数(KpR)。
模拟的玉米群体
对于所有合并方法,rΠ随着rSD减少而增加(表3)。然而,无合并的增加相对较小,是随着rSD减少而家庭遗传力增加的结果。合并方法的相对性能也取决于rSD。对于考虑的最高rSD值,无合并具有最高rΠ,对于1.0的中间rSD值,部分合并具有。对于较低的rSD值,完全和部分合并实现了类似的高rП。
对于部分和完全合并两者,也随着rSD的减少而剧烈增加,且与rП的差异减小(表3)。部分和完全合并实现了几乎相同的
对于参数γk的截尾的正态分布先验N(m,d2,0<a,b=∞)的平均值随着rSD的增加而增加。对于0.0、0.25、0.5、1.0和2.0的rSD,其平均值分别为0.0111、0.0153、0.0190、0.0269和0.0296。
表3:模拟的玉米群体的平均预测准确度。显示的值是测试个体的群体内预测准确度平均值,对超过50个随机估计-测试数据分割进行了平均。标准误差为<0.015。rSD是模拟的群体特异性QTL效应的相对标准偏差。
讨论
合并方法的比较
部分合并允许估计群体特异性标记效应,同时仍然促进群体间信息的“借用”。因此,它是无合并和完全合并之间的折衷,无合并模拟了每个群体的独特特征但忽略了共享信息,完全合并则恰恰相反。
当群体大小Np足够大时,从来自相同群体(rΠ)的新个体获得高预测准确度不需要从其他群体借用信息。那么,通过与其他群体合并进一步扩大估计集可能甚至是有害的。这就解释了为什么当Np很大(例如>=50)时,特别是在NAM群体中,无合并是最准确的方法,以及为什么其最有益于Np的增加。因此,如果由于预算或其他限制Np很小,则估计集的合并是最有前途的。据观测,当Np很小(例如,<50)时,合并比无合并更加准确。由于可获得来自更多群体的信息(其不用于无合并方法中),两种合并方法中任一种相对于无合并的优势也随着P的增加而增加。因此,当P比较高且Np很低时,预期合并最为有利。部分合并或完全合并是否是更好的方法将取决于合并群体的相似性。相似性越大,预期执行完全合并相对更好,因为估计群体特异性标记效应的能力变得不那么重要。在这种情况下,部分合并甚至可能是不利的,因为它需要估计多得多的效应,这可能导致与不可识别性相关的问题。IB群体的亲本来自相同的育种计划,而NAM群体的非共同亲本被选择以最大化多样性,且包括温带、热带和特产(甜玉米和爆粒玉米)玉米种质。因此,适应群体的独特特征在NAM中比在IB中更为重要,这可能解释了为什么在前者中完全合并总是不如部分合并,而在后者中通常相等甚至更优,以及为什么在IB中即使对于大的Np无合并从未达到最高预测准确度。
在NAM数据集中性状之间的合并方法的相对性能非常稳定,除了DS之外。即使在高P和低Np下,对于这种性状,无合并方法通常更优越。Buckler等人(2009)发现在NAM群体中用于DS鉴定的QTL等位基因系列的证据。因此,虽然QTL的位置在群体之间是保守的,但它们的效应非常不同。可能的原因是通过遗传背景相互作用存在多个等位基因或QTL。在这种情况下,预期数据的合并不具有超过无合并的优势。这个实例还表明,关于是否合并数据的决定必须以性状为基础进行,并且应该结合有关遗传结构的先验知识(如果有的话)。
来自模拟研究的结果也加强了合并方法的相对性能对群体间遗传效应相似性的依赖性。还据观测,均先验分布N(m,d2,0<a,b=∞)的平均值随着群体特异性QTL效应中模拟差异的增加而增加,该先验分布量化来自总体效应uk的特异性标记效应ujk的偏差。这是预期的,但表明数据对高水平超参数有益。对P和Np进行平均,该平均值在NAM中对于DS和ULA是最大的(结果未显示)。这可能反映了对于DS,在群体特异性QTL效应之间的显著差异。然而,性状ULA没有偏离对于剩余性状观测到的预测准确度模式,并且似乎没有像在DS中的等位基因系列的任何强烈指示。在N(m,d2,0<a,b=∞)的平均值和在IB中合并方法的性能之间也没有明显的关系(结果未显示)。
对群体的独特特征建模需要在估计集中表示这些群体。因此,在部分和完全合并两者中,来自П的新群体的个体的预测必须依赖于总体、非特异性标记效应uk。因此,预期两者对新群体实现了非常相似的预测准确度
这些结果表明,部分合并能够模拟估计集中的群体的独特特征,而不会在来自新群体的个体的预测能力方面折衷。
这项研究例证了在多群体(与植物和动物育种高度相关的情境)背景下可使用多水平模式进行部分合并。然而,该概念容易适用于广泛的情境。实例是跨越多个顶交测试者或环境的合并数据,这在植物育种中特别相关。将模型扩展到两个以上的水平也是简单的,例如用于从多个杂种优势群或育种程序合并多个群体。
估计集的组成
增加估计集中群体的个体数量(Np)总是增加来自相同群体的未经测试个体的预测准确性(rΠ),无论是(部分和完全合并)否(不合并)通过来自其他群体的个体进一步扩大估计集。
然而,由于植物育种计划必须在预算约束下运作,所以资源的最佳分配对于最大化基因组选择的潜力是非常重要的。使用用于表型分型的、与N成比例的固定预算,在N=P·Np的约束下,必须优化群体数量P和每个群体中个体数量Np。可以使用关于对选择的响应和在估计集(分别为rΠ和)中表示和未表示的群体的不同预测准确度进行解释的基本理论来实现这种优化。据此,一个关键点在于,rΠ将随着Np的增加而增加,但是由于P的减少,它将适用于较少的群体。这种情况由于我们观测到的与P的减少有关的均减少而加剧。因此,如果群体的总数量很大,如植物育种计划中通常是这种情况,具有非常低的P可能是不希望的。在植物育种的背景下,这项研究表明,如果群体相关并且存在合并非常不同的种质的优点的证据,那么群体间的合并数据可以至少部分地补偿低Np。因此,使用合并估计集具有允许高P而不会对rΠ折衷太多的潜力。这项研究表明,通过对合并估计集中的信息的最佳利用,采用多水平模型的部分合并可以进一步增强这一潜力。
Claims (10)
1.一种用于在育种程序中选择个体并用于对所选个体进行育种的方法,所述方法包括:
a.通过以下方式构建用于全基因组预测和分别选择的优化估计数据集:
i.选择和合并预定义的群体候选集,所述预定义的候选集选自育种杂交,并且从靶向用于选择的个体的综合列表中选择每个育种杂交中的个体进行表型分型,其中基因型信息可用于所有候选个体;
ii.在主动人工选择、特异性遗传相似性或散度量度下,使用群体和性状特异性估计的QTL效应的目标函数,针对育种杂交群体和育种性状进行计算;
iii.构建在合并的群体数量和每个群体内的单独个体方面优化的估计数据集;并且
iv.使用无合并、部分合并或完全合并统计模型作为目标遗传相似性或散度标准的函数;
b.在优化的估计数据集中对候选者进行表型分型;
c.在多种标记处对育种个体进行基因型分型;
d.使用优化的估计数据集中候选者的表型,获得基因分型的育种个体的基因组估计育种值;
e.基于以通过无合并、部分合并或完全合并的优化估计集为条件生成的基因组估计育种值,在选择个体的基因分型的候选者的完整集内进行选择;并且
f.使用该选择个体中的至少一个来对该选择个体中的至少另一个进行育种。
2.如权利要求1所述的方法,其中候选者的所述基因型信息经由使用SNP标记进行的基因分型来获得。
3.如权利要求1所述的方法,其中所述育种个体是纯合的。
4.如权利要求1所述的方法,其中所述植物选自:玉米、大豆、向日葵、高粱、卡诺拉、小麦、苜蓿、棉花、水稻、大麦、粟、甘蔗和柳枝稷。
5.如权利要求1所述的方法,其中所述育种个体是动物。
6.如权利要求1所述的方法,其中将该方法应用于植物育种。
7.如权利要求1所述的方法,其中将该方法应用于动物育种。
8.如权利要求1所述的方法,该方法进一步包括遗传多样性群体,该遗传多样性群体包括携带一种或多种转基因的个体。
9.如权利要求1所述的方法,该方法进一步包括遗传多样性群体,该遗传多样性群体包括具有用Cas9编辑的DNA的个体。
10.如权利要求1所述的方法,其中该候选者的所述基因型信息通过对基因表达、代谢物浓度或蛋白质浓度进行分析来获得。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462093713P | 2014-12-18 | 2014-12-18 | |
US62/093713 | 2014-12-18 | ||
PCT/US2015/064881 WO2016100061A1 (en) | 2014-12-18 | 2015-12-10 | Improved molecular breeding methods |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107205352A true CN107205352A (zh) | 2017-09-26 |
Family
ID=56127382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580068850.8A Pending CN107205352A (zh) | 2014-12-18 | 2015-12-10 | 改进的分子育种方法 |
Country Status (9)
Country | Link |
---|---|
US (1) | US11980147B2 (zh) |
CN (1) | CN107205352A (zh) |
AR (1) | AR103075A1 (zh) |
AU (1) | AU2015362942B2 (zh) |
BR (1) | BR112017012891B1 (zh) |
CA (1) | CA2968120A1 (zh) |
CL (1) | CL2017001538A1 (zh) |
MX (1) | MX2017007712A (zh) |
WO (1) | WO2016100061A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108371105A (zh) * | 2018-03-16 | 2018-08-07 | 广东省农业科学院水稻研究所 | 一种基于核心系谱品种的高密度分子标记辅助聚合育种方法 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107177691B (zh) * | 2017-07-14 | 2019-11-22 | 中国农业科学院棉花研究所 | 用于辅助选择棉花优异亲本遗传背景的snp标记及其检测方法 |
CN108707683B (zh) * | 2018-04-16 | 2021-12-21 | 张家口市农业科学院 | 与谷子穗长性状相关的snp标记及其检测引物和应用 |
BR112021017998A2 (pt) | 2019-03-11 | 2021-11-16 | Pioneer Hi Bred Int | Métodos para a produção de plantas clonais |
WO2020197891A1 (en) | 2019-03-28 | 2020-10-01 | Monsanto Technology Llc | Methods and systems for use in implementing resources in plant breeding |
CN110853711B (zh) * | 2019-11-20 | 2023-09-12 | 云南省烟草农业科学研究院 | 一种预测烟草果糖含量的全基因组选择模型及其应用 |
CN111223520B (zh) * | 2019-11-20 | 2023-09-12 | 云南省烟草农业科学研究院 | 一种预测烟草尼古丁含量的全基因组选择模型及其应用 |
CN110782943B (zh) * | 2019-11-20 | 2023-09-12 | 云南省烟草农业科学研究院 | 一种预测烟草株高的全基因组选择模型及其应用 |
CN110853710B (zh) * | 2019-11-20 | 2023-09-12 | 云南省烟草农业科学研究院 | 一种预测烟草淀粉含量的全基因组选择模型及其应用 |
CN111243667B (zh) * | 2020-03-18 | 2020-10-16 | 中国农业科学院北京畜牧兽医研究所 | 华西牛基因组选择方法 |
CN114304057B (zh) * | 2021-12-23 | 2022-11-22 | 深圳市金新农科技股份有限公司 | 一种针对体尺性状的分子选育方法及其应用 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101583956A (zh) * | 2007-01-17 | 2009-11-18 | 先正达参股股份有限公司 | 用于选择个体和设计育种程序的方法 |
US20100095394A1 (en) * | 2008-10-02 | 2010-04-15 | Pioneer Hi-Bred International, Inc. | Statistical approach for optimal use of genetic information collected on historical pedigrees, genotyped with dense marker maps, into routine pedigree analysis of active maize breeding populations |
US20140123330A1 (en) * | 2012-10-30 | 2014-05-01 | Recombinetics, Inc. | Control of sexual maturation in animals |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050144664A1 (en) | 2003-05-28 | 2005-06-30 | Pioneer Hi-Bred International, Inc. | Plant breeding method |
US20080163824A1 (en) | 2006-09-01 | 2008-07-10 | Innovative Dairy Products Pty Ltd, An Australian Company, Acn 098 382 784 | Whole genome based genetic evaluation and selection process |
EP2266067A4 (en) | 2008-02-26 | 2011-04-13 | Purdue Research Foundation | METHOD OF PATIENT GENOTYPING |
DE102008000715B9 (de) | 2008-03-17 | 2013-01-17 | Sirs-Lab Gmbh | Verfahren zur in vitro Erfasssung und Unterscheidung von pathophysiologischen Zuständen |
GB201110888D0 (en) | 2011-06-28 | 2011-08-10 | Vib Vzw | Means and methods for the determination of prediction models associated with a phenotype |
US11107551B2 (en) | 2013-06-14 | 2021-08-31 | Keygene N.V. | Directed strategies for improving phenotypic traits |
BR112016015033B1 (pt) | 2013-12-27 | 2022-09-06 | Pioneer Hi-Bred International, Inc | Método para selecionar indivíduos vegetais |
WO2015155607A2 (en) | 2014-03-13 | 2015-10-15 | Sg Biofuels, Limited | Compositions and methods for enhancing plant breeding |
-
2015
- 2015-12-10 CN CN201580068850.8A patent/CN107205352A/zh active Pending
- 2015-12-10 US US15/536,556 patent/US11980147B2/en active Active
- 2015-12-10 BR BR112017012891-8A patent/BR112017012891B1/pt active IP Right Grant
- 2015-12-10 WO PCT/US2015/064881 patent/WO2016100061A1/en active Application Filing
- 2015-12-10 MX MX2017007712A patent/MX2017007712A/es unknown
- 2015-12-10 CA CA2968120A patent/CA2968120A1/en not_active Abandoned
- 2015-12-10 AU AU2015362942A patent/AU2015362942B2/en active Active
- 2015-12-17 AR ARP150104149A patent/AR103075A1/es unknown
-
2017
- 2017-06-14 CL CL2017001538A patent/CL2017001538A1/es unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101583956A (zh) * | 2007-01-17 | 2009-11-18 | 先正达参股股份有限公司 | 用于选择个体和设计育种程序的方法 |
US20100095394A1 (en) * | 2008-10-02 | 2010-04-15 | Pioneer Hi-Bred International, Inc. | Statistical approach for optimal use of genetic information collected on historical pedigrees, genotyped with dense marker maps, into routine pedigree analysis of active maize breeding populations |
US20140123330A1 (en) * | 2012-10-30 | 2014-05-01 | Recombinetics, Inc. | Control of sexual maturation in animals |
Non-Patent Citations (6)
Title |
---|
ANDREW GELMAN: "Multilevel (Hierarchical) Modeling:What It Can and Cannot Do", 《TECHNOMETRICS》 * |
JEAN-LUC JANNINK等: "Genomic selection in plant breeding: from theory to practice", 《BRIEFINGS IN FUNCTIONAL GENOMICS》 * |
T. SCHULZ-STREECK等: "Genomic Selection using Multiple Populations", 《CROP SCIENCE》 * |
张勤: "《动物重要经济性状基因的分离与应用》", 29 February 2012, 中国农业大学出版社 * |
张振明等: "多水平贝叶斯模型预测森林土壤全氮", 《生态学报》 * |
李恒德等: "基因组选择及其应用", 《遗传》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108371105A (zh) * | 2018-03-16 | 2018-08-07 | 广东省农业科学院水稻研究所 | 一种基于核心系谱品种的高密度分子标记辅助聚合育种方法 |
CN108371105B (zh) * | 2018-03-16 | 2019-10-25 | 广东省农业科学院水稻研究所 | 一种基于核心系谱品种的高密度分子标记辅助聚合育种方法 |
Also Published As
Publication number | Publication date |
---|---|
CA2968120A1 (en) | 2016-06-23 |
AU2015362942A1 (en) | 2017-06-08 |
MX2017007712A (es) | 2017-10-27 |
US20170359978A1 (en) | 2017-12-21 |
CL2017001538A1 (es) | 2018-02-23 |
WO2016100061A1 (en) | 2016-06-23 |
AU2015362942B2 (en) | 2022-02-17 |
AR103075A1 (es) | 2017-04-12 |
BR112017012891A2 (pt) | 2018-01-30 |
US11980147B2 (en) | 2024-05-14 |
BR112017012891B1 (pt) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107205352A (zh) | 改进的分子育种方法 | |
Cooper et al. | Use of crop growth models with whole‐genome prediction: application to a maize multienvironment trial | |
Kearsey et al. | Genetical analysis of quantitative traits | |
Rutkoski | A practical guide to genetic gain | |
Jolliffe | The replacement series | |
Heffner et al. | Genomic selection accuracy using multifamily prediction models in a wheat breeding program | |
Riedelsheimer et al. | Optimizing the allocation of resources for genomic selection in one breeding cycle | |
Mayor et al. | Genomewide selection and marker‐assisted recurrent selection in doubled haploid versus F2 populations | |
Zapata-Valenzuela et al. | SNP markers trace familial linkages in a cloned population of Pinus taeda—prospects for genomic selection | |
Beckett et al. | Genetic relatedness of previously Plant-Variety-Protected commercial maize inbreds | |
Auvray et al. | Genomic prediction of breeding values in the New Zealand sheep industry using a 50K SNP chip | |
Lehermeier et al. | Genomic variance estimates: With or without disequilibrium covariances? | |
Sawler et al. | Genomics assisted ancestry deconvolution in grape | |
Marzario et al. | Molecular genotyping (SSR) and agronomic phenotyping for utilization of durum wheat (Triticum durum Desf.) ex situ collection from Southern Italy: a combined approach including pedigreed varieties | |
Montesinos‐López et al. | Multivariate Bayesian analysis of on‐farm trials with multiple‐trait and multiple‐environment data | |
AU2011261447A1 (en) | Methods and compositions for predicting unobserved phenotypes (PUP) | |
Condón et al. | Effect of advanced cycle breeding on genetic diversity in barley breeding germplasm | |
Brancourt‐Hulmel et al. | A diagnosis of yield‐limiting factors on probe genotypes for characterizing environments in winter wheat trials | |
Juma et al. | Identification of an elite core panel as a key breeding resource to accelerate the rate of genetic improvement for irrigated rice | |
Akond et al. | A comparison on some interval mapping approaches for QTL detection | |
Gallien et al. | Is there any evidence for rapid, genetically-based, climatic niche expansion in the invasive common ragweed? | |
Yu et al. | Genomic prediction of maize microphenotypes provides insights for optimizing selection and mining diversity | |
Kharrat-Souissi et al. | The polyploid nature of Cenchrus ciliaris L.(Poaceae) has been overlooked: new insights for the conservation and invasion biology of this species–a review | |
Viana et al. | Efficiency of genomic prediction of non-assessed single crosses | |
Fonseca et al. | Assessing combining abilities, genomic data, and genotype× environment interactions to predict hybrid grain sorghum performance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170926 |
|
RJ01 | Rejection of invention patent application after publication |