CN101583956B - 用于选择个体和设计育种程序的方法 - Google Patents
用于选择个体和设计育种程序的方法 Download PDFInfo
- Publication number
- CN101583956B CN101583956B CN2008800024634A CN200880002463A CN101583956B CN 101583956 B CN101583956 B CN 101583956B CN 2008800024634 A CN2008800024634 A CN 2008800024634A CN 200880002463 A CN200880002463 A CN 200880002463A CN 101583956 B CN101583956 B CN 101583956B
- Authority
- CN
- China
- Prior art keywords
- breeding
- generation
- genetic
- genotype
- gametophyte
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
- C12Q1/6895—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for plants, fungi or algae
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/13—Plant traits
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Organic Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Mycology (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Botany (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Breeding Of Plants And Reproduction By Means Of Culturing (AREA)
Abstract
目前公开的主题提供用于改善旨在改变可与遗传标记建立关联的表型性状的植物育种程序之功效的方法。根据个体的标记基因型和在遗传标记和表型性状之间建立的关联计算个体的全基因组遗传值。然后根据个体的全基因组遗传值和这些遗传值的分布两者,为经由评估中的育种方案衍生的潜在后代选择个体和育种方案。目前公开的主题还提供用于进行所公开的方法的系统和计算机程序产品以及由本文中的任何方法选择的、提供的或产生的植物和由本文中的任何方法创建的转基因植物。
Description
发明领域
目前公开的主题涉及用于改善植物育种程序的功效的方法。在一些实施方案中,植物育种程序旨在改变可与遗传标记建立关联的表型性状。可根据个体的标记基因型和在遗传标记和表型性状之间建立的关联来计算个体的遗传值。然后可根据个体的全基因组(genome-wide)遗传值和这些遗传值的分布两者,为经由评估中的交配方案衍生的潜在后代选择个体和交配方案。目前公开的主题还涉及用于进行所公开的方法的系统和计算机程序产品以及由所公开的方法选择的、提供的或产生的植物和由所公开的方法创建的转基因植物。
发明背景
数个世纪以来一直采用选择育种来改善或试图改善植物中农艺学和经济学方面感兴趣的表型性状,诸如产率,谷物油的百分比等。一般而言,选择育种牵涉根据一种或多种感兴趣的表型性状来选择个体以充当下一世代的亲本。然而,此类表型选择通常由于可影响感兴趣表型的非遗传因素而变得复杂。可具有此类效果的非遗传因素包括但不限于环境影响诸如土壤类型和性质、降雨量、温度范围等。
依赖于表型选择的育种策略的另一个重要问题在于大多数感兴趣的表型性状受到超过一处遗传基因座控制,每处这些遗传基因座通常或多或少地影响给定的性状。例如,Beavis的美国专利No.6,399,855提示驯化的植物中的大多数经济学方面重要的表型性状是所谓的数量性状。一般而言,术语“数量性状”已经被用于描述在表达方面展现出持续变异而且是据推测彼此相互作用和/或与环境相互作用的多处遗传基因座的净结果的表型。术语“复杂性状”(complex trait)也已经被广泛用于描述没有展现出经典孟德尔遗传的任何性状,所述经典孟德尔遗传通常归因于单一遗传基因座(Lander和Schork,1994)。
多因子遗传样式的后果之一是对促成此类性状表达的基因座作图可以是非常困难的。然而,数套跨越基因组的多态性遗传标记(例如RFLP、SNP、SSR等)的开发已经使调查Edwards等称为“数量性状基因座”(QTL;Edwards等,1987)的基因座、以及其数目、量值(magnitude)和分布成为可能。QTL包括在一定程度上控制质量和数量表型性状的基因,其在个体家族内以及个体家族的种群内可以是离散的或连续分布的。
已经开发了多种实验方法来鉴定和分析QTL(参见例如美国专利No.5,385,835;5,492,547;及5,981,832)。一种此类方法牵涉杂交两个近交系以产生F1单杂交杂种后代(single cross hybrid progeny)、自交该F1杂种后代以产生分离的F2后代,测定多个标记基因座的基因型、并在分离的后代中评估一种至数种数量表型性状。然后根据分离的后代中基因型值和表型变异性之间的显著性统计学关联来鉴定QTL。F1代的亲本系具有已知的连锁相,后代中所有的分离基因座是提供信息的,而且标记基因座和影响表型性状的遗传基因座之间的连锁不平衡被最大化。
然而,必须将相当多的资源专用于测定大量杂种和/或近交后代的表型性能。由于仅对来自两个亲本的后代进行研究,这种方法仅可检测对于两个亲本为多态性的性状基因座(例如QTL)。这套性状基因座可能仅代表感兴趣的育种种群(例如玉米、高梁、大豆、芸苔等的育种种群)中分离的基因座的一小部分。通常,这些后代显示仅一种或少量在所应用的育种程序中感兴趣的表型性状的变异。这意味着可能必须形成分开的种群,针对标记基因座进行评分,并在重复的田间试验中种植,并针对感兴趣的表型性状进行评分。另外,检测QTL所使用的方法可产生鉴定出的QTL的有偏估计(参见例如Beavis,1994)。别的不精确性可在将QTL的鉴定推广至育种种群内在遗传方面不同的亲本的后代中引入。此外,许多性状(若不是所有性状)受环境因素影响,所述环境因素也可引入不精确性。
如此,长久的且持续的需要用于优化用于产生具有想要的基因型的后代的育种策略的新方法。目前公开的主题解决这种和其它需要。
发明概述
本概要列出目前公开的主题的数个实施方案,并且在许多情况中列出这些实施方案的变化形式和置换。本概要仅是众多的且有变化的实施方案的例示。提及给定实施方案的一种或多种代表性特征也是例示性的。此类实施方案通常可与或不与所述特征一起存在;同样,这些特征可应用于目前公开的主题的其它实施方案,无论列于本概要与否。为了避免过度重复,本概要未列出或提示此类特征的所有可能组合。
目前公开的主题提供用于计算一种或多种潜在基因型的出现概率或频率的分布的方法。在一些实施方案中,目前公开的方法包括提供第一育种配偶体(partner)和第二育种配偶体,其中(i)所述第一育种配偶体和所述第二育种配偶体中每个的基因型对于一种或多种(one or more)遗传标记而言是已知的或是可预测的,每种所述遗传标记是与遗传基因座连锁的;和(ii)每种遗传标记和与之连锁的所述遗传基因座之间的遗传距离是已知的或可以是指定的(assigned);(b)计算、模拟或计算和模拟组合的(combination of calculatingand simulating)所述第一育种配偶体和所述第二育种配偶体的育种以产生后继世代,所述后继世代的每个成员包含基因型;和(c)为所述后继世代的一个或多个成员的一种或多种所述基因型计算出现概率或频率的分布(adistribution of a probability or a frequency of occurrence)。
目前公开的主题还提供用于计算遗传值分布的方法。在一些实施方案中,目前公开的方法包括(a)提供第一育种配偶体和第二育种配偶体,其中(i)所述第一育种配偶体和所述第二育种配偶体中每个的基因型就与一个或多个遗传基因座连锁的一种或多种遗传标记而言是已知的或是可预测的;(ii)每种遗传标记和与之连锁的所述遗传基因座之间的遗传距离是已知的或可以是指定的;和(iii)每种基因型与遗传值相关联;(b)计算、模拟或计算和模拟组合的所述第一育种配偶体和所述第二育种配偶体的育种以产生后继世代,所述后继世代的每个成员包含基因型;和(c)为一种或多种所述基因型计算遗传值分布。
目前公开的主题还提供用于选择用以产生具有想要的基因型的后代的育种对的方法。在一些实施方案中,目前公开的方法包括(a)提供第一育种配偶体和第二育种配偶体,其中(i)所述第一育种配偶体和所述第二育种配偶体中每个的基因型对于一种或多种遗传标记而言是已知的或是可预测的,每种所述遗传标记是与遗传基因座连锁的;和(ii)每种遗传标记和与之连锁的所述遗传基因座之间的遗传距离是已知的或可以是指定的;(b)计算、模拟或计算和模拟组合的所述第一育种配偶体和所述第二育种配偶体的育种以产生后继世代,所述后继世代的每个成员包含基因型;(c)为所述后继世代的一个或多个成员的一种或多种所述基因型计算出现概率或频率的分布;(d)用不同的第一潜在育种配偶体、不同的第二潜在育种配偶体、或不同的第一和不同的第二潜在育种配偶体两者重复步骤(a)至(c);(e)对步骤(c)的一次或多次重复中计算的所述概率或频率分布彼此进行比较;和(f)根据所述比较步骤选择育种对。
在一些实施方案中,用于选择用于产生具有想要的基因型的后代的育种对的目前公开的方法包括(a)提供第一育种配偶体和第二育种配偶体,其中(i)所述第一育种配偶体和所述第二育种配偶体中每个的基因型就与一个或多个遗传基因座连锁的一种或多种遗传标记而言是已知的或是可预测的;(ii)每种遗传标记和与之连锁的所述遗传基因座之间的遗传距离是已知的或可以是指定的;和(iii)每种基因型与遗传值相关联;(b)计算、模拟或计算和模拟组合的所述第一育种配偶体和所述第二育种配偶体的育种以产生后继世代,所述后继世代的每个成员包含基因型;(c)计算与所述后继世代的一个或多个成员的一种或多种基因型相关联的遗传值的分布;(d)用不同的第一潜在育种配偶体、不同的第二潜在育种配偶体、或不同的第一和不同的第二潜在育种配偶体两者重复步骤(a)至(c);(e)对步骤(c)的一次或多次重复中计算的所述遗传值分布彼此进行比较;和(f)根据所述比较步骤来选择育种对。
目前公开的主题还提供用于产生具有想要的基因型的后代个体的方法。在一些实施方案中,目前公开的方法包括(a)提供第一育种配偶体和第二育种配偶体,其中(i)所述第一育种配偶体和所述第二育种配偶体中每个的基因型对于一种或多种遗传标记而言是已知的或是可预测的,每种所述遗传标记是与遗传基因座连锁的;和(ii)每种遗传标记和与之连锁的所述遗传基因座之间的遗传距离是已知的或可以是指定的;(b)计算、模拟或计算和模拟组合的所述第一育种配偶体和所述第二育种配偶体的育种以产生后继世代,所述后继世代的每个成员包含基因型;(c)为所述后继世代的一个或多个成员的一种或多种所述基因型计算出现概率或频率的分布;(d)用不同的第一潜在育种配偶体、不同的第二潜在育种配偶体、或不同的第一和不同的第二潜在育种配偶体两者重复步骤(a)至(c);(e)对步骤(c)的一次或多次重复中计算的所述概率或频率分布彼此进行比较;(f)根据该比较步骤选择育种对;和(g)依照步骤(b)中所提出的计算、模拟或计算和模拟的组合对育种对进行育种以产生具有想要的基因型的后代个体。
在一些实施方案中,用于产生具有想要的基因型的后代个体的目前公开的方法包括(a)提供第一育种配偶体和第二育种配偶体,其中(i)所述第一育种配偶体和所述第二育种配偶体中每个的基因型就与一个或多个遗传基因座连锁的一种或多种遗传标记而言是已知的或是可预测的;(ii)每种遗传标记和与之连锁的所述遗传基因座之间的遗传距离是已知的或可以是指定的;和(iii)每种基因型与遗传值相关联;(b)计算、模拟或计算和模拟组合的所述第一育种配偶体和所述第二育种配偶体的育种以产生后继世代,所述后继世代的每个成员包含基因型;(c)计算与所述后继世代的一个或多个成员的一种或多种基因型相关联的遗传值的分布;(d)用不同的第一潜在育种配偶体、不同的第二潜在育种配偶体、或不同的第一和不同的第二潜在育种配偶体两者重复步骤(a)至(c);(e)对步骤(c)的一次或多次重复中计算的所述遗传值分布彼此进行比较;(f)根据所述比较步骤来选择育种对;和(g)依照步骤(b)中所提出的计算、模拟或计算和模拟的组合对育种对进行育种以产生具有想要的基因型的后代个体。
在一些实施方案中,目前公开的方法进一步包括产生一个或多个更远世代(further generation)后代,其中每个更远世代后代通过一轮或多轮计算、模拟或计算和模拟组合的所述后继世代或更后世代(later generation)的至少一个成员与选自下组的个体的育种来产生:它本身、紧接在之前的世代(immediately prior generation)的成员、来自相同世代的另一个个体、来自在前世代(previous generation)的另一个个体、所述第一育种配偶体、所述第二育种配偶体、及其双单倍体衍生物。
在一些实施方案中,更远世代后代通过来自先前世代的一个或多个个体的杂交、自交、双单倍体衍生物世代或其组合的一个或多个连续世代产生。在一些实施方案中,更远世代后代通过先前世代的一个或多个个体的杂交、自交、双单倍体衍生物世代或其组合的三个连续世代产生。在一些实施方案中,更远世代后代通过来自先前世代的一个或多个个体的杂交、自交、双单倍体衍生物世代或其组合的四个连续世代产生。在一些实施方案中,更远世代通过先前世代的一个或多个成员的自交的至少两个、三个或四个连续世代产生。
在目前公开的方法的一些实施方案中,一种或多种遗传标记选自下组:单核苷酸多态性(SNP)、indel(即插入/删除)、简单序列重复(SSR)、限制性片段长度多态性(RFLP)、随机扩增多态DNA(RAPD)、切割扩增多态序列(CAPS)标记、多样性阵列技术(DArT)标记和扩增片段长度多态性(AFLP)及其组合。在一些实施方案中,一种或多种遗传标记包括1种和10种之间的标记。在一些实施方案中,一种或多种遗传标记包括超过10种的遗传标记。
在目前公开的方法的一些实施方案中,计算、模拟或计算和模拟组合的育种包括计算、模拟或计算和模拟组合的一种或多种遗传标记中至少一种和与表型性状表达相关联的遗传基因座之间的预期重组率。
在目前公开的方法的一些实施方案中,表型性状选自下组:质量性状和数量性状。
在一些实施方案中,一种或多种遗传标记与与表型性状表达相关联的一种或多种数量性状基因座连锁。
在一些实施方案中,与表型性状表达相关联的遗传基因座编码与表型性状表达相关联的基因产物。
在一些实施方案中,一种或多种遗传标记中至少一种和与表型性状表达有关的遗传基因座之间的重组率是零。
在目前公开的方法的一些实施方案中,育种配偶体是相同的个体。在目前公开的方法的一些实施方案中,每个计算的或模拟的育种包括对来自紧接在之前的世代的个体进行自交。
在目前公开的方法的一些实施方案中,育种对包含雄性基因型的集合、雌性基因型的集合(pool)、或雄性基因型的集合和雌性基因型的集合两者。
目前公开的主题还提供通过目前公开的方法所产生的个体。在一些实施方案中,如此产生的个体是植物。在一些实施方案中,目前公开的主题还提供来自通过目前公开的方法所产生的植物的细胞、种子和/或后代。
因而,目前公开的主题的目标是提供用于设计育种程序的新方法。通过目前公开的主题可完全或部分实现这一目标及其它目标。
已经在上文陈述目前公开的主题的一个目标,其它目标会随着描述进行而明显,并如下文充分描述的。
附图简述
图1显示了例示性的通用计算平台100,藉此可执行目前公开的主题的方法和系统。
图2是方法200的流程图,用于执行如本文所公开的用于计算一种或多种潜在基因型的出现概率或频率的分布的方法。
图3是方法300的流程图,用于执行如本文所公开的用于计算遗传值分布的方法。
图4是方法400的流程图,用于执行如本文所公开的用于选择用于产生具有想要的基因型的后代的育种对的方法。
图5是方法500的流程图,用于执行如本文所公开的用于产生具有想要的基因型的后代个体的方法。
图6是描绘与参照材料相比基于标记的选择衍生的材料的农艺学性能的图表。图6显示了杂种的谷粒产率(以每公顷的公担计)和收获时的谷粒湿度,所述杂种产生自2种基于标记的选择衍生的品系MDL53和MDL54、杂交至4种测试者T41、T42、T51和T58上,并于2006年种植于欧洲的5处位置。所显示的结果是遍及5处位置的平均值。该图还显示了参照商品化杂种(称为“对照”(check))的性能以及杂交至T41、T42和T51上的一个亲本系BFP57的性能。对照杂种以白色方框表示。基于标记的选择衍生的杂种以黑色方框表示。显示高谷粒产率和低的收获时的谷粒湿度的杂种定位于图6的左上角。
图7是描绘与参照材料相比基于标记的选择衍生的材料的农艺学性能的图表。图7显示了杂种的谷粒产率(以每公顷的公担计)和收获时的谷粒湿度,所述杂种产生自2种基于标记的选择衍生的品系MDL53和MDL54,杂交至两种测试者T11和T15之上,并于2006年种植在欧洲的4处位置。所显示的结果是遍及4处位置的平均值。该图还显示了参照商品化杂种(称为“对照”)的性能以及经由常规育种衍生的实验杂种的性能。对照杂种以白色方框表示。基于标记的选择衍生的杂种以黑色方框表示。常规育种衍生的杂种以交叉表示。显示高谷粒产率和低的收获时的谷粒湿度的杂种定位于图7的左上角。
发明详述
目前公开的主题涉及实际上(理论上)推理出感兴趣的后代(经由自交、杂交或其组合的建模)和计算其出现概率及其全基因组遗传值。在一些实施方案中,目前公开的主题可同时考虑到整个基因组,由此考虑连锁不平衡,并导致实际预测。
因而,目前公开的主题可提供比现有技术更有效的基于标记和/或QTL的育种的开发。
在一些实施方案中,目前公开的主题涉及选择个体(例如植物)或个体组(例如对),这基于其后代的遗传值和遗传特征,而不是基于其自己的遗传值和遗传特征进行。在一些实施方案中,后代不是实际上推出和评估的,而是经由分析计算(精确的或近似的)或模拟而仅“在理论上”推出的。根据这些“理论上的”遗传值,后代可或不可经由特定的育种方案(包括但不限于自交、杂交和其组合)在实际上推出(如想要的)。后代的遗传值和特征依赖于其亲本在减数分裂和受精作用后的遗传特征。目前公开的主题涉及计算和/或模拟个体的遗传特征如何经过减数分裂和受精来创建新个体(后代),并评估这些后代的全基因组遗传值。在一些实施方案中,计算和/或模拟可考虑遗传标记和它们之间的所有连锁,以及遗传标记和表型性状之间的关联的特征。
I.定义
除非另有定义,本文中所使用的所有技术和科学术语具有如目前公开的主题所属的领域中普通技术人员通常理解的相同的含意。下列定义补充那些在本领域中的,并且涉及本申请而不会被输入任何相关的或不相关的情况;例如,任何通常拥有的专利或申请。虽然与那些本文中所述的方法和材料类似的或等同的任何方法和材料可用于实施目前公开的主题的测试,但是本文中只描述了例示性的材料和方法。因而,本文中所使用的术语仅出于描述具体的实施方案的目的,而非意图是限制性的。
在用于本说明书和所附权利要求书时,除非上下文另有明确说明,单数形式“一个”、“一种”和“所述”包括复数称谓。例如提及“宿主细胞”包括多种此类宿主细胞。如此,例如提及“蛋白质”包括一个/种或多个/种蛋白质,而提及“细胞”包括细胞的混合物、组织等。
在用于本文时,术语“等位基因”和“等位基因变体”指基因或遗传标记的一种或多种备选形式之任一种。在二倍体细胞或生物体中,给定基因(或标记)的两个等位基因通常占据同源染色体对上的相应基因座。
在用于本文时,术语“关联”、“与相关联的”及其语法变化形式指两个或多个实体之间可确定的关系。根据实体的性质和所述术语出现的上下文,所述关系可以是任何类型和范围的。
例如,基因型可与出现概率或出现频率相关联。这种用法指如下实情,即特定基因型的出现概率或频率可根据与作为亲本、同胞或后代的特定基因型有关的其它基因型的知识、测试、计算、模拟或任何其他操作来计算和/或以别的方式测定。特定基因型的出现概率或出现频率可从其它基因型测定的事实意味着多种基因型之间有关联(即关系)。
类似地,每种基因型可与遗传值相关联。在一些实施方案中,在如下情况中基因型与遗传值相关联,即给构成基因型的一种或多种等位基因分配遗传值,并且针对构成基因型的每种个体等位基因合计或以别的方式计算如此指定的遗传值,以整体上达到基因型的遗传值。虽然给每种等位基因指定的遗传值可根据分配者认为重要的任何标准进行分配,但是一旦遗传值分配至一种或多种等位基因,由这些等位基因的组合组成的给定基因型会具有基于如此指定的个体遗传值的特定遗传值。如此,基于对个体等位基因所采用的计算,基因型可认为与遗传值相关联。
遗传基因座还可与表型性状的表达相关联。在此背景中,遗传基因座理解成影响表型性状的表达。换而言之,与表型性状的表达相关联的遗传基因座是如下基因座(例如QTL),其中可存在于该基因座处的多种等位基因影响表型的某一方面。类似地,遗传标记和表型性状之间可存在关联,特别在遗传标记的存在指明和/或预示存在自身与表型性状的表达相关联的等位基因时。
在用于本文时,术语“育种”及其语法变化形式指产生后代个体的任何方法。育种可以是有性的或无性的或其任意组合。例示性的非限制性育种类型包括杂交、自交、双单倍体衍生物世代及其组合。如本文中所公开的,不必进行这些育种来产生物理后代,而可使用例如本文中所公开的预测计算和/或模拟来建模。
在用于本文时,短语“二倍体个体”指具有两组染色体(通常一套来自其两个亲本的每一方)的个体。然而,理解的是,在一些实施方案中,二倍体个体可从相同的单一生物体接受其“母本”和“父本”的染色体组,诸如在植物自交以产生植物后继世代时。
在用于本文时,短语“建立的育种种群”指育种程序(例如商品化的育种程序)中由亲本产生的和/或作为亲本使用的潜在育种配偶体的集合。建立的育种种群的成员在遗传方面和/或表型方面通常是充分表征的。例如,数种感兴趣的表型性状可能已经在例如不同环境条件下,多个位置和/或不同时间得到评估。或者/另外,与表型性状的表达相关联的一个或多个遗传基因座可能已经得到鉴定,并且育种种群的一个或多个成员可能已经相对于一个或多个遗传基因座以及与一个或多个遗传基因座相关联的一种或多种遗传标记确定了基因型。
在用于本文时,术语“F0”指用于产生本文中所提出的后继世代的一个起始个体或多个个体(例如第一和第二育种配偶体)。注意到,在一些实施方案中,虽然F0个体是近交个体,如此存在别的在遗传方面相同的个体,但是情况不必如此。因此,在一些实施方案中,术语“F0”是本文中用于指进行育种或以其它方式将遗传信息贡献给后继世代(例如F1、F2、F3、Fn-1、Fn等)的一个个体或多个个体的相对术语。如此,在用于本文时,在一些实施方案中,F0可以指产生F1代的世代的个体,即使实际上在指定的F0个体是其成员的世代之前有一个或多个世代。
在用于本文时,术语“F1”指第一子代,如本文所定义的在例如两个F0个体(例如第一和第二育种配偶体)之间或在两个F0近交系之间的育种的后代。还有可能通过F0个体自交或通过农牧业领域中已知的其它技术来产生F1个体或世代。在用于本文时,术语“后生世代”(advanced generation)指从F1后代产生的第二及随后的子代(例如F2、F3和更后的世代),这通过自交或有性杂交(例如与其它F1后代,与近交系等)实现。
在用于本文时,术语“建立者”(founder)指包含可经由种群(例如育种种群)系谱中建立者的后代追踪的一种或多种等位基因(例如遗传标记等位基因)的近交或单交F1杂种。例如,在建立的育种种群中,建立者通常(但非必需)是最早形成的系。
在用于本文时,术语“基因”广泛用于指与生物学功能有关的任何核酸。基因通常包括编码序列和/或表达此类编码序列所需的调控序列。
在用于本文时,短语“遗传标记”指与一个或多个感兴趣的基因座有关的个体基因组的特征(例如个体的基因座中存在的核苷酸或多核苷酸序列)。在一些实施方案中,根据上下文,遗传标记在感兴趣的种群中是多态性的,或者是由多态性占据的基因座。遗传标记包括例如单核苷酸多态性(SNP)、indel(即插入/删除)、简单序列重复(SSR)、限制性片段长度多态性(RFLP)、随机扩增多态DNA(RAPD)、切割扩增多态序列(cleaved amplifiedpolymorphic sequence,CAPS)标记、多样性阵列技术(Diversity ArraysTechnology,DArT)标记和扩增片段长度多态性(AFLP)等。例如,遗传标记可用于在染色体上定位包含促成表型性状的表达变异性的等位基因的遗传基因座。短语“遗传标记”还可指与基因组序列互补的多核苷酸序列,诸如作为探针使用的核酸序列。
遗传标记可在物理上定位于染色体上与其相关联的遗传基因座之内或之外的(即分别是基因内的或基因外的)位置中。换而言之,虽然通常在与感兴趣的基因座对应的基因在染色体上的位置尚未获得鉴定而且遗传标记和感兴趣的基因座之间有非零的重组率时采用遗传标记,但是目前公开的主题还可采用在物理上在遗传基因座边界内的遗传标记(例如与基因对应的基因组序列内部的,诸如但不限于基因的内含子或外显子内的多态性)。在目前公开的主题的一些实施方案中,一种或多种遗传标记包含1种和10种之间的标记,而在一些实施方案中,一种或多种遗传标记包含超过10种遗传标记。
在用于本文时,术语“基因型”指细胞或生物体的遗传组成。个体“针对一套遗传标记的基因型”包括个体中存在的针对一个或多个遗传标记基因座的特定等位基因。如本领域中所知的,基因型可与单一基因座或多个基因座相关,无论所述基因座是否相关或不相关和/或是否连锁或不连锁。在一些实施方案中,个体的基因型与一种或多种如下基因有关,所述基因由于其中一种或多种基因涉及感兴趣的表型(例如本文中所定义的数量性状)的表达而相关。如此,在一些实施方案中,基因型包含个体内存在的、在数量性状的一处或多处遗传基因座处的一种或多种等位基因的汇总。在一些实施方案中,基因型按照单元型(下文所定义的)表示。
在用于本文时,术语“种质”(germplasm)指种群或其它个体组(例如物种)的基因型的全体。术语“种质”还可指植物材料;例如起多种等位基因的仓库作用的植物组。短语“修改后的种质”(adapted germplasm)指具有经证实的遗传优势的植物材料;例如,针对给定的环境或地理学区域,而短语“未修改的种质”、“未加工的种质”和“外来种质”指具有未知的或未证实的遗传值的植物材料;例如,针对给定的环境或地理学区域;因而,在一些实施方案中,短语“未修改的种质”指不是建立的育种种群的一部分而且与建立的育种种群的成员没有已知关系的植物材料。
在用于本文时,术语“单元型”(haplotype)指个体从一方亲本遗传的一组等位基因。如此,二倍体个体具有两份单元型。术语“单元型”可较狭义地使用,指物理上连锁的和/或不连锁的、与表型性状相关联的遗传标记(例如序列多态性)。短语“单元型组”(haplotype block)(有时在文献中也简称为单元型)指单一染色体(或其部分)上在物理上连锁的两种或多种遗传标记的组。通常,每组具有少许共同的单元型,并且可选择独特地鉴定每个这些单元型的遗传标记(即“单元型标签”)的子组。
短语“高通量筛选”指其形式容许筛选大量样品的测定法。在一些实施方案中,短语“高通量筛选”指其形式容许筛选大量遗传标记(例如核酸序列)、大量基因型个体或集合、或两者的测定法。在目前公开的主题的背景中,在一些实施方案中,短语“高通量筛选”指对大量作为个体或集合的基因型筛选个体基因型的核酸序列以鉴定遗传标记等位基因的存在。
在用于本文时,术语“基因型的集合”指从数个雄性个体合并的雄性配子。此集合可用于使许多可自不同雌性个体衍生的雌性配子受精。若在不追踪雌性亲本起源的情况下将这些受精作用的后代收获在一起,则后代的集合发生,对此特定的雄性亲本或雌性亲本是未知的。但是,已知的是,雄性亲本是许多雄性亲本(那些用于合并雄性配子的)之一,而其雌性亲本是许多雌性亲本(那些用合并的雄性配子受精的)之一。
在用于本文时,术语“杂种”、“杂种植物”和“杂种后代”指自遗传方面不同的亲本产生的个体(例如在遗传方面杂合的或大部分杂合的个体)。
若两个个体在特定的基因组拥有相同的等位基因,则在等位基因遗传自一个共同的祖先(即等位基因是相同亲本等位基因的拷贝)时,等位基因称为“谱系相同”。或者,等位基因是“状态相同”(即等位基因看上去相同,但是衍生自两个不同的等位基因拷贝)。根据谱系信息获得的身份对于连锁研究是有用的;根据谱系信息获得的身份和根据状态信息获得的身份两者可在关联研究(诸如那些本文中所述的)中使用,虽然根据谱系信息获得的身份可以是特别有用的。
在用于本文时,短语“近交系”指遗传方面纯合的或几乎纯合的种群。例如,近交系可经由数轮兄/妹育种或自交衍生。在一些实施方案中,近交系对一种或多种感兴趣的表型性状准确育种。“近交的”、“近交个体”或“近交后代”是从近交系取样的个体。
在用于本文时,术语“连锁”及其语法变化形式指相同染色体上不同基因座处的等位基因趋于比在如下情况时更频繁地一起分离,即在它们的传递是独立的时会预期偶尔发生的;在一些实施方案中,这是由于它们的物理接近。
在用于本文时,短语“连锁不平衡”(也称为“等位基因关联”)指如下现象,其中两处或多处基因座处的特定等位基因在从亲本分离至后代时趋于以如下频率在连锁群中保持在一起,所述频率大于从它们在给定的种群中的个体频率中所预期的频率。例如,在如下情况中遗传标记等位基因和QTL等位基因可显示连锁不平衡,即在它们以比那些从个体等位基因频率预测的频率更大的频率一起发生时。有数个理由可发生连锁不平衡,包括但不限于等位基因在染色体上很接近。
在用于本文时,术语“基因座”指染色体上的位置(例如基因、遗传标记等的)。
在用于本文时,短语“核酸”指可与核苷酸串对应的任何单体单位物理串,包括核苷酸的聚合物(例如典型的DNA或RNA聚合物)、经修饰的寡核苷酸(例如包含对生物学RNA或DNA不典型的碱基的寡核苷酸,诸如2’-O-甲基化寡核苷酸)等。在一些实施方案中,核酸可以是单链的、双链的、多链的或其组合。除非另有说明,在明确指明的任何序列之外,目前公开的主题的特定核酸序列还任选包含或编码互补序列。
在用于本文时,短语“表型性状”指个体的性能或其它可检测的特征,这源自其基因组与环境的相互作用。在用于本文时,术语“多个”指超过1个。如此,“多个个体”指至少两个个体。在一些实施方案中,术语多个指超过全部的一半。例如,在一些实施方案中,“种群中的多个”指超过此种群中的半数成员。
在用于本文时,术语“后代”指特定杂交的后代。通常,后代源自两个个体的育种,虽然一些物种(特别是一些植物和雌雄同体动物)可进行自交(即相同的植物充当雄性和雌性配子两者的供体)。例如,后代可以是F1、F2或任何后继世代的。
在用于本文时,短语“质量性状”指由展现出主要表型效应的一种或几种基因控制的表型性状。因为这点,质量性状通常仅是遗传的。植物中的例子包括但不限于花颜色、穗轴颜色和抗病性诸如北方玉米叶枯病抗性。
在用于本文时,术语“分位点”(quantile)指事件的想要百分比降至其下的、沿着概率或频率曲线的点。例如,“50%分位点”对应于概率或频率曲线上50%的事件降至其下的那点。类似地,“95%分位点”对应于概率或频率曲线上95%的事件降至其下的那点。在一些实施方案中,50%分位点或95%分位点涉及在遗传值对使用目前公开的方法计算的、模拟的、或计算和模拟组合(combinations of calculating and simulating)的出现概率或频率的曲线图上的如下点,其分别大于可通过计算、模拟或计算和模拟的组合所产生的可能遗传值的50%或95%。在一些实施方案中,50%分位点或95%分位点涉及对应于在遗传值对使用目前公开的方法计算的、模拟的、或计算和模拟组合的出现概率或频率的曲线图上的点的遗传值,其分别大于可通过计算、模拟或计算和模拟的组合所产生的可能遗传值的50%或95%。
在用于本文时,术语“分位点的组合”指平均数(Q95%+Q50%)/2、总数(Q95%+Q50%)、或基于这些分位点数值的任何其它数学运算。
在用于本文时,短语“数量性状”指可用数字(即定量的或量化的)描述的表型性状。数量性状通常展现种群个体间的连续变异;即表型性状的数值差异是略微的,并彼此逐渐互变。通常,数量表型性状的种群中的频率分布展现钟形曲线(即展现两个极值之间的正态分布)。数量性状通常是与环境相互作用的遗传基因座或彼此相互作用和/或与环境相互作用的多处遗传基因座(QTL)的结果。数量性状的例子包括植物高度和产率。
在用于本文时,术语“数量性状基因座”(QTL)和“标记性状关联”指遗传标记和影响感兴趣性状的表型的染色体区和/或基因之间的关联。通常,这在统计学上测定;例如,根据文献中公布的一种或多种方法进行。QTL可以是具有至少两个区别影响表型性状(或是数量性状或是质量性状)表达的等位基因的染色体区和/或遗传基因座。
在用于本文时,短语“有性杂交的”和“有性生殖”在目前公开的主题的语境中指配子融合以产生后代(例如通过受精作用,诸如通过在植物中传粉来产生种子)。在一些实施方案中,“有性杂交”或“异花受精”是由一个个体使另一个受精(例如植物中的异花传粉)。在一些实施方案中,术语“自交”指通过自体受精或自花传粉产生种子;即花粉和胚珠来自相同的植物。
在用于本文时,短语“单交F1杂种”指自两个近交系间的杂交产生的F1杂种。
在用于本文时,术语“测试者”指具有标准基因型、已知的特征和建立的性能的品系或个体。“测试亲本”是有性杂交中作为亲本使用的来自测试系的个体。通常,测试亲本与与其杂交的个体不相关而且在遗传方面不同于与其杂交的个体。测试者在与个体或近交系杂交以进行表型评估时通常用于产生F1后代。
在用于本文时,短语“顶交组合”(topcross combination)指将单一测试系与多个品系杂交的方法。产生此类杂交的目的是确定杂种后代的表型性能;即通过测试者杂交评估多个品系中的每个在从该品系衍生的杂种后代中产生想要的表型的能力。
在用于本文时,术语“转基因的”指已经通过在有性杂交或自交外的任何技术而在其中引入一个或多个外源多核苷酸的细胞或个体。可实现这点的技术的例子是本领域中已知的。在一些实施方案中,转基因个体是转基因植物,并且用于创建转基因植物所采用的技术选自下组:土壤杆菌介导的转化、生物射弹方法、电穿孔、in planta技术等。转基因个体还可从有性杂交产生或通过其中已经引入外源多核苷酸的转基因个体的自交而产生。
II.用于计算一种或多种潜在基因型的出现概率或频率的分布的方法
在一些实施方案中,目前公开的主题提供用于计算一种或多种潜在基因型的出现概率或频率的分布的方法。在一些实施方案中,该方法包括(a)提供第一育种配偶体和第二育种配偶体,其中(i)第一育种配偶体和第二育种配偶体中每个的基因型对于一种或多种遗传标记而言是已知的或是可预测的,每种所述遗传标记与遗传基因座连锁;和(ii)每种遗传标记和与之连锁的所述遗传基因座之间的遗传距离是已知的或可以是指定的;(b)计算、模拟或计算和模拟组合的所述第一育种配偶体和所述第二育种配偶体的育种以产生后继世代,所述后继世代的每个成员包含基因型;和(c)为所述后继世代的一个或多个成员的一种或多种所述基因型计算出现概率或频率的分布。
本领域技术人员已知的是,计算或模拟后代从亲本的基因型开始,并导致后继世代(progeny)的基因型。这些基因型的出现概率或频率衍生自遗传距离。本文中以基因型描述育种亲本间杂交的后代。因为每种基因型可与出现概率或频率相关联,可构建此类统计学的分布。II.A.2、II.A.3和II.A.IV通过详述所牵涉的三个连续步骤:重组、分离和受精来显示从育种亲本计算后代的一种方式。在第21页上部(国际公开文本第24页底部)的公式显示可自两个育种亲本间的杂交获得的一种后代基因型的概率。实施例5提供了基因型和遗传距离如何用于计算后代分布的例子。
在用于本文时,短语“计算一种或多种潜在基因型的出现概率或频率的分布”指用于产生一种或多种如下基因型的出现概率和/或频率的方法,所述基因型可在具有已知的或可预测的基因型的个体进行自交,与具有已知的或可预测的基因型的另一个个体杂交时产生,或通过计算或模拟来自在前世代(prior generation)(例如来自紧接在之前的世代)的个体的双单倍体育种产生。在一些实施方案中,该短语指用于产生所有可能的基因型的出现概率和/或频率的方法,所述基因型可在具有已知的或可预测的基因型的个体进行自交,与具有已知的或可预测的基因型的另一个个体杂交时产生,或通过计算或模拟来自在前世代(例如来自即前世代)的个体的双单倍体育种产生。
如此,在一些实施方案中,该短语指测定可在自一种或多种已知的或可预测的基因型产生后代个体时产生的所有潜在基因型的全部或子组以及测定每种此类基因型会预期出现的预期概率和/或频率。
在用于本文时,短语“已知的”在关于一种或多种遗传标记的个体基因型的语境中指其中已经为个体确定一种或多种遗传标记的存在或缺失和/或身份(identity)(例如已经用实验方法测定或以其它方式测定)的基因型。短语“可预测的”在关于一种或多种遗传标记的个体基因型的语境中指其中可为个体计算或以其它方式预测一种或多种遗传标记的存在或缺失和/或身份(例如通过与其中已知基因型的一个或多个相关的个体(例如任何世代的祖先或后代)的比较实现)的基因型。例如,在已知个体亲本的基因型时,可能预测个体可具有的可能基因型,连同每种此类可能的基因型可出现的概率或频率。因此,在个体基因型可根据一个或多个祖先和/或一个或多个后代的基因型测定时(其中祖先和后代的任一者或两者是除去个体自身的1、2或更多世代),关于一种或多种遗传标记的基因型视为可预测的。
在目前公开的方法的一些实施方案中,每种遗传标记和与之连锁的遗传基因座之间的遗传距离是已知的或可以是指定的。在用于本文时,短语“遗传距离”指遗传标记和与之相关联的遗传基因座之间的绝对或相对距离。在一些实施方案中,遗传距离是物理距离,并且可以如下术语表示,诸如但不限于碱基、千碱基、百万碱基等。在一些实施方案中,遗传距离是相对距离,并且可以如下术语表示,诸如但不限于遗传标记和遗传基因座之间的重组率。可用于表示基于重组率的遗传距离的术语包括但不限于百分比重组及其相关术语厘摩(cM)。理解的是,重组以不同比率或频率在不同物种中发生而且还在相同物种中的不同染色体的不同区域中发生,如此在不同背景中厘摩可指不同的绝对碱基数。
在目前公开的方法中,遗传标记和遗传基因座之间的遗传距离可以是已知的或可以是指定的。若遗传距离是“已知的”,则其已经用实验方法进行测定而获得特定的数值。若遗传距离可以是“指定的”(assigned),则其可能尚未用实验方法精确测定,但是可根据可能可获得的无论何种信息来预测。
在用于本文时,术语“第一育种配偶体”和“第二育种配偶体”指可提供雄性配子和雌性配子的任何个体。因而,在一些实施方案中,第一育种配偶体和第二育种配偶体可以是相同物种的不同成员。
构成育种配偶体、育种对和后代的个体可以是任何物种的。在一些实施方案中,每个育种配偶体是植物。可采用任何植物物种。在一些实施方案中,植物选自下组:玉米、小麦、大麦、稻、糖甜菜(sugar beet)、向日葵、冬季油菜(winter oilseed rape)、卡诺拉(canola)、番茄、胡椒、甜瓜、西瓜、嫩茎花椰菜(broccoli)、花椰菜、抱子甘蓝(Brussel sprouts)、莴苣、菠菜、甘蔗、咖啡、可可(cocoa)、松树(pine)、杨树(poplar)、桉树(eucalyptus)、苹果树和葡萄树(grape)。在一些实施方案中,植物是玉米植物。
另外,构成育种配偶体、育种对和后代的个体可以是近交的或远交的。在一些实施方案中,构成育种配偶体、育种对和后代的个体是近交个体或者是一个或两个近交个体的F1后代。
在一些实施方案中,物种可通过自交进行育种。因此,在这些实施方案中,第一和第二育种配偶体可以是相同的个体。在一些实施方案中,未来世代由在先世代的一个或多个成员自交的至少两个连续世代产生。在一些实施方案中,未来世代由在先世代的一个或多个成员自交的三个连续世代产生。在一些实施方案中,未来世代由在先世代的一个或多个成员自交的四个连续世代产生。
在一些实施方案中,目前公开的方法采用先前世代的个体的双单倍体衍生物。通过加倍来自杂合植物的一组染色体(1N)来产生个体的双单倍体衍生物以产生完全纯合个体。用于产生双单倍体衍生物的方法是本领域中已知的(参见例如Wan等,1989;美国申请公开文本No.20030005479;美国专利No.7,135,615)。这可以是有益的,因为该方法省略自杂合来源获得纯合植物所需的自交世代。
在目前公开的方法的一些实施方案中,(i)第一育种配偶体和第二育种配偶体中每个的基因型对于一种或多种遗传标记而言是已知的或是可预测的,每种所述遗传标记与遗传基因座连锁;和(ii)每种遗传标记和与之连锁的所述遗传基因座之间的遗传距离是已知的或可以是指定的。用于确定个体关于一种或多种遗传基因座的基因型的方法是已知的,其是用于鉴定遗传标记和与该标记连锁的遗传基因座之间的距离的方法。下文所公开的是如下策略,藉此可采用这种信息来计算和/或预测后继世代中一种或多种潜在基因型的出现概率或频率的分布,其根据第一和第二育种配偶体间的模拟的和/或计算的育种及随后其模拟的/或计算的后代实现。
在一些实施方案中,一种或多种遗传标记选自下组:单核苷酸多态性(SNP)、indel(即插入/删除)、简单序列重复(SSR)、限制性片段长度多态性(RFLP)、随机扩增多态DNA(RAPD)、切割扩增多态序列(cleaved amplifiedpolymorphic sequence,CAPS)标记、多样性阵列技术(Diversity ArraysTechnology,DArT)标记、扩增片段长度多态性(AFLP)及其组合。在一些实施方案中,一种或多种遗传标记包含1个和10个之间的标记,而在一些实施方案中,一种或多种遗传标记包含超过10个遗传标记。
在一些实施方案中,计算、模拟、或计算和模拟组合的育种包括计算、模拟、或计算和模拟组合的一种或多种遗传标记中的至少一种和与表型性状表达相关联的遗传基因座之间的预期重组率。下文提出用于计算、模拟、或计算和模拟组合的一种或多种遗传标记中的至少一种和与表型性状表达相关联的遗传基因座之间的预期重组率的代表性方法。
在一些实施方案中,表型性状是数量性状,并且在一些实施方案中,一种或多种遗传标记与一种或多种与表型性状表达相关联的数量性状基因座连锁。在一些实施方案中,与表型性状表达相关联的遗传基因座编码与表型性状表达相关联的基因产物。在一些实施方案中,一种或多种遗传标记中的至少一种和与表型性状表达相关联的遗传基因座之间的重组率是零。
目前公开的方法采用计算、模拟或计算和模拟组合的第一育种配偶体和第二育种配偶体的育种以产生后继世代。在用于本文时,短语“后继世代”指由计算的、模拟的、或计算和模拟组合的第一育种配偶体和第二育种配偶体的育种引起的一个或多个后代的世代。如此,若任意地将第一和第二育种配偶体分配为F0世代,则“后继世代”的成员是F1世代。
这会与“更远世代”形成对比,其在目前公开的主题的背景中指“后继世代”之后的任何世代。换而言之,可将第一和第二育种配偶体分配为F0代,然后其通过计算、模拟或计算和模拟组合的育种来进行育种以产生本文中称为“后继世代”的F1代,F1代个体可任选育种一个或多个额外的世代以产生一个或多个“更远世代”(即F2、F3、F4、F5...Fn世代)。
存在有本领域技术人员已知的、如何可进行育种的此类计算、模拟或计算和模拟的组合的许多方式。例如,对育种的计算、模拟或计算和模拟的组合进行处理的一种方式是通过使用合适的软件。许多软件程序确实存在,并且对本领域技术人员是已知的,这些软件程序计算或模拟来自杂交的后代,包括但不限于QTLCartographer(North Carolina State University,Raleigh,USA)、PLABSIM(University of Hohenheim,USA)等。计算或模拟通常自育种亲本的基因型、遗传标记之间的遗传距离和遗传标记和连锁的遗传基因座之间的遗传距离运行。
II.A.用于计算概率或频率分布的代表性方法
假设采用后继世代和任选地任何数目的更远世代是在目前公开的主题的范围之内的,并进一步假设计算的和/或模拟的育种可包括来自任何这些世代的个体以及其衍生物(例如双单倍体衍生物)的任意组合的育种,则可以有许多如下的潜在基因型,其可存在于后继世代和更远世代的成员中。在一些实施方案中,目前公开的方法包括计算可计算的一种或多种潜在基因型的出现概率或频率的分布。
因此,在一些实施方案中,目前公开的主题提供了涉及计算和/或预测一种或多种潜在基因型的出现概率或频率的分布的方法。在一些实施方案中,一种或多种潜在基因型的出现概率或频率的分布涉及基于亲本基因型(即第一育种配偶体和第二育种配偶体,它们在一些实施方案中是相同的个体,诸如在植物自交时)的知识的、后代个体中的一种或多种潜在基因型的出现概率或频率的分布。
II.A.1.一般而言
可考虑基因型,并给该基因型分配符号t-1 w[G]ij。左下方的指数(index)指世代,左上方的指数指亲本类型(w=1,2),而右下方的指数分别指上方的和下方的单元型指数。这种基因型描述为两个染色体的配对:用L基因座假设染色体,并且染色体以向量|g>表示,其中L分量选取{0,1}上的二进制值。符号ο表示两个染色体的有序的(从顶部至底部)配对算符。考虑到所有这点,基因型t-1 1[G]ij和t-1 2[G]ij可写为:
其中w和w’是产生这些配子的亲本的指数;它们以关系:w+w’=3相联系。
然后通过每次写入关联的概率密度来考虑重组、分离、然后是受精的步骤。
II.A.2.重组
指定对基因型i-1[G]ij的重组操作后获得的基因型。那么事件概率是:
其中文字Pr{x|y}表示适应于(conditioned)事件x的事件y的出现概率。上文的求和在整个遗传空间上实施;即N×N=2L×2L个状态。事实上,考虑到(i,j)和(j,i)对的遗传等同,不同状态的数目降低至
II.A.3.分离
为了表示条件概率,选择的是分离限于解除上方的单元型。这种分离选择在数学上以如下表达式解释:
其中函数F(|x>-|x>0>如下定义:
对于|x>=|x>0,F(|x>-|x>0)=1
对于|x>≠|x>0,F(|x>-|x>0)=0
这种选择与接受基因型的染色体互换(interverting)的重组操作完全一致。对于具有1/2出现可能性的此交换,它要的只是容许基因座0和1之间的重组以1/2概率发生。
将此条件概率表达式加入概率Pr{t-l w|g>}产生表达式:
这表示配子边缘出现概率;此结果可延伸至有序的并列t-1 w|g>u&t-1 w′|g>v:的合成概率:
II.A.4.受精
最后,可确定从受精创建基因型t[G]uv=t-1|g>uοt-1|g>v的概率。受精会在约束w+w’=3下装配配子t-1 w|g>u和t-1 w′g>v。因此,基因型t[G]uv的构建概率等于:
其中因子1/2表示给定的排序(根据亲本的类型)的概率。
如上文所提出,概率Pr{t-1 w|g>uοt-1 w′|g>v}形成为:
考虑到重组事件的独立性,可将条件概率因式分解为:
现在所有的要素可用于从亲本基因型t-1 w[G]ij,t-1 3-w[G]i′j′(其中w=1,2)的集合为基因型t[G]uv的生成概率建立表达式。因此表达式是:
II.B.用于编码基因型信息的代表性方法
先前的表达式显示,通过两个指数做出选择以进行表示。事实上,基因型可以通过关于上方的和下方的染色体的指数进行描述。然而,重组模拟同时牵涉两个染色体,并且为了描述对状态(couple state)可使用较紧凑的编码。下一节的目的是描述这些编码模式以及从一种到另一种的转变。
II.B.1.各种编码模式
如上文所提出,基因型[G]ij是两个染色体的有序并列|g>iο|g>j,按照惯例上方的是第一个,下方的是第二个。因为编码要求它们分开考虑,必须能够区分它们。因此,标明上方的单元型,而标明下方的单元型。
II.B.1.a.通过具有二进制元素的两个向量进行的编码
在具有L个基因座的构形中,每个|g>向量是L{0,1}二进制值的序列。因此,基因型的编码是这种类型的两个向量的并列。
II.B.1.b.通过两个整数值进行的编码
上文的二进制编码可编码N=2L个可能的状态。等同的、但因为更紧凑而更易于处理的表示法是{0,N-1}域中的两个整数的表示法,所述{0,N-1}域可通过加上单位值而在{1,N}定义域中变换。若定义编码向量|b>L,则其l分量等于:
|bl>L=2L-l
对应于单元型|g>i的二进制编码的整数i=Cind{|g>i}是标积的结果:
i=L<b|g>+1
II.B.1.c通过具有4-模态元素(Four-modality Elements)的唯一向量进行
的编码
II.B.1.c.i..具有相位的状态的编码
具有相位的状态的编码暗示用于区分类型(0,0)和(1,1)纯合状态和区分类型(0,1)和(1,0)杂合状态的4-模态编码。本文公开了用于选择这种编码的方法。
II.B.1.c.ii.实验状态的编码
II.B.2.选择码
可以将所有的自由度用于选择码。在一些实施方案中,采用实验编码期间忽视(pass)具有相位的码的简单性。如下表型构型:
a A a A
a a A A
可表示为等效于如下二进制编码:
0 1 0 1
0 0 1 1
其也可用如下向量编码:
0 +1 -1 +2
从如下关系获得此编码:
向实验编码的转变是不重要的,因为它要的只是具有相位的编码的绝对值:
此实验编码可简单地经由下式与单元型编码联系起来:
II.C.用于重组模拟的代表性方法
II.C.1.重组和相关的概率
定义长度L的向量|σ>,其中元素是含有依照如下模式的重组信息的二进制值:
σl=1→基因座(l-1)和l之间的重组,
σl=0→没有重组。
另一方面,还可获得的是向量|r>,其中元素rl是基因座(l-1)和l之间的重组概率。向量|σ>的每个构形对应于概率π|σ>的构形,概率π|σ>的表达式是(At eachconfiguration of vector|σ>corresponds a configuration of probabilityπ|σ>whichexpression is):
在一些实施方案中,给模型中的重组方法分配的角色之一是在释放配子之前的染色体次序混合。为此,在一些实施方案中: 通过采用据此重组过程包括第一基因座前的重组可能性(具有1/2概率)的原则,可将1个自由度添加至系统。这导致概率值的对称,同时还产生可能的事件|σc>和|σc>。因此,以指数s=L<b|σc>+1和s=L<b|σc>+1标识的重组会是相同的。在注意到s+s=N+1时,这种对称可概括为:
πs=πN+l-s。
II.C.2状态变化的描述
定义依照如下积累规程从向量|σ>构建的第二向量|σc>:
基因座l的值1对应于此基因座水平的等位基因翻转(allele flip),而值0指未改变的情形,基因座(l-1)和l之间的重组的偶数对基因座构型不产生影响。
用于从向量|σc>推导向量|σ>的代表性方式是使用递推公式:
II.D.与后代有关的出现概率的代表性的详细表达式
II.D.1.状态变化和有关的概率
关于从所有的重组事件确定概率
其自构形|g>iο|g>j起终止于构形|g>uο|g>v。首先,考虑使转换变成可能所需要的条件。其次,考虑实现此转换的重组事件以及建立有关的概率的表达式的表示。
可确定如下条件,其中过程或重组容许从(i,j)状态至(u,v)状态的转变。这些条件可通过相继使用先前所定义的三种类型的码来建立。
II.D.1.a.i.二进制编码
描述重组作用的关系(但针对每个基因座)可表达为:
这导致:
因此,对于两个基因型,纯合基因座的等位基因状态必须是相同的。σl c的值是无关紧要的。
总之,在一些实施方案中,用于实现变换的必要且无分条件是如下条件,即同源基因座必须是纯合的且相同的,或杂合的。
若定义这些基因型中的每一个的hl元素的杂合特征(heterozygoussignature)向量:
|h>ij=||g>i-|g>j|
|h>uv=||g>u-|g>v|
及hl=l-hl元素的其互补的|h>ij和|h>uv向量,则约束可以下式表示:
|h>uv=|h>ij
|h>uv·[|g>u-|g>v]=|h>ij·[|g>i-|g>j]。
若在转换可行时定义由值1编码的滤波(filtering)函数fuv ij,反之定义由值0编码的滤波函数fuv ij,则这些约束可以如下表达式概括:
fuv/ij=F{|h>uv-|h>ij}F{|h>uv·[|g>u-|g>i]}。
II.D.1.a.ii.用单一向量进行的编码
||e|>uv=||e|>ij。
因此,在此表示体系中,滤波函数等于:
fuv/ij=F{||e|>uv-||e|>ij}。
II.D.1.a.iii.用两个指数进行的编码
在一些实施方案中,上文建立的fuv/ij滤波函数表达式可用于推导可行转换的必要且充分条件的集合。通过首先考虑第一因子,即施加相同杂合特征的F{|h>uv-|h>ij},可定义源自与此标志对应的二进制码的指数。若H是此指数;则其以下式计算:
H=L<b|h>+1。
因此,第一条件以下式表达:
H(i,j)=H(u,v)。
然后,考虑第二因子,即施加纯合基因座的恒等式(identity)的F{|h>uv·[|g>u-|g>i]},与每个单元型的纯合部分对应的整数可以是相同的。另一方面,若通过重组保留与每个单元型的杂合部分对应的两个整数的和,重组操作保留指数的和。因此,第二条件可表达为:
u+v=i+j。
这样,滤波函数可表达为:
fuv/ij=F{H(u,v)-H(i,j)}F{u+v-i-j}
II.D.1.b.重组类型(recombination classes)的概念
因为滤波函数(诸如刚定义的)的目的是保留与重组相容的对,所以可推导出重组类型的概念。这样的类型可定义为基因型的集合,其中此集合中的每个基因型(i,j)可经由重组操作而与此相同集合的任何其它的基因型联系在一起。依照刚建立的滤波函数的表达式,可通过指数H和S=i+j=u+v来确定类型。至于每种类型中存在的个体,它们可经由这两个指数之一来分配,两者的和是已知的。
种重组类型。此数目的类型对应于每个基因座的三种不同状态el=0,1,2,这导致基因座L的数目3L。这意味着,若不考虑杂合基因座的相位,则相同类型的所有基因型是相同的。若我们定义基本向量:
[al]L=3L-l,
则这三种可能的状态容许可以用基数3编码将类型确定为目标。
然后可以计算该类型的唯一定位指数c:
c=L<a||e|>+1。
若以标明提供该类型的指数c的算符:
则滤波函数可写为:
II.D.1.c.计算重组概率
如上文所提出的,无关紧要地,σl c值(其指出或不指出基因座l处的等位基因变化)可以是0或1,若此基因座是纯合的话。因此,重组概率计算可实施每处纯合基因座处的两个概率 和 的求和。对于Lh杂合基因座,因此会有项要求和,这可表示计算次数的重要用途。考虑由于纯合基因座的存在而引入的简并的另一种方式是使基因型简化为仅杂合基因座,计算等价重组系数,然后计算重组概率。因此,求和以隐式方式发生。基因型的简化很容易发生:具有针对每个基因座处的积累距离的向量|d>,简化在于取消与纯合基因座对应的分量dl。
然后,可通过反转霍尔丹氏(Haldane’s)映射函数来获得系数或重组的值:
然后,通过使用上文提出的表达式来进行概率计算。
II.D.2.对与后代相关联的概率的代表性解释
这节介绍第II节中建立的后代概率tpuv的通式中重组(i,j)→(u,v)的概率Puv/ij的表达式。假设:
可书写解的通式:
可书写作为乘积的转换概率:
其中fum/ij是上文所定义的滤波函数。通过将它们加入通式中,获得更紧凑的表达式。为了说明用于通过滤波函数中含有的约束来简化求和的机制,举概率Pum/ij为例:
可通过施加恒等式m=i+j-u来消去关于数m的求和;关于此指数的求和写为:
其产生:
因子F{i+j>u}具有如下意义:通过扩大函数F定义,当并且仅当条件i+j>u被证实时,此因子是非空值的,并且等于一个单位(unit)。此因子来自通过关于始于该单位值的此指数的求和而隐式施加的约束m>0。此约束包含于施加相同杂合标志的约束中。给定|h>,即两对共有的杂合标志向量,则可从如下运算推导出所述指数:
i=L<b|gi>+1
j=L<b|gj>+1
u=L<b|gu>+1。
因此,前两个指数的和可表示为:
i+j=L<b|gi+gj>+2=L<b||h>·|gi+gj>+2L<b||h>·|gi>+2
而第三个指数可写为:
u=L<b||h>·|gu>+L<b||h>·|gu>+1
最后,通过减去:
i+j-u=L<b||h>·|gi+gj-gu>+L<b||h>·|gi>+1。
现在这个差的最小值干预如下构形,其中所有的纯合基因座值是空值的;而且其中同时最终基因型的所有杂合基因座是这样的以使得上方的等位基因等于单元元素(unity)。可以通过两个恒等式来转化次构形:
L<b||h>·|gi>=0
L<b||h>·|gi+gj-gu>=0。
在这种极端的情形中,指数的和等于:
i+j-u=1。
因此,条件i+j>u包括在条件H(u,i+j-)=H(i,j)中;因此,其明确的表达式构成可被消去的冗余。关于指数m的求和限于:
产生表达式:
II.D.3.向两种受精构形的应用
为了定制为每个问题构形建立的结果的表达式,可区分两种类型的构形:
异体受精
自体受精
II.D.3.a.异体受精
亲本的独立性容许它们共同发生的概率被写为它们出现的乘积:
因此:
因此,通式写为:
其可在下文提供的因式分解后的形式下排列,其中每个因子表示产生由给定的亲本所提供的配体的概率:
II.D.3.b.自体受精
从表达式:
和以下式描述亲本的恒等式:
产生如下等式:
另外,证实亲本的恒定式性质:
wpij=3-wpij。
通过结果的通式中加入此结果,获得如下等式:
在F1杂种自体受精的具体情形中,证实如下性质:首先,亲本1和2是相同的;其次,不同的转变对应于每个重组状态。这带来如下性质:
i0=N,j0=1,K=1
pij=F{i-i0}F{j-j0}。
通过结果的通式中加入这些性质,确定:
III.用于计算遗传值分布的方法
目前公开的主题还提供用于计算遗传值分布的方法。在一些实施方案中,目前公开的主题提供用于计算遗传值分布的方法。在一些实施方案中,该方法包括(a)提供第一育种配偶体和第二育种配偶体,其中(i)所述第一育种配偶体和所述第二育种配偶体中每一个的基因型对于与一个或多个遗传基因座连锁的一种或多种遗传标记而言是已知的或是可预测的;(ii)每种遗传标记和与之连锁的所述遗传基因座之间的遗传距离是已知的或可以是指定的;和(iii)每种基因型与遗传值相关联;(b)对所述第一育种配偶体和所述第二育种配偶体的育种进行计算、模拟、或者计算和模拟的组合以产生后继世代,所述后继世代的每个成员包含基因型;和(c)为一种或多种所述基因型计算遗传值分布。
在用于本文时,短语“遗传值”指给基因座上的特定等位基因指定的值。或者,短语“遗传值”可指给基因型和/或单元型指定的值。在一些实施方案中,通过将一个或多个个体遗传值加在一起来计算基因型和/或单元型的遗传值,所述一个或多个个体遗传值已经分配给那些构成基因型和/或单元型的等位基因。
在一些实施方案中,每个基因座上的每个等位基因的遗传值在等位基因在后代中是想要的时被分配值1(-1),在等位基因在后代中是不想要的时被分配值(指定值)-1,并且在等位基因在后代中既不是想要的也不是不想要的时被分配值0。在这些实施方案中,每个个体在给定的遗传基因座上可能具有的总的遗传值将选自-2、-1、0、1和2。
在目前公开的主题的一些实施方案中,根据对于在后代个体中存在给定等位基因的愿望的定性评估来分配每处基因座处的等位基因的遗传值。在这些实施方案中,遗传值可具有任何值(例如正值、负值或零),包括整数、分数值、十进制值(例如具有1个、2个、3个、4个或更多小数位的数字)等。这些数值可以任何方式分配,并可考虑例如等位基因具有的、对定量性状的表达的贡献度。在一些实施方案中,通过检查具有已知基因型的个体用实验方法确定贡献度。
植物以一组基因型表示,每种基因型受到出现概率测量影响。迄今,考虑了包括所有标记基因座和QTL的基因型。此基因型记录为G,而其特定状态记录为Gij。此后,每种基因座类型会被区别开。该组标记基因座可以被记录为E,而该组QTL将被记录为U。
假设(ξ)是给予特定植株的名称,假设Pij (ξ)是与基因型Gij相关联的出现概率。概率的表达式可以被记录为Pij (ξ)。为了避免指数相乘,可假设的是实验植物(ξ)来自阶(0)的类属植物;因此,从表征类属植物的概率Pij中导出(deducted)概率Pij (ξ)。假设Pij=Pr{Gij},则Pij (ξ)=Pr{Gij| E(ξ)}也是正确的。这种关系指明记号(marking)将一致性条件从整体的基因型导入标记基因座处测量的基因型。为了建立此条件概率的表达式,可采用贝叶斯氏(Bayes’)定理:
在实现条件概率Pr{E(ξ)|Gij}时可完全确定评估中的概率。若E(ξ)≠Euv,则此概率会是空值,反之,会等于单位元素。再次使用函数F,此概率可写为:
Pr{E(ξ)|Gij}=F{Eij-E(ξ)}。
这样,得出表达式:
III.A.后代指数分布的计算
在一些实施方案中,可如下文所提出的那样计算与植物杂交和/或自体受精相关联的指数分布。
III.B.加性指数的定义
可通过计算如下加权和来定义简单指数I(γ),其中QTL的子集插入K种QTL的集合之中:
这也可在标积形式下书写:
I(γ)=<α(γ)|Q>
其中向量|Q>是所有QTL的状态的向量,即元素Qv的向量,其如下定义:
Qv=1对于构形:
Qv=0对于构形:
Qv=0对于构形:
Qv=-1对于构形:
如下定义向量|α(γ)>:若|Sq (γ)>定义为干预指数计算的K种QTL的位置标志向量,其中所述指数计算的分量的这样的:
若具有系数v的基因座对指数(γ)值没有贡献,则
则可定义系数的向量|α(γ)>、长度K和元素:
若具有系数v的基因座对指数(γ)值有贡献,则
若具有系数v的基因座对指数(γ)值没有贡献,则
也可定义由组合的简单指数构成的复合指数:
这也可写为:
J=<w|Q>
因此,在考虑修改后的系数的计算时复合指数的计算与简单指数的计算相同。
可显示此类指数的相加性。出于此目的,可通过以唯一向量再次查看基因型表示来改写指数定义。因此,给定|e>uv,与基因型(u,v)相关联的向量;给定(given)|e(q)>uv,QTL基因型;并给定||e(q)|>uv,相关联的实验基因型。考虑到指数定义和通过单一向量进行的编码的性质,指数值可表示为:
Iuv=<w||e(q)|-1>uv。
若另一方面,调用关系:
指数可如下改写:
因此,每种单元型可表达为携带指数值,其可以如下定义:
而且这些值的和产生基因型的指数值:
Iuv=Iu+Iv
依照植物配子的指数分布,这种相加性可有利而广泛地用于选择植物,因此避免在指数值和的分布方面具有小值的后代模拟。
III.C.其它指数定义
由于基于非线性函数的确定,可在没有相加性的条件下考虑许多其它的定义。具体地,可考虑其中出现“最大”(maximum)函数的显性构形。其分布的评估方法不利用相加性来进行指数计算,以便保持其一般性状。其是从完整的植株评估的,因此被与指数值和所牵涉的配子的指数值之间的关系无关地评估
III.D.表达指数分布
上文,为了突出指数相加性,经由单元型指数来分离指数值。现在,对于建立特定指数I(γ)中牵涉的K(γ)种QTL,会有至多个不同指数值:即至多多达重组类型的数目。因此,与实验植物(ξ)相关联的标准分布I(γ)可表达为:
其中 是指数值的数目,其中K(γ)是干预指数I(γ)计算的QTL的数目,其中Ic (γ)是与类型c系数相关联的指数值,并且其中qc是相关联的概率。
为了获得概率qc,可考虑两个步骤。第一步牵涉对不参与特定指数计算的所有基因型状态的求和。这种求和呈现重要性,因为其简化至即值4L的有阶状态的数目。其通过保留基因型的起始大小,但通过任意地将纯合状态e1=0加于不牵涉的基因型(非牵涉的标记和QTL)来实现。若以和指明实现新指数的计算行为的算符:
则可书写求和运算:
其中N=2L。
第二步旨在产生与相位状态结合的种群。根据定义,这达到属于相同类型的复合个体:作为类型c的各个指数的(k1,l1),(k2,l2),...,所述类型c包括它们的mc;然后该类型的各种基因型的指数是诸如:
因而,求和的编码是:
因而,从概率pkl (ξ)进行的指数分布计算需要运算:
IV.选择用于产生具有想要的基因型的后代的育种对的方法
目前公开的主题还提供了选择用于产生具有想要的基因型的后代的育种对的方法。在一些实施方案中,该方法包括(a)提供第一育种配偶体和第二育种配偶体,其中(i)所述第一育种配偶体和所述第二育种配偶体中每个的基因型对于一种或多种遗传标记而言是已知的或是可预测的,每种所述遗传标记与遗传基因座连锁;和(ii)每种遗传标记和与之连锁的所述遗传基因座之间的遗传距离是已知的或可以是指定的;(b)模拟或计算和模拟组合的对所述第一育种配偶体和所述第二育种配偶体的育种进行计算、模拟、或者计算和模拟的组合以产生后继世代,所述后继世代的每个成员包含基因型;(c)为所述后继世代的一个或多个成员的一种或多种所述基因型计算出现概率或频率的分布;(d)用不同的第一潜在育种配偶体、不同的第二潜在育种配偶体、或不同的第一潜在育种配偶体和不同的第二潜在育种配偶体两者重复步骤(a)至(c);(e)对步骤(c)的一次或多次重复中计算的所述概率或频率分布彼此进行比较;和(f)根据所述比较步骤选择育种对。
在一些实施方案中,目前公开的用于选择用于产生具有想要的基因型的后代的育种对的方法包括(a)提供第一育种配偶体和第二育种配偶体,其中(i)所述第一育种配偶体和所述第二育种配偶体中每一个的基因型对于与一个或多个遗传基因座相关的一种或多种遗传标记而言是已知的或是可预测的;(ii)每种遗传标记和与之相关的所述遗传基因座之间的遗传距离是已知的或可以是指定的;和(iii)每种基因型与遗传值相关联;(b)模拟或计算和模拟组合的对所述第一育种配偶体和所述第二育种配偶体的育种进行计算、模拟、或计算和模拟的组合以产生后继世代,所述后继世代的每个成员包含基因型;(c)计算与所述后继世代的一个或多个成员的一种或多种基因型相关联的遗传值的分布;(d)用不同的第一潜在育种配偶体、不同的第二潜在育种配偶体、或不同的第一潜在育种配偶体和不同的第二潜在育种配偶体两者重复步骤(a)至(c);(e)对在步骤(c)的一次或多次重复中计算的所述遗传值分布彼此进行比较;和(f)根据所述比较步骤来选择育种对。
另外,在一些实施方案中,目前公开的方法进一步包括产生一个或多个更远世代后代,其中每个更远世代后代通过对后继世代(subsequent generation)或更后世代的至少一个成员的育种的一轮或多轮计算、模拟或者计算和模拟的组合来产生,其中,从下面的组中选择个体,所述组由它本身、紧接在之前的世代的成员、来自相同世代的另一个个体、来自在前世代的另一个个体、所述第一育种配偶体、所述第二育种配偶体、及其双单倍体衍生物组成。还可计算任何此类更远世代的一个或多个成员的一种或多种基因型的出现概率和/或频率的分布和/或与任何更远世代的一个或多个成员的一种或多种基因型相关联的遗传值的分布,并进行比较。
如此,在一些实施方案中,目前公开的方法考虑到育种对的选择,这根据后继世代中的和/或任何更远世代的一种或多种基因型的出现概率或频率的分布和/或与这些基因型相关联的遗传值的分布的比较进行。基于比较这些分布中的一种或多种的育种对的选择可包括任何认为相关的标准,并且可包括但不限于产生含有具有想要的最小遗传值的基因型的个体所需的世代数目、可通过增加世代数目将遗传值增加到的程度、和考虑产生想要的基因型的概率和/或频率连同想要的基因型的遗传值两者的判断。理解的是,目前公开的主题不限于导致育种配偶体的选择的比较步骤中的任何单一的标准。
在一些实施方案中,用于选择育种对的例示性方法是通过模拟减数分裂(配子的产生)和受精(配子的结合)来推测地模拟后代频率或指数分布。减数分裂可视为沿着给定的染色体随机或非随机发生的一系列重组事件,同时同源染色体分入配子组中。然后后代基因型GEN源自分别具有基因型GEH1和GEH2的两组配子染色体的结合,这经由受精实现。
由于每种系列的重组事件可引起展示不同等位基因构型的不同配子,存在有许多可能的后代基因型,每种具有相关的出现频率或概率。所有的后代基因型,及其相关的出现频率或概率可以频率或概率分布表示。
举例而言,代表性的基因型可以是二倍体,具有两个等位基因“a”和“A”。在一些实施方案中,也可使用a=0和A=1,用数字编码等位基因。
在此例子中,具有多至4种可能的在个体的每个基因座上的“定相的”(“phased”)基因型(GEN):aa、aA、Aa和AA,其中基因型中的第一个字母指由导致个体的育种的第一育种配偶体(GEH1)贡献的等位基因,而第二个字母指由相同育种的第二育种配偶体(GEH2)贡献的等位基因。“定相的”基因型是考虑到等位基因的亲本起源的基因型。“非定相的”基因型不考虑等位基因的亲本起源。因而,在每个基因座上有多至3种可能的“非定相的”基因型:aa、aA(其等同于Aa)和AA。由于在给定的基因座上可以有比非定相基因型更多的定相基因型,数种定相的基因型可对应于一种非定相的基因型(杂合基因座)。在考虑数个基因座时,一个个体可以由超过1种的定相的、多基因座基因型表示,每种基因型称为样品基因型。
可使用例如aa=0、Aa=1、aA=2和AA=3来用数字对定相的基因型进行编码。
可使用例如aa=0、aA=1和AA=2来用数字对非定相的基因型进行编码。
可看出,用于定相的基因型的数字码遵照如下规则:
GEN=GEH1+2xGEH2
在一些实施方案中,实验基因型是非定相的。为了模拟后代基因型,首先必须模拟在非定相的(实验的)基因型之下的定相基因型的频率分布。在一些实施方案中,这可通过模拟个体的减数分裂和受精来实现。
产生与实验基因型相容的定相基因型。作为额外的例子,在一些实施方案中,对于任何个体,可以有ns12种样品基因型。第一育种配偶体的样品基因型可存储在长度N(N是连锁群的大小,以标记基因座的数目表示)x ns12(样品基因型的数目)的向量pa1中。每个pa1向量可以是相继存储的N个值的一系列ns12个亚组,每个亚组包含一种样品基因型的值。第二育种配偶体的样品基因型也可存储在向量pa1中,其具有与第一育种配偶体的属性相同的属性。
在一些实施方案中,模拟减数分裂可包括模拟同源染色体之间的重组(即交换)。重组可视为在同源染色体上“步行”(“walking”)和从一个跳跃(“jumping”)至另一个或反之亦然。在一些实施方案中,同源染色体可被限定为一个在“顶部”而另一个在“底部”。指示变量sw1和sw2可被限定成指明在“顶部”或“底部”染色体上的“步行”。在一些实施方案中,这些指示变量可采用下列值:
-1若在“顶部”染色体上“步行”
-2若在“底部”染色体上“步行”
-sw1是第一育种配偶体的指示变量而sw2是第二育种配偶体的指示变量。
在一些实施方案中,模拟减数分裂中的第一步是从第一育种配偶体的ns12种样品中挑选随机的样品基因型。为了这样做,可使用例如标准化的均匀分布来产生随机数(例如“iran”)。然后可挑选向量pa1中位置iran处的样品基因型。可应用相同的规程来挑选第二育种配偶体的样品基因型。
在一些实施方案中,模拟的初始条件可设置为在标记基因座nn=1处和“顶部”染色体(sw1=1,sw2=1)上开始。
可从标准化的均匀分布对“测试”重组距离rj *进行采样。若此测试重组距离小于标记基因座nn和nn+1之间的已知重组距离rnj(这里rj *<r1j,其中r1j是标记基因座1和标记基因座2之间的已知重组距离),则指示变量sw1的数值从1变化至2(或从2至1——这里从1至2)。在遗传方面,这指明已经在标记基因座nn和nn+1(这里是1和2)之间发生重组,从一个同源染色体“跳跃”至另一个同源染色体(这里是“顶部”染色体至“底部”染色体)。若“测试”重组距离大于已知的重组距离rnj,则指示变量sw1保持不变。在遗传方面,这指明在标记基因座nn和nn+1(这里是1和2)之间没有发生重组,在同一同源染色体(这里是“顶部”染色体)上不断“步行”。可为第二育种配偶体实施相同的步骤。
可经由如下步骤推理出自第一育种配偶体(具有基因型GEH1)创建的配子(相同的步骤可适用于创建来自具有基因型GEH2的第二育种配偶体的配子):
-若第一育种配偶体样品基因型在标记基因座处是纯合的,则sw1的值可认为不相关的,因为“顶部”和“底部”等位基因是相同的。若第一育种配偶体在此标记基因座处的基因型是类型“aa”的,则GEH1=0。若第一育种配偶体在此标记基因座处的基因型是类型“AA”的,则GEH1=1。
-若第一育种配偶体样品基因型在标记基因座处是杂合的,sw1的值确定GEH1。若在此标记基因座处的“顶部”等位基因是类型“a”的而“底部”等位基因是类型“A”的,并且sw1=1,则GEH1=0。若sw1=2,则GEH1=1。若在此标记等位基因处的“顶部”等位基因是类型“A”的而“底部”等位基因是类型“a”的,并且sw1=1,则GEH1=1。若sw1=2,则GEH1=0。
一旦已经创建了来自第一和第二育种配偶体(具有基因型GEH1和GEH2)的配子,后代基因型GEN可以下式定义:
GEN=GEH1+2xGEH2
在标记基因座nn=1处的此样品基因型(定相的基因型)可与个体的实验标记基因型(非定相的基因型)进行比较。若样品基因型与实验基因型一致,则将样品基因型添加至“输出”向量,其包含预先确定的目标数目的样品基因型。该输出向量大小是Nxns(ns是样品基因型的预先确定的目标数目)。
N个标记基因座中的每个可以相同方式处理,开始于如下步骤,其中在移动至随后的标记基因座时对“测试”重组距离rj*进行采样。然后可将这些步骤重复ns次以获得ns个样品基因型。
若对于中间标记基因座nn=k,样品基因型与实验标记基因型不一致,则放弃从nn=1至nn=k的全部样品基因型,并在减数分裂模拟刚开始时重新启动该过程:即从第一育种配偶体的ns12种样品中挑选随机样品基因型,然而是第二育种配偶体。
模拟未来后代。用于模拟未来后代的过程可以是基本上相同的,只是没有样品基因型和实验基因型之间的比较,因为对于未来后代不可获得实验基因型。还有,在一些实施方案中,起始样品基因型不是随机选择的,而是使用上文创建的样品基因型。
可使用由Fisch等,1996提出的矩阵,自样品基因型计算QTL基因型。然后可使用经济指数,根据QTL基因型计算遗传值,诸如:
其中βt是性状t的权重(经济价值),αqt是性状t的QTL q上的有利等位基因的效应(通常是QTL的加性值),piqt是性状t的QTL q上的基因型i的出现概率,而δiqt是性状t的QTL q上的QTL基因型i的选择值。
V.用于产生具有想要的基因型的后代个体的方法
目前公开的主题还提供了用于产生具有想要的基因型的后代个体的方法。在一些实施方案中,该方法包括(a)提供第一育种配偶体和第二育种配偶体,其中(i)所述第一育种配偶体和所述第二育种配偶体中每个的基因型对于一种或多种遗传标记而言是已知的或是可预测的,每种所述遗传标记与遗传基因座连锁;和(ii)每种遗传标记和与之连锁的所述遗传基因座之间的遗传距离是已知的或可以是指定的;(b)计算、模拟或计算和模拟组合的所述第一育种配偶体和所述第二育种配偶体的育种以产生后继世代,所述后继世代的每个成员包含基因型;(c)为所述后继世代的一个或多个成员的一种或多种所述基因型计算出现概率或频率的分布;(d)用不同的第一潜在育种配偶体、不同的第二潜在育种配偶体、或不同的第一和不同的第二潜在育种配偶体两者重复步骤(a)至(c);(e)对步骤(c)的一次或多次重复中计算的所述概率或频率分布彼此进行比较;(f)根据所述比较步骤选择育种对;和(g)依照步骤(b)中所提出的计算、模拟或计算和模拟的组合对育种对进行育种以产生具有想要的基因型的后代个体。
在一些实施方案中,目前公开的用于产生具有想要的基因型的后代个体的方法包括(a)提供第一育种配偶体和第二育种配偶体,其中(i)所述第一育种配偶体和所述第二育种配偶体中每一个的基因型就与一个或多个遗传基因座连锁的一种或多种遗传标记而言是已知的或是可预测的;(ii)每种遗传标记和与之连锁的所述遗传基因座之间的遗传距离是已知的或可以是指定的;和(iii)每种基因型与遗传值相关联;(b)计算、模拟或计算和模拟组合的所述第一育种配偶体和所述第二育种配偶体的育种以产生后继世代,所述后继世代的每个成员包含基因型;(c)计算与所述后继世代的一个或多个成员的一种或多种基因型有关的遗传值的分布;(d)用不同的第一潜在育种配偶体、不同的第二潜在育种配偶体、或不同的第一和不同的第二潜在育种配偶体两者重复步骤(a)至(c);(e)对步骤(c)的一次或多次重复中计算的所述遗传值分布彼此进行比较;(f)根据所述比较步骤来选择育种对;和(g)依照步骤(b)中所提出的计算、模拟或计算和模拟的组合对育种对进行育种以产生具有想要的基因型的后代个体。
因而,目前公开的方法设计用于通过进行一系列育种步骤来产生想要的后代个体本身,所述一系列育种步骤通过目前公开的主题的方法进行建模,并经由目前公开的方法而采用育种配偶体。如此,短语“根据步骤(b)中所提出的计算、模拟或计算和模拟的组合来对育种对进行育种”指实际上进行目前公开的方法指明会导致产生想要的后代个体的一系列育种步骤。因为目前公开的方法考虑到在每个育种阶段鉴定应当被用于产生下一世代的后代的基因型,并且本领域普通技术人员会理解如何产生每个世代和针对想要的基因型测试世代成员,在考虑目前公开的主题之后,本领域普通技术人员将能够进行这些育种,并鉴定合适的基因型。
VI.方法、系统和计算机程序产品
目前公开的主题还提供了可在本文所公开的一般方法中采用的方法、系统和计算机程序产品。
在一些实施方案中,目前公开的主题的方法可以用硬件、固件、软件或其任意组合实现。在一些实施方案中,用于计算一种或多种潜在基因型的出现概率或频率的分布、用于计算遗传值分布、用于选择育种对以产生具有想要的基因型的后代、和/或用于产生具有想要的基因型的后代个体的方法和数据结构可至少部分地作为在计算机可读介质中包含的计算机可读指令和数据结构实现。
参照图1,用于实现目前公开的主题的例示性系统包括常规个人计算机100形式的通用计算装置,包括处理单元101、系统存储器102和系统总线(bus)103,该系统总线103将包括系统存储器的各种系统组件耦接至处理单元101。系统总线103可以是包括存储器总线或存储器控制器、外围总线、以及使用多种总线架构中的任一种的局部总线的数种类型的总线结构中的任一种。系统存储器包括只读存储器(ROM)104和随机存取存储器(RAM)105。基本输入/输出系统(BIOS)106存储于ROM 104中,该基本输入/输出系统(BIOS)106包含有助于例如在启动期间在个人计算机100内的元件之间传送信息的基本例程。个人计算机100进一步包括用于从硬盘读取和写入硬盘的硬盘驱动器107(未显示)、用于从可移动磁盘109读取或写入可移动磁盘109的磁盘驱动器108、和用于从可移动光盘111读取或写入可移动光盘111的光盘驱动器110,所述可移动光盘111例如为CD ROM或其它光学介质。
硬盘驱动器107、磁盘驱动器108和光盘驱动器110分别通过硬盘驱动器接口112、磁盘驱动器接口113和光盘驱动器接口114与系统总线103相连。驱动器及其关联的计算机可读介质提供计算机可读指令、数据结构、程序模块、和用于个人计算机100的其它数据的非易失性存储。虽然本文所述例示性环境采用硬盘、可移动的磁盘109和可移动的光盘111,但是本领域技术人员会理解的是,还可在例示性操作环境中使用可存储能够由计算机访问的数据的其它类型的计算机可读介质,例如磁带盒(magnetic cassette)、闪存卡、数字视频盘、伯努里盒式磁带(Bernoulli cartridge)、随机存取存储器、只读存储器等。
许多程序模块可存储在硬盘、磁盘109、光盘111、ROM 104或RAM 105上,包括操作系统115、一种或多种应用程序116、其它程序模块117和程序数据118。
用户可经由输入装置诸如键盘120和指示装置122将命令和信息输入个人计算机100。其它输入装置(未显示)可包括麦克风、触摸板、操纵杆、游戏手柄(game pad)、圆盘式卫星天线(satellite dish)、扫描仪等。这些和其它输入装置常常经由耦接到系统总线的串行端口接口126而连接至处理单元101,但可通过其它接口,诸如并行端口、游戏端口(game port)或通用串行总线(USB)连接。监视器127或其它类型的显示装置也经由诸如视频适配器128的接口而连接至系统总线103。除了监示器之外,个人计算机通常包括其它外围输出设备(未显示),诸如扬声器和打印机。对于目前公开的主题,用户可使用所述输入装置之一来输入如下数据,该数据指明经由监示器127呈现给用户的供选方案之间的用户偏爱。
使用到一台或多台远程计算机(诸如远程计算机129)的逻辑连接,个人计算机100可在联网的环境中运行。远程计算机129可以是另一台个人计算机、服务器、路由器、网络PC、对等装置或其它公共的网络节点,而且通常包括上文关于个人计算机100所述的元件中的许多或所有元件,虽然在图1中仅显示了存储器存储装置130。图1中所描绘的逻辑连接包括局域网络(LAN)131、广域网络(WAN)132和系统区域网络(SAN)133。局域和广域联网环境在办公室、企业范围的计算机网络、内联网和因特网中是普通的。
使用系统区域联网环境来使分布式计算系统(诸如群集)内的节点相互连接。例如,在图示的实施方案中,个人计算机100可包含群集中的第一节点,而远程计算机129可包含群集中的第二节点。在此环境中,优选的是,个人计算机100和远程计算机129在共同的管理域之下。因此,虽然计算机129被标明“远程的”,但是计算机129可在物理上极其接近个人计算机100。
在LAN或SAN联网环境中使用时,个人计算机100经由网络接口适配器134和134a而连接至局部网络131或系统网络133。网络接口适配器134和134a可包括处理单元135和135a及一个或多个存储单元136和136a。
在WAN联网环境中使用时,个人计算机100通常包括用于在WAN 132上建立通信的调制解调器138或其它装置。调制解调器138(其可以是内部的或外部的)经由串行端口接口126而连接至系统总线103。在联网的环境中,关于个人计算机100图示的程序模块或其部分可存储在远程存储器存储装置中。会理解的是,所显示的网络连接是例示性的,并且可使用用于在计算机之间建立通信链接的其它方法。
一般而言,在图2中的200处查阅本文所公开的用于计算一种或多种潜在基因型的出现概率或频率的分布的目前公开主题的一个实施方案的代表性例子。
如图2的步骤ST202中所示,提供第一育种配偶体和第二育种配偶体,其中所述第一育种配偶体和所述第二育种配偶体中每个的基因型对于一种或多种遗传标记而言是已知的或是可预测的,每种所述遗传标记是与遗传基因座连锁的。在一些实施方案中,每种遗传标记和与之连锁的遗传基因座之间的遗传距离是已知的。
如图2的步骤ST204中所示,通过计算、模拟或计算和模拟组合的第一育种配偶体和第二育种配偶体的育种来建立多个后继世代基因型。
若想要的话,更远世代可如图2的步骤ST205中所示的那样产生,可将步骤ST205重复一次或多次以产生多个更远世代基因型,其中每个与出现概率或出现频率相关联。
如图2的步骤ST206中所示,计算多个后继世代和/或更远世代基因型中每个的出现概率或频率的分布。
如图2的步骤ST208中所示,在目前公开的主题的一些实施方案中,可显示步骤ST206中的计算结果。注意到,此步骤是任选的。
一般而言,在图3中的300处查阅本文所公开的用于计算遗传值分布的目前公开的主题的一个实施方案的代表性例子。
如图3的步骤ST302中所示,提供第一育种配偶体和第二育种配偶体,其中所述第一育种配偶体和所述第二育种配偶体中每一个的基因型对于一种或多种遗传标记而言是已知的或是可预测的,每种所述遗传标记与遗传基因座连锁,并且每种基因型与遗传值相关联。在一些实施方案中,每种遗传标记和与之连锁的遗传基因座之间的遗传距离是已知的。
如图3的步骤ST304中所示,通过计算、模拟或计算和模拟组合的第一育种配偶体和第二育种配偶体的育种来建立多个后继世代基因型。
若想要的话,更远世代可如图3的步骤ST305中所示的那样产生,可将步骤ST305重复一次或多次以产生多个更远世代基因型,其中每个与出现概率或出现频率相关联。
如图3的步骤ST306中所示,计算一个或多个后继世代和/或更远世代基因型的遗传值分布。任选地,在图3的步骤ST308中,显示图3的步骤ST310中的计算结果。
一般而言,在图4中的400处查阅本文所公开的用于产生具有想要的基因型的后代的目前公开的主题的一个实施方案的代表性例子。
如图4的步骤ST402中所示,提供第一育种配偶体和第二育种配偶体,其中所述第一育种配偶体和所述第二育种配偶体中每个的基因型对于一种或多种遗传标记而言是已知的或是可预测的,每种所述遗传标记是与遗传基因座连锁的。在一些实施方案中,每种遗传标记和与之连锁的遗传基因座之间的遗传距离是已知的。
如图4的步骤ST403中所示,若想要的话,每种基因型可以与遗传值相关联。注意到,在将遗传值与第一和第二育种配偶体的基因型联系在一起之外,还可将遗传值与后继世代、一个或多个更远世代、或其组合中建立的任何基因型联系在一起。
如图4的步骤ST404中所示,通过计算、模拟或计算和模拟组合的第一育种配偶体和第二育种配偶体的育种来建立多个后继世代基因型。
如图4的步骤ST406中所示,计算多个后继世代基因型中的一个或多个的出现概率或频率和/或遗传值的分布。
若想要的话,更远世代可如图4的步骤ST407中所示的那样产生,可将步骤ST407重复一次或多次以产生多个更远世代基因型,其中每个与出现概率或出现频率和/或与遗传值相关联。
若想要的话,可在图4的步骤ST408中将图4的步骤ST402至ST407中的一步或多步重复一次或多次以产生一个或多个额外的后继世代和/或更远世代。
如图4的步骤ST410中所示,对一次或多次步骤ST406重复中计算的分布彼此进行比较。
如图4的步骤ST412中所示,根据比较步骤ST410来选择育种对。
一般而言,在图5中的500处查阅本文所公开的用于产生具有想要的基因型的后代个体的目前公开的主题的一个实施方案的代表性例子。
如图5的步骤ST502中所示,提供第一育种配偶体和第二育种配偶体,其中所述第一育种配偶体和所述第二育种配偶体中每一个的基因型对于一种或多种遗传标记而言是已知的或是可预测的,每种所述遗传标记是与遗传基因座连锁的。在一些实施方案中,每种遗传标记和与之连锁的遗传基因座之间的遗传距离是已知的。
如图5的步骤ST503中所示,若想要的话,每种基因型可以与遗传值相关联。注意到,在将遗传值与第一和第二育种配偶体的基因型联系在一起之外,还可将遗传值与后继世代、一个或多个更远世代、或其组合中建立的任何基因型联系在一起。
如图5的步骤ST504中所示,通过计算、模拟或计算和模拟组合的第一育种配偶体和第二育种配偶体的育种来建立多个后继世代基因型。
如图5的步骤ST506中所示,计算多个后继世代基因型中的一个或多个的出现概率或频率和/或遗传值的分布。
若想要的话,更远世代可如图5的步骤ST507中所示的那样产生,可将步骤ST507重复一次或多次以产生多个更远世代基因型,其中每个与出现概率或出现频率和/或与遗传值相关联。
若想要的话,可在图5的步骤ST508中将图5的步骤ST502至ST507中的一步或多步重复一次或多次以产生一个或多个额外的后继世代和/或更远世代。
如图5的步骤ST510中所示,对一次或多次步骤ST506重复中计算的分布彼此进行比较。
如图5的步骤ST512中所示,根据比较步骤ST510来选择育种对。
如图5的步骤ST514中所示,依照步骤ST506和ST508中所提出的计算的或模拟的育种,对育种对和后继世代(若采用的话)进行育种。
如图5的步骤ST516中所示,鉴定具有想要的基因型的后代个体。
VII.别的考虑因素
对于本文中所公开的每一个方法,所述方法还可进一步包括产生一个或多个更远世代后代,其中每个更远世代后代通过一轮或多轮计算、模拟或计算和模拟后继世代或更后世代的至少一个成员与选自下组的个体的育种来产生:它本身、紧接在之前的世代的成员、来自相同世代的另一个个体、来自在前世代的另一个个体、第一育种配偶体、第二育种配偶体、及其双单倍体衍生物。为了产生更远世代可采用的策略可包括但不限于来自先前世代的一个或多个个体的杂交、自交、双单倍体衍生物世代或其组合的一个或多个连续世代,(例如此类杂交、自交、双单倍体衍生物世代或其组合的1个、2个、3个、4个或更多连续世代);先前世代的一个或多个成员的自交的至少1个、2个、3个、4个或更多连续世代。
目前公开的主题还涵盖通过目前公开的方法所产生的个体以及其细胞、部分、组织、配子及后代。在一些实施方案中,个体是植物。
实施例
现在将根据附随的实施例在下文更充分地描述目前公开的主题,在附随的实施例中显示目前公开的主题的例示性的实施方案。然而,目前公开的主题可以不同的形式具体化,并且不应解释为局限于本文所列的实施方案。更确切地,提供这些实施方案以使得这一公开内容会是全面而完整的,并且可向本领域技术人员充分传达目前公开的主题的范围。
实施例导言
本文所公开的方法通过在实施例1-9中所述的玉米育种程序中和在实施例10-17中所述的小麦育种程序中应用目前公开的主题来例示。
实施例1植物材料——玉米
亲本材料包括两种玉米近交系:BFP57和BMP34,两者均来自坚秆综合种杂种优势群(Stiff-Stalk Synthetic heterotic group)。将这些品系彼此进行杂交以产生F1种子。种植F1籽粒,并将所得的F1植株进行自体受精以产生F2种子。种植约500粒F2籽粒。将所得的F2植株进行自体受精以产生F3种子。
在每株F2植株上收获一粒并且仅一粒F3籽粒,即常用的称为单粒籽粒遗传(single kernel descent,SKD)的世代推进规程。种植几乎500粒如此收获的F3籽粒,并将所得的F3植株进行自体受精以产生F4种子。收获每株F3植株上产生的所有F4籽粒,根据起源的F3植株将所收获的所有F4籽粒保持分开,由此组成F4家族。
种植约10粒来自每个F4家族的籽粒以收集叶组织,稍后用于DNA提取和基因分型。
在隔离的田块中种植约25粒来自250个未选择的F4家族的籽粒以与测试者(来自如下杂种优势群的玉米近交系,所述杂种优势群不同于工程的两个亲本近交系的杂种优势群):来自Lancaster杂种优势群的BMT505进行杂交。使F4植株去雄,由此作用雌性使用,而测试者作为雄性使用以对所有F4植株进行传粉。收获测交种子,维持家族结构。
实施例2表型评估——玉米
在双行样地中的6处田块位置种植来自229个F4家族的测交种子。实验设计是具有一次重复的格子设计。在相同的试验中还种植作为对照使用的数个其它的杂种。
还在单行样地中的一处另外的田块位置种植来自相同的229个F4家族的种子。作为对照使用的数个近交系也种植在相同的位置。所测量的性状包括谷粒产率、收获时的谷粒湿度、根倒伏、普通的黑穗病发病率和长蠕孢菌(Helminthosporium)发病率。诸如谷粒产率和收获时的谷粒湿度等性状仅在测交样地上测量,而其它性状或是在测交或是在F4样地上测量,这取决于其发生率。
实施例3基因分型和QTL作图——玉米
为每个F4家族从约10株F4植株的大批叶中提取DNA。使用覆盖整个玉米基因组的88种多态性SSR来确定DNA样品的基因型。先前已经在这种分离种群的两个亲本,即BFP57和BMP34上运行数百个SSR,用以鉴定多态性的。自对F4 DNA团(bulk)的分析获得的分子标记基因型表示已经衍生出F4家族的F3植株的基因型。
使用常用的软件MapMaker和JoinMap来构建分子标记图谱。此分子标记图谱具有1674厘摩(cM)的总长度,其中标记密度为每19cM一种标记。
使用软件QTLCartographer和PlabQTL来进行对基因型和表型数据的联合分析。对于所有的性状,鉴定出61种QTL。具体地,对于谷粒产率鉴定出14种QTL,而对于谷粒湿度鉴定出17种。QTL以其在遗传图谱上的位置及其加性效应和显性效应为特征。位置定义为最有可能的QTL位置(通常是峰LOD得分值的位置)和侧翼标记基因座之间的遗传距离(以cM计)。加性和显性效应定义为与均值偏离,并且以与它们涉及的性状相同的单位表示。加性数值确定两个亲本系中的哪一个携带QTL上有利的等位基因。在这种情况中,加性数值表示BMP34等位基因的效应,无论是正的还是负的。对于其中想要的效应是较高的性状数值的性状诸如谷粒产率,正加性数值意味着BMP34携带有利的等位基因,而负加性数值意味着BFP57携带有利的等位基因。
实施例4选择指数、遗传数值和理想的基因型——玉米
根据所鉴定的QTL,确定选择指数。然后将这些选择指数应用至植物的QTL基因型,以计算这些植株的遗传值。根据植株的QTL基因型,如下计算植株的遗传值(GV)。
其中βt是性状t的权数(weight)(经济价值),αqt是性状t的QTL q上的有利等位基因的效应(通常是QTL的加性数值(additive value)),piqt是性状t的QTL q上的基因型i的出现概率,而δiqt是性状t的QTL q上的QTL基因型i的选择数值。
在类型Fn的分离种群中(其是此种群(n=3)的情况),在每种QTL上有3种可能的基因型,即QQ、Qq和qq,其中Q表示有利的,而q表示不利的等位基因。因为QTL通常没有精确定位于标记基因座上,所以QTL上精确的基因型是未知的。然而,QTL基因型及其出现概率Piq可从在QTL侧翼的标记基因座的基因型和植物祖先(谱系)推断出,其中i取数值1、2和3,其表示QTL基因型QQ、Qq和qq,如下:
i=1(QQ)
i=2(Qq)
i=3(qq)
QTL基因型的选择数值可给予任意数值。最通常地,它们取如下数值:
δ1qt=1
δ2qt=0
δ3qt=-1
建立了数个或多或少牵涉性状的选择指数。可对理想的基因型限定每个选择指数。它是在指数中所牵涉的所有QTL上具有纯合的有利等位基因的基因型。
一种指数(称为IND)是基于针对谷粒产率的14种QTL,针对收获时谷粒湿度的17种QTL,针对根倒伏的13种QTL,针对普通的黑穗病发病率的7种QTL和针对长蠕孢菌发病率的5种QTL。在下表1-5中限定QTL参数。加性效应作为等位基因效应(αqt)使用。性状权数(βt)是针对谷粒产率的1.2、针对收获时谷粒湿度的-8.5、针对根倒伏的-1.2、针对普通的黑穗病发病率的-9.6和针对长蠕孢菌发病率的-78.1。
表1针对谷粒产率的QTL
表2针对收获时的谷粒湿度的QTL
表3针对根倒伏的QTL
表4针对普通的黑穗病发病率的QTL
表5针对长蠕孢菌发病率的QTL
为所有的229株先前已经获得基因型的F3植株计算指数IND的遗传值。229株F3植株中没有一株与理想的基因型相匹配。
实施例5预测的遗传值分布——玉米
从这229株F3植株的基因型看,显而易见的是理想的基因型可通过植株间的连续杂交循环来获得。然而,从这229株F3植株,在理论上可进行26,106种非反交。假设每株植株平均仅产生一个穗,实际上仅可进行229种杂交。哪些是26,106种理论上有可能的杂交中最好的229种杂交是必须回答的问题。每种杂交(若进行的话)会产生许多不同基因型。这些基因型及其出现概率可从有待杂交的植株的基因型计算。229株F3植株的标记基因型是已知的,因此可预测这些F3植株间杂交的潜在后代的全基因组标记基因型。可从遗传图谱提供的标记基因座之间的重组距离计算这些全基因组后代基因型中每一种的出现概率。还可计算这些全基因组后代基因型的指数值。一旦将这些指数值与其出现概率一起考虑,便可构建后代的指数值的频率分布。可使用这些频率分布来鉴定以高概率产生高遗传值后代的育种(自体受精或杂交)。使用频率分布的分位点数值来比较分布和鉴定优势育种。
实施例6基于标记的选择——玉米第1轮
第1轮基于标记的选择在F3植株上操作,对于所述F3植株,产生标记基因型以进行QTL作图步骤。因为不再可获得F3植株,所以通过计算其后代的遗传值的频率分布和有关的分位点数值来评估F4家族间假设的杂交(或自交)。在选择方法中使用7个不同的指数。
放弃对任何指数显示负的50%分位点数值的任何假设的杂交(自交),导致6,145种杂交受到预选。进一步选择在两个最重要的指数上具有最高数值的预选的假设杂交(自交),导致126种最终的选择。选定的杂交(自交)中牵涉的F3植株的评估容许鉴定最大数目的最高数值假设杂交(自交)中牵涉的12株F3植株。这完成第1轮基于标记的选择。因为不再可获得F3植株,所以使用这12株选定的F3植株的F3后代来启动第2轮基于标记的选择。
实施例7基于标记的选择——玉米第2轮
种植12种选定的F4家族中每一种的约45粒籽粒,取得叶样品,并用选择指数中牵涉的QTL侧翼的分子标记来确定基因型。共有531株F4植株。
以与F3植株的选择类似的方式进行F4植株的选择。产生531株F4植株间的假设的杂交(自交),计算其后代的遗传值和出现频率,构建频率分布,并计算其分位点数值。针对选择方法中使用的7个指数(与第1轮中的相同的)中的每个进行这些计算。放弃对任何指数显示负的50%分位点数值的任何假设的杂交(自交)。这导致约60,000种假设的杂交受到预选。鉴定遗传方面类似的杂交(自交)(即牵涉来自相同的两个F4家族(或单一F4家族,在自交的情况中)的F4植株),并放弃那些具有低分位点数值的。这步以后,仅4,073种假设的杂交(自交)仍被考虑用于进一步评估。进一步选择在两个最重要的指数上具有最高数值的假设杂交(自交),导致285种最终的选择。这285种假设的杂交(自交)牵涉130株F4植株。在温室中移植那些植株,并培育至成熟。植株间的杂交(自交)基于其数值和植株的雄性-雌性开花同步/异步进行。进行总共130种杂交和自交,表示可实际上实现的最好的杂交组。收获来自9种最好的杂交(C1族)的种子(C1种子)以启动下一轮选择。将这9种最好的杂交的一些种子以及其它121种杂交(自交)的种子投递至玉米育种者以进行进一步的表型评估、选择和推进。
实施例8基于标记的选择——玉米第3轮
种植总共551粒来自9种选定的C1族的籽粒,取得叶样品,并用选择指数中牵涉的QTL侧翼的分子标记来确定基因型。
以与F4植株的选择类似的方式进行C1植株的选择。产生551株C1植株间的假设的杂交(自交),计算其后代的遗传值和出现频率,构建频率分布,并计算其分位点数值。针对选择方法中使用的7个指数(与先前轮次中的相同)中的每个进行这些计算。放弃对任何指数显示负的50%分位点数值的任何假设的杂交(自交)。这导致约60,000种假设的杂交受到预选。鉴定遗传方面类似的杂交(自交)(即牵涉来自相同的两个C1家族(或单一C1家族,在自交的情况中)的C1植株),并放弃那些具有低分位点数值的。这步以后,仅2,438种假设的杂交(自交)仍被考虑用于进一步评估。进一步选择在两个最重要的指数上具有最高数值的假设杂交(自交),导致309种最终的选择。这309种假设的杂交(自交)牵涉141株C1植株。在温室中移植那些植株,并培育至成熟。植株间的杂交(自交)基于其数值和植株的雄性-雌性开花同步/异步进行。进行总共141种杂交和自交,表示可实际上实现的最好的杂交组。收获来自9种最好的杂交(C2族)的种子(C2种子)以启动下一轮选择。将这9种最好的杂交的一些种子以及其它132种杂交(自交)的种子投递至玉米育种者以进行进一步的表型评估、选择和推进。
实施例9基于标记的选择——玉米第4轮
种植总共519粒来自9种选定的C2族的籽粒,取得叶样品,并用选择指数中牵涉的QTL侧翼的分子标记来确定基因型。
以与C1植株的选择类似的方式进行C2植株的选择。产生519株C2植株间的假设的杂交(自交),计算其后代的遗传值和出现频率,构建频率分布,并计算其分位点数值。针对选择方法中使用的7个指数(与先前轮次中的相同)中的每个进行这些计算。放弃对任何指数显示负的50%分位点数值的任何假设的杂交(自交)。这导致约55,000种假设的杂交受到预选。鉴定遗传方面类似的杂交(自交)(即牵涉来自相同的两个C2家族(或单一C2家族,在自交的情况中)的C2植株),并放弃那些具有低分位点数值的。这步以后,仅1,696种假设的杂交(自交)仍被考虑用于进一步评估。进一步选择在两个最重要的指数上具有最高数值的假设杂交(自交),导致163种最终的选择。这163种假设的杂交(自交)牵涉120株C2植株。在温室中移植那些植株,并培育至成熟。植株间的杂交(自交)基于其数值和植株的雄性-雌性开花同步/异步进行。进行总共120种杂交和自交,表示可实际上实现的最好的杂交组。收获来自这120种杂交和自交(C3族)的种子(C3种子),并投递至玉米育种者以进行进一步的表型评估、选择和推进。
图6和7中提供了实施例6-9中公开的基于标记的选择的代表性结果,其中通过采用本文所公开的方法来产生个体MDL53和MDL54。
实施例10植物材料——小麦
从杂交两个小麦近交系BR25和FO71创建分离的种群。将一种品系的数株植株与另一种品系的数株植株杂交以产生F1种子。种植F1麦粒。将所得的F1植株进行自体受精以产生F2种子。种植约400粒F2麦粒,并将F2植株进行自体受精以产生F3种子。
在每株F2植株上收获一粒并且仅一粒F3麦粒,即常用的称为单粒麦粒遗传(SKD)的世代推进规程,导致一批400粒F3麦粒。种植这400粒F3麦粒,并将所得的F3植株进行自体受精以产生F4种子。收获每株F3植株上产生的所有F4麦粒,根据起源的F3植株将所收获的所有F4麦粒保持分开,由此组成F4族(400)。
种植一行每个F4家族的麦粒,并将F4植株进行自体受精以增加种子数量。所收获的种子由F5代组成。
在每F4行(每行一批)上大批收获所有的F5麦粒。在这种方法的最后,可获得400个所谓F3:F5家族。通过堆积来自每个F3:F5家族的12株F5植株的叶片样品来取得每个F3:F5家族的叶组织样品。稍后这些叶样品用于DNA提取和基因分型。所获得的基因型表示F3植株的基因型。
实施例11表型评估——小麦
在2002年(在法国的1处位置)和2003年(在法国的4处位置,在德国的1处和在英国的1处)进行的田间试验中在表型方面对400个F5族进行评估。实验设计是具有重复的对照的随机化完全区组设计。将亲本系以及数种其它品系作为对照使用,因此在相同的试验中种植。
对下列性状进行评估:麦粒产率、抽穗日期、倒伏、条锈病发病率、眼斑病(eyespot)发病率、千粒重(TKW)、测试重量(test-weight)、硬度、蛋白质含量、SDS沉降测试、面粉调混性自动记录(Mixograph)参数和高分子量麦谷蛋白亚基。
实施例12基因分型和QTL作图——小麦
从每个F4家族的约12株F5植株的大批叶中提取DNA。使用覆盖整个小麦基因组的170种SSR来确定DNA样品的基因型。这种分离种群的两个亲本系即BR25和FO71先前已经在数百种SSR标记上进行基因分型,以鉴定它们之间的多态性。自对F5 DNA团的分析获得的分子标记基因型表示已经衍生出F4和F5家族的F3植株的基因型。
使用常用的软件Mapmaker来构建分子标记图谱。使用软件QTLCartographer和PlabQTL来进行对基因型和表型数据的联合分析。针对所有的性状,鉴定出超过50种QTL。具体地,针对麦粒产率鉴定出11种QTL,而针对SDS沉降测试鉴定出12种。QTL以其在遗传图谱上的位置及其加性效应为特征。位置定义为最有可能的QTL位置(通常是峰LOD得分值的位置)和侧翼标记基因座之间的遗传距离(以厘摩cM计)。加性效应定义为与均值偏离,并且以与它们涉及的性状相同的单位表示。加性数值确定两个亲本系中的哪一个携带QTL上有利的等位基因。在这种情况中,加性数值表示FO71携带的等位基因的效应,无论是正的还是负的。对于其中想要的效应是较高的性状数值的性状诸如麦粒产率,正加性数值意味着FO71携带有利的等位基因而BR25携带不利的。类似地,负加性数值意味着BR25携带有利的等位基因而FO71携带不利的。
实施例13选择指数、遗传数值和理想的基因型——小麦
根据所鉴定出的QTL,确定选择指数。然后将这些选择指数应用至植物的QTL基因型,以计算这些植株的遗传值。根据植株的QTL基因型,如下计算植物的遗传值(GV)。
其中βt是性状t的权数(weight)(经济价值),αqt是性状t的QTL q上的有利等位基因的效应(通常是QTL的加性数值),piqt是性状t的QTL q上的基因型i的出现概率,而δiqt是性状t的QTL q上的QTL基因型i的选择数值。
在类型Fn的分离种群中(其是这一种群(n=3)的情况),在每种QTL上有3种可能的基因型,即QQ、Qq和qq,其中Q表示有利的,而q表示不利的等位基因。因为QTL通常没有精确定位于标记基因座上,所以QTL上精确的基因型是未知的。然而,QTL基因型及其出现概率Piqt可从在QTL侧翼的标记基因座的基因型和植物祖先(谱系)推断出,其中i取数值1、2和3,其表示QTL基因型QQ、Qq和qq,如下:
i=1(QQ)
i=2(Qq)
i=3(qq)
QTL基因型的选择数值可给予任意数值。在这一实施例中,给QTL的选择数值分配下列数值:
δ1qt=1
δ2qt=0
δ3qt=-1
建立了数个或多或少牵涉性状的选择指数。可对理想基因型限定每个选择指数。它是在指数中牵涉的所有QTL上具有纯合的有利等位基因的基因型。
一种指数(称为IND)是基于针对麦粒产率的11种QTL,针对SDS沉降测试的12种QTL、针对蛋白质含量的12种和针对TKW的15种。QTL参数如下文所限定的。将等位基因效应(αqt)设置成等于加性效应数值。性状权数(βt)是针对麦粒产率的2.7、针对SDS沉降测试的-10、针对蛋白质含量的-3和针对TKW的-15。
表6针对麦粒产率的QTL
表7针对千粒重(TKW)的QTL
表8针对蛋白质含量的QTL
表9针对SDS沉降测试的QTL
为所有的400株先前已经获得基因型的F3植株计算指数IND的遗传值。所述植株中没有一株与理想的基因型相匹配。
实施例14预测的遗传值分布——小麦
这400株F3植株的基因型指明理想的基因型可通过植株间的连续杂交循环来获得。挑战是从所有可能的杂交中鉴定如下杂交,其在容许形成具有与理想基因型的基因型相同或相似的基因型的个体方面会是最好的杂交。每种杂交(若进行的话)会产生许多不同基因型。这些基因型及其出现概率可从有待杂交的植株的基因型计算。400株F3植株的标记基因型是已知的,因此可预测这些F3植株间杂交的潜在后代的全基因组标记基因型。可从遗传图谱提供的标记基因座之间的重组距离计算这些全基因组后代基因型中每一种的出现概率。还可计算这些全基因组后代基因型的指数值。一旦将这些指数值与其出现概率一起考虑,便可构建后代的指数值的频率分布。可使用这些频率分布来鉴定以高概率产生高遗传值后代的育种(自体受精或杂交)。使用频率分布的分位点数值来比较分布和鉴定优势交配。
实施例15基于标记的选择——小麦第1轮
第1轮基于标记的选择在F3植株上运转,对于所述F3植株,产生标记基因型以进行QTL作图步骤。因为不再可获得F3植株,所以通过计算其后代的遗传值的频率分布和有关的分位点数值来评估F4或F5家族间假设的杂交(或自交)。在选择方法中使用1个指数即IND。
放弃对指数IND显示负的50%分位点数值的任何假设的杂交(自交),导致数种假设的杂交受到预选。进一步选择在指数IND上具有最高数值的预选的假设杂交(自交),导致40种最终的选择。选定的杂交(自交)中牵涉的F3植株的评估容许鉴定最大数目的最高数值假设杂交(自交)中牵涉的15株F3植株。这完成第1轮基于标记的选择。因为不再可获得F3植株,所以使用这15株选定的F3植株的F5后代来启动第2轮基于标记的选择。
实施例16基于标记的选择——小麦第2轮
种植15种选定的F5家族中每一种的约28粒麦粒,取得叶样品,并用选择指数中牵涉的QTL侧翼的分子标记来确定基因型。共有420株F5植株。
以与F3植株的选择类似的方式进行F5植株的选择。产生420株F5植株间的假设的杂交(自交),计算其后代的遗传值和出现频率,构建频率分布,并计算其分位点数值。针对选择方法中使用的指数IND进行这些计算。放弃对指数IND显示负的50%分位点数值的任何假设的杂交(自交)。鉴定遗传方面类似的杂交(自交)(即牵涉来自相同的两个F5家族(或单一F5家族,在自交的情况中)的F5植株),并放弃那些具有低分位点数值的。这一步以后,仅约4,000种假设的杂交(自交)仍被考虑用于进一步评估。进一步选择在两个最重要的指数上具有最高数值的假设杂交(自交),导致40种最终的选择。这40种假设的杂交(自交)牵涉50株F5植株。在温室中移植那些植株,并培育至成熟。植株间的杂交(自交)基于其数值和植株的雄性-雌性开花同步/异步进行。进行总共35种杂交和自交,表示可实际上实现的最好的杂交组。收获来自18种最好的杂交(C1家族)的种子(C1种子)以启动下一轮选择。将这些最好的杂交的一些种子以及其它杂交(自交)的种子投递至小麦育种者以进行进一步的表型评估、选择和推进。
实施例17基于标记的选择——小麦第3轮
种植总共540粒来自18种选定的C1家族的籽粒,取得叶样品,并用选择指数中牵涉的QTL侧翼的分子标记来确定基因型。
以与F5植株的选择类似的方式进行C1植株的选择。产生540株C1植株间的假设的杂交(自交),计算其后代的遗传值和出现频率,构建频率分布,并计算其分位点数值。针对选择方法中使用的指数IND进行这些计算。放弃对指数IND显示负的50%分位点数值的任何假设的杂交(自交)。鉴定遗传方面类似的杂交(自交)(即牵涉来自相同的两个C1家族(或单一C1家族,在自交的情况中)的C1植株),并放弃那些具有低分位点数值的。这步以后,仅约3,000种假设的杂交(自交)仍被考虑用于进一步评估。进一步选择在指数IND上具有最高数值的假设杂交(自交),导致40种最终的选择。这40种假设的杂交(自交)牵涉45株C1植株。在温室中移植那些植株,并培育至成熟。进行总共36种杂交和自交,表示可实际上实现的最好的杂交组。收获来自所有的杂交和自交(C2族)的种子(C2种子),并投递至小麦育种者以进行进一步的种子增加、表型评估、选择和推进。
实施例的讨论
在一些实施方案中,目前公开的主题涉及有待杂交或自交的植物的选择,这根据其潜在后代的特性进行。后代特性包括它们的个体基因型、这些个体基因型的出现概率、和这些基因型的遗传值、以及总的后代特性诸如遗传值的频率分布和相应的分位点数值。后代特性可以计算,而非经由模拟来估计。后代可以是特定的杂交或自交的直接产物或特定的杂交或自交,接着进行数个世代的自体受精或杂交的产物。
标记-性状关联不限于QTL,而且还包括基因。对于经由目前公开的主题可使用的标记-性状关联或基因信息,遗传图谱信息和序列多态性的可用度是想要的。
可将目前公开的主题应用至其中的种群可以是任何类型的种群,在一些实施方案中,双亲(双等位基因的)种群,虽然这不是必需的。目前,多种算法和软件已经开发用于双等位基因的情形,但是依照目前公开的主题还提供了用于多等位基因情形的算法和软件的开发。种群可以是F2个体或任何Fn世代。它还可以是任何BCn世代、重组近交系(RIL)、近等基因系(NIL)、双单倍体(DH)、或任何其它材料。C1和C2植株(如上文实施例中所说明的)组成分离的种群,其中个体可在任何基因座处具有或是纯合的或是杂合的基因型。
在上文实施例中,将基于标记的选择应用于其中的植物种群可以是与建立标记-性状(基因型-表型)关联所使用的世代相同的世代。目前公开的方法还适用于如下情形,其中标记-性状关联已经建立在与将基于标记的选择应用于其中的种群无关的种群之上。标记-性状关联甚至可来自数个独立的种群。例如,可能已经进行QTL作图项目,其已经导致标记-性状关联。公布的在公共机构运行的实验也可能已经导致标记-性状关联。最后,还可能可获得关于基因的信息,包括图谱位置和序列多态性(单元型)。可使用所有的此类信息(来自内部实验、外部实验的标记-性状关联)以及基因信息来在另一个种群中进行基于标记的选择。
可将目前公开的主题应用于其中的连续世代的数目是无限的。
虽然上文实施例阐明了用于杂交或自交在研究中的种群内的植株的代表性方法的应用,目前公开的主题还可以用于选择有待回交成独特的且纯合的品系的植物。
将目前公开的主题应用至其中的个体的数目是无限的。
目前公开的主题可应用于任何物种,不限于植物。
参考文献
通过提及将本公开中所列的所有参考文献(包括但不限于所有的专利、专利申请及其公开文本、科学期刊文章和数据库登录(例如GENBANK数据库登录和那里可获得的所有注解))以它们补充、解释、提供背景或教导本文所采用的方法、技术和/或组合物的程度完整收录本文。
Beavis(1994)in Wilkinson(ed.)Proc.49th Ann Corn and Sorghum ResConf,American Seed Trade Association,Chicago,Illinois,United States ofAmerica,pp 250-266.
Edwards等(1987)115 Genetics 113-125.
Fisch等(1996)Genetics 143:571 577.
Jaccoud等(2001)29 Nucleic Acids Res e25.
Lander和Schork(1994)265 Science 2037-2048.
Stam(1994)于van Ooijen和Jansen(编)Biometrics in plant breeding:applications of molecular markers.Proc.9th Meeting Eucarpia SectionBiometrics.Plant Research International,Wageningen,the Netherlands.
美国专利申请公开文本No.20030005479.
美国专利No.5,385,835;5,492,547;5,981,832;6,399,855;7,135,615.Wan等(1989)Theoretical and Applied Genetics 77:889-892.
可理解的是,可在不背离目前公开的主题的前提下改变目前公开的主题的各种详情。此外,上述说明书仅出于说明的目的,而不是出于限制目的。
Claims (29)
1.用于产生具有想要的基因型的后代个体的方法,该方法包括:
(a)提供第一育种配偶体和第二育种配偶体,其中:
(i)所述第一育种配偶体和所述第二育种配偶体中每个的基因型对于一种或多种遗传标记而言是已知的或是可预测的,每种所述遗传标记是与遗传基因座连锁的;和
(ii)每种遗传标记和与之连锁的所述遗传基因座之间的遗传距离是已知的或是指定的;
(b)计算、模拟或计算和模拟组合的所述第一育种配偶体和所述第二育种配偶体的育种以产生后继世代,所述后继世代的每个成员包含基因型;
(c)为所述后继世代的一个或多个成员的一种或多种所述基因型计算出现概率或频率的分布;
(d)用不同的第一潜在育种配偶体、不同的第二潜在育种配偶体、或不同的第一和不同的第二潜在育种配偶体两者重复步骤(a)至(c);
(e)对步骤(c)的一次或多次重复中计算的所述概率或频率分布彼此进行比较;
(f)根据所述比较步骤选择育种对;和
(g)依照步骤(b)中所提出的计算、模拟或计算和模拟的组合对育种对进行育种以产生具有想要的基因型的后代个体。
2.通过权利要求1的方法所产生的个体。
3.权利要求2的个体,其中所述个体是植物。
4.来自权利要求3的植物的细胞。
5.来自权利要求3的植物的种子或后代。
6.权利要求1的方法,其中所述比较位于选定的分位点。
7.权利要求6的方法,其中所述选定的分位点是95%分位点、50%分位点或其组合。
8.权利要求1的方法,其中每个育种配偶体是植物。
9.权利要求8的方法,其中所述植物选自:玉米、小麦、大麦、稻、糖甜菜、向日葵、冬季油菜、卡诺拉、番茄、胡椒、甜瓜、西瓜、嫩茎花椰菜、花椰菜、抱子甘蓝、莴苣、菠菜、甘蔗、咖啡、可可、松树、杨树、桉树、苹果树和葡萄。
10.权利要求9的方法,其中所述植物是玉米。
11.权利要求1的方法,其中每个育种配偶体是近交个体。
12.权利要求1的方法,其进一步包括产生一个或多个更远世代后代,其中每个更远世代后代通过一轮或多轮计算、模拟或计算和模拟组合的所述后继世代或更后世代的至少一个成员与选自下组的个体的育种来产生:它本身、紧接在之前的世代的成员、来自相同世代的另一个个体、来自在前世代的另一个个体、所述第一育种配偶体、所述第二育种配偶体、及其双单倍体衍生物。
13.权利要求12的方法,其中所述更远世代后代通过来自先前世代的一个或多个个体的杂交、自交、双单倍体衍生物世代或其组合的一个或多个连续世代产生。
14.权利要求13的方法,其中所述更远世代后代通过先前世代的一个或多个个体的杂交、自交、双单倍体衍生物世代或其组合的三个连续世代产生。
15.权利要求13的方法,其中所述更远世代后代通过先前世代的一个或多个个体的杂交、自交、双单倍体衍生物世代或其组合的四个连续世代产生。
16.权利要求12的方法,其中所述更远世代后代通过先前世代的一个或多个成员的自交的至少两个连续世代产生。
17.权利要求16的方法,其中所述更远世代后代通过先前世代的一个或多个成员的自交的三个连续世代产生。
18.权利要求17的方法,其中所述更远世代后代通过先前世代的一个或多个成员的自交的四个连续世代产生。
19.权利要求1的方法,其中所述一种或多种遗传标记选自下组:单核苷酸多态性(SNP)、插入/删除(indel)、简单序列重复(SSR)、限制性片段长度多态性(RFLP)、随机扩增多态DNA(RAPD)、切割扩增多态序列(CAPS)标记、多样性阵列技术(DArT)标记和扩增片段长度多态性(AFLP)及其组合。
20.权利要求1的方法,其中所述一种或多种遗传标记包括1种-10种之间的标记。
21.权利要求1的方法,其中所述一种或多种遗传标记包括超过10种的遗传标记。
22.权利要求1的方法,其中对育种的计算、模拟或计算和模拟的组合包括对一种或多种遗传标记中至少一种和与表型性状表达有关的遗传基因座之间的预期重组率进行计算、模拟或计算和模拟的组合。
23.权利要求22的方法,其中所述表型性状选自下组:质量性状和数量性状。
24.权利要求23的方法,其中所述一种或多种遗传标记和与表型性状表达相关联的一种或多种数量性状基因座连锁。
25.权利要求22的方法,其中与所述表型性状表达相关联的所述遗传基因座编码与所述表型性状表达相关联的基因产物。
26.权利要求22的方法,其中所述一种或多种遗传标记中至少一种和与所述表型性状表达相关联的所述遗传基因座之间的重组率是零。
27.权利要求1的方法,其中所述育种配偶体是相同的个体。
28.权利要求1的方法,其中每个计算的或模拟的育种包括对来自紧接在之前的世代的个体进行自交。
29.权利要求1的方法,其中所述育种对包含雄性基因型的集合、雌性基因型的集合、或雄性基因型的集合和雌性基因型的集合两者。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP07290060.8 | 2007-01-17 | ||
EP07290060A EP1962212A1 (en) | 2007-01-17 | 2007-01-17 | Process for selecting individuals and designing a breeding program |
EP07002818 | 2007-02-09 | ||
EP07002818.8 | 2007-02-09 | ||
PCT/EP2008/050503 WO2008087185A1 (en) | 2007-01-17 | 2008-01-17 | Process for selecting individuals and designing a breeding program |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101583956A CN101583956A (zh) | 2009-11-18 |
CN101583956B true CN101583956B (zh) | 2013-09-25 |
Family
ID=37913665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008800024634A Active CN101583956B (zh) | 2007-01-17 | 2008-01-17 | 用于选择个体和设计育种程序的方法 |
Country Status (3)
Country | Link |
---|---|
US (3) | US20080216188A1 (zh) |
EP (1) | EP1962212A1 (zh) |
CN (1) | CN101583956B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011050076A1 (en) | 2009-10-20 | 2011-04-28 | Genepeeks, Inc. | Methods and systems for pre-conceptual prediction of progeny attributes |
US20110296753A1 (en) * | 2010-06-03 | 2011-12-08 | Syngenta Participations Ag | Methods and compositions for predicting unobserved phenotypes (pup) |
EP2645846A4 (en) * | 2010-11-30 | 2017-06-28 | Syngenta Participations AG | Methods for increasing genetic gain in a breeding population |
CN102321767A (zh) * | 2011-10-18 | 2012-01-18 | 湖南省作物研究所 | 基于ssr-pcr的油菜杂交种种子纯度检测方法 |
CN102747163B (zh) * | 2012-07-24 | 2013-10-09 | 江苏省农业科学院 | 利用分子标记鉴定玉米互交种的方法 |
CN103004578A (zh) * | 2012-11-16 | 2013-04-03 | 安阳工学院 | 作物同异育种智能决策系统 |
EP2929070A4 (en) * | 2012-12-05 | 2016-06-01 | Genepeeks Inc | SYSTEM AND METHOD FOR COMPUTERIZED PREDICTION OF THE EXPRESSION OF MONOGENIC PHENOTYPES |
US9910962B1 (en) * | 2013-01-22 | 2018-03-06 | Basehealth, Inc. | Genetic and environmental risk engine and methods thereof |
DK2813141T4 (en) | 2013-06-14 | 2019-03-18 | Keygene Nv | Targeted strategies to improve phenotypic traits |
BR112017012891B1 (pt) * | 2014-12-18 | 2024-01-23 | Pioneer Hi-Bred International, Inc | Método de seleção de indivíduos |
AU2017277808A1 (en) | 2016-06-08 | 2018-12-20 | Monsanto Technology Llc | Methods for identifying crosses for use in plant breeding |
CN106755481B (zh) * | 2016-09-26 | 2020-07-17 | 山西省农业科学院生物技术研究中心 | 一种鉴定嘎拉苹果后代植株的ssr分子标记vi及其应用 |
WO2018103037A1 (zh) * | 2016-12-08 | 2018-06-14 | 中国种子集团有限公司 | 水稻全基因组育种芯片及其应用 |
CN107385052B (zh) * | 2017-08-08 | 2020-10-30 | 中国林业科学研究院热带林业研究所 | 用于鉴定桉树无性系的str引物及其应用 |
CN107535350B (zh) * | 2017-08-28 | 2020-04-10 | 中国农业大学 | 一种基于ssr标记的玉米组配模式优选方法及系统 |
MY197312A (en) * | 2017-11-22 | 2023-06-13 | Felda Agricultural Services Sdn Bhd | Method and system for selecting a plant breed |
US11627710B2 (en) | 2017-12-10 | 2023-04-18 | Monsanto Technology Llc | Methods and systems for identifying hybrids for use in plant breeding |
BR112020011321A2 (pt) * | 2017-12-10 | 2020-11-17 | Monsanto Technology Llc | métodos e sistemas para identificação de progênies para uso na criação de plantas |
CN109182572B (zh) * | 2018-08-30 | 2022-01-11 | 中国农业科学院蔬菜花卉研究所 | 一种与菠菜果实形态相关的kasp分子标记及检测引物与应用 |
CA3130155A1 (en) * | 2019-03-11 | 2020-09-17 | Pioneer Hi-Bred International, Inc. | Methods and compositions for imputing or predicting genotype or phenotype |
US20220383978A1 (en) * | 2021-04-08 | 2022-12-01 | Monsanto Technology Llc | Accelerated method for generating target elite inbreds with specific and designed trait modification |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0306139A3 (en) * | 1987-08-04 | 1989-09-27 | Native Plants Incorporated | Identification, localization and introgression into plants of desired multigenic traits |
US5492547B1 (en) * | 1993-09-14 | 1998-06-30 | Dekalb Genetics Corp | Process for predicting the phenotypic trait of yield in maize |
WO2005000006A2 (en) * | 2003-05-28 | 2005-01-06 | Pioneer Hi-Bred International, Inc. | Plant breeding method |
AU2007234734A1 (en) * | 2006-04-06 | 2007-10-18 | Monsanto Technology Llc | Method for multivariate analysis in predicting a trait of interest |
AU2007234731A1 (en) * | 2006-04-06 | 2007-10-18 | Monsanto Technology Llc | Method of predicting a trait of interest |
-
2007
- 2007-01-17 EP EP07290060A patent/EP1962212A1/en not_active Withdrawn
-
2008
- 2008-01-14 US US12/013,630 patent/US20080216188A1/en not_active Abandoned
- 2008-01-17 CN CN2008800024634A patent/CN101583956B/zh active Active
-
2010
- 2010-09-21 US US12/886,866 patent/US20110010148A1/en not_active Abandoned
-
2014
- 2014-11-20 US US14/549,157 patent/US20150080238A1/en not_active Abandoned
Non-Patent Citations (1)
Title |
---|
FRISCH M ET AL.PLABSIM:Software for simulation of marker-assisted backcrossing.《JOURNAL OF HEREDITY,OXFORD UNIVERSITY PRESS,CARY,GB》.2000,第91卷86-87. * |
Also Published As
Publication number | Publication date |
---|---|
CN101583956A (zh) | 2009-11-18 |
US20150080238A1 (en) | 2015-03-19 |
US20110010148A1 (en) | 2011-01-13 |
EP1962212A1 (en) | 2008-08-27 |
US20080216188A1 (en) | 2008-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101583956B (zh) | 用于选择个体和设计育种程序的方法 | |
Yang et al. | The genetic architecture of teosinte catalyzed and constrained maize domestication | |
Crossa et al. | Genomic prediction of gene bank wheat landraces | |
Technow et al. | Genome properties and prospects of genomic prediction of hybrid performance in a breeding program of maize | |
Bassi et al. | Breeding schemes for the implementation of genomic selection in wheat (Triticum spp.) | |
Li et al. | Genomic prediction of biomass yield in two selection cycles of a tetraploid alfalfa breeding population | |
Heffner et al. | Genomic selection accuracy using multifamily prediction models in a wheat breeding program | |
Sousa et al. | Early selection enabled by the implementation of genomic selection in Coffea arabica breeding | |
Arruda et al. | Genomic selection for predicting Fusarium head blight resistance in a wheat breeding program | |
Cruzan | Genetic markers in plant evolutionary ecology | |
Heffner et al. | Genomic selection accuracy for grain quality traits in biparental wheat populations | |
Combs et al. | Accuracy of genomewide selection for different traits with constant population size, heritability, and number of markers | |
Surina et al. | Quaternary range dynamics of ecologically divergent species (Edraianthus serpyllifolius and E. tenuifolius, Campanulaceae) within the Balkan refugium | |
Werner et al. | How population structure impacts genomic selection accuracy in cross-validation: implications for practical breeding | |
White et al. | Gene‐based approaches to crop simulation: Past experiences and future opportunities | |
EP2541451A2 (en) | Process for selecting individuals and designing a breeding program | |
Cericola et al. | Optimized use of low-depth genotyping-by-sequencing for genomic prediction among multi-parental family pools and single plants in perennial ryegrass (Lolium perenne L.) | |
CN102369531A (zh) | 用于选择统计上确认的候选基因的方法 | |
Kuhn et al. | Estimation of genetic diversity and relatedness in a mango germplasm collection using SNP markers and a simplified visual analysis method | |
Krchov et al. | Multienvironment validation of the effectiveness of phenotypic and genomewide selection within biparental maize populations | |
Lasso et al. | Strong spatial genetic structure in five tropical Piper species: should the Baker–Fedorov hypothesis be revived for tropical shrubs? | |
Parat et al. | Geography and end use drive the diversification of worldwide winter rye populations | |
Raduski et al. | Patterns of genetic variation in a prairie wildflower, Silphium integrifolium, suggest a non‐prairie origin and locally adaptive variation | |
Bariotakis et al. | Environmental (in) dependence of a hybrid zone: Insights from molecular markers and ecological niche modeling in a hybrid zone of Origanum (Lamiaceae) on the island of Crete | |
Santantonio et al. | Prediction of subgenome additive and interaction effects in allohexaploid wheat |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |