CN101410008A

CN101410008A - 植物育种方法

Info

Publication number: CN101410008A
Application number: CNA2004800219899A
Authority: CN
Inventors: O·S·史密斯; M·库珀; S·V·廷吉; A·J·拉法尔斯基; R·吕德特克; W·S·尼布尔
Original assignee: Pioneer Hi Bred International Inc; EI Du Pont de Nemours and Co
Current assignee: Pioneer Hi Bred International Inc; EIDP Inc
Priority date: 2003-05-28
Filing date: 2004-05-27
Publication date: 2009-04-15
Also published as: BRPI0410656A; CA2525956A1; EP1626621A4; US20050144664A1; AU2004251624A1; WO2005000006A3; EP1626621A2; WO2005000006A2

Abstract

提供了用于使用遗传标记基因型(例如，基因序列多样性信息)提高开发具有改进的表型性能的植物品种(例如，单交杂种)的方法。提供了用于在植物中预测表型性状值的方法。所述方法使用第一植物群体的基因型、表型和任选地家系关系信息鉴定至少一个遗传标记和表型性状之间的关联，然后使用所述关联在一个或多个具有已知标记基因型的第二靶群体的成员中预测所述表型性状值。也提供了用于鉴定影响所述性状的新等位基因变体的方法。也提供了通过此处方法中的任一种方法选择的、提供的或产生的植物、通过此处方法中的任一种方法产生的转基因植物和用于进行此处方法的数字系统。

Description

植物育种方法

与相关申请的交叉引用

本申请是非临时实用专利申请，其要求下列临时专利申请的优先权和利益：2003年5月28日由Smith等人提交的的标题为“PlantBreeding Method”的USSN60/474,359，此处引用其全文作为参考。

发明领域

本发明提供了预测植物中表型性状值的方法。所述方法使用第一植物群体的基因型、表型和家系关系信息鉴定至少一个遗传标记和表型性状之间的关联，然后利用所述关联在具有已知标记基因型的第二靶群体的成员中预测表型性状值。本发明也涉及鉴定影响表型性状的新的等位基因变体的方法。

发明背景

选择育种数世纪来已被用于提高或试图提高植物中具有农艺学和经济学利益的表型性状(例如，产量、谷粒含油百分比等)。以其最基本的形式，选择育种涉及基于一个或多个表型性状选择作为下一代的亲本的个体。然而，这种表型选择由于环境(例如，土壤类型、降雨、温度变化范围等)对表型性状的影响而变得复杂。另一个有关这种表型选择的问题是绝大部分目的表型性状由超过一个基因座控制。

据估计在驯化的植物中98％的经济上重要的表型性状是数量性状(Beavis的USPN 6,399,855，标题为“QTL mapping in plant breedingpopulations”)。基于认识到的影响表型性状表达变异性的分离遗传因子的数目和量级，这些性状被分为寡基因或多基因性状。

历史上，术语数量性状曾被用来描述显示连续变异性的表型性状表达的变异性，并且其是多基因座相互之间和/或与环境之间的可能相互作用的净结果。为了描述更广泛的现象，术语“复合性状”曾被用来描述任何不表现经典的归因于单基因座的孟德尔遗传的性状(Lander&Schork，Science 265：2037(1994))。此处通常同义地使用所述两个术语。

横跨基因组的遍在多态性遗传标记(例如，RFLPs、SNPs等)的发展使得数量和分子遗传学家可能研究Edwards等人在Genetics115：113(1987)中所谓的数量性状基因座(QTL)以及其数目、量级和分布。QTL包括在某种程度上控制质量和数量表型性状的基因，所述性状在个体的家系内和在个体的家系群体内可以是不连续或连续分布的。

已发展了实验性示例来鉴定和分析QTL (参见，例如，授予Helentjaris等人的USPN 5,385,835，标题为“Identification andlocalization and introgression into plants of desiredmultigenic traits，”，授予Johnson的USPN 5,492,547，标题为“Process for predicting the phenotypic trait of yield inmaize，”和授予Johnson的USPN 5,981,832，标题为“Processpredicting the value of a phenotypic trait in a plant breedingprogram”)。一个这样的示例包括将两个近交系杂交从而产生F1单交杂交后代，将F1杂交后代自交从而产生分离F2后代，确定多标记基因座的基因型，和在所述分离后代中估计一个至数个数量表型性状。然后在分离后代中基于基因型值和表型变异性之间的显著统计学关联鉴定QTL。这种实验性示例是理想的，因为F₁代的亲本系具有已知的连锁相，后代中所有的分离基因座都是可提供信息的，并且标记基因座和影响表型性状的遗传基因座之间的连锁不平衡已被最大化。

然而，必须投入相当多的资源以确定大量的杂交和/或近交后代的表型性能。因为研究来自仅仅两个亲本的后代，所以上述实验只能检测性状基因座(例如，QTL)，两个亲本对于所述基因座是多态性的。这套性状基因座可能只代表目的育种群体(例如，玉米、高梁、大豆、低芥酸芥子等的育种群体)中基因座分离的小部分。通常，这些后代只显示一个或少数表型性状的变异，所述性状是所使用的育种程序中的目的性状。这意味着可能需要发展分离群体、为标记基因座打分，和在重复的田间试验中种植并为目的表型性状打分。此外，用于检测QTL的方法对要鉴定的QTL产生偏倚的估计(参见，例如，Beavis(1994)“The power and deceit of QTL experiments：Lessonsfrom comparative QTL studies”in Wilkinson(ed.)Proc.49^th Ann.Corn and Sorghum Res.Conf.，American Seed Trade Assoc，Chicago，IL，pp 250-266)。在推断育种群体内遗传上不同的亲本的后代的QTL的鉴定中，引入了另外的不准确性。此外许多(如果不是全部的话)性状受到环境因素的影响，所述环境因素也可引入不准确性。

本发明克服了上面提到的困难，例如通过关联分析鉴定有关QTL的遗传标记，所述关联分析可容纳复杂的植物群体(其中与双亲群体相比，更多的影响多个目的性状表型的基因座预期会分离)，利用现有的育种程序产生的信息，和任选地解释环境效应，和通过应用这些信息来预测例如杂交后代的表型。通过阅读下列内容可获得对发明的全面理解。

发明简述

本发明提供了用于在植物中预测植物表型性状值的方法。所述方法使用第一植物群体的基因型、表型和家系关系信息鉴定至少一个遗传标记和表型性状之间的关联，然后利用所述关联预测具有已知标记表型的第二靶群体成员的表型性状值。本发明也涉及鉴定影响表型性状的新的等位基因变体的方法。

因此，第一类一般的实施方案提供了在靶植物群体中预测表型性状值的方法。在所述方法中，提供了至少一个遗传标记和表型性状之间的关联。例如，可提供表型性状和包含两个或更多个遗传标记的单元型之间的关联。在第一植物群体中估计所述关联，所述第一植物群体是已建立的育种群体或其部分。根据统计学模型在第一植物群体中估计所述关联，所述模型合并第一植物群体的一套遗传标记的基因型和第一植物群体中的表型性状值。所述统计学模型也可合并第一植物群体各成员之间的家系关系。然后提供至少一个靶植物群体成员的表型性状值。通过例如利用系谱和遗传标记信息，根据所述关联和根据至少一个与所述表型性状相关的遗传标记的至少一个成员的基因型预测所述值。

在一类实施方案中，第一植物群体包含多个近交种、单交F1杂种或其组合。例如，第一植物群体任选地由近交种、单交F1杂种或其组合组成。因为第一植物群体的成员是已建立的育种群体的成员，所以各近交种和/或单交F1杂种的祖先通常是已知的，并且各近交种和/或单交F1杂种通常是三个或更多个建立者中至少一个的后代。因为第一植物群体的成员通常来自具有多代系谱的已建立的育种群体，所以第一植物群体的成员任选地跨越多个育种周期(例如，至少3个、至少4个、至少5个、至少7个或至少9个育种周期)。所述已建立的育种群体其自身通常包含至少3个建立者(例如，至少10个建立者、至少50个建立者、至少100个建立者或至少200个建立者，例如大约100至200个建立者)和所述建立者的后代，其中所述后代的祖先是已知的。第一植物群体基本上可包含任何数目的成员，例如从大约50至大约5000个。

表型性状可以是例如质量性状、数量性状、单基因性状、多基因性状等。第一植物群体的表型性状值可通过例如估计第一植物群体成员之间的表型性状获得。可在第一植物群体成员(例如，包含第一植物群体的近交种和/或单交F1杂种)中估计表型。可选择地，通过在至少一次与至少一个测交亲本的顶交组合中估计第一植物群体成员之间的表型性状来获得第一植物群体中的表型性状值。表型性状包括但不限于产量、谷粒含水量、谷粒含油量、根抗倒伏性、茎杆抗倒伏性、株高、谷穗高、抗病性、抗虫性、抗旱性、谷粒蛋白含量、试验重量和穗轴颜色

成套的遗传标记基本上可包含任何便利数目和类型的遗传标记。例如，成套的遗传标记可包含一个或多个：单核苷酸多态性(SNP)、多核苷酸多态性、至少一个核苷酸插入或缺失(indel)、简单序列重复(SSR)、限制性片段长度多态性(RFLP)、随机扩增多态DNA(RAPD)标记或任意片段长度多态性(AFLP)。成套遗传标记可包含例如1至50,000个(或甚至更多个)遗传标记；例如，1至10个标记或500至50,000个标记。可通过实验确定和/或预测第一植物群体的成套遗传标记的基因型。类似地，可通过实验确定和/或预测靶植物群体成员的成套遗传标记的基因型。

在一类优选的实施方案中，通过使用线性模型、混合线性模型或非线性模型进行Bayesian分析，可估计至少一个遗传标记和表型性状之间的关联。在一类这样的优选实施方案中，通过使用线性模型进行Bayesian分析来估计关联，所述Bayesian分析通过可逆的跳跃马尔可夫链(jump Markov chain)Monte Carlo算法进行。通常，通过计算机程序或系统进行所述Bayesian分析。在另一类优选的实施方案中，通过进行传递不平衡检验估计关联。

靶植物群体可包含近交植物、杂交植物或其组合。在一类优选的实施方案中，靶植物群体包含杂交植物，所述杂交植物包含由近交系之间单交产生的F1后代。这些F1后代可由例如包含所述第一植物群体和/或新近交系的近交后代单交产生。类似地，靶植物群体可包含后生世代，所述后生世代由包括至少一个第一植物群体成员的育种杂交产生。

至少一个靶植物群体成员中的表型性状值可通过多种方法中的任意一个方法进行预测。例如，对于简单质量性状，可通过发现于靶植物群体成员中的遗传标记等位基因的鉴定来预测表型。在其它例子中，可通过使用最佳线性无偏预测方法、多重回归方法、选择指数技术、脊回归(ridge regression)方法、线性最优化方法或非线性最优化方法预测至少一个靶植物群体成员中的表型性状值。

第一和靶植物群体基本上可包含任何类型的植物。例如，在优选种类的实施方案中，第一和靶植物群体包含(例如，由下述组成)：二倍体植物，包括但不限于杂交作物植物，例如玉米(例如，玉蜀黍(Zea mays))、大豆、高梁、小麦、向日葵、水稻、低芥酸芥子、棉花和粟。

方法任选地包括选择至少一个具有想要的预测的表型性状值的靶植物群体成员。至少一个选择的目的靶植物群体成员可与至少一种其它植物进行育种或自交，以产生例如新的系或具有想要的表型性状值的杂种。在另一类实施方案中，方法包括克隆基因(所述基因与至少一个与所述表型性状相关的遗传标记连锁)，其中所述基因的表达影响所述表型性状，和任选地包括构建在宿主植物中表达经克隆的基因的转基因植物。

另一类一般的实施方案提供了选择植物的方法。在所述方法中，提供了至少一个遗传标记和表型性状之间的关联。在第一植物群体中估计所述关联，所述第一植物群体是已建立的育种群体或其部分。根据统计学模型估计第一植物群体中的关联，所述模型合并第一植物群体的一套遗传标记的基因型与第一植物群体中的表型性状。所述统计学模型也可合并第一植物群体成员之间的家系关系。然后提供来自一个或多个非适应系的一个或多个植物。就选择的包含至少一个与表型性状相关的遗传标记的基因型选择一个或多个植物。选择的基因型任选地包含至少一个等位基因，所述等位基因是至少一个与表型性状相关的遗传标记的等位基因，所述等位基因是关于在第一群体中发现的遗传标记等位基因而言新的等位基因。

新的遗传标记基因型可表明与遗传标记(和与表型性状)相关的QTL的新等位基因的存在。为确定该假定的新QTL等位基因是否有利地影响表型性状，所述方法可包括在具有选择的基因型的一个或多个植物中估计表型性状。可选择至少一个具有选择的基因型和想要的表型性状值的植物。此外，可将至少一个选择的具有选择的基因型和想要的表型性状值的植物与至少一种其它植物进行育种(例如，以引入遗传标记等位基因并因此将假定的新QTL等位基因引入适应性生殖质中)。

在一类优选的实施方案中，通过使用线性模型、混合线性模型或非线性模型进行Bayesian分析，可估计至少一个遗传标记和表型性状之间的关联。在一类这样的优选实施方案中，通过使用线性模型进行Bayesian分析来估计关联，所述Bayesian分析通过可逆的跳跃马尔可夫链Monte Carlo算法进行。在另一类优选的实施方案中，通过进行传递不平衡检验估计关联。

此处在它们相关的程度上使用了上述实施方案中提到的所有各种任选的构型和特征，例如第一植物群体和/或已建立的育种群体的组成、表型性状类型、遗传标记的种类和数目等。

通过任何此处的方法选择、提供或产生的植物和通过此处任一方法生成的转基因植物形成了发明的另一特征。也提供了用于实践所述方法或其方面的数字系统。包含系统组分、通过所述方法选择的植物或两者，和合适的容器、包装材料、用于实践所述方法的说明书等的试剂盒也是发明的特征。

附图简述

图1是概要地说明在已建立的育种群体的部分的例子(或示例性的第一植物群体)中各近交系和单交杂种之间关系的系谱。

图2提供了一般的系谱玉米育种程序的示意性概览。

图3概括地说明了进行Bayesian分析的软件。

图4描绘了按其在1号染色体上的位置顺序排列的511个标记的穗轴颜色的TDT似然比率统计学图。

定义

除非另外定义，否则所有此处所用的技术和科学术语都具有与本发明相关的领域内技术人员普遍理解的意思相同的意思。下列定义补充本领域内的定义和针对本申请，并且不转嫁于任何相关或不相关的案例，例如不转嫁于任何共同拥有的专利或申请。尽管任何与此处描述的方法和材料相似或等同的方法和材料可用于检验本发明，但此处描述了优选的材料和方法。因此，此处所用的术语只用于描述特定的实施方案，并且不意味着是限制性的。

如本说明书中和附加的权利要求中所用的，除非上下文清楚地指出，否则单数形式的“一个(a)”、“一个(an)”和“该(the)”包括复数形式的所指物。因此，例如“一种蛋白”包括两种或更多种蛋白；“一个细胞”包括细胞混合物等。

“等位基因”或“等位基因变体”是基因或遗传标记的任何一个或多个可选择形式。在二倍体细胞或生物中，给定基因(或标记)的两个等位基因通常占据一对同源染色体上的相应基因座。

在本发明的上下文中，术语“关联”或“与......关联”是指一个或多个处于连锁不平衡的遗传标记等位基因和表型性状等位基因，即在一种或多种植物的后代中发现标记基因型和性状表型在一起的频率高于所述标记基因型与性状表型独立分离的频率。

“育种周期”描述了两个近交亲本和这些亲本的近交后代之间的分离。育种周期可包括例如，将两个近交系杂交以产生F1杂种，将F1杂种自交，并且自交多次以产生近交后代。育种周期任选地包括一次或多次与其中一个近交亲本的回交。也可按照育种周期描述近交和单交F1杂种之间或两个单交F1杂种之间的分离。为确定单交F1杂种与近交种的育种周期距离，确定了近交种和各杂种的近交亲本之间的育种周期差异；这两个数字中较大的一个是分离F1单交杂种和近交种的育种周期的数字。为确定第一单交F1杂种和第二单交F1杂种的育种周期距离，将第一杂种的近交亲本与第二杂种的近交亲本的所有可能的组合进行相互比较，且两个杂种间的育种周期距离与任何一个这些近交亲本组合之间的最大距离相等。

“二倍体植物”是指具有两套染色体的植物，通常各套各来自其两个亲本。

“已建立的育种群体”是指通常在育种程序例如商业育种程序中产生和/或用作亲本的植物的集合体。已建立的育种群体的成员通常已进行了很好的表征；例如，可能已在例如不同的环境条件下，在多个地点和/或不同时间对几个目的表型性状进行了估计。

“F₁”是指第一子代，即两个个体之间或两个近交系之间交配的后代。“后生世代”是指通过自交或有性杂交(例如，和其它的F₁后代，和近交系等)由F₁后代产生的F₂、F₃和更后的代。

“建立者”是指包含一个或多个等位基因(例如，遗传标记等位基因)的近交或单交F1杂种，在群体例如育种群体的系谱中在整个建立者的后代中可追踪到所述等位基因。例如，在已建立的育种群体中，所述建立者通常(但不必是)最早培育的系。

术语“基因”广义地是指任何与生物学功能相关的核酸。基因通常包括编码序列和/或表达这些编码序列所需要的调节序列。

依赖于上下文，“遗传标记”是指核苷酸或多核苷酸序列，或是指被多态性占据的基因座，所述核苷酸或多核苷酸序列存在于植物基因组中和在目的群体中具有多态性。在许多其它的例子中，遗传标记包括，例如，SNPs、indels、SSRs、RFLPs、RAPDs和AFLPs。遗传标记可用于例如在染色体上定位基因座，所述基因座含有促进表型性状表达变异性的等位基因。遗传标记也指与所述基因组序列互补的多核苷酸序列，例如用作探针的核酸序列。

“基因型”是指细胞或生物的基因组成。个体的“一套遗传标记基因型”由存在于个体中的一个或多个遗传标记基因座的特定等位基因组成。

“生殖质”是指群体或其它个体的类群(例如，物种)的基因型全体。生殖质也可指植物材料，例如，充当各种等位基因库的植物类群。“适应的生殖质”是指经证明在例如给定的环境或地理区域具有遗传优势的植物材料，而“非适应的生殖质”、“原始生殖质”或“外来生殖质”是指在给定的环境或地理区域具有未知或未经证明的遗传价值的植物材料；同样，非适应的生殖质是指非已建立的育种群体的部分的植物材料和与已建立的育种群体的成员无已知关系的植物材料。

“单元型”是指个体从一个亲本遗传而来的成套的等位基因。因此二倍体个体具有两个单元型。术语单元型通常更狭义地表示物理连锁和/或不连锁的与表型性状相关的遗传标记(例如，序列多态性)。“单元型区”(有时在文献中也称作单元型)是在单个染色体上物理连锁的两个或更多个遗传标记群(或其部分)。通常，各区具有少数共同的单元型，并且可选择唯一地确定这些单元型中各单元型的遗传标记亚群(即，“单元型标记”)。

短语“高通量筛选”是指测定法，在所述测定法中所用的方式允许筛选大量的遗传标记(例如，核苷酸序列)、大量的基因型个体或库、或同时筛选两者。在本发明的上下文中，高通量筛选是指对大量的个体或库基因型的植物基因组核酸序列进行筛选以鉴定遗传标记等位基因的存在。

“杂交”、“杂交植物”、或“杂交后代”是指从遗传上具有差异的亲本产生的个体(例如遗传杂合的或绝大部分杂合的个体)。通常，杂种的亲本在几个重要方面不同。杂种通常比任一个亲本更具活力，但其不能纯育。

如果两个个体在特定的基因座具有相同的等位基因，如果所述等位基因遗传自一个共同的祖先(即，所述等位基因是相同亲本等位基因的拷贝)，那么所述等位基因是“血源同一”的。另一可选择的是所述等位基因是“状态同一”(即，所述等位基因表现出相同，但来源于两个不同的等位基因拷贝)。血源同一信息可用于连锁研究；尽管血源同一信息可能特别有用，但血源同一和状态同一信息都可用于关联研究，例如此处描述的研究中。

植物的“近交系”是指遗传上纯合的或接近纯合的群体。例如，近交系可通过几轮自交获得。近交系可纯育，例如对于一个或多个目的表型性状而言。“近交”、“近交植物”或“近交后代”是指从近交系中取样的植物。

“连锁”是指在相同染色体上不同基因座的等位基因由于其物理邻近的原因导致一起分离的频率高于在其偶然独立传递时预期的频率的趋势。

短语“连锁不平衡”(也称作“等位基因关联”)是指一种现象，在所述现象中，在给定的群体中的两个或更多个基因座上的特定等位基因在其从亲本到子代分离时倾向于一起保持在连锁群中，其频率比从其单独的频率预测的频率更高。例如，当遗传标记等位基因和QTL等位基因一起发生的频率高于从单独的等位基因频率预测的频率时，其显示连锁不平衡。值得注意的是连锁是指基因座之间的关系，而连锁不平衡是指等位基因之间的关系。

“基因座”是指染色体上的位置(例如，基因、遗传标记等)。

术语“核酸”包括任何对应于核苷酸链的单体单位的物理链，包括核苷酸多聚体(例如一般的DNA或RNA多聚体)、PNAs、经修饰的寡核苷酸(例如，包含对生物学RNA或DNA来说是非典型的碱基的寡核苷酸(例如2’-O-甲基化的寡核苷酸))等。核酸可以是例如单链或双链的。除非另外指出，除了任何明确指出的序列外，本发明的特定核酸序列任选地包含或编码互补序列。

“系谱”是指祖先系、个体或个体或相关个体家族的生殖质的记录。

术语“表型性状”是指植物的外观和其它可检测特征，所述外观和特征是由其基因组与环境相互作用作用造成的。

术语“多数”是指超过整体一半。例如，群体的多数超过该群体成员的一半。

“多核苷酸序列”或“核苷酸序列”是核苷酸的多聚体(例如寡核苷酸、DNA、核酸等)，或依赖于上下文，是代表核苷酸多聚体的特征链。根据任何明确说明的多核苷酸序列，可确定给定的核酸或互补多核苷酸的序列(例如，互补核酸)。

“植物群体”是指植物的集合体。所述集合体包括至少两株植物，和可以包括例如，10株或更多、50株或更多、100株或更多、500株或更多、1000株或更多、或甚至5000株或更多植物。群体的成员相互之间可以是相关的和/或不相关的；例如，植物相互之间可具有已知的系谱关系。

术语“后代”是指特定植物(自交)或成对植物(异花传粉)的后代。所述后代可以是例如F₁、F₂或任何后代。

“质量性状”是由一个或少数几个表现主要表型效应的基因控制的表型性状。因为这个原因，质量性状通常是简单遗传的。示例包括但不限于花的颜色、穗轴颜色和抗病性例如Northern玉米叶片枯萎病抗性。

“数量性状”是指可进行数字(即，定量的或量化的)描述的表型性状。数量性状通常在群体的个体间表现连续的变异；即表型性状的数值差异是微小的并且相互之间逐渐转化。通常，植物群体中数量性状的频率分布表现钟型曲线。数量性状通常是基因座与环境相互作用或多个基因座(QTL)相互之间和/或与环境间相互作用的结果。数量性状的示例包括植物的高度和产量。

术语“数量性状基因座”(“QTL”)或术语“标记性状关联”是指遗传标记和染色体区域和/或影响目的性状表型的基因之间的关联。通常，例如基于一个或多个文献中公开的方法通过统计学确定该关联。QTL可以是染色体区域和/或具有至少两个差异地影响表型性状(数量性状或质量性状)表达的等位基因的基因座。

在本发明的上下文中，短语“有性杂交的”或“有性生殖”是指通过授粉使配子融合以产生种子。“有性杂交”或“异花传粉”是指由另一株植物给一株植物传粉。“自交”是通过自体受粉产生种子，即，花粉和胚珠来自同一株植物。

“单交F1杂种”是指由两个近交系之间杂交产生的F₁杂种。

“试验者”是指具有标准表型、已知特征和已确定的性能的系或单株植物。“测交亲本”是来自在有性杂交中用作亲本的测交系的植物。通常，测交亲本和与其杂交的植物无关和与其在遗传上具有差异。当与用于表型估计的个体或近交系杂交时，试验者通常用于产生F1后代。

短语“顶交组合”是指将单个测交系和多个系杂交的方法。产生这些杂交的目的是确定杂交后代的表型性能；即，估计所述多个系中的每一个在杂交后代中产生想要的表型的能力，所述杂交后代通过测交来源于所述系。

“转基因植物”是指通过任何除了有性杂交或自交的方式已导入一个或多个外源多核苷酸的植物。下面描述了可实施该目的的方法的示例，其包括土壤杆菌(Agrobacterium)介导的转化、生物弹射击(biolistic)方法、电穿孔、in planta等技术。转基因植物也可通过已导入外源多核苷酸的转基因植物的有性杂交或自交产生。

“品种”是指根据分类学分类的物种的再分。“品种”可与表示个体类群的术语”栽培品种”互换使用，所述个体在遗传上与物种内其它个体的群体不同。农业品种是能够在相同的物种中根据结构特征和/或性能从其它品种区分的相似植物的类群。

此处定义或表征各种其它的术语。

详述

通过使用遗传连锁进行的关联研究提供了可选择的鉴定影响目的表型的染色体区域和/或基因的方法。简而言之，虽然连锁研究试图鉴定在一个或多个家系中与表型性状共分离的QTL，但关联研究通常试图通过鉴定特定等位基因变体来鉴定QTL，所述特定等位基因变体与群体(不一定是双亲家系)中的表型性状相关。经鉴定与性状相关的等位基因变体可以是例如遗传标记的等位基因变体，所述变体与功能性变体(影响表型性状的基因的等位基因)连锁不平衡，或所述遗传标记与功能性变体可以是同义的(例如，在编码区域中导致被编码的蛋白活性改变的SNP)。

连锁不平衡是在群体中观察到的现象，在所述群体中在两个(或更多个)基因座上的特定等位基因以高于两个(或更多个)等位基因频率的积的频率共同发生。例如，假定在基因座B上携带等位基因B_n的染色体上，基因座A发生突变产生新的等位基因A_a。如果基因座A和B之间未发生重组，那么单元型A_aB_n得以保存。如果基因座A和B之间发生重组，那么单元型未得以保存。最终，随着连续多代发生重组，新等位基因A_m将与其它B的等位基因按其相对频率的比例发生(即，最终达到连锁平衡)。然而，在两个群体或基因型杂交的第一分离代中，单元型A_aB_n的频率高于A_m等位基因频率和B_n等位基因频率的积；即，观察到连锁不平衡。在随机交配群体中，逼近平衡是重组频率的函数。对于未连锁的基因座，各代中单元型频率达到平衡值一半；基因座连锁越紧密，群体中持续不平衡的时间越长。因此利用连锁不平衡的关联研究可合并过去许多代的重组，从而获得高分辨率、精细尺度的基因定位(参见，例如，Xiong和Guo(1997)“Fine-scale mapping of quantitative trait loci usinghistorical recombinations”Genetics 145：1201-1218)。

本领域中已描述了设计和进行各种类型的关联研究；参见，例如Rao和Province，eds.，(2001)Advances in Genet ics volume 42，Genetic Dissection of Complex Traits；Balding等人，eds.(2001)Handbook of Statistical Genetics，John Wiley and Sons Ltd.；Borecki和Suarez(2001)“Linkage and as sociation：basicconcepts”Adv Genet 42：45-66；Cardon和Bell(2001)“Association study designs for complex diseases”Nat Rev Genet2：91-99；和Risch(2000)“Searching for genetic determinantsfor the new millennium”Nature 405：847-856。关联研究已用于估计与表型性状相关的候选基因(例如，Thorns berry等人(2001)“Dwarf8 polymorphisms associate with variation in floweringtime”Nature Genetics 28：286-289)和进行全基因组扫描以鉴定对表型变异有贡献的基因(例如，Paunio等人(2001)“Genome-widescan in a nationwides tudy sample of schizophrenia familiesin Finland reveals susceptibility loci on chromosomes 2q and5q”Human Molecular Genetics 10：3037-3048和Liu等人(2002)“Genomewide linkage analysis of celiac disease in Finnishfamilies”Am.J.Hum.Genet.70：51-59)。

很明显，为了使关联研究有力，在目的区域中必须存在连锁不平衡(如果不存在连锁不平衡，那么关联研究只能鉴定其自身是实际功能性变体的标记)。因此连锁不平衡减少的速率(以碱基对数目计算)影响关联研究的分辨率和所需的标记数目。这些考虑可影响例如用于分析的群体的选择。许多研究已检查了人中的连锁不平衡(例如，Reich等人(2001)“Linkage disequilibrium in the human genome”Nature 411：199-204和Daly等人，(2001)“High-resolutionhaplotype struc ture in the human genome”Nature Genetics 29：229-232)。在植物中也已分析了连锁不平衡；例如，最近由作者和其它人员进行的研究表明在玉米SNP基因座之间的强连锁不平衡延伸至少500bp(Ching等人(2002)“SNP frequency，haplotypestructure and linka ge d sequilibrium in elite maize inbredlines”BMC Genetics 3：19：也参见Remington等人(2001)“Structure of linkage disequilibrium and phenotypicassociations in the maize genome”Proc.Natl.Assoc.Sci.98：11479-11484；Tenaillon等人(2001)“Patterns of DNA sequencepolymorphism along chromosome 1 of maize”Proc Natl Acad SciUSA 9g：9161-9166；和Jannoo等人(1999)“Linkagedisequilibrium among modern sugarcane cultivars”Theor AppGenet 99：1053-1060)。

尽管也进行了许多涉及人和动物的关联研究(参见，例如，Paunio等人(2001)“Genome-wide scan in a nationwide study sampleof schizophrenia families in Finland reveals susceptibilityloci on chromosomes 2q and 5q”Human Molecular Genetics 10：3037-3048；Liu等人(2002)“Genomewide linkage analysis ofceliac disease in Finnish families”Am.J.Hum.Genet.70：51-59；Terwilliger(2001)“On the resolution and feasibilityof genome scanning approaches”Adv.Genet.42：351-391；和Grupe等人(2001)“In silico mapping of complex disease-related traits in mice”Science 292：1915-1918)，但较少进行涉及植物的研究。植物系谱提出了几个要求修饰或扩展用于人和动物的方法的挑战(参见，例如，Yi和Xu(2001)“Bayesian mapping ofquantitative trait loci under complicated mating designs”Genetics 157：1759-1771)。例如，用于植物的QTL作图方法可能需要处理自交和有性杂交、作为育种群体建立者的纯系近交系和巨大的家系。

已经提出了用于在植物中进行解释这些因素的关联研究的Bayesian方法。例如，Yi和Xu的(2001)“Bayes ian mapping ofquantitative trait loci under complicated mating designs”Genetics 157：1759-1771和Bink等人(2002)“Multiple QTLmapping in related plant populations via a pedigree-analysisapproach”Theor.Appl.Genet.104：751-762描述了用于在复杂的植物群体中进行QTL作图的Bayesian方法。这些方法合并复杂植物群体(例如，第一植物群体)的基因型、表型和家系系谱信息。使用这样的复杂群体提供了大量的益处。例如，不需要产生大量的单交杂种(或来自双亲杂交的大量的分离F2后代等)并确定其表型来进行分析；相反地，可从所述育种群体中选择植物和/或系，其中大量不同类型的后代的表型估计是育种程序的常规部分。育种程序通常要估计大量后代的表型，通常要在两个或更多个地点进行重复估计(因此提供了有关环境影响的数据)。因为需要相当多的时间和努力来准确估计大部分经济上重要的表型性状，所以使用作为正在进行的育种程序的部分产生的数据节省了大量的时间和成本以及提供了潜在地更可靠的表型数据，并因此获得更好的图。参见，例如，Rafalski(2002)“Applications of single nucleotide polymorphisms incrop genetics”Curr.Opin.Plant Bio.5：94-100和Rafalski(2002)“Novel genetic mapping tools in plants：SNPs and LD-basedapproaches”Plant Sci 162：329-333。

本发明提供了使用第一植物群体(例如，育种群体或其亚群)中植物的遗传标记基因型、表型信息和家系关系数据鉴定至少一个遗传标记和表型性状之间关联的方法，例如，使用Bayesian方法，例如上面提及的方法。所述方法包括基于第二靶植物群体的一个或多个成员的一个或多个遗传标记的基因型来预测其表型性状值，所述遗传标记与所述性状相关。

所述方法具有很多应用，例如，应用于在植物(例如，杂交作物植物；类似的方法可用于动物)中进行的育种程序。例如，所述方法可用于预测杂交后代(例如，由给定的具有已知标记基因型的成对近交系杂交产生的(实际或假设地)单交杂种)的表型性能。类似地，通过允许预测来自杂交的潜在后代的表型性能，所述方法可有助于在一个或多个杂交中对用作亲本的植物(例如，近交植物、杂交植物等)的选择；所述方法允许亲本植物的选择，所述亲本植物的子代具有最高的拥有想要的表型的概率。

第一类普通的实施方案提供了在靶植物群体中预测表型性状值的方法。在所述方法中，提供了至少一种遗传标记和表型性状之间的关联。在第一植物群体中估计关联，所述第一植物群体是已建立的育种群体或其部分。根据统计学模型估计第一植物群体中的关联，所述模型合并第一植物群体的一套遗传标记基因型和第一植物群体中的表型性状值。然后提供靶植物群体中至少一个成员的表型性状值。根据所述关联和根据至少一个与表型性状相关的遗传标记的至少一个成员的基因型预测所述值。通过在经实验确定所述值之前预测所述值或用预测值代替通过实验确定的值。

表型性状可以是数量性状，例如，提供数量值的性状。可选择地，表型性状可以是质量性状，例如，提供质量值的性状。所述性状可通过单个基因进行确定，或其可通过两个或更多个基因进行确定。

方法任选地包括选择至少一个靶植物群体的成员，所述成员具有想要的预测的表型性状值，和任选地也包括将至少一个选择的靶植物群体的成员与至少一个其它的植物杂交(或自交至少一个选择的成员，例如，以建立近交系)。

第一植物群体通常包含多个近交种、单交F1杂种或其组合。例如，在一类实施方案中，第一植物群体包含多个近交种。在另一类实施方案中，第一植物群体包含多个单交F1杂种。在另一类实施方案中，第一植物群体包含多个近交种和单交F1杂种的组合。第一植物群体任选地由近交种、单交F1杂种或其组合组成。近交种可来自相互之间相关和/或无关的近交系，而单交F1杂种可通过所述近交系和/或一个或多个另外的近交系的单交产生。

如所指出的，第一植物群体的成员可从已存在的、已建立的育种群体(例如，商业可购得的育种群体)取样。已建立的育种群体的成员通常是相对少量的建立者的后代，从而通常是高度相关的。除了建立者之外的各成员的祖先通常是已知的。因此，例如，已建立的育种群体可包含至少三个建立者和其后代，其中所述后代的祖先是已知的(例如，至少10个建立者，至少50个建立者，至少100个建立者，或至少200个建立者)。例如，已建立的育种群体可包含大约100至大约200个建立者(例如，大约30-40个雌性建立者和80-150个雄性建立者)和其已知祖先的后代。育种群体通常跨越许多代和育种周期。例如，已建立的育种群体可跨越3、4、5、6、7、8、9或更多个育种周期)。因此第一植物群体的成员可具有相同的特征。在一些实施方案中，第一植物群体的成员可跨越至少3个育种周期(例如至少4、5、6、7、8或9个育种周期)。在一类示例性实施方案中，第一植物群体包含多个近交种、单交F1杂种或其组合，各近交种和/或单交F1杂种的祖先是已知的，并且各近交种和/或单交F1杂种是3个或更多个建立者(例如，10、50或100或更个建立者)中至少一个的后代。第一群体任选地包含一个或多个建立者，例如群体的其它成员所起源的建立者。

第一植物群体基本上可包含任何数目的成员。例如，第一植物群体任选地包含大约50至大约5000个成员(例如，第一植物群体可包含50-5000个近交种和/或单交F1杂种)。在另外一个示例中，第一植物群体可包含至少大约50、100、200、500、1000、2000、3000、4000、5000或甚至6000或更多成员。仅作为一个特定的示例，第一植物群体可包含大约1000个近交种和大约3000至5000个单交杂种。

值得注意的是第一植物群体任选地具有上述特征的任何组合。仅作为一个示例，第一植物群体可包含50至5000个成员，包括多个近交种和/或单交F1杂种，其各自具有已知的祖先和起源于三个或更多个建立者中至少一个。

图1是示意性地说明各种近交系和单交杂种之间相互关系的系谱，所述近交系和单交杂种可包含例如第一植物群体。在图1中，后接数字的SX表示单交杂种，而其它字母组合表示各种近交系(除了LANC，其表示近交系LNC1所起源的群体)。在该图中，建立者包括例如MP1、FP3、FP1、MA1、FP2、MB5、LNC1和DRS。连接两个个体的线表示一个是另一个的祖先。例如，将近交系MFP2和MA21杂交，几代自交之后，产生近交系MA32。(在该示例中，连接MFP2和MA32或MA21和MA32的线表示一个育种周期的距离)。在另一个实例中，将近交系F 39和MA 32杂交产生单交F1杂种SX34。(在该实例中，连接F 39和SX34或MA32和SX34的线表示少于一个育种周期的距离)。

图2示意性地说明示例性商业可购得的植物育种程序，在该实例中是玉米。例如，从两个群体(一个雄性和一个雌性)开发近交系。在顶交和杂交测试相中，用来自相反群体(TC1和TC2，第一和第二年顶交；MET，多环境测试)的试验者进行顶交。

通常，第一植物群体表现目的表型性状的变异性(例如，针对数量表型性状的数量变异性)。

第一植物群体中的表型性状值可通过例如估计第一植物群体中的成员之间的表型性状(例如对所述群体成员之间的数量表型性状进行定量)获得。可在包含第一植物群体的成员(例如，近交种和/或单交F1杂种)中估计表型。可选择地，通过在至少一个与至少一个测交亲本的顶交组合中估计第一植物群体的成员之间的表型性状可获得第一植物群体中的表型性状值(例如，对于只能在杂种中估计的表型性状)。

表型性状基本上可以是任何数量或质量表型性状，例如，农艺学和/或经济上重要的表型性状。例如，表型性状可以选自：产量、谷粒含水量、谷粒含油量、根抗倒伏性、茎杆抗倒伏性、株高、谷穗高、抗病性、抗虫性、抗旱性、谷粒蛋白含量、试验重量、视觉或美学外观和穗轴颜色。这些性状和用于估计(例如，定量)所述性状的技术在本领域是熟知的。例如，谷粒产量是作物性能的常规测量。试验重量是针对质量的测量。谷粒含水量对于贮存非常重要，而根和茎杆抗倒伏性影响直立能力(standability)并且在收获中非常重要。所述方法类似地可用于其它表型性状，例如谷粒肌醇六磷酸含量。

成套遗传标记基本上可包含任何方便的遗传标记。例如，成套的遗传标记可包含一个或多个：单核苷酸多态性(SNP)、多核苷酸多态性、至少一个核苷酸的插入或缺失(indel)、简单序列重复(SSR)、限制性片段长度多态性(RFLP)、随机扩增多态DNA(RAPD)标记或任意片段长度多态性(AFLP)。对于本领域技术人员来说很明显的是所需要的标记数目可以变化，例如依赖于目的植物物种中的连锁不平衡降低的速率和/或依赖于进行的关联分析类型而变化。成套遗传标记可包括例如1至50,000个标记(例如，1至10,000个标记)。在一类实施方案中，成套的遗传标记可以包含大约50至大约2500个标记。例如，成套遗传标记可包含至少大约50、100、250、500、1000、2000或甚至2500或更多个遗传标记。在某些实施方案中，成套遗传标记包含1至10个标记(例如，在候选基因研究中，需要相对少的标记)。在其它实施方案中，成套的遗传标记包含500至50,000个标记(例如，对于全基因组扫描)。

第一植物群体中成套的遗传标记的基因型可通过实验确定、预测或其组合。例如，在一类实施方案中，通过实验确定存在于植物群体中的各近交种基因型，并预测存在于第一植物群体中各单交F1杂种的基因型(例如，通过实验确定各单交杂种的两个近交亲本的基因型)。基本上可通过任何方便的技术经实验确定植物基因型。许多用于发现和/或确定遗传标记基因型的应用技术在本领域是已知的(例如，在下列标题为“遗传标记”的部分描述的技术)。在一类优选的实施方案中，对来自各近交种的成套DNA片段进行测序以通过实验确定各近交系的基因型。因为序列的多态性(例如，遗传标记)通常在非编码区域(例如，内含子和非翻译区域)中更普遍，所以在一类实施方案中，进行测序的成套DNA片段包含一个或多个(例如，两个或更多个)基因的5’非翻译区域和/或3’非翻译区域。测序技术(例如，PCR扩增子直接测序)是熟知的(参见例如，Ching等人(2002)“SNPfrequency，haplotype structure and linkage disequilibrium inelite maize inbred lines”BMC Genetics 3：19)。

在一些实施方案中，单个遗传标记与表型性状相关，而在其它实施方案中，两个或更多个遗传标记(和/或染色体区域)与表型性状相关。因此，在一类实施方案中，提供包含两个或更多个遗传标记的单元型和表型性状之间的关联。包含单元型的遗传标记可以是不连锁的(例如，可鉴定两个或更多个影响表型性状的QTL，各QTL与其中一个标记相关)，或遗传标记可以是物理连锁的(例如，遗传标记可包含与表型性状相关的单元型区，例如SNP单元型标记的单元型区)。

如所指出的，根据统计学模型估计第一植物群体中的关联，所述统计学模型合并有关第一植物群体的基因型和表型信息。通过合并第一植物群体的成员之间的家系关系和遗传标记及表型性状数据，所述统计学模型通常也利用第一群体中植物之间的关系。通过例如包含确定特定等位基因是来自母本还是父本的标志，或通过任何其它允许使用系谱关系信息追踪在不同个体中血源同一的等位基因的方法，所述模型可合并家系关系。

在一类优选的实施方案中，通过使用线性模型、混合线性模型或非线性模型进行Bayesian分析，来估计至少一个遗传标记和表型性状之间的关联。可通过例如可逆的跳跃马尔可夫链Monte Carlo算法、Δ方法或特征似然算法(profile likelihood algorithm)进行Bayesian分析。例如，在一类这样优选的实施方案中，通过使用线性模型进行Bayesian分析(通过可逆的跳跃马尔可夫链Monte Carlo算法进行的Bayesian分析)来估计关联。通常，估计关联包括(和/或允许)确定一个或多个相关近交种和杂种的系谱中的至少一个遗传标记的建立者等位基因的血缘同一信息，和允许在整个这样的系谱中追踪至少一个遗传标记。通常，通过计算机程序或系统进行Bayesian分析(例如，通过可逆的跳跃马尔可夫链Monte Carlo算法进行的)。

Bayesian方法、Monte Carlo算法等在本领域是熟知的。用于理解相关概念的普通文献包括：Gibas和Jambeck(2001)Bioinformatics Computer Skills，O′Reilly，Sebastipol，CA；Pevzner(2000)Computational Molecular Biology andAlgorithmic Approach，The MIT Press，Cambridge MA；Durbin等人(1998)Biological Sequence Analysis：Proba bilistic Modelsof Proteins and Nucleic Acids，Cambridge University Press，Cambridge，UK；Hinchliffe(1996)Modeling Molecular StructuresJohn Wiley and Sons，NY，NY；和Rashidi和Buehler(2000)Bioinformatic Basics：Applications in Biological Science andMedicine CRC Press LLC，Boca Raton，FL。在各种来源中提供了Monte Carlo统计学分析的详细讨论，所述来源包括，例如，Robert等人(1999)Monte Carlo Statistical Methods，Springer-Verlag；Chen等人(2000)Monte Carlo Methods in BayesianComputation，Springer-Verlag；Sobol等人(1994)A Primer forthe Monte Carlo Method，CRC Press，LLC；Manno(1999)Introduction to the Monte-Carlo Method，Akademiai Kiado；和Rubinstein(1981)Simulation and the Monte Carlo Method，JohnWiley&Sons，Inc.。有关这些统计学方法的另外的详细内容参见，例如，Carlin等人(1995)“Bayesian model choice via Markovchain Monte Carlo methods”J.Royal Stat.Soc.Series B，57：473-84；Carlin等人(1991)“An iterative Monte Carlo methodfor nonconjugate Bayesian analysis”Statistics and Computing1：119-28；和Pillardy等人(2001)“Conformation-family MonteCarlo：A new method for crystal structure prediction”Proc.Natl.Acad.Sci.USA 98(22)：12351-6。

特别地，用于QTL作图(即，用于估计成套遗传标记和表型性状之间的关联)的Bayesian方法在本领域是已知的。例如，Bink等人(2002)“Multiple QTL mapping in related plant populations viaa pedigree-analysis approach”Theor.Appl.Genet.104：751-762以及Yi和Xu(2001)“Bayesian mapping of quantitative traitloci under complicated mating designs”Genetics 157：1759-1771描述了通过可逆的跳跃马尔可夫链Monte Carlo算法和使用线性模型进行的Bayesian分析，并且以其全文在此引用作为参考。例如，Bink等人提出的模型合并了两株或更多株植物成套遗传标记的基因型、在所述植物中观察到的表型性状值和植物之间的家系关系(通过使用表明母本或父本来源的分离标志，例如，遗传标记和因此连锁的QTL等位基因的分离标志)。该模型也包括影响性状的非遗传因素(例如，环境效应)。

Bayesian分析、QTL作图等也描述于例如，Sorensen和Gianola(2002)Likelihood，Bayesian and MCMC methods in quantitative genetics，Springer，New York；Jannink和Fernando(2004)“Onthe metropolis-hastings acceptance probability to add or dropa quantitative trait locus in markov chain monte carlo-basedbayesian analyses”Genetics 166：641-643；Wu和Jannink(2004)“Optimal sampling of a population to determine QTL location，variance，and allec number”Theor Appl Genet 108：1434-42；Jannink(2003)“Select ion dynamics and limits underadditive-by-additive epistatic gene action”Crop Sci 43：489-497；Yi和Xu(2000)“Bayesian mapping of quantitative traitloci under the identity-by-descent-based variance componentmodel”Genetics 156：411-422；Berry等人(2002)“Assessingprobability of ancestry using simple sequence repeatprofiles：Applications to maize hybrids and inbreds”Genetics161：813-824；Berry等人(2003)“Assessing probability ofancestry using simple sequence repeat profiles：Applicationsto maize inbred lines and soybean varieties”Genetics 165：331-342；以及Jannink和Wu(2003)“Estimating allelic numberand identity in state of QTLs in interconnected families”Genet Res 81：133-44。可在www.public.iastate.edu/～jjannink/Research/Software.htm上公开获得用于在相互联系的群体中进行QTL的Bayesian分析的示例性软件包。

在另一类优选的实施方案中，通过进行传递不平衡检验来估计关联(参见，例如，此处的实施例和参考文献)。在另一类实施方案中，通过最大似然混合线性或非线性分析来估计关联(参见，例如，Lynch和Walsh(1998)Genetic Analysis of Quantitative Traits，Sinauer Associates，Inc.，Sunderland MA，pp 746-755)。在另一类实施方案中，通过人工神经网络在第一植物群体中估计关联。该网络在本领域中是已知的；参见，例如，Gurney(1999)An Introduction to Neural Networks，UCL Press，1Gunpowder Square，London EC4A 3DE，UK；Bishop(1995)Neural Networks for Pattern Recognition，Oxford Univ Press；ISBN：0198538642；Ripley，Hjort(1995)Pattern Recognition and Neural Networks，CambridgeUniversity Press(Short)；和Masters(1993)Practical Neural Network Recipes in C++(Book&Disk edition)Academic Press。

靶植物群体基本上可包含任何数目的成员，所述成员相互之间和与第一植物群体的成员之间相关和/或不相关。靶植物群体的成员通常自身不包含第一植物群体。

因此，靶植物群体可包含，例如近交植物、杂交植物或其组合。杂交植物可包含，例如，单交杂种、双杂交杂种、三交杂种后代或基本上任何其它杂种。在一类优选的实施方案中，靶植物群体包含含有由近交系之间单交产生的F1后代的杂交植物。这些F1后代可通过例如包含第一植物群体(其中杂种植物不包含第一植物群体)的近交种之间的单交产生，通过新的近交种之间的单交产生，所述新的近交种包含优选的等位基因(遗传标记和/或QTL等位基因)，所述等位基因与用于关联作图分析的近交种血源同一或状态同一，或通过其组合产生。类似地，在一类实施方案中，靶植物群体包含后生世代，所述后生世代由包含至少一个第一植物群体的成员的育种杂交产生(即，靶植物群体包含至少一个第一植物群体的成员的F2或更晚期后代)。

值得注意的是靶植物群体可包含实际活的植物和/或假定的植物(例如，假定的通过杂交给定的具有已知遗传标记基因型的成对近交系产生的单交杂种)。通常，如果将所述方法用于假定的靶植物群体中时，那么至少一株真实的植物(例如，具有最想要的预测的表型性状值的植物)实际上作为活的植物产生。

可通过实验确定和/或预测靶植物群体成员的至少一个与表型性状相关的遗传标记的基因型。因此，在一类实施方案中，可通过例如高通量的筛选经实验确定至少一个靶植物群体的成员的至少一个遗传标记的基因型。在另一类实施方案中，预测了至少一个靶植物群体的成员的至少一个遗传标记的基因型。例如，如果知道其近交亲本的基因型，就可预测靶群体的单交F1杂种成员的基因型。

例如，通过合并系谱和遗传标记信息(例如，遗传标记基因型和遗传标记等位基因的血源同一和/或状态同一信息)两者的方法可预测靶植物群体的至少一个成员的表型性状值。

在优选种类的实施方案中，使用最佳线性元偏预测方法预测靶植物群体的至少一个成员的表型性状值。最佳线性无偏预测方法在本领域是已知的；参见，例如Gianola等人(2003)“On Marker-AssistedPrediction of Genetic Value：Beyond the Ridge”Genetics 163：347-365和Bink等人(2002)“Multiple QTL mapping in relatedplant populations via a pedigree-analysis approach”Theor.Appl.Genet.104：751-762。可选择地，可使用其它方法预测靶植物群体的至少一个成员中的表型性状值，例如，多重回归方法、选择指数技术、脊回归方法、线性最优化方法或非线性最优化方法。这些方法是众所周知的；参见，例如，Johnson，B.E.等人(1988)“A modelfor determining weights of traits in simultaneous multitraitselection”Crop Sci.28：723-728。

第一和靶植物群体基本上可包含任何类型的植物。例如，在优选种类的实施方案中，第一和靶植物群体包含二倍体植物(例如，由二倍体植物组成)。如前面指出的，所述方法特别地适用于杂交作物植物。因此，在优选的实施方案中，第一和靶植物群体选自：玉米(例如，玉蜀黍)、大豆、高梁、小麦、向日葵、水稻、低芥酸芥子、绵花和粟。

由此处的方法鉴定的QTL(例如，与至少一个与表型性状相关的遗传标记连锁的QTL)可任选地被克隆和表达，例如，以产生具有想要的表型性状值的转基因植物。因此，在一类实施方案中，所述方法包括克隆与至少一个与表型性状相关的遗传标记连锁的基因，其中所述基因的表达影响所述表型性状。所述方法任选地也包括构建在宿主植物中表达克隆的基因的转基因植物。

数字系统

一般地，可使用各种自动化的系统进行一些或所有此处提到的方法步骤。除了实践一些或所有此处的方法步骤外，数字或模拟系统(例如，包含数字或模拟计算机)也可控制各种其它功能，例如用户可视显示(例如，以允许用户观看方法结果)和/或输出特征的控制(例如，以帮助标记辅助的选择或自动化田间设备的控制)。

例如，通过计算机程序或程序(例如，进行或帮助进行传递不平衡检验、Bayesian分析和/或表型预测的程序)任选地(且一般地)进行上述方法中的某些方法。因此，本发明提供了数字系统，例如，计算机、计算机可阅读介质和/或包含用于进行此处的方法的指令(例如，包含在合适的软件中的)的集成系统。例如，如此处所描述的，包含估计第一植物群体中至少一个遗传标记和表型性状之间的关联和预测第二靶植物群体的至少一个成员中表型性状值的指令的数字系统，是本发明的特征。数字系统也可包括对应于成套遗传标记的植物基因型、表型值和/或家系关系的信息(数据)。所述系统也可帮助用户根据此处的方法进行标记辅助的选择，或可控制自动进行选择、收获和/或育种方案的田间设备。

标准的台式应用例如文字处理软件(例如，Microsoft Word^TM或Corel WordPerfect^TM)和/或数据库软件(例如，电子制表软件例如Microsoft Excel^TM、Corel Quattro Pro^TM或数据库程序例如Microsoft Access^TM或Paradox^TM)可适用于本发明，其中通过输入装入数字系统的存储器内的数据，和对所述数据进行如此处提到的操作。例如，系统可包括前述的软件，所述软件使合适的系谱数据、表型信息、表型和系谱之的关联等，例如，与用户界面(例如，在标准操作系统例如Windows、Macintosh和LINUX系统中的GUI)结合使用以进行任何此处提到的分析，或简单地获取用于此处的方法中的数据(例如，在电子制表软件中)。

用于进行统计学分析的软件也可包括在数字系统中。例如，可使用软件，例如描述于Bink等人(2002)“Multiple QTL mapping inrelated plant populations via a pedigree-analysis approach”Theor.Appl.Genet.104：751-762，或其经修饰的版本中的软件进行Bayesian分析。图3示意性地描述了对复杂系谱中QTLs进行该Bayesian分析的软件执行。

系统通常包括，例如数字计算机，所述计算机具有如下软件和输入软件系统的数据集，所述软件用于进行关联分析和/或表型值预测，或用于进行Bayesian分析，例如，通过可逆的跳跃马尔可夫链Monte Carlo算法等进行，所述数据集包括植物的成套遗传标记的基因型、表型值、家系关系等。所述计算机可以是，例如，PC(Intel x86或Pentium芯片兼容的DOS、^TMOS2、^TMWINDOWS、^TMWINDOWS NT、^TMWINDOWS95、^TMWINDOWS98、^TMLINUX、Apple-兼容的、MACINTOSH^TM兼容的、Power PC兼容的或UNIX兼容的(例如，SU^TM工作站)机器)或本领域技术人员已知的其它商业上通用的计算机。根据此处的方法，通过使用标准的编程语言例如Visual basic、Fortran、Basic、Java等，本领域技术人员可编制用于进行关联分析和/或表型值预测的软件。

任何系统控制器或计算机任选地包括监视器，所述监视器可包括例如，阴极射线管(“CRT”)显示器，平板显示器(例如，活性基质液晶显示器、液晶显示器)等。计算机电路通常装入包含大量集成电路芯片例如微处理器、存储器、接口电路等的盒子中。所述盒子任选地也包含硬盘驱动器、软盘驱动器、高容量抽取式驱动器例如可写CD-ROM和其它普通的外周元件。输入设备例如键盘或鼠标任选地提供来自用户的输入和在相关的计算机系统中为用户提供对遗传标记基因型、表型值等的选择。

所述计算机通常包括合适的软件，所述软件用于接受用户指令，其形式为用户输入指定参数字段的形式，例如，在GUI中，或预编程序的指令的形式，例如用于各种不同特定操作的预编程序的指令。然后软件将这些指令转化成合适的用于指导系统执行任何想要的操作的语言。例如，除了进行统计学分析外，数字系统可指导包含某些标记的植物的选择或控制用于根据此处相关的方法收获、选择、杂交或保存作物的田间机器。

本发明也可具体化在应用特异性集成电路(ASIC)或可编程逻辑设备(PLD)的电路中。在这种情况下，本发明被具体化在可用于建立ASIC或PLD的计算机可阅读描述符语言中。本发明也可被具体化在各种其它数字设备，例如PDA、膝上型计算机系统、显示器、图象编辑设备等的电路或逻辑处理器中。

鉴定新的等位基因变体

本发明也提供了可用于鉴定新的影响表型性状的QTL的等位基因变体的方法。可进行关联分析以鉴定至少一个与表型性状相关的遗传标记。可在非适应的生殖质中鉴定新的遗传标记等位基因，并且因此可能是与遗传标记相关的QTL。然后可将该新的等位基因变体，例如，培育到适应的生殖质(例如，商业育种群体)中。

因此，一类普通的实施方案提供了选择植物的方法。在所述方法中，提供了至少一个遗传标记和表型性状之间的关联。在第一植物群体中估计所述关联，所述第一植物群体是已建立的育种群体或其部分。根据合并第一植物群体的一套遗传标记的基因型和所述第一植物群体中的表型性状值的统计学模型在第一群体中估计关联。所述统计学模型也合并所述第一植物群体的成员之间的家系关系。然后提供一个或多个来自一个或多个非适应系的植物。就选择的包含至少一个与表型性状相关的遗传标记的基因型选择一个或多个植物。所选择的基因型可包含例如，至少一个与表型性状相关的遗传标记的至少一个等位基因，所述等位基因对于在所述第一群体中发现的遗传标记等位基因来说是新的等位基因。一个或多个植物的至少一个遗传标记的基因型通常是通过任何便利的技术通过实验进行确定的。

新的遗传标记基因型可指示与遗传标记(和与表型性状)相关的QTL的新等位基因的存在。为确定该假定的新QTL等位基因是否是有利地影响所述表型性状的基因，所述方法可包括在一个或多个具有所述选择的基因型的植物中估计所述表型性状(例如，对数量表型性状进行定量)。至少一个具有所述选择的基因型和想要的表型性状值的植物可被选择出来。此外，可将至少一个具有所述选择的基因型和想要的表型性状值的所选择的植物与至少一个其它植物进行育种(例如，以将所述遗传标记等位基因导入、从而将假定的新QTL等位基因导入适应的生殖质中)。

第一植物群体通常包含多个近交种、单交F1杂种或其组合。例如，在一类实施方案中，第一植物群体包含多个近交种。在另一类实施方案中，所述第一植物群体包含多个单交F1杂种。在另一类实施方案中，所述第一植物群体包含多个近交种和单交F1杂种的组合。第一植物群体任选地由近交种、单交F1杂种或其组合组成。所述近交种相互之间可以是相关的和/或不相关的，且所述单交F1杂种可以从所述近交系和/或一个或多个另外的近交系单交产生。

如所提到的，第一植物群体的成员是从已建立的育种群体(例如，商业育种群体)中取样的。图1是示意性地说明各种近交系和单交杂种之间的相互关系的系谱，所述近交系和单交杂种可例如包含第一植物群体。也将已建立的育种群体和/或上述实施方案提到的第一植物群体的特征应用到这些实施方案中。因此，例如，在一类实施方案中，所述第一植物群体包含多个近交种、单交F1杂种或其组合，各近交种和/或单交F1杂种的祖先是已知的，并且各近交种和/或单交F1杂种是三个或更多个建立者(例如，10、50或100个或更多个建立者)中至少一个的后代。类似地，在一些实施方案中，第一植物群体的成员跨越至少三个育种周期(例如，至少4、5、6、7、8或9个育种周期)。在一类实施方案中，所述已建立的育种群体包含至少3个建立者和其后代(例如，至少10个建立者、至少50个建立者、至少100个建立者、或至少200个建立者，例如大约100至大约200个建立者和其后代)，其中所述后代的祖先是已知的。所述已建立的育种群体可跨越例如3、4、5、6、7、8、9个或更多个育种周期。

第一植物群体基本上可包含任何数目的成员。例如，第一植物群体任选地包含大约50至大约5000个成员(例如，第一植物群体可包含50-5000个近交种和/或单交F1杂种)。如另一个示例，第一植物群体可包含至少大约50、100、200、500、1000、2000、3000、4000、5000或甚至6000或更多个成员。

值得注意的是第一植物群体任选地具有上述特征的任何组合组合。仅作为一个示例，第一植物群体可包含50至5000个成员，包括多个近交种和/或单交F1杂种，其各自具有已知的祖先和来自三个或更多个建立者中至少一个。

表型性状可以是数量性状，例如，可提供数量值的性状。可选择地，表型性状可以是质量性状，例如，可提供质量值的性状。通过单个基因可确定所述性状，或其可通过两个或更多个基因确定。

通常，第一植物群体表现目的表型性状的变异性(例如，数量表型性状的数量变异性)。

第一植物群体中的表型性状值可通过例如估计第一植物群体成员中的表型性状来获得(例如，对数量性状进行定量)。可在包含第一植物群体的植物(例如，近交种和/或单交杂种)中估计表型。可选择地，第一植物群体中的表型性状值可通过在至少一个和至少一个测交亲本的顶交组合中估计第一植物群体的成员中的表型性状和任选地计算目的基因型的表型的最佳线性无偏预测值来获得。

表型性状基本上可以是任何数量或质量表型性状，例如，农艺学和/或经济上重要的表型性状。例如，表型性状可以选自：产量、谷粒含水量、谷粒含油量、根抗倒伏性、茎杆抗倒伏性、株高、谷穗高、抗病性、抗虫性、抗旱性、谷粒蛋白含量、试验重量、视觉和/或美学外观和穗轴颜色。这些性状和用于定量所述性状的技术在本领域是熟知的。例如，谷粒产量是作物性能的常规测量。试验重量是针对质量的测量。谷粒含水量对于贮存非常重要，而根和茎杆抗倒伏性影响直立能力并且在收获中非常重要。所述方法类似地可用于其它表型性状，例如谷粒肌醇六磷酸含量。

成套遗传标记基本上可包含任何方便的遗传标记。例如，成套的遗传标记可包含一个或多个：单核苷酸多态性(SNP)、多核苷酸多态性、至少一个核苷酸的插入或缺失(indel)、简单序列重复(SSR)、限制性片段长度多态性(RFLP)、EST序列或用作探针的20-40个碱基的独特核苷酸序列(寡核苷酸)、随机扩增多态DNA(RAPD)标记或任意片段长度多态性(AFLP)。对于本领域技术人员来说很明显的是所需要的标记数目可以变化，例如依赖于目的植物物种中的连锁不平衡降低的速率和/或依赖于进行的关联分析类型而变化。成套遗传标记可包括例如1至50,000个标记(例如，1至10,000个标记)。在一类实施方案中，成套的遗传标记可以包含大约50至大约2500个标记。例如，成套遗传标记可包含至少大约50、100、250、500、1000、2000或甚至2500或更多个遗传标记。在某些实施方案中，成套遗传标记包含1至10个标记(例如，在候选基因研究中，需要相对少的标记)。在其它实施方案中，成套的遗传标记包含500至50,000个标记(例如，对于全基因组扫描)。

第一植物群体中成套的遗传标记的基因型可通过实验确定、进行预测或其组合。例如，在一类实施方案中，通过实验确定存在于第一植物群体中的各近交种的基因型，并预测存在于第一植物群体中各F1杂种的基因型(例如，通过实验确定各单交杂种的两个近交亲本的基因型)。基本上可通过任何方便的技术经实验确定植物基因型。许多用于发现和/或确定遗传标记基因型的应用技术在本领域是已知的(例如，在下列标题为“遗传标记”的部分描述的技术)。在一类优选的实施方案中，对来自各近交种的成套DNA片段进行测序以通过实验确定各近交系的基因型。因为序列的多态性(例如，遗传标记)通常在非编码区域(例如，内含子和非翻译区域)中更普遍，所以在一类实施方案中，进行测序的成套DNA片段包含一个或多个(例如，两个或更多个)基因的5’非翻译区域和/或3’非翻译区域。如上文所指出的，测序技术(例如，PCR扩增子直接测序)是熟知的。

在一些实施方案中，单个遗传标记与表型性状相关，而在其它实施方案中，两个或更多个遗传标记与表型性状相关。因此，在一类实施方案中，提供包含两个或更多个遗传标记的单元型和表型性状之间的关联。包含单元型的遗传标记可以是不连锁的(例如，可鉴定两个或更多个影响表型性状的QTL，各QTL与其中一个标记相关)，或遗传标记可以是物理连锁的(例如，遗传标记可包含与表型性状相关的单元型区，例如SNP单元型标记的单元型区)。

在一类优选的实施方案中，通过使用线性模型、混合线性模型或非线性模型进行Bayesian分析，来估计至少一个遗传标记和表型性状之间的关联。可通过例如可逆的跳跃马尔可夫链Monte Carlo算法、Δ方法或特征似然算法进行Bayesian分析。例如，在一类这样优选的实施方案中，通过使用线性模型进行Bayes ian分析来估计关联，所述Bayesian分析通过可逆的跳跃马尔可夫链Monte Carlo算法进行。通常，通过计算机程序或系统进行Bayesian分析(例如，通过可逆的跳跃马尔可夫链Monte Carlo算法进行的)。

如上面所提到的，Bayesian方法、Monte Carlo算法等在本领域是已知的。特别地，用于QTL作图(即，用于估计一套遗传标记和表型性状之间的关联的)的Bayesian方法是已知的：参见，例如Bink等人以及Yi和Xu，两者同见上文。

在另一类优选的实施方案中，通过进行传递不平衡检验来估计关联。在另一类实施方案中，通过最大似然混合线性或非线性模型分析来估计关联。在另一类实施方案中，通过人工神经网络在第一植物群体中估计关联。如所提到的，这种网络在本领域是已知的；参见，例如，上面的参考文献。

第一植物群体和一个或多个非适应系基本上可包含任何种类的植物。例如，在优选种类的实施方案中，第一植物群体和一个或多个非适应系包含二倍体植物(例如，由二倍体植物组成)。在优选的实施方案中，第一植物群体和一个或多个非适应系选自：玉米(例如，玉蜀黍)、大豆、高梁、小麦、向日葵、水稻、低芥酸芥子、绵花和粟。

由此处的方法鉴定的QTL(例如，与至少一个与表型性状相关的遗传标记连锁的QTL)可任选地被克隆和表达，例如，以产生具有想要的表型性状值的转基因植物。因此，在一类实施方案中，所述方法包括从具有选择的基因型和想要的表型性状值的至少一个所选择的植物中克隆基因，所述基因与至少一个与表型性状相关的遗传标记连锁，其中所述基因的表达影响所述表型性状(即，从非适应植物中克隆新QTL等位基因)。所述方法任选地也包括构建在宿主植物中表达克隆的基因的转基因植物。

此处也可在它们相关的程度上使用上述实施方案中提到的所有各种任选的构型和特征。

植物

如通过此处方法的任一方法产生的转基因植物一样，通过此处的方法的任一方法选择、提供或产生的植物形成本发明的另一个特征。

遗传标记

在下面的讨论中，短语“核酸”、“多核苷酸”、“多核苷酸序列”或“核酸序列”是指脱氧核糖核苷酸或核糖核苷酸和以单链或双链形成存在的其多聚体。除非特别指出，所述术语包括含有已知的天然核苷酸的类似物的核酸，所述类似物具有类似于参照核酸的结合特性。

通过其基因组表征个体的能力归因于遗传信息的固有的变异性。通常，遗传标记是基因组的多态区域和与这些区域结合的互补寡核苷酸。多态位点通常位于DNA的非编码区域(例如，5’或3’非翻译区，基因间区域等)。也在编码区域发现多态位点，其中，例如，核苷酸的改变可以是沉默的并且在编码的蛋白中不导致氨基酸的替代、导致保守的氨基酸替代或导致非保守氨基酸替代。如所预期的，在编码功能关键的蛋白质的区域中，多态位点(特别是插入、缺失和导致非保守替代的核苷酸改变)相对不普遍。通常，特定遗传标记的存在或不存在通过其独特的核酸序列鉴定个体；在其它例子中，遗传标记发现于所有个体中，但个体通过基因组中所述遗传标记所在的位置进行鉴定。

遗传变异性的主要原因，和因此遗传标记的主要来源是插入(添加)、缺失、核苷酸替代(点突变)、重组事件和在植物群体中在个体的基因组内的转座因子。作为一个示例，点突变可由DNA复制的错误或对DNA的损害造成。作为另一个示例，插入和缺失可由不精确的重组事件造成。在另一个示例中，变异性可由转座因子(具有自主地或非自主地转移或跳越到基因组中新的位点上的能力的DNA序列)的插入或切除造成。

这些DNA序列中可遗传的改变的净结果就是个体具有不同的序列。包含多态位点(在个体之间或在给定的个体的两条染色体之间DNA序列不同的位点)的区域可用作遗传标记。

可根据改变的类型(例如，一个或多个核苷酸的插入或缺失，或一个或多个核苷酸的替代)和/或根据检测改变的方法(例如，RFLP和AFLP可各自由插入、缺失或替代造成)对遗传标记进行分类。

各种遗传标记的发现、检测和基因型确定已描述于文献中。参见，例如，Henry，ed.(2001)Plant Genotyping.The DNA Fingerprinting of Plants Wallingford：CABI Publishing；Phillips和Vasil，eds.(2001)DNA-based Markers in PlantsDordrecht：Kluwer Academic Publishers；Pejic等人(1998)“Comparative analysis of genetic similarity among maizeinbred lines detected by RFLPs，RAPDs，SSRs and AFLPs”Theor.App.Genet.97：1248-1255；Bhattramakki 等人(2002)“Insertion-deletion polymorphisms in 3′regions of maizegenes occur frequently and can be used as highly informativegenetic markers”Plant Mol.Biol.48：539-47；Nickerson等人(1997)“PolyPhred：automating the detection and genotyping ofsingle nucleotide substitutions using fluorescence-basedresequencing”Nucleic Acids Res.25：2745-2751；Underhill等人(1997)“Detection of numerous Y chromosome biallelicpolymorphisms by denaturing high-performance liquidchromatography”Genome Res.7：996-1005；Shi(2001)“Enablinglarge-scale pharmacogenetic studies by high-throughputmutation detection and genotyping technologies”Clin.Chem.47：164-172；Kwok(2000)“High-throughput genotyping assayapproaches”Pharmacogenomics 1：95-100；Rafalski等人(2002)“The genetic diversity of components of rye hybrids”Cell MolBiol Lett 7：471-5；Ching和Rafalski(2002)“Rapid geneticmapping of ests using SNP pyrosequencing and indel analysis”Cell Mol Biol Lett.7：803-10；和Powell等人(1996)“Thecomparison of RFLP，RAPD，AFLP and SSR(microsatellite)markers for germplasm analysis”Mol.Breeding 2：225-238。

SNPs

在DNA序列中个体在单个DNA碱基上不同的位点称作单核苷酸多态性(SNPs)。SNP可由例如点突变造成。

通过许多本领域已知的技术中的任一个可发现SNPs。例如，可通过从几个个体直接测序DNA片段(例如，通过PCR扩增的)来检测SNPs(参见，例如Ching等人(2002)“SNP frequency，haplotypestructure and linkage disequilibrium in elite maize inbredlines”BMC Genetics 3：19)。在另一个示例中，通过可获得的来源于多个基因型的序列(例如，ESTs、STSs)的计算机分析可发现SNPs(参见，例如Marth等人(1999)“A general approach to single-nucleotide polymorphism discovery”Nature Genetics 23：452-456和Beutow等人(1999)“Reliable identification of largenumbers of candidate SNPs from public EST data”Nature Genetics21：323-325)。(Indels，一个或多个核苷酸的插入或缺失，也可通过测序和/或计算机分析被发现，例如在SNP发现的同时)。

类似地，通过测序可确定SNPs的基因型。也可通过各种其它本领域已知的方法(包括高通量方法)，例如通过使用DNA芯片、等位基因特异性杂交、等位基因特异性PCR和引物延伸技术确定SNPs的基因型。参见，例如，Lindblad-Toh能量(2000)“Large-scalediscovery and genotyping of single-nucleotide polymorphismsin the mouse”Nature Genetics 24：381-386；Bhattramakki和Rafalski(2001)“Discovery and application of singlenucleot ide polymorphism markers in plants”in Plant Genotyping： The DNA Fingerprinting of Plants，CABI Publishing；Syvanen(2001)“Accessing genetic variation：genotyping singlenucleotide polymorphisms”Nat.Rev.Genet.2：930-942；Kuklin等人(1998)“Detection of single-nucleotide polymorphisms withthe WAVE TM DNA fragment analysis system”Genetic Testing 1：201-206；Gut(2001)“Automation in genotyping singlenucleotide polymorphisms”Hum.Mutat.17：475-492；Lemieux(2001)“Plant genotyping based on analysis of single nucleotidepolymorphisms using microarrays”in Plant Geno typing：The DNA Fingerprinting of Plants，CABI Publishing；Edwards和Mogg(2001)“Plant genotyping by analysis of single nucleotidepolymorphisms”in Plant Genotyping：The DNA Fingerprinting of Plants，CABI Publishing；Ahmadian等人(2000)“Single-nucleotide polymorphism analysis by pyrosequencing”Anal.Biochem.280：103-110；Useche等人(2001)“High-throughputidentification，database storage and analysis of SNPs in ESTsequences”Genome Inform Ser Workshop Genome Inform 12：194-203；Pastinen等人(2000)“A system for specific，high-throughputgenotyping by allele-specific primer extension onmicroarrays”Genome Res.10：1031-1042；Hacia (1999)“Determination of ancestral alleles for human single-nucleotide polymorphisms using high-density oligonucleotidearrays”Nature Genet.22：164-167；和Chen等人(2000)“Microsphere-based assay for single-nucleotide polymorphismanalysis using single base chain extension”Genome Res.10：549-557。

通过类似的方法可发现和检测多核苷酸多态性。

RFLPs

如上面所提到的，不同个体具有不同的基因组DNA序列。因此，当用一个或多个识别特异性限制位点的限制性内切核酸酶消化这些DNA序列时，一些所得的片段具有不同的长度。所得的片段就是限制性片段长度多态性。

短语限制性片段长度多态性或RFLPs是指在限制酶位点上固有的不同(例如，由于在靶位点上的碱基突变造成的)或在侧翼连接限制酶位点的区域内的添加或缺失，所述添加或缺失导致在通过用相关的限制酶切割产生的片段的长度上的不同。点突变导致更长的片段(如果突变在限制位点之内)或更短的片段(如果突变产生限制位点)。插入和转座因子整合导致更长的片段，而缺失导致更短的片段。

最初，通过DNA印迹和杂交进行RFLP。目前更通常通过PCR进行RFLP分析。成对的连接包含RFLP区域的寡核苷酸引物用于扩增来自基因组DNA的片段。可直接地分析PCR产物的大小，且如果片段包含多态性限制位点，那么可用酶消化PCR产物并且可分析消化产物的大小。

用于发现和确定RFLPs基因型的技术已在文献中详细地描述。参见，例如，Gauthier等人(2002)“RFLP diversity and relationshipsamong traditional European maize populations”Theor.Appl.Genet.105：91-99；Ramalingam等人(2003)“Candidate defensegenes fromrice，barley，and maize and their association withqualitative and quantitative resistance in rice”Mol PlantMicrobe Interact 16：14-24；Guo等人(2002)“Restrictionfragment length polymorphism assessment of the heterogeneousnature of maize population GT-MAS：gk and field evaluation ofresistance to aflatoxin product ion-by Aspergillus flavus”JFood Prot 65：167-71；Pejic等人(1998)“Comparative analysisof genetic similarity among maize inbred lines detected byRFLPs，RAPDs，SSRs and AFLPs”Theor.App.Genet.97：1248-1255；和Powell等人(1996)“The comparison of RFLP，RAPD，AFLP andSSR(microsatellite)markers for germplasm analysis”Mol.Breeding 2：225-238。

RAPDs

为鉴定随机扩增多态DNA(RAPD)标记，随机选择寡核苷酸(例如，八核苷酸、十核苷酸)。植物基因组DNA的复杂性高到足以使与寡核苷酸互补的一对位点可随机地以正确的方向存在并且相互之间可以足够接近以允许PCR扩增被该对位点划定界限的片段。对于一些随机选择的寡核苷酸，没有扩增出序列。对于其它的寡核苷酸，相同长度的产物产生自不同个体的基因组DNA。然而，对于其它的寡核苷酸，在群体中对于每一个个体而言产物长度都不相同，从而提供了有用的RAPD标记。RAPD标记已描述于，例如，Pejic等人(1998)“Comparative analysis of genetic similarity among maizeinbred lines detected by RFLPs，RAPDs，SSRs and AFLPs”Theor.App.Genet.97：1248-1255；和Powell等人(1996)“The comparisonof RFLP，RAPD，AFLP and SSR(microsatellite)markers forgermplasm analysis”Mol.Breeding 2：225-238。

AFLPs

任意片段长度多态性(AFLPs)也可用作遗传标记(Vos，P.等人，Nucl.Acids Res.23：4407(1995))。短语“任意片段长度多态性”是指在被限制性内切核酸酶切割前或切割后经扩增的选择的限制片段。所述扩增步骤允许更容易的检测特异性限制片段，而不是确定所有限制片段的大小和与已知对照比较大小。

AFLP允许检测大量多态标记(参见，同上)和已用于植物的遗传作图(Becker等人(1995)Mol.Gen.Genet.249：65；和Meksem等人(1995)Mol.Gen.Genet.249：74)和区别紧密相关的细菌物种(Huys等人(1996)Int′1 J.Systematic Bacteriol.46：572)。

SSRs

简单序列重复(SSRs)是短的串联重复(例如，二-、三-或四核苷酸串联重复)。在基因组中SSRs可以以高水平发生。例如，已报道在人基因组中二核苷酸重复发生多达50,000次，具有10至60的n(在给定的SSR区域内二核苷酸序列串联重复的次数)变化(Jacob等人(1991)Cell 67：213)。在高等植物中也已发现SSRs；参见，例如Taramino和Tingey(1996)“Simple sequence repeats forgermplasm analysis and mapping in maize”Genome 39：277-287；Condit和Hubbell(1991)Genome 34：66；Peakall等人(1998)“Cross-species amplification of soybean(Glycine max)simplesequence repeats(SSRs)within the genus and other legumegenera：implications for the transferability of SSRs inplants”Mol Biol Evol 15：1275-87；Morgante等人(1994)“Geneticmapping and variability of seven soybean simple sequencerepeat loci”Genome 37：763-9；和Zietkiewicz等人(1994)“Genomefingerprinting by simple sequence repeat(SSR)-anchoredpolymerase chain reaction amplification”Genomics 20：176-83。

简而言之，可通过例如将引物与植物基因组的保守区域杂交来产生SSR数据，所述区域侧翼连接SSR区域。然后利用PCR扩增引物之间的核苷酸重复。然后对扩增的序列进行电泳以确定所述扩增片段的大小，并从而确定二、三和四核苷酸重复的次数。

其它标记

其它检测序列多态性的遗传标记和方法在本领域是已知的并且可用于本发明的实践中，包括，但不限于，单链构象多态性(SSCPs)、扩增的可变序列、同工酶标记、等位基因特异性杂交和自动维持序列扩增。参见，例如，Orita等人(1989)“Detection of polymorphismsof human DNA by gel electrophoresis as single-strandconformation polymorphisms”Proc.Natl.Acad.Sci.USA 86：2766-2770；授予Beavis的USPN 6,399,855，标题为“QTL mappingin plant breeding populations”；和上述参考文献。在其它研究中，例如，在基因功能研究、影响目的表型、目的性状的生理学等的生物化学途径的研究中鉴定的候选基因也可在第一群体和靶群体中用作标记。

单元型区

在给定的染色体上的成套相邻遗传标记可在区内遗传。在一些情况下，这种区的单元型(例如，单元型标记，例如，包含代表区内更多多态性的少数SNPs的单元型)可比区内单个遗传标记(例如，单一SNP)的单元型具有更多的信息。参见，例如，Rafalski(2002)“Applications of single nucleotide polymorphisms in cropgenetics”Curr.Opin.Plant Bio.5：94-100和Johnson et(2001)“Haplotype tagging for the identification of common diseasegenes”Nat.Genet.29：233-237中的单元标记描述。

分子生物学技术

在实践本发明过程中，任选地使用许多分子生物学和重组DNA技术中的常规技术。这些技术是熟知的并且在下述文献中说明，例如Berger和Kimmel，Guide to Molecular Cloning Techniques，Methods in Enzymology volume 152 Academic Press，Inc.，SanDiego，CA(“Berger”)；Sambrook等人，Molecular Cloning-ALaboratory Manual(3rd Ed.)，1-3卷，Cold Spring HarborLaboratory，Cold Spring Harbor，New York，2000(“Sambrook”)和Current Protocols in Molecular Biology，F.M.Ausubel等人，eds.，Current Protocols，a joint venture between GreenePublishing Associates，Inc.和John Wiley&Sons，Inc.，(supplemented through 2004)(“Ausubel”))。其它有关细胞分离和培养(例如，随后的核酸分离)的有用参考资料包括，例如，Freshney(1994)Culture of Animal Cells，a Manual of BasicTechnique，third edi t ion，Wi ley-Liss，New York，和在其中引用的参考文献；Payne等人(1992)Plant Cell and Tissue Culturein Liquid Systems John Wiley&Sons，Inc.New York，NY；Gamborg和Phillips(Eds.)(1995)Plant Cell，Tissue and Organ Culture；Fundamental Methods Springer Lab Manual，Springer-Verlag(Berlin Heidelberg New York)和Atlas和Parks(Eds.)TheHandbook of Microbiological Media(1993)CRC Press，Boca Raton，FL。

可通过许多熟知的方法获得寡核苷酸(例如，用作PCR引物，用于遗传标记检测方法等)。例如，可根据Beaucage和Caruthers(1981)，Tetrahedron Letts.，22(20)：1859-1862中描述的固相亚磷酰胺三酯方法化学地合成寡核苷酸，例如使用商业可购的自动化合成仪，例如Needham-VanDevanter等人在(1984)Nucleic AcidsRes.，12：6159-6168中描述的。也可从各种本领域技术人员已知的商业来源订购寡核苷酸(包括，例如，标记的或经修饰的寡核苷酸)。有许多寡核苷酸合成服务的商业提供商，因此，这是广泛可获得的技术。任何核酸都可从任何各种商业来源订购，例如The MidlandCertified Reagent Company(www.mcrc.com)、The Great AmericanGene Company(www.genco.com)、ExpressGenInc.(www.expressgen.com)、QIAGEN(http://oligos.qiagen.com)和许多其它公司。

定位克隆

定位基因克隆使用至少一个遗传标记的邻近在物理上限定克隆的染色体片段，所述片段与使用此处的统计学方法确定的QTL连锁。这些连锁的核酸的克隆具有多种用途，包括用作在随后的标记辅助的选择方案中鉴定连锁的QTLs的遗传标记，和在重组植物中提高想要的特性，其中转基因植物中克隆的序列的表达影响目的表型性状。想要克隆的共同连锁的序列包括可读框，例如编码提供观察到的QTL的分子基础的蛋白。如果一个或多个标记与可读框邻近，那么其可与给定的DNA克隆杂交，从而鉴定所述可读框所位于的克隆。如果侧翼连接的标记较远，那么含有所述可读框的片段可通过构建重叠克隆的重叠群来进行鉴定。

在某些应用中，制备或克隆用于鉴定更远地与给定标记连锁的核酸、或分离与此处鉴定的QTLs连锁或负责所述QTL的核酸的大核酸是有利的。要认识到遗传上与多态核苷酸连锁的核酸任选地位于离所述多态核酸最高达约50厘摩的位置，尽管精确的距离将依赖于特定染色体区域的交换频率而变化。通常距离多态核苷酸的距离在1-50厘摩的范围内，例如通常小于1厘摩、小于大约1-5厘摩、大约1-5、1、5、10、15、20、25、30、35、40、45或50厘摩等。

已知许多制备大重组RNA和DNA核酸的方法，所述核酸包括重组质粒、重组λ噬菌体、粘粒、酵母人工染色体(YACs)、P1人工染色体、细菌人工染色体(BACs)等。对作为人工染色体的YACs、BACs、PACs和MACs的一般介绍描述于Monaco&Larin(1994)TrendsBiotechnol.12：280-286。用于制备大核酸的合适的克隆技术的示例和足以指导本领域技术人员进行许多克隆练习的说明书也在Berger、Sambrook和Ausubel(同上)中找到。

在一个方面，与遗传标记杂交的核酸被克隆入大核酸例如YACs中，或在克隆自选择的作物的YAC基因组文库中被检测到，所述遗传标记与上述方法鉴定的QTLs连锁。YACs和YAC文库的构建是已知的。参见，例如，Berger(同上)，Ausubel(同上)，Burke等人(1987)Science 236：806-812，Anand等人(1989)Nucleic Acids Res.17：3425-3433，Anand等人(1990)Nucleic Acids Res.18：1951-1956，和Riley(1990)Nucleic Acids Res.18：2887-2890。已构建了包含大豆DNA大片段的YAC文库(参见，Funke&Kolchinsky(1994)CRCPress，Boca Raton，Fla.pp.125-308；Marek&Shoemaker(1996)Soybean Genet.Newsl.23：126-129；Danish等人(1997)SoybeanGenet.Newsl.24：196-198)。许多其它商业上重要的作物的YAC文库是可获得的或可使用已知的技术构建。

类似地，粘粒或其它分子载体例如BAC和P1构建体也用于分离或克隆与遗传标记连锁的核酸。粘粒克隆也是已知的。参见，例如Ausubel；Ish-Horowitz&Burke(1981)Nucleic Acids Res.9：2989-2998；Murray(1983)LAMBDA II(Hendrix等人，eds.)pp.395-432，Cold Spring Harbor Laboratory，N.Y.；Frischauf等人(1983)J.Mol.Biol.170：827-842；和Dunn&Blattner(1987)Nucleic Acids Res.15：2677-2698，以及在其中引用的参考文献。BAC和P1文库的构建是已知的，参见，例如，Ashworth等人(1995)Anal.Biochem.224：564-571；Wang等人(1994)Genomics 24(3)：527-534；Kim等人(1994)Genomics 22：336-9；Rouquier等人(1994)Anal.Biochem.217：205-9；Shizuya等人(1992)Proc.Natl Acad.Sci.USA 89：8794-7；Kim等人(1994)Genomics 22：336-9；Woo等人(1994)Nucleic Acids Res.22(23)：4922-31；Wang等人(1995)Plant 3：525-33；Cai(1995)Genomics 29(2)：413-25；Schmitt等人(1996)Genomics 33：9-20；Kim等人(1996)Genomics 34(2)：213-8；Kim等人(1996)Proc.Natl Acad.Sci.USA 13：6297-301；Pusch等人(1996)Gene 183(1-2)：29-33；和Wang等人(1996)Genome Res.6(7)：612-9。用于扩增与此处的多态核酸连锁的大核酸的改进的体外扩增方法概述于Cheng等人(1994)Nature 369：684-685以及其中引用的参考文献。

此外，任何此处描述的克隆或扩增策略可用于建立重叠克隆的重叠群，从而提供了在分子水平上显示遗传上连锁的核酸的物理关系的重叠核酸。该策略的普通示例发现于整个生物测序项目中，在所述项目中对重叠克隆进行测序以提供完整的染色体序列。在该过程中，根据标准的方法(描述于例如上述参考资料中的)制备生物的cDNA或基因组DNA文库。分离单个克隆并测序，将重叠序列信息排序以提供生物的序列。也参见，Tomb等人(1997)Nature 388：539-547，其描述了全基因组随机测序和装配完整的幽门螺杆菌(Helicobacterpylori)基因组序列；Fleischmann等人(1995)Science 269：496-512，其描述了全基因组随机测序和装配完整的流感嗜血菌(Haemophilus influenzae)基因组；Fraser等人(1995)Science270：397-403，其描述了全基因组随机测序和装配完整的生殖道枝原体(Mycoplasma genitalium)基因组；和Bult等人(1996)Science273：1058-1073，其描述了全基因组随机测序和装配完整的詹氏甲烷球菌(Methanococcus jannaschii)基因组。Hagiwara和Curtis，Nucleic Acids Res.24：2460-2461(1996)开发了用于从非常大的克隆产生重叠核酸的“长距离测序仪”PCR方案，和扩增和标记重叠核酸形成合适的测序模板的方法。所述方法可与鸟枪测序技术结合使用以提高通常用于全生物测序项目的鸟枪法的效率。如本发明所用的，所述技术可用于鉴定与QTLs以及负责QTL表达的“候选”基因遗传上连锁的基因组核酸和对其进行测序，所述“候选”基因是由此处的方法鉴定的。如上面提到的，可将包含QTL的等位基因序列克隆和插入转基因植物中。产生转基因植物的方法在本领域是已知的并且在下面进行了简述。

转基因植物

来源于与遗传标记和/或由此处统计学方法鉴定的QTL连锁的核酸的核酸可被导入培养物或植物器官(例如，叶、茎、果实、种子等)中的植物细胞。通过可操作地将目的核酸连接至启动子，将所述构建体整合入表达载体并将所述载体导入合适的宿主细胞中，可获得天然的或合成的核酸的表达。

一般的载体(例如，质粒)包含转录和翻译终止子、转录和翻译起始序列和/或用于调控特定核酸表达的启动子。所述载体任选地包含基因表达盒，所述表达盒包含启动子、基因和终止子序列、允许所述表达盒在真核生物或原核生物或两者(例如穿梭载体)中复制的序列和用于原核和真核系统中的选择标记。载体适合在真核生物、原核生物或优选地在两者中复制和整合。参见，例如，Berger；Sambrook；和Ausubel。

将QTL等位基因序列克隆入细菌宿主中

细菌细胞可用于增加含有本发明的DNA构建体的质粒数目。可通过本领域已知的许多方法的任意一种(例如，电穿孔或氯化钙)将质粒导入细菌宿主细胞。培养细菌，并通过各种本领域已知的方法(参见，例如，Sambrook)分离细菌内的所述质粒。此外，用于从细菌中纯化质粒的大量试剂盒可商业获得(例如，来自Stratagene的StrataClean^TM或来自Qiagen的QIAprep^TM)。然后进一步操作分离和纯化的质粒以产生用于转染植物细胞的其它质粒，或整合入根癌土壤杆菌(Agrobacterium tumefaciens)中以感染植物的质粒。

可选择地，可在细菌例如大肠杆菌(E.coli)中表达克隆的植物核酸和可分离和纯化所得的蛋白。

转染植物细胞

重组载体的制备

为在上述技术中使用分离的序列，制备了适合植物细胞转化的重组DNA载体。用于转化多种高等植物物种的技术是熟知的并且描述于技术和科学文献中，参见，例如，Weising等人(1988)Ann.Rev.Genet.22：421-477。编码想要的多肽的DNA序列(例如，编码全长蛋白的cDNA序列)优选地与指导来自基因的序列转录的转录和翻译起始调节序列组合。

可通过分析与QTL相关的等位基因的编码序列上游的5’序列鉴定启动子。启动子序列的序列特征可用于鉴定启动子。已经详尽地研究了控制真核基因表达的序列。例如，启动子序列元件包括TATA框共有序列(TATAAT)，所述序列通常位于转录起始位点上游20至30个碱基对处。在大多数情况下，TATA框是精确转录起始所必需的。在植物中，TATA框的更上游，在-80至-100位置，通常存在具有一系列围绕三核苷酸G(或T)NG的腺嘌呤的启动子元件。参见，例如，J.Messing等人(1983)in Genetic Engineering in Plants，pp.221-227(Kosage，Meredith和Hollaender，eds.)。许多用于在植物基因组DNA中鉴定和表征启动子区域的方法对于本领域技术人员来说是熟知的(参见，例如，Jordano等人(1989)Plant Cell 1：855-866；Bustos等人(1989)Plant Cell 1：839-854；Green等人(1988)EMBO J.7：4035-4044；Meier等人(1991)Plant Cell 3：309-316；和Zhang等人(1996)Plant Physiology 110：1069-1079)。

在本发明的重组表达盒的构建中，可使用指导基因在再生的植物的所有组织中表达的植物启动子片段。这类启动子在此处称作“组成型”启动子并且在大多数环境条件下和发育或细胞分化状态下具有活性。组成型启动子的示例包括花耶菜花叶病毒(CaMV)35S转录起始区域、遍在蛋白启动子、来源于根癌土壤杆菌的T-DNA的1’-或2’-启动子，和其它来源于各种本领域技术人员已知的植物基因的转录起始区域。

可选择地，植物启动子可指导本发明的多核苷酸在特定的组织中表达(组织特异性启动子)或可在更精确的环境控制下表达(诱导型启动子)。在发育控制下的组织特异性启动子的示例包括只在某些组织，例如果实、种子或花中启动转录的启动子。例如，来自烟草的组织特异性E8启动子可用于指导基因表达以使想要的基因产物位于果实中。其它合适的启动子包括来自编码胚胎贮存蛋白的基因的启动子。可通过诱导型启动子影响转录的环境条件的示例包括厌氧性条件、提高的温度或光的存在。

如果想要正确的多肽表达，则应当在编码区的3’末端包含聚腺苷酰化区域。聚腺苷酰化区域可来源于天然的基因、来源于多种其它植物基因或来自T-DNA。

包含来自本发明的QTL等位基因的序列(例如，启动子或编码区)的载体通常包含赋予植物细胞可选择的表型的标记基因。例如，所述标记可编码杀生物剂抗性、特别是抗生素抗性(例如对卡那霉素、G418、博来霉素、潮霉素的抗性)或除草剂抗性(例如对chlorosluforon或草铵膦的抗性)。

将核酸导入植物细胞

通过各种常规技术可将本发明的DNA构建体导入培养物或植物器官中的植物细胞。例如，使用例如电穿孔和植物细胞原生质体的显微注射可直接地将DNA构建体导入植物细胞中，或可使用生物弹射击方法例如DNA粒子轰击将DNA构建体直接导入植物细胞。可选择地，将DNA构建体与合适的T-DNA侧翼区域组合并导入常规的根癌土壤杆菌宿主载体。当通过用细菌感染植物细胞时，根癌土壤杆菌宿主的侵入性功能指导构建体和相邻的标记插入植物细胞DNA中。

显微注射技术在本领域是已知的并且在科学和专利文献中详细地描述。使用聚乙二醇沉淀导入DNA构建体的方法描述于Paszkowski等人(1984)EMBO J.3：2717。电穿孔技术描述于Fromm等人(1985)Proc.Nat′1 Acad.Sci.USA 82：5824中。生物弹射击转化技术描述于Klein等人(1987)Nature 327：70-73。根癌土壤杆菌介导的转化技术，包括二元载体的消除(disarming)和使用，也详细地描述于科学文献中。参见例如Horsch等人(1984)Science 233：496-498和Fraley等人(1983)Proc.Nat′1 Acad.Sci.USA 80：4803中。

转基因植物的产生

可培养经转化的植物细胞(例如，来源于任何上述转化技术的植物细胞)以再生完整的植物，所述完整的植物具有转化的基因型，并从而具有想要的表型。该再生技术依赖于组织培养生长培养基中某些植物激素的操作，所述操作通常依赖于和想要的核苷酸序列一起导入的杀生物剂和/或除草剂标记。来自培养的原生质体的植物再生描述于Evans等人(1983)“Protoplasts Isolation and Culture”in theHandbook of Plant Cell Culture，pp.124-176，MacmillianPublishing Company，N.Y.；和Binding(1985)Regeneration ofPlants，Plant Protoplasts，pp.21-73，CRC Press，Boca Raton。也可从植物愈伤组织、外植体、体细胞胚(例如Dandekar等人(1989)J.Tissue Cult.Meth.12：145和McGranahan等人(1990)PlantCell Rep.8：512)、器官或其部分获得再生。这些再生技术通常描述于Klee等人(1987)Ann.Rev.of Plant Phys.38：467-486。

本领域技术人员认识到在表达盒稳定地整合入转基因植物中并确定有效后，其可通过有性杂交导入其它植物中。可使用许多标准育种技术中的任一种，这依赖于要杂交的物种。

实施例

下列提供一系列证明确定和利用玉米中穗轴颜色和遗传标记单元型之间的关联的实施例。要理解此处描述的实施例和实施方案是仅用于说明目的并且其各种修饰或改变对于本领域技术人员是可以想到的，并且包括在本申请的精神和范围和所附的权利要求的范围之内。因此，提供下列实施例说明但不限于请求保护的本发明。

通过果皮颜色1(P1)基因部分地确定玉米中的穗轴颜色(例如，红或白)。参见，例如，Neuffer，Coe和Wessler(1997)Mutants of Maize，Cold Spring Harbor Laboratory Press，其第107页描述p1-wr，第363页描述所述基因和其作用模式，和第35页描述其图上的位置。下列实施例描述稳轴颜色和与p1连锁的遗传标记之间关联的确定。

连锁图

为产生遗传标记信息，横跨一套选自多代系谱的近交种(先锋的已建立的玉米育种群体)，对大量选自EST数据库的基因座进行测序。基本上如下所述使用这些标记产生多点连锁图。

成套的遗传标记包含5741个单元型(单元型区)，所述单元型通过对5741个来自各近交种的EST序列的大约450个碱基对进行测序产生。例如，通过对使用下列引物扩增的嵌套式PCR产物进行测序来确定标记MZA6914单元型的基因型：外部引物taggtgctttgcggaccttg(SEQ ID NO：1)和tctgaacagcaaatcgttgttg(SEQ ID NO：2)，和内部引物aggaaacagctatgaccat(SEQ ID NO：3)和gttttcccagtcacgacg(SEQID NO：4)。成套的的遗传标记也可包括505个SSR标记，所述标记的基因型已在B73/Mol7中得以确定并通过作图定位在公开的IBM2图上。

成套的选自已建立的育种群体的近交种包括320个三生儿(triplet)，各三生儿含有两个近交系，而第三近交系来源于这两个系的杂交，其对应于总共大约600个近交种。使用系谱信息和含有具有不同标记等位基因的近交亲本的三生儿，通过将标记分配到染色体上并将所述标记在染色体上排序产生了包含6246个标记(5741个单元型和505个SSRs)的多点连锁图。(很明显并不是每一个三生儿对每一个标记都能提供信息，例如，如果亲本具有相同的标记等位基因)。所述连锁图使用公开的IBM2图(http://www.maizegdb.org)作为骨架。针对5741个测过序的基因座的绝大部分设计overgo探针并与物理图谱杂交，从而帮助结合物理和遗传图谱和允许对相邻太近而不能遗传作图的标记进行排序。

似然比率TDT测试

用于产生连锁图谱的近交系的表型数据(红或白色穗轴颜色)已被收集作为先锋正在进行的(Pioneer’s ongoing)育种程序的部分。使用来自三生儿的第三近交种进行关联分析，在所述三生儿中，对于穗轴颜色而言两个亲本近交系具有不同的表型(即，一个红色亲本和一个白色亲本)；选自已建立的育种群体、来自这些三生儿的第三近交种包含第一植物群体。成套的遗传标记在1号染色体上包含511个标记(488个单元型和23个SSRs)，其基因型已通过上述测序得以确定。(所述分析限于第一染色体，因为p1基因座位于1号染色体上)。此外，很明显并不是每一个三生儿对每个标记都提供信息；只有其中两个近交亲本具有不同标记单元型的三生儿提供信息。将遗传标记和表型信息以及第一植物群体中的近交种之间的系谱关系一起用于TDT分析(参见，例如，Gutin等人(2001)“Allelic associationin large pedigrees”Genet Epidemiol.21 Suppl 1：S571-575和Spielman等人(1993)“Transmission test for linkagedisequilibrium：The insulin gene region and insul in-dependentdiabetes mellitus(IDDM)”American Journal of Human Genetics52：506-516)。

基于TDT的关联测试转化成似然比率测试，所述测试称为似然比率TDT测试(LR-TDT)，基于TDT的关联测试使用可从针对多个等位基因的TDT测试计算出来的数据，其中各单元型可具有超过两个等位基因(最初由Spielman和Ewens(1996)“The TDT and otherfamily-based tests for linkage disequilibrium andassociation”American Journal of Human Genetics 59：983-989提出)。我们首先简要地描述用于双等基因标记数据的测试，然后将所述方法扩展到多个等位基因数据的分析。

对于双等位基因数据，我们定义在给定的亲本基因型M₁M₂中传递等位基因M₁而不传递等位基因M₂的条件概率为t₁₂＝P(M₁，M₂|g＝M₁M₂)，和传递等位基因M₂但不传递M₁的条件概率为t₂₁＝P(M₂，M₁|g＝M₁M₂)。t₁₂和t₂₁的最大似然估计值分别是n₁₂/(n₁₂+n₂₁)和n₂₁/(n₁₂+n₂₁)。对于目的标记存在n个具有提供信息的亲本的个体；这些中的n₁₂遗传第一标记等位基因和第二性状表型，这些中的n₂₁遗传第二标记等位基因和第一性状表型。因此，将标记等位基因从杂合亲本传递到受影响的子代的对数似然函数为

\ln L_{1} = n_{12} \ln (t_{12}) + n_{21} \ln (t_{21}) = n_{12} \ln \frac{n_{12}}{n_{12} + n_{21}} + n_{21} \ln \frac{n_{21}}{n_{12} + n_{21}} .

在零假设时相应的对数似然函数为

\ln L_{0} = (n_{12} + n_{21}) \ln \frac{1}{2} .

似然比率测试统计学值为

LRT＝2(lnL₁-lnL₀)；

其具有df＝1(df表示自由度)的卡方分布。

为将上式推广到多等位基因标记数据，我们假设针对各标记基因座(在该实施例中为各标记单元型)的k个等位基因。我们指定一个等位基因，M_v为M₁等位基因。所有其它的等位基因一起作为等位基因M₂来处理，并且将其等位基因计数合并以使多个等位基因数据转化成k个双等位基因数据集。于是针对k个等位基因的对数似然比率测试统计学值(LRT_k)是k个独立的对数似然比率测试(LRT_v)的总和：

{LRT}_{k} = \frac{k - 1}{k} Σ_{v = 1}^{k} {LRT}_{k} = \frac{k - 1}{k} Σ_{v = 1}^{k} 2 (\ln L_{v 1} - \ln L_{v 0}) .

上述多等位基因对数似然比率测试统计学值具有自由度df＝k-1的渐近卡方分布。

图4图示了针对511个按染色体位置顺序排列的标记的穗轴颜色TDT似然比率统计学值。似然曲线(图4)上的水平虚线是在针对多基因座测试α_b＝α/m的Bonferroni调整后的阈值或显著性LRY_k值，其中m是染色体上标记的数目，且α＝0.01。箭标表示p1基因座的位置。给出了关于上述的多点连锁图的图谱位置。

表1提供了关于LR-TDT测试的额外细节。对于几个遗传标记单元型(由MZA数字表示)的每一个，该表显示样品的大小(在第一植物群体中第三近交种的数目，对应于为特定标记提供信息的三生儿的数目)、自由度(df，等于标记单元型数目减1)、TDT测试的卡方值、与卡方值相关的概率、连锁群(对应于公开的玉米遗传图谱)和以厘摩为单位的图谱位置(cm，关于上述的多点连锁图谱)。要注意具有频率低于5％的遗传标记单元型不包括在所述分析中。例如，对于MZA6914，三种单元型各具有低于5％的频率，从而不予考虑，而当三种单元型各具有大于5％的频率时，加予考虑。

表1.针对穗轴颜色的LR-TDT结果

性状	标记	样本大小	df	Z_Chi_sq	Pval_Z_CHIsq	连锁图	位置
性状	标记	样本大小	df	Z_Chi_sq	Pval_Z_CHIsq	连锁图	位置	红色	MZA6914	100	3	49.08	0	1.03	385.69
红色	MZA1241	230	4	14.74	4.38E-07	1.03	389.00	红色	MZA6914	100	3	49.08	0	1.03	385.69
红色	MZA1241	230	4	14.74	4.38E-07	1.03	389.00	红色	MZA9011	246	7	22.68	9.51E-07	1.03	391.98
红色	MZA7069	250	7	18.29	3.13E-09	1.03	394.18	红色	MZA9011	246	7	22.68	9.51E-07	1.03	391.98
红色	MZA7069	250	7	18.29	3.13E-09	1.03	394.18	红色	MZA3729	282	7	23.72	9.14E-10	1.03	396.25

如图4和表1中所表明的，在标记MZA6914和穗轴颜色之间观察到高度显著的关联。基于来自物理图谱的信息，MZA6914不是p1基因，但却是与p1紧密连锁的序列。

应用

根据MZA6914和如上所述在近交种第一群体中确定的穗轴颜色之间的关联，在其它植物中基于其MZA6914基因型可预测穗轴颜色，并且该信息可用于选择和培育想要的表型。例如，具有想要的MZA6914基因型(例如，与白色穗轴相关的MZA6914单元型)的植物可在授粉前被鉴定并用作白色玉米产品开发程序中的亲本，例如，其中其子代(包含靶植物群体)经预测具有白色穗轴。例如，在具有白色种子的杂种中，白色穗轴是想要的，因为红色颖片难以去除并且可将不想要的颜色加到产生自种子的玉米片(corn chip)、玉米粉圆饼(tortillas)等中。在授粉前选择植物可导致在开发过程中明显地节省劳力。因此，在植物授粉前预测子代的穗轴颜色表型可增加开发近交系和/或具有白色穗轴和白色种子的功效。

如果想要，在用于在育种程序中选择亲本和预测子代表型之前在分离杂交中可鉴定关联。

上述的关联分析和表型性状预测的示例使用穗轴颜色，但该类型的分析和预测同样可用于任何质量性状或以单基因为条件的任何简单性状。例如，针对许多植物疾病的单基因条件性抗性，和在本实施例中提出的策略可用于预测、培育和/或选择对这些疾病具有抗性的子代。在Mutants of Maize(同上)提供了许多其它的简单性状的示例。

也如此处所提到的，通过使用设计用于鉴定与连续性状相关的遗传区域的统计学分析，可使用相关的策略确定关联和预测具有连续表型分布和可由多个基因座控制的性状的表型。

尽管为了阐明和理解的目的，已对前述的发明进行了一些详细的描述，但通过阅读该公开容，领域技术人员清楚可产生各种形式和细节上的变化而不背离本发明的真实范围。例如，所有的上述技术和组合物可以以各种组合使用。所有出版物、专利、专利申请和/或其它本申请中引用的文献以其全文在此引用作为参考，就如同每一单个出版物、专利、专利申请和/或其它文献被单独地说明被引用作为参考一样。

Claims

1.预测靶植物群体中表型性状值的方法，所述方法包括：

(a)提供至少一个遗传标记和表型性状之间的关联；其中估计第一植物群体中的所述关联，所述第一植物群体是已建立的育种群体或其部分；其中根据统计学模型估计第一植物群体中的所述关联，所述统计学模型合并所述第一植物群体的一套遗传标记的基因型和所述第一植物群体中的表型性状值；和，

(b)提供至少一个靶植物群体成员的表型性状值，其中所述提供包括根据(a)的关联和根据至少一个与所述表型性状相关的遗传标记的至少一个成员的基因型预测所述值。

2.权利要求1的方法，其中所述第一植物群体包含多个近交种、单交F1杂种或其组合。

3.权利要求2的方法，其中所述第一植物群体由近交种、单交F1杂种或其组合组成。

4.权利要求2的方法，其中所述各近交种和/或单交F1杂种的祖先是已知的，且其中各近交种和/或单交F1杂种是三个或更多个建立者中至少一个的后代。

5.权利要求1的方法，其中所述已建立的育种群体包含至少三个建立者和建立者的后代，其中所述后代的祖先是已知的。

6.权利要求5的方法，其中所述已建立的育种群体包含大约100至大约200个建立者和建立者的后代，其中所述后代的祖先是已知的。

7.权利要求1的方法，其中所述第一植物群体的成员跨越至少3个育种周期。

8.权利要求7的方法，其中所述第一植物群体的成员跨越至少4个育种周期。

9.权利要求7的方法，其中所述第一植物群体的成员跨越至少7个或至少9个育种周期。

10.权利要求1的方法，其中所述表型性状是数量表型性状。

11.权利要求1的方法，其中所述表型性状是质量表型性状。

12.权利要求1的方法，进一步包括选择至少一个靶植物群体的具有想要的表型性状预测值的成员。

13.权利要求12的方法，进一步包括将至少一个选择的所述靶植物群体的成员与至少一上其它植物进行育种。

14.权利要求1的方法，其中所述第一植物群体包含大约50至大约5000个成员。

15.权利要求1的方法，其中所述第一植物群体包含多个近交系。

16.权利要求1的方法，其中所述第一植物群体包含多个单交F1杂种。

17.权利要求1的方法，其中所述第一植物群体包含多个近交种和单交F1杂种的组合。

18.权利要求1的方法，其中通过在至少一个与至少一个测交亲本的顶交组合中估计所述第一植物群体的成员之间的表型性状来在所述第一植物群体中获得表型性状值。

19.权利要求1的方法，其中所述表型性状选自：产量、谷粒含水量、谷粒含油量、根抗倒伏性、茎杆抗倒伏性、株高、谷穗高、抗病性、抗虫性、抗旱性、谷粒蛋白含量、试验重量和穗轴颜色。

20.权利要求1的方法，其中所述成套的遗传标记包含一个或多个：单核苷酸多态性(SNP)、多核苷酸多态性、至少一个核苷酸插入、至少一个核苷酸的缺失、简单序列重复(SSR)、限制性片段长度多态性(RFLP)、随机扩增多态DNA(RAPD)标记或任意片段长度多态性(AFLP)。

21.权利要求1的方法，其中所述成套的遗传标记包含1至10个标记。

22.权利要求1的方法，其中所述成套的遗传标记包含500至50,000个标记。

23.权利要求1的方法，其中通过实验确定各近交种的基因型和预测存在于所述第一植物群体中的各单交F1杂种的基因型来获得所述第一植物群体的成套遗传标记的基因型。

24.权利要求23的方法，其中通过实验确定各近交种的基因型包括对来自各近交种的成套DNA片段进行测序。

25.权利要求24的方法，其中所述成套DNA片段包含两个或更多个基因的5’非翻译区和/或3’非翻译区。

26.权利要求1的方法，其中提供至少一个遗传标记和表型性状之间的关联包括提供包含两个或更多个遗传标记的单元型和表型性状之间的关联。

27.权利要求1的方法，其中所述统计学模型合并所述第一植物群体的成员之间的家系关系。

28.权利要求1的方法，其中根据所述统计学模型估计关联包含使用线性模型、混合线性模型或非线性模型进行Bayesian分析。

29.权利要求28的方法，其中通过可逆的跳跃马尔可夫链MonteCarlo算法、Δ方法或特征似然算法进行Bayesian分析。

30.权利要求1的方法，其中根据所述统计学模型估计所述关联包括使用线性模型进行Bayesian分析，所述Bayesian分析通过可逆的跳跃马尔可夫链Monte Carlo算法进行。

31.权利要求1的方法，其中根据所述统计学模型估计所述关联包括进行传递不平衡检验。

32.权利要求1的方法，其中估计所述关联包括和/或允许确定一个或多个相关近交种和/或单交F1杂种的系谱中的至少一个遗传标记的建立者等位基因的血缘同一信息，和允许在整个这样的系谱中追踪至少一个遗传标记。

33.权利要求1的方法，其中通过实验确定所述靶植物群体的至少一个成员的至少一个遗传标记的基因型。

34.权利要求33的方法，其中通过高通量筛选经实验确定所述基因型。

35.权利要求1的方法，其中预测所述靶植物群体的至少一个成员的至少一个遗传标记的基因型。

36.权利要求1的方法，其中所述靶植物群体包含近交植物。

37.权利要求1的方法，其中所述靶植物群体包含杂交植物。

38.权利要求37的方法，其中所述杂交植物包含从近交系之间单交产生的F1后代。

39.权利要求38的方法，其中所述F1后代从包含所述第一植物群体的近交种之间的单交产生，所述杂交植物不包含所述第一植物群体。

40.权利要求1的方法，其中所述靶植物群体包含从包含至少一个所述第一植物群体的成员的育种杂交产生的后生世代。

41.权利要求1的方法，其中在所述靶植物群体的至少一个成员中预测表型性状值包括使用最佳线性无偏预测方法预测所述值。

42.权利要求1的方法，其中在所述靶植物群体的至少一个成员中预测表型性状值包括通过使用多重回归方法、选择指数技术、脊回归方法、线性最优化方法或非线性最优化方法预测所述值。

43.权利要求1的方法，其中所述第一和靶植物群体由二倍体植物组成。

44.权利要求1的方法，其中所述第一和靶植物群体选自：玉米、大豆、高梁、小麦、向日葵、水稻、低芥酸芥子、棉花和粟。

45.权利要求44的方法，其中所述第一和靶植物群体包含玉米。

46.权利要求45的方法，其中所述第一和靶植物群体包含玉蜀黍。

47.权利要求1的方法，进一步包括克隆与至少一个与表型性状相关的遗传标记连锁的基因，其中所述基因的表达影响所述表型性状。

48.权利要求47的方法，进一步包括通过在宿主植物中表达克隆的基因构建转基因植物。

49.通过权利要求12的方法选择的植物。

50.通过权利要求13的育种方法产生的植物。

51.通过权利要求48的方法产生的转基因植物。

52.选择植物的方法，所述方法包括：

(b)提供一个或多个来自一个或多个非适应系的植物，其中所述提供包括，就选择的包含至少一个与表型性状相关的遗传标记的基因型选择一个或多个植物。

53.权利要求52的方法，其中所述第一植物群体包含多个近交种、单交F1杂种或其组合。

54.权利要求53的方法，其中所述第一植物群体由近交种、单交F1杂种或其组合组成。

55.权利要求53的方法，其中所述各近交种和/或单交F1杂种的祖先是已知的，且其中各近交种和/或单交F1杂种是三个或更多个建立者中至少一个的后代。

56.权利要求52的方法，其中所述已建立的育种群体包含至少三个建立者和建立者的后代，其中所述后代的祖先是已知的。

57.权利要求56的方法，其中所述已建立的育种群体包含大约100至大约200个建立者和建立者的后代，其中所述后代的祖先是已知的。

58.权利要求52的方法，其中所述第一植物群体的成员跨越至少3个育种周期。

59.权利要求58的方法，其中所述第一植物群体的成员跨越至少4个育种周期。

60.权利要求58的方法，其中所述第一植物群体的成员跨越至少7个或至少9个育种周期。

61.权利要求52的方法，其中所述表型性状是数量表型性状。

62.权利要求52的方法，其中所述表型性状是质量表型性状。

63.权利要求52的方法，进一步包括在一个或多个具有所选择的基因型的植物中估计所述表型性状。

64.权利要求63的方法，进一步包括选择至少一个具有所选择的基因型和想要的表型性状值的植物。

65.权利要求64的方法，进一步包括将至少一个选择的具有所选择的基因型和想要的表型性状值的植物与至少一个其它植物进行育种。

66.权利要求52的方法，其中通过在至少一个与至少一个测交亲本的顶交组合中估计所述第一植物群体的成员之间的表型性状来在所述第一植物群体中获得表型性状值。

67.权利要求52的方法，其中所述表型性状选自：产量、谷粒含水量、谷粒含油量、根抗倒伏性、茎杆抗倒伏性、株高、谷穗高、抗病性、抗虫性、抗旱性、谷粒蛋白含量、试验重量和穗轴颜色。

68.权利要求52的方法，其中所述成套的遗传标记包含一个或多个：单核苷酸多态性(SNP)、多核苷酸多态性、至少一个核苷酸插入、至少一个核苷酸的缺失、简单序列重复(SSR)、限制性片段长度多态性(RFLP)、随机扩增多态DNA(RAPD)标记或任意片段长度多态性(AFLP)。

69.权利要求52的方法，其中通过实验确定各近交种的基因型和预测存在于所述第一植物群体中的各单交F1杂种的基因型来获得所述第一植物群体的成套遗传标记的基因型。

70.权利要求69的方法，其中通过实验确定各近交种的基因型包括对来自各近交种的成套DNA片段进行测序。

71.权利要求70的方法，其中所述成套DNA片段包含两个或更多个基因的5’非翻译区和/或3’非翻译区。

72.权利要求52的方法，其中提供至少一个遗传标记和表型性状之间的关联包括提供包含两个或更多个遗传标记的单元型和表型性状之间的关联。

73.权利要求52的方法，其中所述统计学模型合并所述第一植物群体的成员之间的家系关系。

74.权利要求52的方法，其中根据所述统计学模型估计关联包含使用线性模型、混合线性模型或非线性模型进行Bayesian分析。

75.权利要求74的方法，其中通过可逆的跳跃马尔可夫链MonteCarlo算法、Δ方法或特征似然算法进行Bayesian分析。

76.权利要求52的方法，其中根据所述统计学模型估计所述关联包括使用线性模型进行Bayesian分析，所述Bayesian分析通过可逆的跳跃马尔可夫链Monte Carlo算法进行。

77.权利要求52的方法，其中根据所述统计学模型估计所述关联包括进行传递不平衡检验。

78.权利要求52的方法，其中所述第一植物群体和一个或多个非适应系由二倍体植物组成。

79.权利要求52的方法，其中所述第一植物群体和一个或多个非适应系选自：玉米、大豆、高梁、小麦、向日葵、水稻、低芥酸芥子、棉花和粟。

80.权利要求79的方法，其中所述第一植物群体和一个或多个非适应系包含玉米。

81.权利要求80的方法，其中所述第一植物群体和一个或多个非适应系包含玉蜀黍。

82.权利要求64的方法，进一步包括从具有选择的基因型和想要的表型性状值的至少一个所选择的植物中克隆基因，所述基因与至少一个与表型性状相关的遗传标记连锁，其中所述基因的表达影响所述表型性状。

83.权利要求82的方法，进一步包括通过在宿主植物中表达克隆的基因构建转基因植物。

84.通过权利要求52的方法提供的植物。

85.通过权利要求64的方法选择的植物。

86.通过权利要求65的育种方法产生的植物。

87.通过权利要求83的方法产生的转基因植物。