CN102369531A

CN102369531A - 用于选择统计上确认的候选基因的方法

Info

Publication number: CN102369531A
Application number: CN2010800154885A
Authority: CN
Inventors: V.K.基肖尔; 郭志刚; 李珉; 王道龙; L.A.谷迪尔莱兹罗贾斯; J.D.V.克拉克; J.拜勒姆
Original assignee: Syngenta Participations AG
Current assignee: Syngenta Participations AG
Priority date: 2009-02-06
Filing date: 2010-02-05
Publication date: 2012-03-07
Anticipated expiration: 2030-02-05
Also published as: WO2010091248A1; EP2399214A1; BRPI1011489B1; US20100204921A1; CA2750225A1; EP2399214B1; CA2750225C; AU2010210552A1; BRPI1011489A2; AU2010210552B2; ES2757827T3; CN102369531B; US8170805B2

Abstract

在此提供了用于对在种群中的候选基因与感兴趣的性状之间的关联进行评估的方法。这些方法包括全基因组关联分析与嵌套联合作图(NAM)和表达QTL分析(eQTL)之一或两者的一种组合。如果使用GWA与NAM和eQTL之一或两者的组合这些标记显示出与感兴趣是性状是正相关的，则选择或优先化这些标记。还提供的是用于对生物的嵌套群体中的候选标记与性状之间的关联进行评估的模型。这些方法包括单标记回归和多标记回归模型。可以将使用本发明的这些方法鉴定的标记用于标记辅助育种和选择中，如用于构建连锁图谱、用于发现基因、用于鉴定促成感兴趣的性状的基因、以及用于产生具有所希望的性状的转基因生物的遗传标记。

Description

用于选择统计上确认的候选基因的方法

发明领域

本发明涉及分子遗传学，特别地涉及用于评估种群中遗传标记与表型之间的关联的方法。

发明背景

发展了多重实验范式以鉴定和分析数量性状基因座(QTL)(参见例如，Jansen(1996)Trends Plant Sci 1：89)。数量性状基因座(QTL)是基因组的区域，该区域对一种或多种蛋白质进行编码并且解释了显著比例的可以受多个基因控制的给定表型的变异性。对于作物种类中的QTL作图的大多数公开报告是基于双亲杂交的使用。典型地，这些范式包括将一个或多个亲本对进行杂交，这一个或多个亲本对可以是例如衍生自两个近交品系的单个对、或不同近交品系或系的多个相关的或无关的亲本，它们各自展示出相对于感兴趣的表型性状的不同的特征。典型地，这个实验计划包括从两个分叉的近交系(例如被选择以最大化在这些系之间的表型和分子标记差异)的单次杂交衍生出100至300个分离子代。将亲代和分离子代对于多个标记位点进行基因分型并且对于一个至几个数量性状(例如抗病性)进行了评估。然后鉴定了QTL作为在分离子代中基因型值与表型变异性之间的显著统计关联。

用于确定标记是否是遗传连接到QTL上(或连接到另一个标记上)的众多的统计方法对于本领域的普通技术人员是已知的，并且包括例如标准线性模型如ANOVA或回归作图(Haley and Knott(1992)Heredity 69：315)、最大似然法如期望最大算法(例如Lander and Botstein(1989)Genetics 121：185-199；Jansen(1992)Theor.Appl.Genet.，85：252-260；Jansen(1993)Biometrics49：227-231；Jansen(1994)In J.W.van Ooijen and J.Jansen(eds.)，Biometrics inPlant breeding：applications of molecular markers，pp.116-124，CPRO-DLOMetherlands；Jansen(1996)Genetics 142：305-311；以及Jansen and Stam(1994)Genetics 136：1447-1455)。示例性的统计方法包括单点标记分析、区间作图(Lander and Botstein(1989)Genetics 121：185)、复合区间作图、惩罚回归分析、复合谱系分析、MCMC分析、MQM分析(Jansen(1994)Genetics 138：871)、HAPLO-IM+分析、HAPLO-MQM分析、以及HAPLO-MQM+分析、贝叶斯MCMC、岭回归(ridge regression)、血源同一性分析、以及Haseman-Elston回归。

在许多种类中的复合性状解析大体上依赖于两种主要方法，连锁分析和联合作图(Andersson and Georges 2004，Nat.Rev.Genet.5：202-212；Flint et al.2005，Nat.Rev.Genet.6：271-286；Hirschhorn and Daly 2005，Nat.Rev.Genet.6：95-108)。虽然使用所设计的作图群体的连锁分析的方法已经被采用了很长时间(Doerge 2002，Nat.Rev.Genet.3：43-52)，最近开发了用基于种群的样本的联合作图的方法从而克服所收集的样本之内的隐藏的种群结构或隐含的相关性(Falush et al.2003，Genetics 164：1567-1587；Yu et al.2006，Nat.Genet.38：203-208)。已经对于自然种群研究了用于联合连锁和连锁不平衡作图策略的统计方法(Wu and Zeng 2001，Genetics 157：899-909；Wu et al.2002，Genetics 160：779-792)并且还检查了将近交系与异质种群的杂交(heterogeneous stock)上(Mott and Flint 2002，Genetics 160：1609-1618)。对于一种一般的复合系谱，通过在以前作图的QTL区域处联合连锁和连锁不平衡信息的精细作图已经鉴定了候选基因多态性(Meuwissen et al.2002，Genetics 161：373-379；Blott et al.2003，Genetics 163：253-266)。以前的用多系杂交的遗传设计的研究已经在单个种群上显示出改进的功效和作图精度(Rebai and Goffinet 1993，Genet.Res.75：243-247；Xu 1998，Genetics 148：517-524；Rebai and Goffinet 2000，Genet.Res.75：243-247；Yi and Xu 2002，Genetica 114：217-230；Jansen et al.2003，Crop Sci.43：829-834；Li et al.2005，Genetics 169：1699-1709；Verhoeven et al.2006，Heredity 96：139-149)。然而这些研究主要利用了多系杂交的连锁信息。

在人类的情况下，使用遗传学来鉴定与性状相关的基因和途径遵循了非常标准的范式。首先，在基于家族的数据中使用数百个遗传标记进行了一种全基因组连锁研究以鉴定与该性状关联的广泛区域。这种标准种类的连锁分析的结果是鉴定控制该性状的区域，由此将注意力从30,000+基因限制到与该性状关联的该基因组的特定区域内的大概少至500到1000个基因。然而，使用连锁分析鉴定的区域仍然是太宽的以至于不能鉴定与该性状关联的候选基因。因此，此类连锁研究典型地接着是在连锁区域内使用更高密度标记而将连锁的区域进行精细作图，增加分析中的家族的数目，并且鉴定用于研究的替代种群。这些努力进一步将注意力限制到更窄的基因组的区域上，在与该性状关联的特定区域中的100个基因的级别上。即使用更窄地限定的连锁区域，有待确认的基因的数目仍然是过大的。因此，在此阶段的研究集中于基于区域中已知的或预测的基因的推定的功能以及该功能与该性状的可能的关联性来鉴定候选基因。这种方法是有问题的，这是因为它受限于关于基因目前已知的是什么。通常，这些知识是有限的并且受制于解释。其结果是，研究人员经常被引入歧途并且并没有鉴定出影响该性状的基因。

发明概述

本发明包括评估或确认在种群中在候选基因与一种感兴趣的性状之间的关联。本发明的这些方法包括全基因组关联(GWA)分析与嵌套联合作图(NAM)和表达QTL分析(eQTL)中的之一或两者的独特组合，用于分析并且优先化候选标记用于进一步实施或使用。使用GWA与NAM和eQTL中之一或两者的组合，如果这些标记显示出是与感兴趣的性状正相关的，则选择它们。

进一步提供了新颖的回归模型用于嵌套联合作图。这些方法包括单一标记回归模型(SMR)以及多重标记回归模型(MRM)。在一些实施方案中，在使用SMR模型评价性状值与标记基因型之间的关联之前，没有去除信息基因型。在其它实施方案中，使用逐步回归来选择用于包含在MMR模型中的辅因子标记。在本发明的不同方面，如果一种关联是使用SMR或MMR、或两者来检测的，则考虑标记用于进一步确认。

使用本发明的方法所鉴定、选择、或确认的标记可以用于标记辅助育种和选择中、作为用于构建遗传连锁图谱的遗传标记以分离在基因编码或非编码DNA序列周围的基因组DNA序列，从而鉴定促成感兴趣的性状的基因，并且用于产生具有所希望的性状的转基因生物。

附图简要说明

图1是描述了GWA中涉及的步骤的示例性流程图。

图2是描述了NAM中涉及的步骤的示例性流程图。

图3是描述了用于选择并优先化用于下游使用的候选标记而组合GWA和NAM中涉及的步骤的流程图。

图4是基于使用NAM(顶组)和GWA(底组)而鉴定的重叠标记进行选择和优先化的示例性图示。

图5显示了对于近交组中的600个近交系的对于3个乙醇相关性状的直方图。表现型数据很好地拟合为正常分布。

发明详细说明

概述

数量性状基因座(QTL)的位置和效应的估计对于标记辅助选择是最为重要的。迄今，这是通过经典的QTL作图方法来实现的(Lander and Botstein(1989)Genetics 121：185-199)。这些必要的实验要求建立连同大的作图群体的表型和基因型，并且因此是非常地成本和时间密集的(Parisseaux andBernardo(2004)Theor Appl Genet 109：508-514)。

在此描述的是一种发现或确认一种或多种候选基因与一种感兴趣的表型性状之间的关联的方法。在本发明的不同实施方案中，通过将使用全基因组关联分析(GWA)鉴定的正相关标记与使用其它关联模型如嵌套联合作图(NAM)和/或表达QTL(eQTL)分析的正相关标记进行比较，对用于下游使用的标记进行了选择、确认或优先化。将使用GWA以及NAM和eQTL分析中的之一或两者鉴定的正相关标记放置在在研究中的种类的物理遗传图谱(physical genetic map)上。如果在两者的GWA方法以及NAM和eQTL中之一或两者中鉴定了这些标记(即“重叠”标记)，则将这些标记优先化用于进一步使用。因此，在此披露的这些方法有助于优先化用于在下游方法中进行选择和实施的候选标记从而增加在开发诊断性标记方面的成功机会，这些诊断性标记用于标记辅助育种以及产品开发。

在此进一步提供了新颖的用于嵌套联合作图(NAM)的方法。NAM是一种用于评估在生物的嵌套群体中一种候选标记与一种感兴趣的性状之间的关联的方法。这些方法包括新颖的用于评估在嵌套群体中在一种候选基因与一种感兴趣的性状之间的关联的单一回归模型以及多重回归模型。

出于本发明的目的，一种“候选基因”是指就该基因与一种感兴趣的性状之间的关联进行了测试的一种基因或遗传元件。该候选基因可以是一种已知的或被猜想与在不同种类中的感兴趣的性状相关联的基因的一种直向同源物。如在此所使用的，术语“与......关联”与遗传标记(SNP、单体型、插入/缺失、串联重复、等等)与表型之间的关系有关是指标记频率关于表型的数量范围或质量等级的在统计学上显著的依赖性。当标记与性状连锁并且当该标记的存在指示了所希望的性状或性状形式将发生在包含该标记的生物中时，则该标记与该性状“正”相关。当标记与性状连锁并且当该标记的存在指示了所希望的性状或性状形式将不发生在包含该标记的生物中时，则该标记与该性状负相关。出于本发明的目的，术语“标记”是指任何被用来测试与感兴趣的性状相关联的遗传元件，并且不必要地表示该标记是与所感兴趣的性状正相关或负相关。

因此，当标记基因型和性状表型相比于如果该标记基因型和性状表型分离地分开而更频繁地在生物的子代中被一起发现时，则该标记与感兴趣的性状是相关联的。短语“表型性状”是指一种生物(例如一种植物或动物)的外观或其它特征，产生于其基因组与环境的相互作用。术语“表型”是指生物的任何可见的、可检出的或另外地可测量的特性。术语“基因型”是指生物的遗传组成。这可以整体考虑，或关于单基因的等位基因(即在给定的基因座)进行考虑。

在一些实施方案中，这些标记是直接可归因于表型性状的候选基因或遗传元件。例如，直接可归因于在植物中淀粉累积的遗传元件可以是直接涉及植物淀粉代谢的基因。可替代地，该标记可以发现于与感兴趣的表型性状相关联的基因座之内。“基因座”是染色体区域，其中一种多态核酸、性状决定簇、基因或标记在这里定位。因此，例如，“基因座”是种类的基因组中的特定的染色体部位，其中可以发现特定的基因。在不同的实施方案中，使用在此披露的这些方法所鉴定或确认的这些标记可以与数量性状基因座(QTL)相关联。术语“数量性状基因座”或“QTL”是指具有至少两个等位基因的多态基因座，该至少两个等位基因有差别地影响表型性状在至少一个遗传背景中的表达。

在一些方面，使用在此所述的方法所鉴定或确认的候选基因被连锁到或紧密连锁到QTL标记上。短语“紧密连锁”在本申请中表示在两个连锁位点之间以等于或小于大约10％的频率(即在遗传图谱中被分开不大于10cM)发生重组。换言之，紧密连锁的位点在至少90％的时间共分离。在本发明中，当标记位点证明与所希望的性状共分离(连锁)的显著可能性时，这些标记位点是特别有用的。在一些方面，这些标记可以称为连锁的QTL标记。

在此披露的这些方法结合了多种统计检验和模型，这些统计检验和模型可能在此没有被明确描述。标准的统计检验的详尽描述可以发现于统计学基础教科书中，例如像，Dixon，W.J.et al.，Introduction to Statistical Analysis，New York，McGraw-Hill(1969)或Steel R.G.D.et al.，Principles andProcedures of Statistics：with Special Reference to the Biological Sciences，NewYork，McGraw-Hill(1960)。还存在多种对于本领域的普通技术人员已知的软件程序用于统计分析。

感兴趣的种群

本发明的这些方法包括通过在生物(例如植物或动物)的种群上进行全基因组关联分析(GWA)来鉴定或确认候选标记，并且使用嵌套联合作图(NAM)和表达QTL(eQTL)分析中的之一或两者将在GWA分析中的任何正相关标记与被确定为与相同种类的生物中的感兴趣的性状具有正相关的标记进行比较。当候选标记在GWA分析以及至少一种其它连锁分析方法(例如至少一种eQTL分析、NAM或AEA)中显示出具有正相关性时，将该候选标记进行优先化用于进一步使用或实施(例如标记辅助育种、转基因植物开发，等)。不必要的是对于每个分析使用相同的作图群体，只要对于所有研究的种群由相同的种类的生物构成。

对于作物种类中的QTL基因作图的大多数公开报告是基于双亲杂交的使用(Lynch and Walsh(1997)Genetics and Analysis of Quantitative TraitsSinauer Associates，Sunderland)。典型地，这个实验计划包括从两个分叉的近交系(例如被选择以最大化系之间的表型和分子标记差异)的单次杂交衍生出100至300个分离子代。将分离子代对于多个标记位点进行基因分型并且评估了在多种环境下的一个至多个数量性状。然后鉴定QTL作为在分离子代中基因型值与表型变异性之间的显著统计关联。

在此披露的这些方法有对于发现或确认在任何种群中的标记：性状关联是有用的。术语“种群”或“生物的种群”表示相同种类的一群生物，例如，从这群生物中取得样品用于评估、和/或从这群生物中选择个体成员用于育种目的。从其评估这些标记的种群成员不必是与最终选择用于育种以获得子代(例如用于后续分析周期的子代)的种群成员相同的。虽然使用植物种群对在此披露的这些方法主要进行了例证并说明，这些方法同样适用于动物种群，例如人类和非人类动物，如实验动物、家养家畜、伴侣动物，等等。

在本发明的实施方案中，该生物种群(如植物种群)包括或组成为从一个或多个创立系(founder line)与单一的共同亲本系之间的杂交产生的种群。在不同的实施方案中，该单一共同亲本系是测交系。短语“测交系”是指系，该系与一组它所杂交的系是无关的或遗传上不同的。在有性杂交中使用测交亲本允许本领域的普通技术人员确定在杂种组合中表型性状与数量性状基因座的表达的关联。短语“杂种组合”是指将一种单个的测交亲本杂交到多个系上的过程。产生此类杂交的目的在于评价该系在杂种子代(通过测交衍生自该系)中产生所希望的表型的能力。

在创立系与测交系之间的杂交的子代经历了多轮“自交”以产生对于所有基因以孟德尔式分离的种群。这种作图群体在此被称为“嵌套群体”并且对于本发明的实行嵌套联合作图(NAM)方法(例如在此所述的新颖的NAM方法)的具体实施方案是有用的。这些重组近交系(RIL)(遗传相关系；通常＞F₅，从连续自交的F₂系发展到纯合性)可以作为作图群体而使用。因为所有的基因座是纯合的或接近纯合的，从显性标记得到的信息可以通过使用RIL来进行放大。在紧密连锁的条件下(即大约＜10％重组)，在RIL种群中评价的显性和共显性标记相比于在回交种群中的任一标记类型提供了每一个体更多的信息(Reiter et al.，Proc.Natl.Acad.Sci.(U.S.A.)89：1477-1481(1992))。

在本发明的上下文中，术语“杂交的”或“杂交”表示配子通过授粉而从而产生子代(例如细胞、种子或植物)的融合。该术语包括有性杂交(一个植物由另一个授粉，或一个配子通过另一个受精)和自交(自花授粉，例如当花粉和胚珠是来自相同的植物时)两者。短语“杂种”是指从遗传上相异的个体之间的杂交产生的生物。短语“近交”是指从遗传上相关的个体之间的杂交衍生的生物。在本发明的上下文中，术语“系”是指通过自花授粉一种近交植物而衍生的相关植物的家族。术语“子代”是指特定生物(例如自身杂交的植物)或生物对(例如通过有性杂交)的后代。这些后代例如可以是F₁、F₂或任何后续世代。

在此披露的这些方法进一步包括在测交系与优异系之间的杂种杂交。“优异系”或“优异品系”是农艺学上优越的系，它产生于多个育种周期以及对于优越的农艺学性能的选择。相比之下，“外来品系”或“外来种质”是从不属于种质的可获得的优异系或品系的生物衍生的品系或种质。众多的优异系是可获得的并且对于育种领域的普通技术人员是已知的。“优异种群”是优异个体或系的分类，就给定的种类的农艺学优越的基因型而言，它可以用来代表技术状态。类似地，“优异种质”或种质的优异品系是农艺学上优越的种质，典型地衍生自和/或能够产生一种具有优越的农艺学性能的生物。术语“种质”是指个体(例如植物或动物)的或来自个体的遗传物质、一群个体(例如，植物系、种类或家族)、或来自系、品种、种类、或培养物的克隆。种质可以是生物或细胞的一部分，或可以从该生物或细胞中分离。通常，种质提供了具有特定的分子结构的遗传物质，该分子结构提供了对于生物或细胞培养物的一些或所有遗传品质的物理基础。

在一些情况下，种群可以包括亲本生物连同从这些亲本生物衍生的一个或多个子代。在一些情况下，植物种群是衍生自单次双亲杂交，例如在两个亲本之间的杂交的子代种群。可替代地，种群包括衍生自两次或多次杂交的成员，这些杂交涉及相同或不同的亲本。该种群可以由重组近交系、回交系、测交系等组成。

在不同实施方案中，该种群是由早期育种材料组成的植物种群。对于“早期”育种材料，预期的是这些植物是在F2至F3代。早期育种材料的使用发现的优点是，可供使用的育种材料的数量是大的；表型数据对于育种系是可供使用的；并且基因作图结果可以直接帮助选择。在育种早期，在多个位置测试了多个系。

由于早期育种阶段涉及评价从多个杂交衍生的大数量的子代，它们提供了必要的表型数据用于鉴定并确认对于宽范围农艺学性状的标记。通过将标记分析集合到现有的育种计划中，可以获得与大数量子代相关联的功效、精密度和准确度。此外，跨越该育种计划而不是限于来自单次杂交的子代的样品可以作出关于标记关联的推论。

回交种群(例如从成功品种(轮回亲本)与携带了不存在于前者中的性状的另一个品种(供体亲本)之间的杂交来产生)可以用作作图群体。可以对轮回亲本进行一系列回交以恢复它的大多数所希望的性状。因此，产生了其组成为几乎类似轮回亲本的个体的种群，但是每个个体携带不同量的(或嵌合体的)来自供体亲本的基因组区域。如果在轮回亲本中的所有基因座是纯合的并且供体和轮回亲本具有对比的多态标记等位基因，则回交种群对于作图显性标记可以是有用的(Reiter et al.，Proc.Natl.Acad.Sci.(U.S.A.)89：1477-1481(1992))。使用共显性或显性标记从回交种群得到的信息少于从F2种群得到的信息，这是因为对于每个植物抽取了一个而不是两个重组配子。然而，当与RILs相比时，回交种群是更有信息的(在低标记饱和下)，因为在RIL种群中的在连接位点之间的距离增加了(即大约0.15％重组)。增加的重组对于解析紧密连锁可以是有益的，但是在具有低标记饱和的图谱的构建中可能是不希望的。

在另一个实施方案中，该种群由近交植物组成，根据共同亲本将这些近交植物分类成系谱。“系谱结构”定义了后代与产生该后代的每个祖先之间的关系。系谱结构可以跨越一个或多个世代，记述了在后代与其亲代、祖亲代、曾祖亲代等之间的关系。

在又另一个实施方案中，可以使用现有的作图群体来鉴定或确认标记。例如，对于NAM方法可以具体地使用在Yu et al.(2008)Genetics 178：539-551(通过引用将其整体结合在此)中描述的作图群体。其它公开的或私有持有的作图群体可以适用于在此披露的方法。

本发明的这些方法实质上适用于任何植物种群或种类，特别是植物种类。优选的植物包括农艺学上和园艺学上重要的种类，包括例如：产生可食用的花的作物，例如花椰菜(甘蓝)、朝鲜蓟(菜蓟)、以及红花(红花属，例如红花)(cauliflower(Brassica oleracea)，artichoke(Cynara scolvmus)，andsafflower(Carthamus，e.g.tinctorius))；水果，例如苹果(苹果属，例如苹果)、香蕉(芭蕉属，例如小果野蕉)、浆果(例如茶藨子属植物，茶藨子属，例如红醋栗)、樱桃类(例如甜樱桃，李属，例如欧洲甜樱桃)(fruits such as apple(Malus，e.g.domesticus)，banana(Musa，e.g.acuminata)，berries(such as thecurrant，Ribes，e.g.rubrum)，cherries(such as the sweet cherry，Prunus，e.g.avium))、黄瓜(黄瓜属，例如黄瓜)、葡萄(葡萄属，例如葡萄)、柠檬(黎檬)、甜瓜(Cucumis melo)、坚果(例如胡桃，胡桃属，例如胡桃；花生，落花生)、橙(柑桔属，例如柚)、桃(李属，例如桃)、梨(梨属(Pyra)，例如西洋梨)、胡椒(茄属，例如珊瑚樱)、李子(李属，例如欧洲李)、草莓(草莓属，例如麝香草莓)、番茄(番茄属，例如番茄)(cucumber(Cucumis，e.g.sativus)，grape(Vitis，e.g.vinifera)，lemon(Citrus limon)，melon(Cucumismelo)，nuts(such as the walnut，Juglans，e.g.regia；peanut，Arachis hypoaeae)，orange(Citrus，e.g.maxima)，peach(Prunus，e.g.persica)，pear(Pyra，e.g.communis)，pepper(Solanum，e.g.capsicum)，plum(Prunus，e.g.domestica)，strawberry(Fragaria，e.g.moschata)，tomato(Lycopersicon，e.g.esculentum))；叶类，例如苜蓿(苜蓿属，例如紫苜蓿)、甘蔗(甘蔗属)、甘蓝(例如Brassicaoleracea)、菊苣(菊苣属，例如菊苣)、韭(葱属，例如韭葱)、莴苣(莴苣属，例如莴苣)、菠菜(菠菜属，例如菠菜(oleraceae))、烟草(烟草属，例如烟草)(leafs，such as alfalfa(Medicago，e.g.sativa)，sugar cane(Saccharum)，cabbages(such as Brassica oleracea)，endive(Cichoreum，e.g.endivia)，leek(Allium，e.g.porrum)，lettuce(Lactuca，e.g.sativa)，spinach(Spinacia e.g.oleraceae)，tobacco(Nicotiana，e.g.tabacum))；根类，例如竹芋(竹芋属，例如竹芋)、甜菜(甜菜属，例如甜菜)、胡萝卜(胡萝卜属，例如野胡萝卜)、木薯(木薯属，例如木薯)、芜菁(芸苔属，例如芜青)、萝卜(萝卜属，例如萝卜)、山药(薯蓣属，例如山药)、甘薯(Ipomoea batatas)(roots，such asarrowroot(Maranta，e.g.arundinacea)，beet(Beta，e.g.vulgaris)，carrot(Daucus，e.g.carota)，cassava(Manihot，e.g.esculenta)，turnip(Brassica，e.g.rapa)，radish(Raphanus，e.g.sativus)yam(Dioscorea，e.g.esculenta)，sweet potato(Ipomoeabatatas))；种子，例如豆(菜豆属，例如菜豆)、豌豆(豌豆属，例如豌豆)、大豆(大豆属，例如大豆)、小麦(小麦属，例如普通小麦)、大麦(大麦属，例如大麦)、玉米(玉蜀黍属，例如玉蜀黍)、稻(稻属，例如亚洲栽培稻)((seeds，such as bean(Phaseolus，e.g.vulgaris)，pea(Pisum，e.g.sativum)，soybean(Glycine，e.g.max)，wheat(Triticum，e.g.aestivum)，barley(Hordeum，e.g.vulgare)，corn(Zea，e.g.mays)，rice(Oryza，e.g.sativa)))；草类，例如芒草(芒属，例如巨芒)以及柳枝稷(黍属，例如柳枝稷)(grasses，such asMiscanthus grass(Miscanthus，e.g.，giganteus)and switchgrass(Panicum，e.g.virgatum))；树，例如白杨(杨属，例如欧洲山杨)、松树(松属)；灌木，例如棉花(例如陆地棉)(trees such as poplar(Populus，e.g.tremula)，pine(Pinus))；以及块茎，例如甘蓝(芸苔属，例如甘蓝(oleraceae))、马铃薯(茄属，例如洋芋)(shrubs，such as cotton(e.g.，Gossypium hirsutum)；and tubers，such askohlrabi(Brassica，e.g.oleraceae)，potato(Solanum，e.g.tuberosum))等。与任何给定种群相关联的品种可以是转基因品种、非转基因品种、或任何遗传修饰的品种。可替代地，还可以使用给定的在荒野天然发生的种类的植物。

遗传标记

虽然编码蛋白质的特异DNA序列跨越种类是相当保守的，其它的DNA区域(典型地是非编码的)趋于累积多态性，并且因此在相同种类的个体之间是可变的。这些区域提供了对于众多分子遗传标记的基础。

在此披露的这些方法中，在产生或选择一个或多个种群之后，对于种群中的多个成员获得了对于多个标记的基因型值。该基因型值相应于该遗传标记的定量或定性测量。术语“标记”是指可识别的DNA序列，该序列对于种群内的不同个体是可变的(多态的)，并且有助于研究性状或基因的遗传特征。在DNA序列水平的标记是与对于个体的基因型独特的特定的染色体位置连锁的，并且以一种可预测的方式遗传。

该遗传标记典型地是DNA序列，该DNA序列在可以在实验室中测量的染色体上具有特定的位置。术语“遗传标记”还可以用于是指例如由基因组序列编码的cDNA和/或mRNA、连同该基因组序列。为了是有用的，标记必须具有两个或更多个等位基因或变体。标记可以是或者直接的，即，位于所感兴趣的基因或基因座之内，或间接的，即，与所感兴趣的基因或基因座紧密连锁(可推测地，由于紧邻于感兴趣的基因或基因座但是没有在其内部的位置)。此外，标记还可以包括或者修饰了(或者没修饰)由它定位在其中的基因所编码的氨基酸序列的序列。

通常，在子代中分离的任何有差别地遗传的多态性状(包括核酸多态性)都是潜在的标记。术语“多态性”是指在种群中存在两个或更多个等位基因变体。术语“等位基因”或“等位基因的”或“标记变体”是指在标记或特异的标记序列之内的特定位置处存在的变异；在SNP的情况下，出现的是实际的核苷酸；对于SSR，是重复序列的数目；对于肽序列，出现的是实际的氨基酸；在标记单体型的情况下，是在特异组合中的两个或更多个个体的标记变体的组合。“关联的等位基因”是指在多态基因座处的等位基因，它与所感兴趣的特定表型相关联。此类等位基因变体包括在单个碱基处的序列变异，例如单核苷酸多态性(SNP)。多态性可以是存在于位点处的单个核苷酸的差异，或可以是插入或缺失一个、少数几个或多个连续的核苷酸。将认识到的是，虽然本发明的这些方法最初是通过检测SNP来例证的，可以类似地使用这些方法或本领域中已知的其它方法来鉴定其它类型的多态性，这典型地涉及一种以上的核苷酸。

基因组变异性可以具有任何起因，例如，插入、缺失、复制、重复元件、点突变、重组事件、或转座因子的存在和顺序。该标记可以作为DNA序列多态性来直接测量，如单核苷酸多态性(SNP)、限制性片段长度多态性(RFLP)或短串联重复(STR)，或间接测量为DNA序列变体，如单链构型多态性(SSCP)。标记还可以是处于一种DNA衍生的产物的水平的变体，如RNA多态性/丰度、蛋白多态性或细胞代谢产物多态性，或与基础DNA变体(underlying DNA variant)或基因产物具有直接关系的任何其它生物学特征。

在作图和标记辅助育种方案中经常使用两种类型的标记，即单序列重复(SSR，也称为微卫星(microsatellite))标记，以及单核苷酸多态性(SNP)标记。术语SSR通常是指导致长度变异性的任何类型的分子异质性，并且最典型地是短的(长达几百个碱基对)DNA区段，该DNA区段由两个或三个碱基对序列的多个串联重复组成。由于差的复制保真性，例如由聚合酶滑脱引起，这些重复序列导致了可变长度的高度多态的DNA区域。SSR显得是通过基因组随机分散的并且总体上是由保守区域侧翼的。SSR标记还可以得自RNA序列(处于cDNA、部分cDNA或EST的形式)连同基因组物质。

在一个实施方案中，该分子标记是单核苷酸多态性。发展了不同技术用于检测SNP，包括等位基因特异杂交(ASH；参见，例如，Coryell et al.，(1999)Theor.Appl.Genet.，98：690-696)。还可以广泛使用另外类型的分子标记，包括但不局限于表达序列标签(EST)和衍生自EST序列的SSR标记、扩增片段长度多态性(AFLP)、随机扩增多态性DNA(RAPD)以及同工酶标记。对于检测这种变异性，宽范围的方案对于本领域的普通技术人员是已知的，并且这些方案对于它们被设计来检测的多态性的类型而言经常是特异的。例如，PCR扩增、单链构型多态性(SSCP)以及自动维持序列扩增(3SR；参见Chan and Fox，Reviews in Medical Microbiology 10：185-196)。

可以收集用于标记分析的DNA并且在任何方便的组织(如新植物可以从其生长的细胞、种子或组织)中或植物部位(如可以被培养成整个植物的叶、茎、花粉、或细胞)中进行筛选。在一些实施方案中，标记数据是从已经与研究中的性状相关联的组织中取得的。在本发明的一些实施方案中，标记数据是从研究中的每个植物的多种组织来测定的。获得了足够数目的细胞以提供足够量的样品用于分析，虽然仅需要最小样本容量，其中评分是通过扩增核酸进行的。可以从细胞样品通过本领域普通技术人员已知的标准核酸分离技术来分离DNA、RNA、或蛋白质。

在一个实施方案中，这些基因型值对应于对于高密度的全基因组SNP图谱的实质上所有的、或所有的SNP所获得的值。这种方法具有的胜过传统方法的优点在于，由于它包括整个基因组，它鉴定了从位于基因组任何处的基因表达的基因组产物的潜在相互作用，而不要求预先存在关于基因组产物之间的一种可能相互作用的知识。高密度的整个基因组SNP图谱的实例是具有至少大约1个SNP/10,000kb、至少1个SNP/500kb或大约10个SNP/500kb、或至少大约25SNP或更多/500kb的图谱。标记的密度的定义可以跨越基因组而改变并且是由基因组区域之内的连锁不平衡的程度来确定的。

此外，许多遗传标记筛选平台现在是可商购的，并且可以被用来获得对于现存方法的过程所要求的遗传标记数据。在多种情况下，这些平台可以采取遗传标记试验阵列(微阵列)的形式，它允许成千上万个遗传标记的同时测试。例如，这些阵列可以测试的遗传标记数目是大于1,000、大于1,500、大于2,500、大于5,000、大于10,000、大于15,000、大于20,000、大于25,000、大于30,000、大于35,000、大于40,000、大于45,000、大于50,000或大于100,000、大于250,000、大于500,000、大于1,000,000、大于5,000,000、大于10,000,000或大于15,000,000。这样一种可商购的产物的实例是那些由Affymetrix Inc(www.affymetrix.com)或Illumina(www.illumina.com)推向市场的。在一个实施方案中，基因型值是从至少2个基因标记获得的。

将理解的是，由于这种信息的性质，过滤或预处理数据即数据的质量控制可能是需要的。例如，可以根据特定的标准(例如数据复制或低频率；参见，例如Zenger et.al(2007)Anim Genet.38(1)：7-14)来排除标记数据。这样的过滤的实例在以下进行了描述，虽然还可以采用被普通技术人员理解的过滤数据的其它方法来获得工作数据集，在该工作数据集上确定了标记关联。

在一个实施方案中，当特定标记的等位基因频率是小于大约0.01、或小于大约0.05时，从分析中排除标记数据。“等位基因频率”或“标记等位基因频率”(MAF)是指等位基因存在于个体之内、系之内、或系的种群之内的基因座处的频率(比例或百分比)。例如，对于等位基因“A”，具有基因型“AA”、“Aa”、或“aa”的二倍体个体具有的等位基因频率各自是1.0、0.5、或0.0。人们可以通过将来自系的个体样本的等位基因频率进行平均来估计系之内的等位基因频率。类似地，人们可以通过将组成种群的系的等位基因频率进行平均来计算系的种群之内的等位基因频率。对于具有有限数目的个体或系的种群，等位基因频率可以表达为包含该等位基因的个体或系(或任何其它特定的组)的计数。

在不同实施方案中，被评价感兴趣的具体性状的标记的集合可以是如上所述的任意标记，或可以是在不同植物种类中已经显示出或被猜想是与感兴趣的性状相关联的标记。对于不同种类的大数量的分子标记在本领域中是已知的并且可以在不同种类中使用在此披露的方法来确认。例如，在玉米中基于候选基因的分子功能和/或性能所鉴定的一组候选基因可以在大豆中进行测试。因此，在此所述的模型对于在不同植物种类中确认这些候选基因的效应是有用的。当评价一组候选标记时，不具有已知关联的普通随机标记(generally random marker)也被包括在该分析之中。

感兴趣的性状

本发明的这些方法适用于具有基础遗传组分的任何表型，即任何可遗传的性状。“性状”是生物的特征，它以一种表型来表明自身，并且是指生物的、性能的或任何其它可测量的一种或多种特征，它可以是任何实体，该实体可以在生物样品或生物中或从生物样品或生物中进行量化，然后它可以单独使用或与一种或多种其它量化的实体组合使用。“表型”是生物的外观形态或其它可见的特征并且涉及生物的一种或多种性状。

多种不同的性状可以通过在此披露的方法推论出。表型可以裸眼或通过本领域中已知的任何其它评价方法，例如：显微术、生物化学分析法、基因组分析法、一种特定抗病性的测定等等是可观察的。在一些情况下，一种表型直接由单一的基因或者基因座控制，例如：一种“单一基因性状”。在其它情况下，表型是多个基因的结果。“数量性状基因座”(QTL)是多态的并且影响表型的遗传区域，该表型能够以定量术语来描述，例如：高度、重量、油含量、发芽天数、抗病性等等，并且因此可以被指定对应于对于表型性状的数量值的“表型值”。

对于任何性状，“相对高”的特征表明高于平均值，并且“相对低”的特征表明低于平均值。例如：“相对高的产量”表明对于特定的植物种群比平均产量更丰富的植物产量。相反地，“相对低的产量”表明对于特定的植物种群不如平均产量丰富的产量。

在示例性植物育种计划的背景下，定量表型包括：产量(例如谷物产量、青贮产量)、胁迫(例如旺季胁迫、终点胁迫、水分胁迫、热胁迫等)抗性、抗病性、抗虫性、对密度的抗性、核数目、核大小、穗大小、穗数目、荚果数目、每个荚果中种子的数目、成熟度、开花时间、对于开花的热单位、开花天数、根倒伏抗性、茎倒伏抗性、穗高度、籽粒水分含量、测试重量、淀粉含量、籽粒组成、淀粉组成、油组成、蛋白质组成、营养保健品含量，等等。

此外，以下表型值可以与感兴趣的标记相关：颜色、大小、形状、皮厚度、果肉密度、色素含量、油沉积、蛋白质含量、酶活性、脂质含量、糖和淀粉含量、叶绿素含量、矿物、盐含量、刺激性、香气和香味以及此类其它特征。对于这些指数中的每一个，通过确定与样品中的每个项目相关的特征(例如重量)并且然后测量来自分布的平均值和标准偏差值来确定对于该样品的参数的分布。

类似地，这些方法同样适用于连续可变的性状，例如：谷物产量、高度、油含量、对于胁迫(例如终点胁迫或旺季胁迫)的反应等等，或适用于多类别的可数性状(但是就像它们是连续可变一样可以被分析)，例如发芽天数、开花天数或结果天数，并且适用于以不连续的(间断的)或分离的方式分布的性状。然而，应该理解的是，在任何感兴趣的生物之内，可以使用在此描述的这些方法对类似的或其它独特的性状进行表征。

除了通过裸眼直接可评价的表型以外，在有或没有一种或多种人工装置或自动装置(包括例如显微镜、秤、尺子、测径器等)的辅助下，还可以使用生物化学和/或分子方法来评价许多表型。例如，可以评定油含量、淀粉含量、蛋白质含量、营养保健品含量、连同它们的成分组成，任选地接着使用一种或多种化学测定法或生物化学测定法进行一个或多个分离或纯化步骤。分子表型，如代谢物谱或表达谱(或者在蛋白质水平亦或在RNA水平)同样可顺从于根据本发明的这些方法的评价。例如，代谢物谱(无论是小分子代谢物还是由代谢途径产生的大的生物分子)提供了关于农艺学上感兴趣的表型的有价值的信息。此类代谢物谱可以被评价为感兴趣的表型的直接或间接量度。类似地，表达谱可以充当表型的间接量度，或它们本身可以直接充当经受出于标记相关的目的的分析的表型。表达谱经常在RNA表达产物水平进行评估，例如以一种阵列格式，但是同样可以在蛋白质水平使用抗体或其它结合蛋白进行评估。

此外，在一些情况下，所希望的是采用一种表型属性之间的数学关系而不是独立于感兴趣的多个表型的相关标记信息。例如，育种计划的最终目标可以是获得在低水(即干旱)条件下产生高产量的作物。而不是独立地将对于产量的标记与对于低水条件的抗性进行关联，可以将在水条件上的产量以及产量的稳定性的数学指标与标记进行相关。这样一种数学指标可以采用以下形式，包括：基于来自多个单独性状的加权贡献的统计学衍生的指数值，或变量，该变量是跨越多个环境条件的植物性状反应的作物生长和发育模型或生态生理模型(共同称为作物生长模型)的分量。这些作物生长模型在本领域是已知的并且已经被用来研究对于植物性状的遗传变异的效应以及对于植物性状反应的图谱QTL。参见由Hammer et al.2002.European Journal ofAgronomy 18：15-31，Chapman et al.2003.Agronomy Journal 95：99-113，以及Reymond et al.2003.Plant Physiology 131：664-675的参考文献。

关联分析

在此披露的这些方法涉及用多重连锁分析策略鉴定或确认的正相关标记的比较。在不同的实施方案中，使用全基因组关联(GWA)作图策略测定了标记。将正相关标记排列在被测试的种类的物理遗传图谱上。同样将用其它方法(例如eQTL分析或NAM)鉴定的或确认的正相关标记排列在该物理图谱上。如果使用GWA以及eQTL或NAM的之一或两者来鉴定或确认这些标记，则选择用于进一步使用的候选标记。

为了尝试鉴定影响此类性状的基因，已经在性状分析领域中使用了遗传数据。在这些追求中关键的发展就是开发了对分子标记/遗传标记的大量收集，这可以用来构建详细的种类的遗传图谱。这些图谱被用于数量性状基因座(QTL)作图方法学中，如单标记作图法、区间作图法、复合区间作图法以及多性状作图法。QTL作图方法学提供了对表型与基因型之间关联的统计分析，目的是理解并仔细分析影响性状的基因组区域。

联合作图法使用了候选基因内的标记，这些候选基因是一些被认为是在功能上涉及性状发育的基因，由于如在模型生物中的生物化学、生理学、转录谱以及反向遗传学实验。在最简单的定义中，联合作图法是连锁不平衡(也被称为配子相不平衡)的效用分析法，在天然种群中用具有在感兴趣的性状的个体与未展示感兴趣的性状的个体之间的重要等位基因差异来鉴定标记。全基因组关联分析(GWA)是涉及快速地扫描跨越完整的(或接近完整的)一套该种群生物的DNA或者基因组的标记以发现与特定性状相关联的遗传变异的方法。在标记基因座的基因型与感兴趣的性状之间的统计关联被认为是该标记与控制该性状的QTL之间的紧密物理连锁的证据(Pritchard et al.，2000)。

虽然经典基因作图方法在对于控制QTL的多个基因座的全基因组扫描中是有用的，联合作图是作为一种用于QTL位置的精确估计的导向工具而出现的。例如，在医学遗传学中，这种方法已经被用来鉴定关于复杂性状的基因(Lander和Schork，1994；Risch，2000)，并且它的应用逐渐转移到其它领域(例如植物遗传学)。因为联合作图使用天然种群，很多代(并且因此减数分裂)已经逝去，因此重组将除去在QTL与未与它紧密连锁的任何标记之间的关联。因此联合作图允许比标准双亲杂交方法精细得多的作图。

在研究中的或在感兴趣的基因区中的在跨越基因组的规则区间的标记数据被用来在感兴趣的种群中监测分离或检测关联。在一些实施方案中，用摩尔根或更典型地用厘摩尔根(cM)定义这些规则限定的区间。摩尔根是表达在染色体上的标记之间的遗传距离的单位。一摩尔根被定义为在其中对于每代的每个配子预期发生一次重组事件的在染色体上的距离。在一些实施方案中，每个规则限定的区间小于100cM。在其它的多个实施方案中，每个规则限定的区间小于10cM、小于5cM、小于2.5cM、小于2cM、小于1.5cM、或小于1cM。

用于全基因组关联的连锁模型

遗传作图的目的是鉴定紧邻影响数量性状的遗传因子的简单遗传标记，也就是鉴别QTL。这种定位依赖在标记和QTL等位基因之间产生一种统计关联的过程以及选择性减少作为离开QTL的标记距离的函数的关联的过程。可以使用若干类型的已知统计分析来推断来自表型/基因型数据的标记/性状关联，但是基本观念是检测对于可替代的基因型具有显著不同的平均表型的标记，即多态现象。例如，如果一个给定的标记基因座具有三个可替代的基因型(AA、Aa和aa)，并且如果这三类个体具有显著不同的表型，那么人们推断基因座A是与性状关联的。可以通过若干类型的标准统计检验(如关于表型的标记基因型的线性回归或方差分析(ANOVA))来检验在表型方面的差异的显著性。通过以遗传(线性)图谱顺序放置遗传标记而产生遗传图谱，从而理解在标记之间的位置关系。

可以使用许多已知的程序来进行根据本发明的这个方面的关联分析。这样的程序是MapMaker/QTL，它是MapMaker的伴侣程序并且是最初的QTL作图软件。MapMaker/QTL使用标准区间作图来分析标记数据。另一个这样的程序是QTL Cartographer，它进行单标记回归、区间作图(Lander和Botstein，Id.)、多区间作图和复合区间作图(Zeng，1993，PNAS 90：10972-10976；以及Zeng，1994，Genetics 136：1457-1468)。QTL Cartographer允许来自F2或回交种群的分析。QTL Cartographer从statgen.ncsu.edu/qtlcart/cartographer.html(北卡罗莱纳州立大学)是可获得的。可以使用的另一程序是Qgene，它或者通过单标记回归亦或通过区间回归进行QTL作图(Martinez和Curnow 1994Heredity 73：198-206)。使用Qgene可以分析多种不同的种群类型(所有都来自于近交)。Qgene从www.qgene.org是可获得的。然而另一个程序是MapQTL，它实施标准区间作图(Lander和Botstein，Id.)、多QTL作图(MQM)(Jansen，1993，Genetics 135：205-211；Jansen，1994，Genetics 138：871-881)、以及非参数作图(Kruskal-Wallis秩和检验)。MapQTL可以分析许多种系谱类型，包括远交系谱(异花授粉者)。MapQTL从国际植物研究(国际植物研究，邮政信箱16，6700 AA 瓦格宁根，荷兰((www.plant.wageningen-ur.nl/default.asp？section＝products))是可获得的；。在一些实施方案中可以使用的又另一个程序是Map Manager Q，它是一个QTL作图程序(Manly和Olson，1999，Mamm Genome 10：327-334)。MapManager QT实施单标记回归分析、基于回归的简单区间作图(Haley和Knott，1992，Heredity 69，315-324)、复合区间作图(Zeng 1993，PNAS90：10972-10976)、以及置换检验。通过参考Manly和Olson，1999，MammalianGenome 10：327-334，提供了Map Manager QT的说明。

可以用来进行连锁分析的又另一个程序是MultiCross QTL，它根据源自近交系的杂交对QTL进行作图。MultiCross QTL使用一种线性回归模型方法并且处理不同的方法(例如区间作图、全标记作图、以及具有辅因子的多QTL作图)。该程序可以处理多种多样的对于近交和远交种类的简单作图群体。MultiCross QTL从法国，31326 Castanet Tolosan，Unite de Biometrie etIntelligence Artificielle是可获得的。

可以用来进行连锁分析的又另一个程序是QTL Café。该程序可以分析衍生自纯系杂交(例如F2杂交、回交、重组近交系、以及双单倍体系)的大多数种群。QTL Café结合了Haley&Knott两侧标记回归连同标记回归的Java实施，并且可以处理多个QTL。该程序允许三个类型的QTL分析：单标记ANOVA、标记回归(Kearsey和Hyne，1994，Theor.Appl.Genet.，89：698-702)、以及通过回归的区间作图(Haley和Knott，1992，Heredity 69：315-324)。QTLCafé从web.bham.ac.uk/g.g.seaton/是可获得的。

可以用来进行连锁分析的又另一个程序是MAPL，它通过或者区间作图(Hayashi和Ukai，1994，Theor.Appl.Genet.87：1021-1027)亦或方差分析来进行QTL分析。可以分析不同的种群类型，包括F2、回交、在给定代的自交以后的衍生自F2或回交的重组近交。通过度量多维尺度分析，大量标记的自动分组和排序是可能的。MAPL从UKAI，Yasuo，在互联网上的统计遗传学研究所(ISGI)，web.bham.ac.uk/g.g.seaton/是可获得的。

可以用于连锁分析的另一个程序是R/qtl。本程序提供了在实验杂交中用于为QTL作图的相互作用的环境。R/qtl利用隐式马尔可夫模型(hiddenMarkov model，HMM)技术来处理缺失基因型数据。R/qtl已经实现了很多HMM算法，对基因分型错误的存在以及对回交、杂交、以及相已知的四元杂交具有容许差。通过具有Haley-Knott回归的区间作图、以及多重填补，R/qtl包括用于估计遗传图谱、鉴定基因分型错误、以及进行单QTL基因组扫描以及双QTL、二维基因组扫描的设施。R/qtl从约翰·霍普金斯大学，Karl W.Broman，biosun01.biostat.jhsph.edu/.about.kbroman/qtl/是可获得的。

可以使用基于java的软件TASSEL(通过关联、进化和连锁的性状分析)来测定标记：性状关联。参见，Yu等人，(2005)Nature Genetics 38：203-208，通过引用结合在此。TASSEL允许连锁不平衡统计被计算并且用图形来可视化。TASSEL能够将来自不同来源的数据合并到单个的分析数据集中，使用k-最近邻算法(Cover and Hart(1967)Proc IEEE Trans Inform Theory13)来预测(impute)缺失数据，并且进行主成分分析(PCA)来减少一组相关表型。对于TASSEL软件包的开放源代码在：sourceforge.net/projects/tassel是可获得的。

TASSEL可以与定量近交系谱不平衡检验(Quantitative Inbred PedigreeDisequilibrium Test，QIPDT)一起使用。QIPDT是用来自植物育种计划的近交系的对于基于家族的联合作图的检验。参见Stichet al.(2006)Theor ApplGenet 113：1121-1130；通过引用结合在此。QIPDT是一种对于在植物育种计划中常规收集的数据的QTL检测方法。QIPDT是一种可适用于亲本近交系的基因型信息以及它们的后代近交体的基因型和表型信息的基于家族的关联检验。QIPDT延伸了QPDT，一种基于家族的关联检验。核心家庭由两个亲本近交系所组成并且至少一个后代近交系可以被组合到延伸的系谱中(QIPDT的基础，如果涉及不同核心家庭的亲本系时)。关于系谱不平衡检验，QIPDT还考虑Martin et al.(2001)Am J Hum Genet 68：1065-1067的修正。

还可以使用改进的回归模型QIPDT2。QIPDT2对于标记编码和表型调节采用了与QIPDT1所使用的相同的方法，具有两个改进：1)回归模型与标记和表型数据的拟合，这允许对于所讨论的标记的遗传效应和表型贡献的估计；以及2)将该方法延伸到近交杂种(具有在多个位置生长的不同测试物)，同时最初的方法仅适用于近交体。这种延伸是通过提取来自混合模型的近交体的遗传值来实现的，这种模型说明了测试物效应(tester effect)以及非遗传效应(例如位置)。在于2008年12月4日提交的美国专利申请号12/328,689中描述了QIPDT2。

一般用来做这种类型的分析的另外的可商购的统计软件包包括SASEnterprise Miner(SAS Institute Inc.，Cary，N.C)和Splus(马萨诸塞州剑桥镇，Insightful公司)。本领域的那些技术人员将理解的是，存在着可以用于本发明的方法的这些步骤的若干其它程序和算法，其中需要定量遗传分析，并且所有这些程序和算法都在本发明的范围之内。

嵌套联合作图

在不同的实施方案中，候选标记是通过以下步骤来鉴定或确认的：将使用GWA鉴定的正相关标记与使用嵌套联合作图(NAM)鉴定的正相关标记进行比较并且为了进一步的使用而使用了两种方法对显示出正相关的任何标记进行选择。该NAM策略通过产生共同作图资源着手解决在基本水平的复杂性状分析，这些资源使研究者能够有效地采用遗传学、基因组学、以及系统生物学工具。

建立在以前的基因组作图策略和方法中的遗传学原则上(Meuwissen etal.2002Genetics 161：373-379；Mott和Flint 2002，Genetics 160：1609-1618；Darvasi和Shifman 2005，Nat.Genet.37：118-119)，NAM具有以下优点：在使用基因组序列或密集标记中，对遗传异质性的更低的敏感性以及更高的效能连同更高的效率，同时仍然保持由于不同的创立者的高的等位基因丰富度。对于具有不同大小的效应的数量性状基因座(QTL)，NAM建立了特异设计的用于具有高效能的全基因组扫描的集成作图群体。

在NAM中的步骤首先涉及选择不同的创立者并且产生一大组有关的作图子代。在不同的实施方案中，有关的子代由一组重组近交系(RIL)组成，该组重组近交系衍生自在单共同亲本与一组不同的创立系之间的杂交。通过多轮自交产生了这些RTL。通过在RIL产生期间改组每次杂交的两个亲本的基因组连同通过跨越多次杂交的所有RIL的组合分析，在作图个体QTL上的这些亲本创立者的遗传背景效应被系统地最小化。一般而言，在信息标记内嵌套的投射序列信息的策略(从大多数连接的个体到剩余的个体)是可适用于宽范围的种类(包括人类、小鼠、拟南芥、以及水稻)的。

然后对创立系进行或者完整测序亦或密集基因分型，并且对在创立者和子代二者上的更小数量的标签标记进行基因分型以定义染色体片段的遗传特性并且将高密度标记信息从创立者投射至子代。将这些子代对于不同的性状进行表型分型，并且实施全基因组关联分析以使子代的表型性状与投射的高密度标记相关。参见，Yu et al.2008，Genetics 178：539-551。

如在一般的联合作图中一样，通过NAM提供的作图精度很大程度上取决于在创立者个体之间的连锁不平衡。用跨越不同系的测序的玉米候选基因进行的实证研究已经示出超过2000bp的LD的迅速衰变(Wilson et al.2004，Plant Cell 16：2719-2733)。在拟南芥(Nordborg et al.2005，PLoS Biol.3：e196和狗(Canis familiaris)的品种(Lindblad-Toh et al.2005，Nature 438：803-819))的不同登录中，最近的全基因组分析与这种模式一致：LD跨越遗传多样性种质而迅速衰变。对于NAM策略，在精度方面的这种优点被完全利用而没有偶联的缺点-对于好的候选基因或大量标记的需要-通过将基因组信息从创立者投射至这些RIL。

用于NAM的模型

在本发明的不同的实施方案中，用于鉴定或确认候选标记的NAM策略采用了用于检测在感兴趣的性状和标记之间的关联的回归模型。在统计学中，回归分析是用于建模和分析数值数据的技术的统称，这些数值数据由因变量(反应变量)的和一个或多个自变量(解释变量)的值组成。在回归方程式中的因变量被建模为自变量、相应参数(“恒量”)、以及误差项的函数。该误差项作为随机变量进行处理。它代表在因变量中的未解释的变异。对这些参数进行估计从而给出数据的“最佳拟合”。最普通的最佳拟合是通过使用最小二乘法来评估的，但是也已经使用了其它的标准。

最小二乘法可以解释为一种拟合数据的方法。在最小二乘法意义上的最佳拟合是对于二乘残差具有它的最小值的总数的模型的情况，残差是在观察值和由该模型给出的值之间的差。如果实验误差具有正态分布并且还可以作为矩估计(moments estimator)的一种方法而被衍生出，则最小二乘法对应于最大似然准则。回归分析在多数统计软件包中是可获得的。

出于本发明的目的，可以使用任何合适的回归方法来鉴定在嵌套群体中的QTL。在此描述了示例性的回归模型。进一步提供的是两种新颖的回归模型(SMR和MMR)，这些模型可以被用来鉴定、确认、或优先化用于下游使用的与一种感兴趣的性状相关联的一种标记。

单标记回归(SMR)：

在此提供的是用于进行嵌套联合作图的一种新颖的单标记回归(SMR)工具。该方法类似于在标准QTL连锁分析中使用的单标记回归，具有两个关键的修改。一是将多源(polygenetic)背景信息从每一亚种群被结合到该模型中。在这样做的过程中，可以将由不同的遗传背景引起的遗传变异从该模型中分离出来，因此改进了QTL作图效率。同时，遗传背景信息的包含消除了关于QTL作图的种群分层效应，最小化了假阳性发现率。胜过现有的方法的第二个改进是从偏离的(distorted)种群中排除了标记数据。这个特征允许该模型避免关于QTL检测的标记偏分离(segregation distortion)的影响，这可以在联合作图中产生挑战。这种模型进一步通过NAM的实验设计而获益，它是连锁和联合作图的组合。本发明使用独特的线性模型来描述在性状值和标记基因型之间的关系，可以被写作：

y_ij＝μ+x_ija+g_iu_i+e_ij

其中y_ij是在亚种群i中的个体j的表型值；μ是总平均数；a是QTL的加性效应；g_i是亚种群i的指示变量；u_i是亚种群i的效应；e_ij是被假定的遵循具有平均数0和方差σ²的正态分布的残差。根据本发明，如果个体j携带来自共同亲本的等位基因，则将基因型x_ij定义为1，并且如果个体j携带来自其它亲本的等位基因，则将其定义为-1。这一定义是基于：对于每一标记，仅有两个不同的等位基因。为了利用回归的简单性，遗传背景效应u_i被假定为固定的效应。如在此所使用的，术语“固定的效应”优选地是指季节的、空间的、地理的、环境的或管理的影响，这些影响引起对表型(或对那些由实验者有意安排的水平的效应、或与跨越被评估的种群一致的基因或标记的效应)的系统效应。因此，本发明将遗传背景效应u_i包括进入该模型中以说明来自种群分层的影响，并且因此减小剩余方差。

在多态标记的使用方面，这种SMR方法不同于用于NAM(Yu et al(2006)Nature Genetics 38(2)：203-208)的基于最初标记的回归方法。根据NAM标记数据，可以容易地看出在一些亚种群中(但是不在其它亚种群中)一些标记显示出多态性。在这种情况下，将非信息标记包含在内可以导致在那个基因座的标记基因型的偏分离，并且该偏分离可以引起QTL作图效率、效能以及精密度的降低。为了避免该问题，本发明使用了结合到SMR模型中的标记过滤步骤来降低由于标记偏离引起的潜在风险。这个标记过滤步骤表示只有来自那些具有分离的标记的基因型的亚种群的表型和基因型数据被包括在每一分析中。因此，在本发明的不同实施方案中，在SMR分析之前，排除了具有非信息基因型的亚种群。该步骤使得SMR能够鉴定在NAM中具有非常低的频率(小于5％)的那些等位基因。

复合区间作图

当存在多个连锁的QTL时，当前的单标记和区间方法通常将QTL放置在错误的位置，例如在两个真实的QTL之间的位置产生幻影QTL。用于处理多个QTL的方法是修改标准区间作图从而在分析中包括作为辅因子的另外的标记(在此也被称为“协变量”)。一般地，辅因子的使用减小了估计QTL位置的偏差和抽样误差(Utz和Melchinger，Biometrics in Plant Breeding，Proceedings of the Ninth Meeting of the Eucarpia Section Biometrics in PlantBreeding，The Netherlands，1994)。使用适当的未连锁标记可以部分说明由未连锁的QTL产生的分离方差，同时可以通过包括连锁到感兴趣的区间的标记来减小连锁的QTL的效应。这种将标记辅因子添加到其它标准区间分析的一般方法，通常被称为“复合区间作图”或CIM，它导致在检测QTL的效能方面以及在估计QTL位置的精密度方面的实质性增加。

通过修改标准区间作图通过结合来自生物体的多座位标记信息以便包括作为用于分析的辅因子的另外的标记，CIM可以处理多个QTL。在这些方法中，一种方法使用了亚组的标记基因座作为协变量来进行区间作图。通过说明连锁的QTL和减小剩余方差，这些标记被用作用于其它QTL的取代物以增加区间作图的精度。在例如，Jansen，1993，Genetics 135，p.205；Zeng，1994，Genetics 136，p.1457中描述了示例性的CIM模型，其中的每一个都通过引用以其全文结合在此。

可以使用另外的模型。已经报道了许多对区间作图的修改和可替代的方法，包括使用非参数方法(Kruglyak和Lander，Genetics，121：1421-1428，1995)。还可以使用多种回归方法或模型，其中性状是在大量的标记上进行回归的(Jansen et al.，Theor.Appl.Genet.，91：33-37，1995；Weber和Wricke，Advancesin Plant Breeding，Blackwell，1994)。

多标记回归(MMR)

为了说明来自其它QTL的影响，在此描述了一种新颖的多标记回归(MMR)方法。这种方法使用辅因子标记来吸收其它QTL的效应。用于MMR的线性模型是：

y_ij＝μ+x_ija+∑(k＝1，m)c_ijkb_k+g_iu_i+e_ij

其中y_ij是在亚种群i中的个体j的表型值；μ是总平均数；x_ij是QTL的基因型；a是QTL的加性效应；c_ijk是在亚种群i中对于个体j的辅因子标记k，并且b_k是辅因子标记k的效应；g_i是亚种群i的指示变量；u_i是亚种群i的效应，以及e_ij是被假定的遵循具有平均数0和方差σ²的正态分布的残差。这个MMR模型类似于复合区间作图(Zeng 1993，1994，下文)。

用CIM的关键问题是用作协变量的合适的标记基因座的选择；一旦这些已经被选定，CIM将该模型选择问题转化成单维扫描。在本发明以前，标记辅因子的选择仍未被解决。在本发明中，使用逐步回归来选择基于显著性水平0.01的辅因子标记。用来选择辅因子的线性模型是：

y_ij＝μ+x_ija+c_ijkb_k+g_iu_i+e_ij

这个逐步回归模型不同于用于常规的复合区间作图的那个模型(Zeng1993，1994)以及最初用于NAM的那个模型(Yu et al 2008)。在本MMR模型中，对于NAM种群使用了逐步回归将来自不同的亚种群的遗传背景包含在该模型中。这种选择方法被集中在选择那些具有跨越多个亚种群的稳定效应的QTL。因此，它有效地减少了包括在该模型中的辅因子的数量，避免了过饱和的问题。

对于辅因子标记，有可能获得来自MR的相比于SMR清楚得多的LOD谱。该辅因子标记的使用是为了减小残差，并且因此增加QTL假设检验的显著性。在此提供的新颖的MR模型显示出将紧密连锁的QTL分开以及将QTL定位在窄的基因组区域内的能力。在不同的实施方案中，将来自所有亚种群的所有基因型数据用于数据分析。

预期的是SMR和MR对于那些不具有偏分离的标记将提供类似的结果，虽然它们可能在具有偏的基因型分离的标记中显示出差异。因此，在一些实施方案中，SMR和MR都是作为用于NAM数据集的补充组合而进行的。对于相同组的性状表型数据和标记数据，SMR和MR可以分开进行。然后，可以将从每一方法获得的结果进行比较。对于那些没有通过SMR和MMR二者一致鉴别的那些QTL而言，可以进行标记分离分析。可以进行这一分析来确定那些QTL的不一致是否由标记偏离引起。如果该标记基因型发生与该性状相关的趋势，则标记基因型的偏离可以导致缺失真实的QTL(假阴性)，或者它可以导致检测出假的QTL。对于那些通过SMR和MR一致鉴定的那些QTL而言，标记分离分析可以是不必要的。然而，在任何情况下联合使用SMR和MR都很可能导致具有改进的效能和减少的假阳性率的QTL。因此，在本发明的这个方面，考虑了通过SMR和MMR二者来鉴定正相关标记。

检验QTL效应

通常，关联研究的目的不是简单地检测标记/性状关联，而是估计相对于标记位置的直接影响该性状的基因的位置(即QTL)。在针对这一目标的简单方法中，在可替代的基因型之间的差值或这些差值的显著性水平的量值的标记基因座之间进行了比较。推断性状基因位于最接近具有最大关联基因型差值的一个或多个标记的地方。在一个更复杂的分析中，例如区间作图(Lander和Botstein，Genetics 121：185-199，1989)，沿着该遗传图谱(例如，在1cM区间)的许多位置的每一个就QTL位于这个位置的似然性进行了检验。该基因型/表型数据被用来计算对于每一检验位置而言的LOD评分(似然比的对数)。当该LOD评分超过一个临界阈值时，存在着关于QTL的位置在遗传图谱上的这个位置(将落在两个具体的标记基因座之间)的显著证据。

检验QTL效应的假设可以用公式表示为H₀：a＝0以及H₁：a₁≠0。通过基于取决于QTL效应是否被包括在该模型中的回归模型的最小二乘法估计了在H₀或H₁下的这些参数。然后可以获得似然比(LR)。该似然比是在两个不同的假设下的结果的最大可能性的比率。似然比检验是用于在基于这个比率的值的两个假设之间做出决定的一种统计检验。是数据x的一个函数，LR因此是一个统计值。如果这一统计数值的值太小，则该似然比检验拒绝该零假设。多么小才算是太小取决于该检验的显著性水平，即在I型错误的多少概率上被认为是可容许的(“I型”错误由是真实的零假设的拒绝组成)。

似然比的更低的值表示在零假设下所观察到的结果更不可能发生。更高的值表示在零假设下所观察到的结果更可能发生。可以从如LR＝-2(l_reduced-l_full)的回归模型获得LR，其中l_reduced是简化模型的对数似然值，它相应于H₀，并且l_full是完整模型的对数似然值，它相应于H₁(Lander and Botstein 1989)。。

根据LR计算一个优势对数(LOD)评分。LOD评分是对两个基因座是否可能在染色体上位于彼此附近并且因此可能遗传连锁的统计估计。在此情况下，LOD评分是对在研究中的基因组中的给定位置是否与对应的给定基因的数量性状连锁的统计估计。在一个实施方案中，该LOD评分被计算为LR/(2ln 10)。假定QTL存在与假定它不存在对比，该LOD评分实质上表明有多少更多的可能性将出现数据。为了避免具有给定的置信度(比方说95％)的假阳性，该LOD阈值取决于标记的数量以及基因组的长度。图形指示的LOD阈值列出在Lander和Botstein，Genetics，121：185-199(1989)中，并且进一步由Ars和Moreno-Gonzalez，Plant Breeding，Hayward，Bosemark，Romagosa(eds.)Chapman&Hall，London，pp.314-331(1993)进行了描述。

一般地，三或更多的LOD评分提示两个基因座是遗传连锁的，具有4或更多的LOD评分是两个基因座是遗传连锁的强烈证据，并且具有5或更多的LOD评分是两个基因座是遗传连锁的非常强烈的证据。然而，取决于所使用的模型，任何给定的LOD评分的显著性实际上从种类至种类是变化的。

用于NAM的置换检验

用于NAM的初始多重回归方法(Yu et al 2008)使用一个非常低的显著性水平10^-7作为用于QTL检测的阈值。这种方法并不适合用于确定在给定的显著性水平的LOD阈值，特别是基于高密度连锁图谱(dense linkage map)时。为了解决这个问题，本发明提供了一种新颖的在给定的显著性水平0.05和0.01的用来确定经验LOD阈值的置换检验的方法。本发明的置换方法在每一亚种群内改组了表型值而没有破坏亚种群的结构以及在不同的感兴趣的性状之间的相关性。为了完成这一点，在随机化的表型数据和最初的标记数据上进行SMR和MMR，然后跨越基因组中的所有标记来计算最大LOD评分。重复这种分析1000次，并且记录来自每一次分析的最大LOD评分。最后，对这些LOD评分按升序分类。在位置(1-α)*n的LOD值是在显著性水平α的经验LOD阈值。在一些实施方案中，由于有限数量的置换检验，0.01的阈值可能不是稳定的。因此，在这个显著性水平推荐10000次置换。然而，应当理解的是，不同数量的置换是可能的并且仍然获得希望的显著性水平。例如，可以进行约2000、约3000、约4000、约5000、约6000、约7000、约8000、约9000、或更多次置换。

表达QTL分析

包括在本发明中的用于优先化用于下游应用的候选基因的另外的方法是GWA和DGE(数字基因表达)技术的组合，以通过eQTL的解析进一步优先化用于实施或确认的基因。以这样一种方式来样设计某些标记发现/基因分型平台以提供用于GWA的足够的标记连同每一个基因分型的标记的表达谱(例如Solexa SNP发现/基因分型平台)。

因此，将经典QTL分析与基因表达谱结合，即通过DNA微列阵。这些表达QTL(e-QTL)描述了用于与感兴趣的性状关联的基因的表达的顺式和反式调控元件。这些方法能够确定在连锁图谱上的标记之间的关系以及用来鉴定统计显著的QTL的一个或多个标记的表达。在许多种条件(如发育阶段、环境暴露、等)下，可以监测表达并且使之与感兴趣的性状相关联。可以使用在此描述的或对于本领域的一位技术人员已知的任何关联方法(例如，但不局限于，单点ANOVA、单回归、区间作图、复合区间作图、以及NAM)来确定这样一种关系。

因此，用基因表达数据(例如来自基因表达研究或蛋白组学研究)和来自在研究中的种群的基因型数据开始eQTL分析。在本发明的一个方面，通过测量对应于在生物体的一个或多个细胞中的基因的量的至少一种细胞组分，测定了在感兴趣的种群中的生物体内的基因的表达水平。如在此使用的，术语“细胞组分”包括单独的基因、蛋白质、表达一种基因的mRNA、和/或任何其它可变的细胞组分或蛋白活性、蛋白修饰(例如磷酸化)的程度，例如，它典型地由本领域的那些技术人员在生物实验中进行测量。

可以通过任何高通量技术来测量在基因中的核苷酸序列的表达水平。无论如何测量，该结果或者是转录物亦或是反应数据的绝对量或相对量，包括但不局限于代表丰度或者丰度比的值。可以通过与转录物阵列(例如“转录物阵列”或“谱阵列”)的杂交来进行表达谱的测量。转录物阵列可以用于分析在细胞样品中的表达谱并且特别地用于测量具体组织类型或发育阶段或暴露于特定环境条件的细胞类型的细胞样品的表达谱。

该表达数据被转化成表达统计值，用来处理在作为数量性状的基因表达数据中的每一细胞组分丰度。然后，对于在由种群中的生物体表达的多个基因中的每个基因，使用遗传标记图谱来进行数量性状基因座(QTL)分析从而产生QTL数据。将一组代表数量性状的表达统计值用在每一QTL分析中。

在分析中通常用作数量性状的表达统计值包括但不限于平均对数率、对数强度、以及本底校正强度。其它类型的表达统计值也可以用作数量性状。例如，可以使用标准化模块来进行转化。在这样的实施方案中，将在研究中的每一生物体内的多个基因的表达水平进行标准化。可以使用任何标准化程序。代表性的标准化程序包括但不局限于，强度的Z评分、中位值强度、对数中位值强度、强度的Z评分标准偏差对数、对数强度校正DNA基因集的Z评分平均绝对偏差、使用者标准化基因集、比率中位值强度校正、以及强度本底校正。此外，可以运行标准化程序的组合。

在过去的十年内，若干技术已经使得在任何时间监测大量转录物的表达水平是可能的(参见，例如，Schena et al.，995，Science 270：467-470；Lockhartet al.，1996，Nature Biotechnology 14：1675-1680；Blanchard et al.，1996，NatureBiotechnology 14，1649；美国专利号5,569,588)。例如，可以使用数字基因表达(DGE)来测量表达。DGE提供了完整转录组的没有假设的(hypothesisfree)、全面的、以及定量的分析。通过计数产生自每一基因的单独的mRNA分子的数量，本申请分析了事实上所有基因的表达水平。在实施一个实验之前，不需要这些基因是被鉴定和表征过的。DEG平台例如通过HelicosBiosciences(马萨诸塞州，剑桥)和Illumina，Inc.(加州，圣地亚哥)是可商购的。

进行全基因组单核苷酸多态性分析的能力(SNP)已经使得可能进行用于鉴定普通性状变体的GWA研究。表观基因组、或在细胞分裂期间遗传的基于非序列信息的全基因组研究已经落在了后面。部分原因是表观遗传学调控元件的不同性质，例如DNA甲基化和多种染色体修饰。基于标准阵列的等位基因无差别基因表达分析可以揭示在单独的基因的表观遗传学变化，或者可以简单地反映由反式作用调节组件(例如转录因子)介导的基因表达的动态变化。区别基因的两个等位基因的等位基因特异性表达(ASE)的能力可以揭示在表观遗传学调控方面的变化，因为这两个等位基因受相同的转录因子影响，然而将会不同于顺式作用调控元件。

因此，eQTL分析包括等位基因特异性表达的评估。原则上，标准QTL或标记关联方法将DNA的慎重区段(例如单体型)连接到在一些显著性水平的表型方差的一个百分比。通常该表型是植物性能(例如产量)的一个量化衡量。同样地，eQTL分析把基因表达看作一个可以与DNA的慎重区段相关联的量化表型。这种方法被用于将特异性表达谱连接到该基因组上的特异位置，但是未能说明顺式/反式作用序列或对基因表达的表观遗传学影响。

在此包括的是一种方法，通过该方法将限定的种群的每一个体的每一基因的量化表达再分为基于单体型的表达值范围。例如，如果基因ABC具有8个单体型，那么每一单体型被指定基于跨越该种群的每一个体的每一单体型的共同表达的表达范围。然后可以在单体型表达与该序列单体型以及量化表型二者之间进行随后的关联分析。

概括地说，这种类型的分析的这些结果揭示了三种模式之一：(1)单基因的每一单体型具有它自己的独特的表达范围，这可能指示顺式作用等位基因特异性基因表达；(2)单基因的每一单体型具有相同的表达范围，这可能指示所讨论的基因的保守调节；或，(3)单基因的特异单体型具有多个表达范围，这可能指示反式作用等位基因特异性表达或表观遗传学调控。

在一些情况下，这种类型的分析可以提供具有感兴趣的性状的基因单体型的关联的独立证明。例如，如果特异单体型与增加的产量关联并且该同样的单体型的特异表达值也与增加的产量关联，则存在着该单体型与感兴趣的性状关联的更强的指示。

可替代地，或此外，这个分析可以促进对感兴趣的性状的表观遗传或顺式/反式等位基因特异性影响的鉴定和关联。例如，在正常条件下，单基因的每一独特单体型具有相同的表达范围。在这样的情况下，特异单体型与感兴趣的性状(例如，在植物中增加的产量)的特异值的任何关联可以被归因于在那个基因座处的DNA变异。可替代地，每一单体型可以具有自己独特的一个或多个表达范围。在这样的情况下，单独的特异单体型和表达范围的关联或与增加的产量结合可以被归因于对植物产量的表观遗传或顺式/反式等位基因特异性影响。

在例如Lo et al.(2003)Genome Res.13(8)：1855-62；Pant et al.(2006)Genome Res.16(3)：331-9；以及，Bjornssonet al.(2008)Genome Research18：771-779中描述了用于检验ASE的方法，它们中的每一个都通过引用以其全文结合在此。

计算机实现的方法

用于评估一种标记：性状关联的上述这些方法可以完全地或部分地使用计算机程序或计算机实现的方法来进行。这些计算机程序被合适地配置以进行在此所述的操作。

本发明的计算机程序以及计算机程序产品包括计算机可用介质，该介质具有一种保存在其中的控制逻辑用于引起计算机执行在此所述的这些算法。本发明的计算机系统包括处理器(其操作用于确定、接受、检查、以及显示数据)、连接到所述处理器上的用于存储数据的内存、连接到所述处理器上用于显示数据的显示器、连接到所述处理器上的用于输入外部数据的输入设备；以及一种可由所述处理器执行的具有至少两个操作模式的计算机可读脚本。计算机可读脚本可以是本发明的一个实施方案的计算机程序或计算机程序产品的控制逻辑。

对于本发明不是关键的是，计算机程序以任何特定计算机语言来编写或在任何特定类型的计算机系统或操作系统上进行操作。计算机程序可以被写成例如C++、Java、Perl、Python、Ruby、Pascal、或Basic程序语言。应当理解的是，人们可以用许多不同的程序语言之一创造这样一种程序。在本发明的一个方面，该程序被编写以在使用Linux操作系统的计算机上运行。在本发明的另一个方面，该程序被编写以在使用MS Windows或MacOS操作系统的计算机上运行。

本领域的普通技术人员应当理解的是，根据本发明，只要顺序遵循合乎逻辑的流程，能够以任何顺序或同时地执行这些代码。

标记物的下游使用

使用在此披露的这些方法所鉴定或确认的标记可以用于基于基因组的诊断和选择技术；用于追踪生物的子代；用于确定生物的杂种性；用于鉴定连锁的表型性状、mRNA表达性状、或表型和mRNA表达性状两者的变异；作为遗传标记用于构建遗传连锁图谱；用于鉴定来自杂交的个体子代，其中该子代具有来自亲本供体、受体亲本、或亲本供体和受体亲本两者的所希望的遗传贡献；用于分离编码基因的或非编码DNA序列周围的基因组DNA序列，例如，但不局限于启动子或调节序列；用于标记辅助选择、基于图谱的克隆、杂种证明、指纹图谱、基因分型和等位基因特异性标记中；用于转基因植物开发中，并且作为感兴趣的生物中的标记。

从植物育种者的观点来看，用于发展分子标记技术的最初动因是通过标记辅助育种来增加育种效率的可能性。在通过上述的统计模型鉴定阳性标记之后，对应的遗传标记等位基因可以被使用来鉴定在多位点处含有所希望的表型的植物，并且将被预期与所希望的表型一起将所希望的基因型转移到其子代。证实了具有所希望的表型性状的连锁不平衡的分子标记等位基因(例如，数量性状基因座，或QTL)提供了用于在植物种群中选择所希望的性状(即标记辅助育种)的有用的工具。

“标记基因座”是可以用来追踪第二连锁基因座的存在的基因座，例如编码或促成表型性状的表达的连锁基因座。例如，标记基因座可以用来监控在基因座(如QTL)处的等位基因的分离，这些等位基因遗传地或物理地连锁到该标记基因座上。因此，“标记等位基因”可替代地“标记基因座的等位基因”是发现于种群中的标记基因座处的多个多态核苷酸序列之一，它对于该标记基因座是多态的。在一些方面，本发明提供了用于鉴定和确认与感兴趣的表型性状相关的标记基因座的方法。每个鉴定的标记被预期是紧密地物理和遗传邻近于遗传元件(例如促成感兴趣的性状的QTL)的(导致物理和/或遗传连锁)。

在本发明的不同实施方案中，使用在此披露的这些方法所鉴定的标记被用来选择植物并且针对该植物种群富集具有所希望的性状的个体。通过鉴定显示了与所希望的表型共分离的统计显著的可能性的标记等位基因，植物育种者可以有利地使用分子标记来鉴定所希望的个体。通过鉴定并选择针对所希望的表型而优化的标记等位基因(或来自多个标记的所希望的等位基因)，植物育种者通过选择合适的分子标记等位基因能够快速选择所希望的表型。

在展示出一个优选的表型性状的植物的基因组中，特定遗传标记等位基因的存在和/或不存在是通过以上所列出的方法来确定的，例如RFLP、AFLP、SSR、可变序列的扩增、以及ASH。如果来自植物的核酸与对于所希望的遗传标记特异的探针杂交，该植物可以被自交以创造真正的具有相同基因组的育种系或它可以被渗入到一个或多个感兴趣的系中。术语“基因渗入”是指遗传基因座处的所希望的等位基因从一个遗传背景传送到另一个遗传背景中。例如，通过相同属种的两个亲本之间的有性杂交，在特定基因座处的所希望的等位基因的基因渗入可以传送到至少一个子代中，其中至少一个亲本在其基因组中具有所希望的等位基因。可替代地，例如，等位基因的传送可以通过两个供体基因组之间的重组而发生，例如在融合的原生质体中，其中至少一个供体原生质体在其基因组中具有所希望的等位基因。所希望的等位基因可以是例如，标记的经选择的等位基因、QTL、转基因、等等。在任何情况下，包括所希望的等位基因的后代可以重复地与具有所希望的遗传背景的系回交，并且对于所希望的等位基因进行选择，从而导致该等位基因变得在所选择的遗传背景中是固定的。

使用本发明的这些方法所鉴定或确认的标记基因座还可以用来创造分子标记的密度遗传图谱。“遗传图谱”是：在给定的种类之内的一个或多个染色体(或连锁群)上的基因座之间的遗传连锁关系的描述，通常以图表或表列形式进行描绘。“遗传图谱”是通过使用遗传标记、用于这些标记的种群的分离、以及重组频率的标准遗传原理来确定基因座的连锁关系的方法。“遗传图谱位置”是相对于相同连锁群上的周围遗传标记的遗传图谱上的位置，其中在给定的种类之内可以发现特定的标记。相比之下，该基因组的物理图谱是指绝对距离(例如，在碱基对中测量的或分离的，并且重叠的相邻遗传片段，例如重叠群)。基因组的物理图谱不考虑在物理图谱上的不同点之间的遗传行为(例如重组频率)。

在某些应用中，制造或克隆大的核酸来鉴定更远地连接到给定标记上的核酸，或分离连接到或负责如在此所鉴定的QTL的核酸是有利的。应当理解的是，遗传连接到多态性核苷酸序列上的核酸任选地位于距离该多态性核酸高达约50厘摩，尽管取决于特定染色体区域的交换频率该精确的距离可以改变。距离多态性核苷酸的典型距离是在1-50厘摩的范围内，例如，通常为小于1厘摩、小于约1-5厘摩，约1-5、1、5、10、15、20、25、30、35、40、45或50厘摩、等。

制造大的重组RNA以及DNA核酸的多种方法(包括重组质粒、重组λ噬菌体、黏粒、酵母人工染色体(YAC)、P1人工染色体、细菌人工染色体(BAC)、等)是已知的。对于作为人工染色体的YAC、BAC、PAC、以及MAC的一般介绍描述于Monaco&Larin，Trends Biotechnol.12：280-286(1994)中。用于制造大的核酸的适当的克隆技术的实例，以及足以指导普通技术人员完成多种克隆操作的说明也可以在Berger、Sambrook、和Ausubel(都在前面进行了说明)中找到。

此外，在此所述的任何克隆或扩增策略对于产生重叠克隆的重叠群是有用的，由此提供了重叠核酸，这些重叠核酸在遗传连锁的核酸的分子水平上显示出物理关系。在全生物测序计划中找到这种策略的通常的实例，在这些测序计划中对重叠克隆进行测序从而提供染色体的整个序列。在这个步骤中，根据所描述的标准步骤(例如，在以上的参考文献中)制造生物的cDNA或基因组DNA的文库。将单独的克隆分离出来并且进行测序，并且对重叠序列信息进行排序从而提供该生物的序列。

一旦已经鉴定出与感兴趣的基因的表达显著相关的一个或多个QTL，则还可以将这些位点和连接的标记的每一个进一步表征以确定与感兴趣的基因的表达相关的一个或多个基因(例如，使用基于图谱的克隆方法，这对于本领域的普通技术人员应该是已知的)。例如，可以将一个或多个已知的调节基因进行基因作图以确定这些基因的基因位置是否与控制感兴趣的基因的mRNA表达的QTL相一致。使用本领域的标准技术(例如，但不限于，基因转化、基因互补或基因敲除技术、或过量表达)可以获得以下证实，即这种一致的调节基因正在影响感兴趣的一个或多个基因的表达。还可以通过在本领域中已知的基于图谱的克隆方法(由此定位在QTL的标记被用来通过使用大的插入基因组克隆的重叠群步移到感兴趣的基因处)使用遗传连锁图谱来分离调节基因(包括任何新的调节基因)。定位克隆是这样一种方法，即如Martin等人所述(Martin et al.，1993，Science 262：1432-1436；通过引用将其结合在此)可以使用它来分离一种或多种调节基因。

“定位基因克隆”使用一种遗传标记的接近来物理定义克隆的染色体片段，该片段被连接到使用在此所述的统计方法而鉴定的QTL上。连接的核酸的克隆具有多种用途，包括作为遗传标记用于在随后的标记辅助育种方案中鉴定连接的QTL以及用来提高在重组植物(其中在转基因植物中克隆序列的表达影响所鉴定的性状)中所希望的特性。令人希望地克隆的普通连接序列包括多个开放阅读框(例如，编码核酸或蛋白质，这些核酸或蛋白质为观察的QTL提供了分子基础)。如果标记接近于开放阅读框，它们可以与给定的DNA克隆进行杂交，由此鉴定出开放阅读框位于其上的克隆。如果侧翼的标记距离更远，可以通过构建重叠克隆的重叠群来鉴定包含开放阅读框的片段。然而，还可以使用如本领域的普通技术人员所知道的其它适合的方法。而且，通过基因转化以及互补或通过以下描述的敲除技术可以获得以下证实，即这种一致的调节基因正在影响感兴趣的一种或多种基因的表达。

当鉴定一种或多种基因负责或促成了感兴趣的性状时，可以产生转基因植物来实现所希望的性状。可以通过育种或通过普通基因工程技术将展示感兴趣的性状的植物并入植物系中。育种的方法和技术在本领域中是已知的。参见例如Welsh J.R.，Fundamentals of Plant Genetics and Breeding，John Wiley&Sons，NY(1981)；Crop Breeding，Wood D.R.(Ed.)American Society ofAgronomy Madison，Wis.(1983)；Mayo O.，The Theory of Plant Breeding，Second Edition，Clarendon Press，Oxford(1987)；Singh，D.P.，Breeding forResistance to Diseases and Insect Pests，Springer-Verlag，NY(1986)；以及Wricke and Weber，Quantitative Genetics and Selection Plant Breeding，Walter deGruyter and Co.，Berlin(1986)。相关的技术包括但不限于：杂交、近交、回交育种、多系育种、双单倍体近交、品种共混(variety blend)、种间杂交、非整倍体技术，等等。

在一些实施方案中，使用植物工程的常规方法来对植物进行基因修饰以获得感兴趣的性状可能是必要的。在这个实例中，可以将一个或多个与感兴趣的性状相关联的核酸序列引入植物中。对于该一种或多种核酸序列，这些植物可以是纯合的或杂合的。这种序列的表达(或者转录和/或翻译)导致了展示感兴趣的性状的植物。用于植物转化的方法在本领域中是熟知的。

以下实例是作为说明而并不是作为限制而提供的。

实验例

实例1.在嵌套群体中的QTL检测

使用SMR和MMR与下面描述的置换方法相结合来进行NAM从而确定NAM的LOD阈值。

单标记回归(SMR)：

用来描述性状值与标记基因型之间的关系的线性模型是：

y_ij＝μ+x_ija+g_iu_i+e_ij (模型1)

其中y_ij是亚种群i中的个体j的表型值；μ是总平均数；a是QTL的加性效应；g_i是亚种群i的指示变量；u_i是亚种群i的效应；e_ij是残差；并且其中如果个体j携带来自共同亲本的等位基因时x_ij被定义为1，并且如果个体j携带来自其它亲本的等位基因时x_ij被定义为-1。

这个定义是基于对于每个标记仅存在两个不同的等位基因的事实。为了利用回归的简单性，将遗传背景效应u_i假定为是固定的效应。将它包含在该模型中是为了说明来自种群分层的影响，并且由此降低了剩余方差。

可以将用于检验QTL效应的假设用公式表示为：H₀：a＝0以及H₁：a₁≠0。通过基于取决于QTL效应是否被包括在该模型中的回归模型的最小二乘法估计了在H₀或H₁下的这些参数。LR＝-2(l_reduced-l_full)，其中l_reduced是简化模型的对数似然值，它相应于H₀，并且l_full是完整模型的对数似然值，它相应于H₁(Lander and Botstein 1989)。这两者都是从SMR模型来计算的并且LOD评分被计算为LR/(2ln 10)。注意下面的MMR方法使用相同的假设检验和方法来计算LOD。

在使用多态标记方面，这种SMR方法与用于NAM的基于初始标记的回归方法(Yu et al(2006)Nature Genetics 38(2)：203-208)不同。根据NAM标记数据，在一些亚种群中一些标记显示出多态性，但在其它亚种群中并不如此。在这种情况下，将非信息标记包含在内可以导致在那个基因座的标记基因型的偏分离，并且该偏分离可以引起QTL作图效率、效能以及精密度的降低。为了避免该问题，将标记过滤步骤结合到SMR模型中以降低由于标记偏离引起的潜在风险。根据本发明，只有来自那些具有分离的标记的基因型的亚种群的表型和基因型数据被包括在每一分析中。因此，在本发明的不同实施方案中，在SMR分析之前，排除了具有非信息基因型的亚种群。该步骤使得SMR能够鉴定在NAM中具有非常低的频率(小于5％)的那些等位基因。

多标记回归(MMR)：

为了说明来自其它QTL的影响，通过使用多个辅因子标记来吸收其它QTL的效应开发了一种MMR方法。用于MMR的线性模型是：

y_ij＝μ+x_ija+∑(k＝1，m)c_ijkb_k+g_iu_i+e_ij (模型2)

其中y_ij是亚种群i中的个体j的表型值；其中μ是总平均数；其中x_ij是QTL的基因型；其中a是QTL的加性效应；其中c_ijk用于亚种群i中的个体j的辅因子标记k；其中b_k是辅因子标记k的效应；其中g_i是亚种群i的指示变量；其中u_i是亚种群i的效应；并且其中e_ij是残差。

本发明的另一个方面是使用逐步回归来选择基于显著性水平0.01的辅因子标记。用来选择这些辅因子的线性模型是：

y_ij＝μ+c_ijkb_k+g_iu_i+e_ij (模型3)

其中y_ij是亚种群i中的个体j的表型值；其中μ是总平均数；其中c_ijk是用于亚种群i中的个体j的辅因子标记k；其中b_k是辅因子标记k的效应；其中g_i是亚种群i的指示变量；其中u_i是亚种群i的效应；并且其中e_ij是残差。这个逐步回归模型不同于用于常规的复合区间作图的那个模型(Zeng 1993，1994)以及最初用于NAM的那个模型(Yu et al 2008)。本发明的一个方面对于NAM种群进行了逐步回归，其中将来自不同亚种群的遗传背景包含在模型3中。这种方法选择了那些具有跨越多个亚种群的稳定效应的QTL。稳定效应是指跨越多个种群所观察到的那些效应。本发明还有效地减少了包括在该模型中的辅因子的数量，避免了过饱和的问题。

对于辅因子标记，有可能获得来自MMR的相比于SMR清楚得多的LOD谱。辅因子标记的使用是为了降低残差，并且因此增加QTL假设检验的显著性。MMR显示出将紧密连锁的QTL分开以及将QTL定位在窄的基因组区域内的能力。

然而，MMR在使用标记过滤步骤方面存在困难。这个问题是由用于该回归模型的设计矩阵的奇异性引起的。因此，本发明使用了来自所有亚种群的所有基因型数据用于数据分析，而不是过滤非信息标记。基于这一点，SMR和MMR对于那些不具有偏分离的标记将提供类似的结果，虽然它们可能在具有偏的基因型分离的标记中显示出不同的结果。因此，本发明被设计用来进行SMR和MMR两者作为NAM数据集的补充组合。

用于NAM的置换检验：

用于NAM的初始多重回归方法(Yu et al 2008)使用了一个非常低的显著性水平10^-7作为用于QTL检测的阈值。这种方法并不适合用于确定在给定的显著性水平的LOD阈值，特别是基于高密度连锁图谱时。为了解决这个问题，本发明提供了一种新颖的在给定的显著性水平0.05和0.01的用来确定经验LOD阈值的置换检验的方法。该方法在每一亚种群内改组了表型值而没有破坏亚种群的结构以及在不同的感兴趣的性状之间的相关性。对于SMR以及MMR推荐的是使用1000次置换。从这些置换中，确定了在0.05和0.01水平的LOD阈值。注意由于有限数量的置换检验(推荐1000次置换)0.01阈值可能是不稳定的。

实例2.在全基因组联合作图之后选择候选引导物以进一步进行确认的方法

随着组学(omics)的出现，在基因组的数千个基因中鉴定关键候选基因(它们在表型或复杂生物过程中起作用)已经自相矛盾地成为主要障碍之一。的确，与一些早期关注(缺乏足够的全面的数据将仍然是一个限制因素)相反，这是正好相反的，现在大量的信息对科学家们提出了挑战。这已经转化为对于用来挖掘、整合、以及优先化大量信息的复杂工具的需要。本发明将帮助优先化通过全基因组联合作图(例如使用来自Solexa技术的序列)所鉴定的候选引导物，以进一步在标记辅助育种进行确认和实施。

使用由玉米功能多样性组所开发的嵌套联合作图群体(Yu et al.Genetics2008，178：539-551)来进行感兴趣的性状的QTL作图。因为这个连锁图谱具有约1cM的精度(即1cM的标记密度)，在该种群中所鉴定的QTL应当是非常精确的。该QTL作图是使用共享的亲本的等位基因信息来作出的，这些亲本是用来形成该种群的。用于全基因组联合作图的这些序列被放置在玉米物理图谱上。在NAM连锁图谱上的这些标记也被放置在该玉米物理图谱上。

每当这些Solexa序列与来自NAM种群的QTL彼此重叠时，将在NAM种群中所鉴定的QTL在该物理图谱上进行比对。相比于未与在NAM种群中所鉴定的QTL相重叠的序列，将来自Solexa测序的这些序列进行优先化用于进一步确认。参见图4。

实例3.使用NAM SMR以及MMR进行QTL检测

表型和基因型数据的实验设计和制备

在两年内跨越五个位置种植了这些NAM RIL系。跨越这些位置和这些年对感兴趣的性状(主要包括玉米乙醇项目中的淀粉和蛋白)进行了评估。来自各位置的表型数据是不平衡的。这些不平衡的数据结构表明获得这些系的相应基因型数据是必要的。为了这样做，对于所有这些标记下载了基因型数据(www.panzea.org/lit/data sets.html)并且对于所评估的这些NAM系提取了基因型信息。并且，为了执行SMR和MMR，从同一网站找到了一致连锁图谱并且进行了下载以进一步使用。

数据分析的方法

使用NAM SMR以及MMR来检测负责玉米中的淀粉和蛋白质的QTL。这些方法的细节被描述于实例1中。SMR和MMR两者被用于QTL作图。SMR具有减少标记偏分离的影响的优点，而MMR可以将QTL定位在该染色体上的窄区域内。SMR和MMR的组合使QTL检测的能力最大化，同时使缺失具有较小影响的任何QTL的风险最小化。

对于SMR和MMR已经开发了多种置换方法这样使得在给定的显著水平0.05下可以确定这两种方法的经验LOD阈值。在这个分析中，对于两者中的任何一个使用了1000次置换来完成置换检验。

QTL作图的结果

对于玉米淀粉性状找到了十一个QTL并且对于蛋白质找到了十个QTL。在这些QTL中，跨越所有这些位置一致地鉴定出用于淀粉的六个QTL以及用于蛋白质的五个QTL。并且，已经发现6个QTL控制淀粉和蛋白质两者，这表明对于两种性状的潜在多效作用。已经发现这六个QTL对个体性状具有大的影响。这些多效的QTL的鉴定或许解释了在玉米中的淀粉和蛋白质之间的强的表型相关性。

结论

如所期望的，基于NAM实验设计，SMR和MMR鉴定了对于淀粉和蛋白质的主要的和多效的QTL。这两种方法被证明都是用于在NAM中进行QTL检测的强大的工具。用于两种方法之一的置换方法提供了用于QTL检测的LOD阈值。

实例4.全基因组关联分析与用嵌套联合作图群体进行连锁作图相结合以优先化候选基因引导物从而进行生物确认/实施的一个实例

介绍

全基因组关联分析(GWA)是用来鉴定种群中常见的遗传变异体(它们影响感兴趣的性状)的一种强大的工具，提供了高的作图精度(高达单核苷酸变化)。关联研究利用了经过多个世代所积累的在基因组上的重组事件，它将基因组分割成在种群中的多个连锁不平衡(LD)区组(block)的多个部分。各LD区组上的标记通常展示出与同一区组上的基因中的功能性变化的显著关联，并且因此可以被采取作为植物育种中的有关功能性变化的取代物，或作为一个基础用于进一步精确地找到负责的基因。

GWA的目的是检测物理地紧密连锁到有关功能性变化上的标记。然而，检测到标记的关联是常见的，这些标记未连接到或远距离连接到这些变化上(通常被认为是假阳性)。尽管许多其它种群遗传因素(例如，迁移、突变、遗传漂移、非随机配对)也可能促成假阳性率，种群分层或种群结构已经被鉴定为是可能在GWA中引起大量假阳性的一个主要顾虑。当在种群中的亚种群之间的等位基因频率是系统地不同(这可以由迁移和非随机配对、等引起)时，存在着种群结构。

对于GWA的一个实例

样品和数据

1)对于GWA的近交组：组装了玉米近交组以包括从约3000个玉米近交系的平台中选择的以使遗传多样性最大化的600个近交系。已知该组中的450个系是从3个亚种群得到的，即非硬茎(NSS)、硬茎(SS)、以及热带-亚热带(TS)亚组；在实践中由于各种原因，剩余的150个系不具有可用的亚组一致性(subgroup identity)。

2)在500,000个SNP上的基因型数据：对于全因组SNP，使用了Solexa测序技术从该近交组中的600个不同的近交系中筛选出全基因组cDNA文库，鉴定了约500,000个高质量的SNP。

3)在3个乙醇相关性状方面的表型数据：针对在2个位置生长的近交组中的600个近交系的每一个，用近红外光谱(NIR)机器对玉米仁中的淀粉、油、以及蛋白质的百分比含量(3个主要的乙醇相关性状)进行了评定。

数据预处理

以经验和统计的方式对表型数据进行了评定以去除表型分型可疑的数据点，例如离群值。还可以对表型数据的统计分布进行评估以确定对于要求显著的标记-性状关联是否需要数据转化或置换。如在性状的柱状图中所示(图5)，这3个性状是大致正态分布的，这表明根据依赖于正态性假设的关联检验所估计的p值将是基本上有效的。

对基因型数据进行了评估以鉴定明显的错误，例如对于SNP标记超过2个等位基因，以及非信息SNP(单态的或具有较小等位基因频率(＜0.05)的那些)。在500,000个SNP中，200个SNP是非信息的并且被排除在数据之外。对于近交种群不能检验哈迪-温伯格平衡，因为在该种群中存在杂合子的内在缺陷。

对于单独的近交系的表型数据调整

使用一种混合线性模型方法来获得样品中的各近交系的总遗传值，其中控制来自多个位置和随机区组的效应。在这个模型中，各近交系的总遗传效应是随机取得的，因为用于该组中的近交系被认为是来自整个种质的随机样品；这些随机区组也被认为是随机的；这些位置作为固定效应而取得，它们是用于使任何未来的杂交体进行生长的目标位置。用于分析的统计模型可以被写成：

Y_hijk＝μ+G_h+L_i+B_j(i)+e_hijk

其中μ是总平均数；G_h是对于第h次近交的总随机遗传效应；L_i是位置i的固定效应；B_j(i)是位置i中的区组j的随机区组效应；e_hijk是随机残差，被假定是正态分布的。用lme4库(www.r-project.org)将这个模型拟合到统计程序包R中。

当在软件TASSEL中实施时，获得了对于G_h的最佳线性无偏预测(BLUP)值并且在混合线性模型关联方法中它被用作表型数据。

种群结构的估计

将种群结构包括在统计模型中可以有效地减少关联分析中的假阳性。在混合线性模型中TASSEL将种群结构合并为模型因子以实现这个目的。

如前所述，在近交组中存在3个已知的亚种群(SS、NSS、以及TS)，但是25％的近交体不具有亚种群一致性。围绕这一点的一个方法是用这些近交体的SNP数据对该近交组的种群结构进行估计。从所有的信息SNP中选择具有2000个SNP的随机集，并且用于估计种群结构。

如于2008年12月4日提交的美国专利申请12/328,689中所述，主成分分析(PCA)对于在STRUCTUR中的贝叶斯方法的种群结构估计方面提供了类似的准确度。PCA是使用所有这些SNP数据来进行的，并且获得了顶部的50个主成分(PC)而且获得了它们的特征向量。使用逐步回归分析从50个PC中选择了提供性状特异性的主成分，相比于在关联混合模型中简单地使用少数顶部PC，已经显示出对种群结构效应提供了更好的控制。

亲缘系数的估计

亲缘系数是两个个体之间的亲缘(relatedness)的一个量度。它表示从每个个体中随机取样的两个基因的血统相同的机率。存在用标记数据来估计亲缘系数的多种方法，这些方法各自具有优点和缺点。选择跨越所有SNP基因座之间的共享等位基因的比例，作为在一对近交系之间的亲缘系数的量度，它基本上是根据情况而定的两个随机基因相同的机率。对于所有可能系的对计算这类亲缘系数。

使用混合模型方法进行关联分析

已经将混合线性模型用于植物中的关联作图(Yu et al.2006，NatureGenetics)，这在控制种群结构方面已经显示出是优越的。通过综合性的Perl脚本(该脚本提供了对多性状的数据分析的完全自动操作)，这种方法实施于ASReml(Gilmour et al.(1995)Biometrics 51：1440-1450)(一个用于执行一般混合模型的商业软件包)中。与TASSEL(由Yu等人(2006，Nature Genetics，Vol 38：203-208)实施混合模型方法的软件)相比较，ASReml是快得多的并且Perl脚本将用户关注最小化。

在ASReml中实施的混合线性模型与在TASSEL中是相同的，它可以被写成矩阵形式，如：

y＝Xβ+Sα+Qv+Zu+e var(y)＝ZKZ’σ² _v+Rσσ² _e

其中y是所有独特的近交系的表型值的向量；β是所有固体(fixed)实验效应的向量，α是在检验位置处假定的QTL的遗传效应的向量；v是亚种群效应的向量；u是单独的近交物的多基因效应的向量；e是随机残差向量。已知X、S、Q、以及Z是入射矩阵。

在这个分析中，将调整的表型数据(总遗传效应)用作y，将10个PCA特征向量用作Q矩阵；X矩阵基本上是总平均数为1s的向量；S是在检验下的对于每个SNP的加性遗传模型下的基因型矩阵；Z是独特近交系的组的关联矩阵。

关联结果

在关联分析中对于每个信息SNP的显著性进行检验来计算P值(连同表型贡献R平方和几个其它统计值)。使用假发现率(FDR)和Bonferroni校正两者来控制随着多次检验而增多的(inflated)假阳性。用Bonferroni校正将在显著水平(α)下的标称p值计算为检验(SNP)的α/数量；FDR阈值是从所估计的p值分布而得到的。使用了在同样显著性水平(α)下的两个阈值之间的平均值。

对于所有的检验，选择了α＝0.05作为显著性水平。这导致102个SNP显著地与淀粉含量相关，134个SNP与蛋白质相关，并且97个SNP与油相关。对于淀粉、蛋白质、以及油而言，已经发现这些SNP是对应地来自在基因组上的30、35、以及23个连锁不平衡区组。

用来自NAM的连锁作图结果覆盖GWA关联。

统计显著关联并不总是表明真正的生物学关联(可能由于取样误差所致)。因此，来自独立来源的证据对于确认这些检测到的关联可能是有用的。

在玉米中的嵌套联合作图(NAM)种群(作为一种新类型的作图群体)被做成了公共可用的(Yu et al.2008，Genetics，and Vol.178：539551)。这种类型的种群的优点是它提供了比连锁作图更高的统计效力和作图精度的期望，但是相比于与用来自一般种群的样品进行联合作图，它提供了更少的假阳性。以前已经使用NAM种群针对淀粉进行了连锁作图研究(上述实例3)，从中鉴定出对于淀粉的11个QTL区，对于蛋白质鉴定出10个区，并且对于油鉴定出8个区。

将来自GWA的关联SNP覆盖至来自NAM连锁分析的检测的QTL区域的方法在于：将这些QTL区中的关联的SNP和标记放到相同的物理图谱和共有遗传图谱上(参见图4)。表1表明对于淀粉而言55％的所有关联的SNP被包含在8个QTL区域中，对于蛋白质而言31.1％的关联的SNP被包含在6个QTL中，对于油而言27.8％的所有的关联的SNP被包含在3个QTL中。

表1.重叠QTL和关联的SNP的汇总

来自与在NAM种群中所检测的QTL重叠的基因的SNP被给予更高的优先级并且将被用于进一步的生物学确认。这些SNP也被用于下游应用(例如标记辅助育种)。

在本说明书中提到的所有公开文献和专利申请对于本发明所涉及的领域的普通技术人员的技术水平而言是指示性的。所有公开献和专利申请均通过引用结合在此，其程度如同每个单独的公开献或专利申请被确切地并单独地指明通过引用而被结合。

尽管已经为了清楚理解的目的通过解释和实例详细地描述了以上发明，显而易见的是在所附权利要求的范围内可以实施某些改变和变更。

Claims

1.一种选择与在感兴趣的种类中的感兴趣的性状相关联的一种或多种标记的方法，该方法包括：

a)使用适当编程的计算机来进行全基因组联合作图(GWA)从而鉴定与在所述种类的种群中的所述感兴趣的性状相关联的一种或多种标记；

b)使用适当编程的计算机来进行以下各项之一从而鉴定与所述感兴趣的性状相关联的一种或多种标记：

i)嵌套联合作图(NAM)；以及

ii)表达数量性状基因座(eQTL)分析；

c)将在步骤(a)中鉴定的每个标记在所述种类的物理遗传图谱上进行比对；

d)将步骤在(b)中鉴定的每个标记在步骤(c)中所述的物理遗传图谱上进行比对；并且

e)选择从以下比对产生的任何重叠标记：或者在步骤(c)中的标记与在所述种类中的在相同基因座处的在步骤(d)中映射(mapped)的标记的比对，亦或在步骤(c)中的标记与在其它种类的同线区中的在相同基因座处的在步骤(d)中映射的标记的比对。

2.如权利要求1所述的方法，其中所述种群是通过在一个单共同亲本系与多个创立系中的每一个之间杂交产生的近交种群。

3.如权利要求2所述的方法，其中所述种群包括通过在所述单共同亲本与所述多个创立系的每一个之间杂交的子代的一轮或多轮自交而产生的种群。

4.如权利要求1所述的方法，其中在步骤(b)中使用单标记回归(SMR)模型和多标记回归(MMR)模型的组合来鉴定所述标记，其中：

a)在使用SMR模型对在性状值与标记基因型之间的关联进行评估之前，将非信息基因型去除；并且

b)使用逐步回归来选择用于包含在MMR模型中的辅因子标记。

5.如权利要求4所述的方法，其中所述SMR模型包括：

y_ij＝μ+x_ija+g_iu_i+e_ij

其中y_ij是在亚种群i中的个体j的表型值；

其中μ是总平均数；

其中a是QTL的加性效应；

其中g_i是亚种群i的指示变量；

其中u_i是亚种群i的效应；

其中e_ij是残差；并且

其中如果个体j携带来自共同亲本的等位基因时x_ij被定义为1，如果个体j携带来自其它亲本的等位基因时x_ij被定义为-1。

6.如权利要求4所述的方法，其中所述MMR模型包括：

y_ij＝μ+x_ija+∑(k＝1，m)c_ijkb_k+g_iu_i+e_ij

其中y_ij是在亚种群i中的个体j的表型值；

其中μ是总平均数；

其中x_ij是QTL的基因型；

其中a是QTL的加性效应；

其中m是辅因子的总数。

其中c_ijk是用于在亚种群i中的个体j的辅因子标记k；

其中b_k是辅因子标记k的效应；

其中g_i是亚种群i的指示变量；

其中u_i是亚种群i的效应；并且

其中e_ij是残差。

7.如权利要求6所述的方法，其中这些辅因子标记是基于定义的显著性水平而选择的。

8.如权利要求7所述的方法，其中所述显著性水平是小于或等于0.1。

9.如权利要求7所述的方法，其中这些辅因子是使用模型来选择的，该模型包括：

y_ij＝μ+c_ijkb_k+g_iu_i+e_ij

其中y_ij是在亚种群i中的个体j的表型值；

其中μ是总平均数；

其中c_ijk是用于在亚种群i中的个体j的辅因子标记k；

其中b_k是辅因子标记k的效应；

其中g_i是亚种群i的指示变量；

其中u_i是亚种群i的效应；并且

其中e_ij是残差。

10.如权利要求4所述的方法，其中用于检测在显著性水平α下的所述QTL的LOD阈值是通过置换检验来确定的，该置换检验包括：

a)将在各亚种群中的表型值进行改组而不破坏这些亚种群的结构以及在感兴趣的不同性状之间的关联；

b)基于随机化的表型数据以及初始标记数据来进行SMR或MMR；

c)跨越基因组中的所有标记计算出最大优势对数(LOD)评分；

d)将步骤(a)至(c)重复至少1000次；

e)记录来自每次迭代的最大LOD评分；

f)将在步骤(e)中记录的LOD评分按升序排序；

g)选择在位置(1-α)*n处的LOD值作为在显著性水平α下的经验LOD阈值。

11.如权利要求10所述的方法，其中α被设定为0.05。

12.如权利要求10所述的方法，其中α被设定为0.01并且步骤(a)至(c)被重复至少10,000次。

13.如权利要求1所述的方法，其中步骤(a)或步骤(b)、或两者，包括从所述种群中分离遗传物质并且确定各标记的基因型值。

14.如权利要求1所述的方法进一步包括：将所述种群的至少一个成员与所述种类的另一个成员进行杂交并且从其子代中选择具有在步骤(e)中鉴定的一个或多个重叠标记的任何生物。

15.一种鉴定与在生物的嵌套群体中的感兴趣的性状相关联的遗传标记的方法，该方法包括：

a)对所述嵌套群体的每一个成员的多个遗传标记的每一个提供基因型值，其中所述种群包括展示所述感兴趣的性状的成员；

b)对所述种群的每个成员的所述感兴趣的性状提供表型值；

c)使用适当编程的计算机来运行包括单标记回归(SMR)模型和多标记回归(MMR)模型的组合的嵌套关联模型从而确定一个或多个所述标记是否与感兴趣的性状相关联，其中：

i)在使用SMR模型对在性状值与标记基因型之间的关联进行评估之前，将非信息基因型去除；并且

ii)使用逐步回归来选择用于包含在MMR模型中的辅因子标记；

其中如果任何一个回归模型检测到关联，则认为遗传标记与感兴趣的性状是相关联的。

16.如权利要求15所述的方法，其中所述SMR模型包括：

y_ij＝μ+x_ija+g_iu_i+e_ij

其中y_ij是在亚种群i中的个体j的表型值；

其中μ是总平均数；

其中a是QTL的加性效应；

其中g_i是亚种群i的指示变量；

其中u_i是亚种群i的效应；

其中e_ij是残差；并且

17.如权利要求15所述的方法，其中所述MMR模型包括：

y_ij＝μ+x_ija+∑(k＝1，m)c_ijkb_k+g_iu_i+e_ij

其中y_ij是在亚种群i中的个体j的表型值；

其中μ是总平均数；

其中x_ij是QTL的基因型；

其中a是QTL的加性效应；

其中c_ijk是用于在亚种群i中的个体j的辅因子标记k；

其中b_k是辅因子标记k的效应；

其中g_i是亚种群i的指示变量；

其中u_i是亚种群i的效应；并且

其中e_ij是残差。

18.如权利要求17所述的方法，其中这些辅因子是基于定义的显著性水平而选择的。

19.如权利要求18所述的方法，其中所述显著性水平是小于或等于0.1。

20.如权利要求18所述的方法，其中这些辅因子是使用模型来选择的，该模型包括：

y_ij＝μ+c_ijkb_k+g_iu_i+e_ij

其中y_ij是在亚种群i中的个体j的表型值；

其中μ是总平均数；

其中c_ijk是用于在亚种群i中的个体j的辅因子标记k；

其中b_k是辅因子标记k的效应；

其中g_i是亚种群i的指示变量；

其中u_i是亚种群i的效应；并且

其中e_ij是残差。

21.如权利要求15所述的方法，其中所述嵌套群体是通过在单共同亲本系与多个创立系中的每一个之间杂交产生的近交种群。

22.如权利要求21所述的方法，其中所述种群包括通过在所述单共同亲本与所述多个创立系的每一个之间杂交的子代的一轮或多轮自交而产生的种群。

23.如权利要求15所述的方法，其中步骤(a)包括从所述种群的每个成员中分离遗传物质来确定每个标记的基因型值。

24.如权利要求15所述的方法，进一步包括：将所述种群的至少一个成员与同一种类的另一个生物进行杂交并且从其子代中选择具有在步骤(c)中鉴定的一个或多个关联的标记的任何生物。