CN103026361A

CN103026361A - 用于预测未观察到的表型（pup）的方法和组合物

Info

Publication number: CN103026361A
Application number: CN2011800364676A
Authority: CN
Inventors: 郭志刚; V.K.基肖尔
Original assignee: Syngenta Participations AG
Current assignee: Syngenta Participations AG
Priority date: 2010-06-03
Filing date: 2011-06-02
Publication date: 2013-04-03
Anticipated expiration: 2031-06-02
Also published as: WO2011153336A2; BR112012030413A2; EP2577536A2; US20110296753A1; AU2011261447A1; IL223138A0; EP2577536A4; CA2798217A1; CN103026361B; CL2012003383A1; WO2011153336A3; US20140170660A1; AU2011261447B2

Abstract

在此提供了用于预测未观察到的表型的多种方法。在一些实施方案中，这些方法包括：(a)确定在一个基因分型的并且表型分型的参比种群中针对一种表型的多个标记的标记效应，其中该参比种群包括一个F₂代、一个F₃代、或一个后续代；(b)对一个预测种群的一株或多株植物针对该多个标记进行基因分型，其中该预测种群中的一株或多株植物中的每一株都是两个亲本的一个后代并且每一个亲本与被用来产生该参比种群的这两个亲本植物中的至少一个具有至少80%的遗传一致性；(c)基于步骤(b)的基因分型，针对该预测种群中的一株或多株植物中的每一株对在步骤(a)中所确定的这些标记效应进行求和；以及(d)基于来自步骤(c)的这些标记效应之和来预测在该预测种群中的一株或多株植物的一种表型。在此还提供了用于产生具有一种感兴趣的表型的植物的方法、以及用于估算在种群之间的遗传相似性的方法。

Description

用于预测未观察到的表型(PUP)的方法和组合物

相关申请的交叉引用

本披露主题要求2010年6月3日提交的名称为《用于预测未观察到的表型（PUP）的方法和组合物》的美国专利申请序列号12/793,550的权益，其披露通过引用以其全文结合在此。

技术领域

本披露主题涉及分子遗传学和植物育种。在一些实施方案中，本披露主题涉及使用跨不同的繁殖种群的全基因组标记来预测针对数量性状的未观察到的表型的方法。

背景

植物育种的目标是将不同的所希望的性状结合在一个单株植物中。对于大田作物如玉米，这些性状可以包括更高的产量以及更好的农艺品质。然而，影响产量以及农艺品质的基因座并不总是已知的，并且即便是已知的，他们对此类性状的作用常常是不清楚的。

然而，一经发现，所希望的基因座可以被选择为育种计划的一部分，以便产生携带所希望的性状的植物。产生此类植物的示例性的方法包括将来自具有所希望的遗传信息的植物的核酸序列通过基因渗入转移到植物中，而不是通过使用传统的育种技术使这些植物杂交。

使用标记辅助选择（MAS）或标记辅助育种（MAB）可以将所希望的基因座基因渗入到市售的植物品种中。MAS以及MAB包括使用一种或多种分子标记来鉴定和选择含有一个或多个编码所希望的性状的基因座的那些植物。这种鉴定和选择可以基于与所希望的性状相关联的信息标记的选择。

然而，即使在这些性状是已知的并且携带这些性状的适合的亲本植物是可得的情况下，产生具有所希望的与这些性状相关联的基因座的组合的子代植物可能是一个漫长并且昂贵的过程。典型地，需要大量的可能非常耗时的育种计划来产生子代植物，必须单独测试每种子代植物是否存在感兴趣的一种或多种性状。这常常也需要允许这些植物生长至成熟，因为与幼苗相反，许多（如果不是农业上最重要的）性状是通过成熟植物显示的性状。

那么，所需要的是用于遗传上以及表型上分析这些植物以及用于采用所获得的信息来产生具有感兴趣的性状的植物的新颖的方法和组合物。

概述

本概述列出了本披露主题的若干实施方案，并且在许多情况下列出了这些实施方案的变化和排列。本概述对于众多的并且不同的实施方案的只是示例性的。给出的实施方案的一个或多个代表性特征的提及同样是示例性的。不论是否在该概述中列出，这样一个实施方案典型地可以具有或者不具有这个或这些特征的存在；同样，可以将那些特征应用于本披露主题的其他实施方案。为了避免过多的重复，本概述没有列出或提出这些特征的所有可能的组合。

本披露主题提供了用于预测在预测种群的植物中的表型的方法。在一些实施方案中，这些方法包括：(a)确定在一个基因分型的并且表型分型的参比种群中针对一种表型的多个标记的标记效应，其中该参比种群包括(i)一个F₂代，该F₂代是通过将两个亲本植物杂交以产生一个F₁代并且然后使F₁代互交、回交、和/或自交，和/或从F₁形成一个双单倍体而产生的；和/或(ii)一个F₃或后续代，其中该F₃或后续代是通过使F₂代和/或一个后续代互交、回交、自交，和/或从其中产生多个双单倍体而产生的；(b)对一个预测种群中的一株或多株植物针对该多个标记进行基因分型，其中该预测种群中的一株或多株植物中的每一株都是两个亲本的一个后代并且每一个亲本与被用来产生该参比种群的这两个亲本植物中的至少一个具有至少80%的遗传一致性；(c)基于步骤(b)的基因分型，针对该预测种群中的一株或多株植物中的每一株对在步骤(a)中所确定的这些标记效应进行求和；并且(d)基于来自步骤(c)的这些标记效应之和来预测在该预测种群中的一株或多株植物的一种表型。在一些实施方案中，该参比种群包括多个通过产生来自F₂代的双单倍体而产生的F₃或者后面的世代的成员。

在一些实施方案中，参比种群是一个包括多个成员的参比网络，是通过以下步骤产生的：(i)选择多个不同的亲本品系；(ii)使该多个不同的亲本品系杂交以产生多个F₁代；(iii)使该每个F₁代的成员互交或回交以产生多个相异的F₂代，并且任选地逐一地或顺序地使该多个相异的F₂代互交、回交、自交和/或从其产生双单倍体以产生相异的F₃代、以及任选的后续代；(iv)汇集相异的F₂、F₃、或后续代的一些或者所有成员以产生该参比网络，其中该参比网络的每个成员的基因组源于两个不同的亲本品系。在一些实施方案中，该参比网络包括源于少于所有可能的在该多个不同的亲本品系之间的杂交的植物。在一些实施方案中，该预测种群的植物是在该多个不同的亲本品系的两个成员之间杂交的一个F₂或后续代，这些不同的亲本品系不包含在该参比网络之内。在一些实施方案中，该参比网络包括源于所有可能的在该多个不同的亲本品系之间的杂交的植物。在一些实施方案中，该预测种群的植物是在两个亲本之间杂交的一个F₂或后续代，这两个亲本中的每一个与该多个不同的亲本品系之一具有至少80%的遗传一致性，该多个不同的亲本品系被用来产生该参比网络。在一些实施方案中，该参比种群包括至少50个成员，任选地至少100个成员，任选地至少150个成员，并且进一步任选地至少200个成员。在一些实施方案中，该参比种群的每个成员，该预测种群的一株或多株植物的每一株，或者两者都是近交植物或双单倍体。

在本披露方法的一些实施方案中，该确定步骤包括通过岭回归-最佳线性无偏预测（RR-BLUP；麦威森（Meuwissen）等人，2001）来估算针对多个标记的每一个的标记效应。在一些实施方案中，该多个标记足以覆盖该参比种群的植物的基因组，使得在每一个染色体上的相邻标记之间的平均间隔小于大约10cM，任选地小于大约5cM，任选地小于大约2cM，并且进一步任选地小于大约1cM。

在本披露方法的一些实施方案中，该基因分型的步骤包括将一株或多株植物（如种子）基因分型，将从生长的一株或多株植物上获得的叶组织基因分型，或其组合。

在本披露方法的一些实施方案中，预测步骤(d)包括采用一个如在方程式（4）中所提出的用于RR-BLUP的线性模型：

y_{i} = μ + Σ_{j = 1}^{m} (z_{ij} g_{j}) + e_{i} - - - (4),

其中：

(i)y_i是品系i的表型BLUP，μ是总平均值，z_ij是针对品系i的基因型的标记j，g_j是标记j的效应，并且e_i是服从e_i~N(0,σ_e ²)的残差；

(ii)假定μ是固定效应并且假定g_j是服从正态分布g_j~N(0,σ_gj ²)的随机效应；

(iii)假定每个标记具有一个相等的遗传方差，该遗传方差由方程式（4a）表示：

σ_gj ²=σ_g ²/m(4a),

其中m是所使用的标记的总数；

(iv)针对表型y的方差-协方差矩阵V由方程式（4b）表示：

V = Σ_{j = 1}^{m} (Z_{j} Z_{j}^{T} σ_{gj}^{2}) + I_{(n \times n)} σ_{e}^{2} - - - (4 b)

其中Z_j是在种群中跨n个个体的标记j的基因型评分向量并且I_(nxn)是一个具有对角元素1和其他元素0的单位矩阵；

(v)总平均值μ，一种固定效应，如在方程式（4c）中所提出的进行估算：

\hat{μ} = {(X^{T} V^{- 1} X)}^{- 1} X^{T} V^{- 1} y - - - (4 c)

其中X是全一的向量（vector ofones），并且是标记j的效应，如在方程式（4d）中所提出的进行计算。

{\hat{g}}_{j} = σ_{gj}^{2} Z_{j} V^{- 1} (y - X \hat{μ}) - - - (4 d)

在一些实施方案中，该预测步骤(d)是由适当程序化的计算机执行的。

在本披露方法的一些实施方案中，通过计算在这些亲本的每一个与被用来产生该参比种群的这两个亲本植物中的至少一个之间共享的、预先选择的标记的百分比来确定在每一个亲本与被用来产生该参比种群的两个亲本植物中的至少一个之间的遗传一致性。

在一些实施方案中，本披露的方法进一步包括当一株或多株植物正在在温室中生长时从该一株或多株植物上分离叶组织。

在一些实施方案中，本披露的方法进一步包括选择被预测具有感兴趣的表型的预测种群的一株或多株植物的一株或多株。在一些实施方案中，该选择过程考虑了若干感兴趣的性状，并且针对该预测种群中的个体计算了多性状选择指数。在一些实施方案中，使用方程式（6）计算了在该预测种群中的子代个体的多性状选择指数：

I_{i} = Σ_{j = 1}^{t} [w_{j} \frac{{\hat{y}}_{i}^{j} - Min ({\hat{y}}^{j})}{Max ({\hat{y}}^{j}) - Min ({\hat{y}}^{j})}] - - - (6)

并且进一步地，其中：

(i)I_i是针对子代i的多性状选择指数；

(ii)w_j是范围从0至1的性状j的权重，用于测量性状j的相对重要性；

(iii)

是在子代中的性状j（j=1,2，...,t）的预测表型；

(iv)

是在预测种群中的所有子代中的性状j的预测表型的最小值；并且

(v)

是在预测种群中的所有子代中的性状j的预测表型的最大值。

在一些实施方案中，该多性状选择指数计算是由适当程序化的计算机执行的。

在一些实施方案中，本披露的方法进一步包括在组织培养中或者通过种植使被预测具有感兴趣的表型的预测种群的一株或多株植物的一株或多株生长。

本披露主题还提供了用于预测在预测种群的植物中的表型的方法，这些方法通过以下步骤实现(a)确定在基因分型以及表型分型的参比种群中针对多个标记的标记效应，其中该参比种群包括一个连锁不平衡（LD）组；(b)将该预测种群的一株或多株植物针对多个标记进行基因分型，其中该预测种群的一株或多株植物中的每一株是两个亲本的一个后代，每一个亲本具有与该参比种群的一个成员至少80%的遗传一致性；(c)基于步骤(b)中的基因分型，针对该预测种群的一株或多株植物的每一株对标记效应进行求和；并且基于步骤(c)中的标记效应之和，预测该预测种群的一株或多株植物的表型。在一些实施方案中，该预测种群的一株或多株植物的每一株是通过使参比种群的两个成员杂交产生的F₁代植物或者是使来自F₁代植物单或多互交、回交、自交和/或从其产生双单倍体而产生的F₂或后续代植物或者其任何后续代。在一些实施方案中，该预测种群的植物的每一个是通过使两个亲本植物杂交产生的F₁代植物，每一个亲本植物具有与该参比种群的一个成员至少80%的遗传一致性。在一些实施方案中，该参比种群包括至少50个成员，任选地至少100个成员，任选地至少150个成员，任选地至少200个成员，并且进一步任选地至少250个成员。在一些实施方案中，该确定步骤包括通过岭回归-最佳线性无偏预测（RR-BLUP）来计算针对多个标记的每一个的标记效应。在一些实施方案中，该多个标记足以覆盖该参比种群的植物的基因组，使得在每一个染色体上的相邻标记之间的平均间隔小于大约1cM，任选地小于大约0.5cM，并且任选地小于大约0.1cM。在一些实施方案中，该参比种群的每个成员、该预测种群的一株或多株植物的每一株、或者两者都是近交植物或双单倍体。

在一些实施方案中，本披露的方法进一步包括使用通过结合交叉验证、单标记回归以及RR-BLUP的方法确定的预先选择的显著性水平来鉴定一个核心集的标记，并且采用在求和步骤(c)中的该核心集的标记。

在一些实施方案中，本披露的方法进一步包括选择被预测具有感兴趣的表型的预测种群的一株或多株植物的一株或多株并且在组织培养中或者通过种植使其繁殖。

本披露主题还提供了用于产生具有感兴趣的表型的植物的方法。在一些实施方案中，这些方法包括(a)确定在基因分型以及表型分型的参比种群中的针对多个标记的标记效应，其中该参比种群包括(i)一个F₂代，该F₂代是通过将两个亲本植物杂交以产生一个F1代并且然后使该F₁代互交、回交和/或自交而产生的；和/或(ii)一个F₃或后续代，其中该F₃或后续代是通过使F₂代和/或后续代互交、回交和/或自交；和/或从其产生双单倍体而产生的；和/或(iii)包括多个成员的参比网络，该参比网络通过以下产生的：（1）选择多个不同的亲本品系；（2）使该多个不同的亲本品系杂交以产生多个F₁代；（3）使每一个F₁代互交、回交和/或自交；和/或从F₁代形成双单倍体以产生多个相异的F₂代，并且任选地逐一地或顺序地使该多个相异的F₂代互交、回交、自交和/或从其产生双单倍体以产生相异的F₃代以及任选的后续代；（4）汇集该相异的F₂、F₃、或后续代的一些或者所有成员以产生该参比网络，其中该参比网络的每个成员的基因组源于两个亲本品系；和/或（5）一个连锁不平衡（LD）组；(b)将预测种群的一株或多株植物针对多个标记进行基因分型，其中该预测种群的一株或多株植物中的每一株是两个亲本的一个后代，每一个亲本与包括或在此被采用以产生该参比种群的两个植物中的至少一个具有至少80%的遗传一致性；(c)基于步骤(b)中确定的基因型，针对该预测种群的一株或多株植物的每一株对标记效应进行求和，从而产生该预测种群的一株或多株植物的每一株的基因评分；(d)基于步骤(c)中产生的基因评分，预测该预测种群的一株或多株植物的表型；(e)基于该预测步骤，选择被预测具有感兴趣的表型的该预测种群的一株或多株植物的一株或多株，以及(f)使所选择的该预测种群的一株或多株植物生长，其中产生了具有感兴趣的表型的植物。在一些实施方案中，该选择步骤包括选择具有超过预先选择的阈值的基因评分的该预测种群的那些植物。

本披露主题还提供了用于估算在第一与第二种群之间的遗传相似性的方法。在一些实施方案中，这些方法包括(a)提供一个第一与第二种群，其中(i)该第一种群包括作为F₂或后续世代的子代的个体，它们是通过使一个第一亲本与一个第二亲本杂交以产生一个第一F₁代，并且然后使该第一F₁代互交、回交、自交和/或从其产生双单倍体以产生F₂代，并且任选地，进一步使该F₂代以及任何后续世代互交、回交、自交和/或从其产生双单倍体以产生该第一种群而产生的；并且(ii)该第二种群包括作为F₂或后续世代的子代的个体，它们是通过使一个第三亲本与一个第四亲本杂交以产生一个第二F₁代，并且然后使该第二F₁代互交、回交、自交和/或从其产生双单倍体以产生F₂代，并且任选地，进一步使该F₂代以及任何后续世代互交、回交、自交和/或从其产生双单倍体以产生该第二种群而产生的；(b)将该第一、第二、第三以及第四亲本针对多个预定的标记进行基因分型；(c)计算第一、第二、第三以及第四遗传相似性的百分比，其中(iii)该第一遗传相似性的百分比是跨越相对于该第三亲本的该第一亲本的所有预定标记的共享的等位基因的百分比；(iv)该第二遗传相似性的百分比是跨越相对于该第四亲本的该第一亲本的所有预定标记的共享的等位基因的百分比；(v)该第三遗传相似性的百分比是跨越相对于该第三亲本的该第二亲本的所有预定标记的共享的等位基因的百分比；并且(vi)该第四遗传相似性的百分比是跨越相对于该第四亲本的该第二亲本的所有预定标记的共享的等位基因的百分比；(d)确定一个第一遗传相似性的平均百分比，包括该第一遗传相似性的百分比以及该第三遗传相似性的百分比的遗传相似性的平均百分比；(e)确定一个第二遗传相似性的平均百分比，包括该第二遗传相似性的百分比以及该第四遗传相似性的百分比的遗传相似性的平均百分比；并且(f)选择该第一遗传相似性的平均百分比以及该第二遗传相似性的平均百分比的较大者，其中这两个遗传相似性的平均百分比的较大者提供了在第一与第二种群之间的遗传相似性的估算。在一些实施方案中，该第一种群与第二种群分别由通过使该第一F₁种群以及该第二F₁种群的F₁、F₂以及F₃个体自交产生的F4子代组成。在一些实施方案中，该多个预定的标记基本上跨越了该第一与第二种群的整个基因组。

因此，本披露主题的一个目的是提供用于预测在一个预测种群中的植物的表型的方法。

在上文已经陈述了本披露主题的一个目的，并且它们被整体或部分地由在此披露的主题所实现，当结合附图进行说明时其他目的将变得明显，正如以下所最好地说明的。

附图简要说明

图1描绘了用于本披露主题的一个示例性实施方案的一个代表性的育种方案（PUP1）。

图2描绘了用于计算在预测种群与候选参比种群之间的PUP1的遗传相似性的代表性的方法。

图3是一个条形图，显示了当在预测种群与参比种群之间的遗传相似性大于0.80时，使用基于QTL的预测（灰色条）以及PUP1（黑色条）的预测准确度的一个代表性的频率分布。使用类似于复合区间作图法（CIM：曾，1994）的程序，用大于从5000排列估算的经验优势对数（LOD）阈值的LOD检验统计量（丘吉尔&道奇，1994），使用基于QTL的预测来首先鉴定显著性QTL标记，并且然后通过参比种群中的多重回归来计算这些标记的效应。使用RR-BLUP（麦威森（Meuwissen）等人，2001）而不用鉴定参比种群中的QTL，使用PUP1来计算基因组中的每个标记的效应。

图4描绘了用于本披露主题的两个另外的示例性实施方案的一个代表性的育种方案（PUP2；模型1与2）。

图5描绘了用于计算在预测种群与网络种群络之间的PUP2的遗传相似性的代表性的方法。在该方法的一个示例性实施方案中，可以测试在来自预测种群的A与四个亲本C、D、E以及G的每一个之间的遗传相似性。在这个实例中，亲本D被鉴定为显示出与A具有最近的遗传相似性。由于D已经被鉴定为与A具有最近的遗传相似性，确定了在预测种群中的另一个亲本B与参比种群中除了D之外的亲本之间的遗传相似性。

图6描绘了用于本披露主题的一个示例性实施方案的一个代表性的育种方案（PUP3）。

图7是一个曲线图，描述了在从1.0至1.00x10^-6范围内的每一个显著性水平完成的、基于交叉验证的100个重复的、使用交叉验证测试的预测的准确度。

图8是一个散点图，显示了在PUP1预测的与观察到的玉米籽粒水分表型之间的相关关系。

图9是一系列的条形图，显示了在作为代表性的实例的玉米育种计划中，使用基于QTL的预测（灰色条）以及基于PUP1的预测（黑色条）所确定的玉米水分表型预测的准确度。

图10是一个散点图，显示了在预测种群与参比种群之中的遗传相似性之间的关系以及使用PUP1（空心圆）相对于基于QTL的预测（实心圆）的预测准确度。在这个图中，在x轴上0.8右侧的阴影区相应于针对具有至少80%的遗传一致性的预测种群和参比种群的数据点。

图11描绘了由共享一个共同亲本(A)的5个双亲本亚群组成的网络种群络的连接结构。

图12是一个散点图，显示了PUP2预测的与观察到的籽粒水分表型之间的相关关系。

图13描绘了一种基于真实数据分析的、可以用于检验PUP2的准确度的代表性的方法。

图14是一系列的条形图，显示了使用基于QTL的预测（灰色条）以及基于PUP2的预测（黑色条）针对一个示例性性状（玉米水分）的预测的准确度。使用来自9个网络种群的78个双亲本种群，采用基于QTL的预测和PUP2，显示了针对玉米水分的预测准确度。在这些初步研究中，遗传相似性不用于针对给定的预测种群的参比种网络种群的选择中。使用以下方程式（7）中所示的模型，使用类似于复合区间作图法（CIM：曾，1994）的程序，将基于QTL的预测用来首先鉴定显著性QTL标记，并且然后通过参比种群中的多重回归来计算这些标记的效应。

图15是一系列的条形图，显示了用网络9（见下面的表12）作为一个代表性的参比种群，使用基于QTL的预测（灰色条）和基于PUP2的预测（黑色条）所确定的玉米水分表型预测的准确度。在PUP1和PUP2分析中使用的表型以及基因型数据与用于产生图3的那些一样。

图16是一个散点图，显示了在预测种群与参比网络种群之中的遗传相似性之间的关系以及使用PUP2（空心圆）的预测的准确度。使用下面的方程式（7）中所示的模型，使用类似于复合区间作图法（CIM：曾，1994）的程序，将基于QTL的预测（实心圆）用来首先鉴定显著性QTL标记，并且然后通过参比种群中的多重回归来计算这些标记的效应。使用在方程式（7）中所示的模型，而不用鉴定参考群中的QTL，使用PUP2来计算基因组中的每个标记的效应。在图16的x轴上的0.8与1之间的阴影区域代表集中的PUP2区域，其中所选择的遗传相似性标准大于0.80。

图17是准确度的频率分布的一系列条形图，这些准确度是在预测种群与参比种群之间的遗传相似性大于0.80时（不同于再图9中所描绘的数据，其中不考虑遗传相似性）使用基于QTL的预测（灰色条）和基于PUP2的预测（黑色调）进行预测的。使用在方程式（7）中所示的模型，使用类似于复合区间作图法（CIM：曾，1994）的程序，使用基于QTL的预测来首先鉴定显著性QTL标记，并且然后通过参比种群中的多重回归来计算这些标记的效应。使用在方程式（7）中所示的模型，而不用鉴定参比网络种群络中的QTL，使用PUP2来计算基因组中的每个标记的效应。

详细说明

通常，可观察的性状有两种类型：数量性状与质量性状。数量性状如玉米产量或籽粒水分显示了连续变异，而质量性状如棉花的抗病性显示了离散变异。性状的表达称为它的“表型”。质量性状的表型典型地是由一个或几个主效基因决定，而数量性状的表型常常是由许多微效基因（small-effect gene）以及这些基因之中的相互作用决定的，每一个基因对总表型具有小的至中等程度的影响。

在染色体上的促成数量性状表型的基因座被称为“数量性状基因座”（QTL）。QTL作图是用于鉴定在表型与特定QTL（即，统称为基因型）的存在或缺乏之间的统计关联的一种方法。对于QTL作图而言，这种关联可以如在方程式（1）中所提出的进行建模：

y_{i} = μ + Σ_{i = 1}^{P} G_{i} a_{i} + e_{j} - - - (1)

其中y_j是给定的种群中的后续代j的表型，μ是针对感兴趣的性状的表型的总平均值，G_i是基因I的基因型评分（该评分是基于在II.A.2部分所述的编码规则从该基因的基因型翻译的），a_i是与该性状表型有关的基因i的效应（该性状可以被考虑为归因于基因的表型的一部分），并且e_j是来自该模型中的表型的、在考虑所有基因的效应之后的残差，e_j通常被假定为服从正态分布e_j~N(0,σ²)，其中σ²是环境误差。在该模型中，表型y_j和基因型评分G_i是已知量。通常，线j的表型y_j是一个性状的可观察的特征，该性状是例如作物产量（可被测量为从大田中的植物收获的所有种子的重量）。在该模型中，基因型被定义为植物的基因组成。基因型评分G_i可以遵循在II.A.2部分所述的编码规则进行编码。在该模型中，基因型被定义为如果在不同的基因之间存在相互作用（双向相互作用），这些相互作用可以很容易地作为任何两个基因的基因型评分的协变量、简单产物而被结合到该模型中。

QTL作图的第一个步骤是鉴定和/或产生一个作图群体。假设P₁和P₂是两个近交亲本。使P₁与P₂杂交产生F₁子代（统称为“F₁代”或更简单地称为“F₁”）。使一个、一些或者所有F₁代自交导致F₂子代，并且使子代继续自交几个世代导致F_n世代（其中在一些实施方案中，n等于3、4、5、6或者更高的值）以及（如果希望的话）重组近交系（RIL）的世代，其中每个成员是在每一个基因座纯合的。由于在这样的种群的子代中的在一个或多个基因座处的基因型分离（这使得它们对于QTL作图是有用的），这些种群类型还被称为双亲本分离种群。

QTL作图的一个目标是鉴定那些显示了与感兴趣的性状的显著关联的标记。使用方程式（2），可以将这样的标记用于预测在分离种群中的品系的育种值：

\hat{y} = μ + Σ_{i = 1}^{qtl_num} z_{i} a_{i} - - - (2)

其中是如归因于标记的表型部分定义的估算育种值并且z_i是使用在II.A.2部分所述的规则编码的QTL I的基因型评分。这是一个用于在植物以及动物育种中的标记辅助育种（MAS）的基本模型。

MAS是一种包括两个基本步骤的程序（朗德&汤普森（Lande&Thompson），1990）。在该第一步骤中，通过QTL作图方法例如逐步回归（霍金（Hocking），1976）来鉴定QTL标记。然后将这些标记添加到一个模型中并且通过标记基因型上的表型的回归来估算这些标记的效应。在该第二步骤中，使用上面的方程式（2），可以将这些估算的效应用来预测种群中的子代的育种值。

预期的是，MAS将改造育种计划并且促进来自优良子代的选择的快速增长（詹尼克（Jannink）等人，2010）。与常规的表型选择方法相比较，MAS的主要优点包括：(i)较短的世代间隔；(ii)基于QTL和/或基因的更准确的选择；以及(iii)降低的表型成本。模拟研究表明，考虑每单位时间进行的多循环MAS，来自MAS的短期遗传增益高于来自纯粹的表型选择（霍斯匹德（Hospital）等人，1997）。

然而，对于数量性状如作物产量，归因于MAS的实际增益已经受到很大限制。对于低遗传增益的一个可能的解释是，当许多微效QTL分离并且没有实质性的可靠的效应可以鉴定时，难于鉴定与一些性状（例如，多基因性状，包括但不限于非生物胁迫抗性（如耐旱性、产量、籽粒水分、倒伏率等等）以及生物胁迫抗性（如病原抗性、昆虫抗性、缺铁性黄化病抗性、耐铝性等等））相关联的所有QTL（詹尼克（Jannink）等人，2010）。另外，在很多QTL研究中，过高估算了QTL效应（毕维斯（Beavis），1998）。这是因为只有具有大量效应的QTL才有可能基于给定的针对QTL鉴定的阈值而被检测到，而那些具有微效应的QTL不能被鉴定。

可以通过基因组选择将MAS的某些缺点降低至最低限度（麦威森（Meuwissen）等人，2001）。基因组选择是一种通过包含在预测体系中的全基因组标记来预测育种值的方法。基因组选择具有至少两个主要的优点。首先，可以降低用于预测的微效QTL丢失的风险（伯纳多&于（Bernardo&Yu），2007）。第二，可以提供QTL标记效应的更准确的估算。来自模拟研究以及实际数据验证两者的结果已经表明，基因组预测或选择可能是用于产生关于复杂性状的改良个体的一种有用的方法（海耶斯(Hayes)等人，2009）。

在植物育种中，已经将基因组选择应用于在双亲本种群内选择具有有利基因型的子代（伯纳多&于（Bernardo&Yu），2007；詹尼克（Jannink）等人，2010）。使用该方法，首先产生一个参比种群（例如，一个F₄种群）。在该参比种群中表型分型和基因分型两者都是需要的，以便估算基于从该参比种群收集的表型以及基因型数据的每个标记的效应。如在此披露的，可以通过这些估算的效应来预测连续世代中的每一个子代的育种值，并且可以基于这些育种值进行选择。

当前在植物育种中使用的基因组选择的一个缺点是需要将一个参比种群（典型地是F₄或双交杂种（DH）种群）进行表型分型（参见，例如，伯纳多&于（Bernardo&Yu），2007；詹尼克（Jannink）等人，2010）。产生这个参比种群的主要原因是形成一个标记效应可以据其估算的一个训练种群。在伯纳多&于（Bernardo&Yu），2007提出的标准育种计划中，这个种群类型被称为周期0，并且需要进行表型分型以及基因分型工作。这样，直到完成表型分型本身之后（典型地只能在一个完整的生长季节之后发生），才能完成具有所希望的表型的个体的选择。

另一方面，本披露主题在选择具有所希望的表型的个体之前，不需要一个完整的生长季节。相反，早在这些个体的种群的种子产生时就可以开始个体的选择，这是因为这些种子的基因型可以通过提取来自这些种子或来自这些种子的组织的DNA而迅速获得。使用传统的方法，尽管可以很容易地确定后代个体的基因型，但是除非或者直到完成表型分型，才能选择优良或改良的个体（即，具有给定的感兴趣的表型的子代个体）。结果，显著延迟了基因组选择的早期使用。另外，一旦完成选择，大多数表型分型工作将被浪费。典型地，所有检验的个体只有大约5%可以晋升到下一轮的选择，而绝大多数检验的个体将被弃去。

在此提供的是，用于在个体中仅仅使用遗传信息来预测未观察到的表型（PUP）的一般方法。这些一般方法可以提高使用基因组标记进行的表型预测的准确度。使用PUP，可以直接基于标记基因型而不需要表型分型来鉴定来自典型的双亲本植物繁殖种群的优良子代个体，由此节省了育种时间和成本。在一些实施方案中，更高的表型未知的子代的预测准确度是预期的，这是因为遗传相似性的引入允许有选择地挑选充分地遗传相似的参比种群从而将其作为后续预测的基础。在此披露的示例性的结果证明，基于为0.8的最低遗传相似性标准（即，相对于多个感兴趣的标记的80%的遗传相似性），可以实现至少大约0.4的准确度。基于一组分子标记的考虑，可以将这些披露的方法用在大规模的双亲本育种计划中，以允许获得在QTL与在子代种群中分离的标记之间的连锁不平衡（LD）。当将高密度标记用于如在下文更详细显示的基因组预测（参见，例如，下面II.C.部分中的示例性PUP3实施方案的论述）时，本披露的方法还可以用来选择用于提供未观察到的表型的增强预测的最佳标记子集。

这样，在此披露的是基本PUP策略的实施方式的细节，包括但并不局限于PUP1、PUP2以及PUP3。

I.定义

虽然认为以下术语可以很好地为本领域的普通技术人员所理解，提出以下定义是为了使本披露的主题容易说明。

除非另有定义，在此所使用的所有技术和科学术语旨在具有与本领域的普通技术人员通常所理解的相同的含义。在此采用的技术的参考文献旨在参照本领域中通常理解的技术，包括对本领域的普通技术人员而言很明显的那些技术的变化或等效技术的替换。虽然认为以下术语可以很好地为本领域的普通技术人员所理解，提出以下定义是为了使本披露的主题容易说明。

遵循长期的专利法条约，当在本申请（包括权利要求书）中使用的术语“一个/一种”（a或an）以及“该”是指“一个或多个/一种或多种”。例如，术语“一个/种标记”是指一个或多个/一种或多种标记。同样，在此采用以提及一个实体的短语“至少一个/种”是指，例如，1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、75、100个或更多个实体，包括但并不局限于1至100之间的以及大于100的整数值。类似地，术语“多个/种”是指“至少两个/种”，并且因此是指，例如，2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、75、100个或更多个实体，包括但并不局限于1至100之间的以及大于100的整数值。

除非另外指明，在本说明书和权利要求书中使用的表示成分的量、反应条件，等等的所有数字都将被理解为在所有的情况下因术语“大约”而改变。当提及可以测量的值如质量、重量、时间、体积、浓度或百分比的量值时，如在此使用的，术语“大约”表示包括在一些实施方案中±20%、在一些实施方案中±10%、在一些实施方案中±5%、在一些实施方案中±1%、在一些实施方案中±0.5%、以及在一些实施方案中±0.1%的基于特定量值的变化，这样这些变化适用于进行本披露的这些方法。因此，除非相反地指出，在该说明书以及所附的权利要求书中列出的这些数值参数是近似值，可以取决于通过本披露主题寻求获得的所希望的性质而变化。

如在此使用的，与预测相关的术语“准确度”被定义为预测种群成员的预测的与观察到的表型之间的相关系数。

如在此使用的，术语“等位基因”是指在一个基因位点处的变异体或形成的替代序列。在二倍体中，在每一个基因座处的单个等位基因遗传给分离自每一个亲本的子代个体。存在于二倍体生物中的给定基因座的两个等位基因占据成对的同源染色体上相对应的位置，虽然本领域的普通技术人员理解在任何特定个体中的这些等位基因不必代表存在于该种类中的所有等位基因。

如在此使用的，短语“与…相关联的”是指在两个实体之间的可识别的和/或可测验的（assayable）关系。例如，短语“与一种性状相关联”是指在其存在或缺乏下可以在影响该性状在一个个体或多个个体中的表达的范围、程度、和/率的基因座、基因、等位基因、标记、表型、等等，或其表达。

如在此使用的，术语“回交”及其语法上的变体是指在其中育种者使一个子代个体与它的亲本之一进行回交的方法：例如，使一个第一代F₁与该F₁个体的亲本基因型之一杂交。在一些实施方案中，可以重复进行与其自身是被回交为同样的亲本基因型的每一个连续回交世代的子代个体的回交。

如在此使用的，术语“染色体”以其领域公认的含义而使用，其含义为在细胞核中进行自我复制的基因结构，包含细胞DNA并且在其核苷酸顺序中带有基因的线性组合。

如在此使用的，术语“栽培品种”以及“品种”是指一组相似的植物，这些植物在结构或遗传特征和/或性能上可以与在同一种类中的其他品种区分出来。

如在此使用的，短语“良种品系”是指任何基本上纯合的、并且针对优良的农艺性状的从育种和选择所得到的品系。

如在此使用的，术语“基因”是指包含DNA序列的遗传单位，该DNA序列占据染色体上的特定位置并且含有针对生物中的特定特征或性状的遗传指令。

如在此使用的，短语“遗传增益”是指经由人为的遗传改良方案取得的性能增加的量值。在一些实施方案中，“遗传增益”是指经过一个世代之后取得的性能的增加（参见阿拉德（Allard），1960）。

如在此使用的，短语“遗传图谱”是指通常与染色体上的位置相关的基因座的有序列表。

如在此使用的，短语“遗传标记”是指经鉴定为与感兴趣的基因座或等位基因相关联的，并且指示感兴趣的基因座或等位基因在细胞或生物中的存在或缺乏的核酸序列（例如，多态核酸序列）。遗传标记的实例包括但不限于基因、DNA或RNA-衍生的序列、启动子、基因的任何非翻译区、microRNA、siRNA、QTL、转基因、mRNA、ds RNA、转录谱以及甲基化模式。

如在此使用的，术语“基因型”是指一种生物的基因构成。基因型的表达可以引起生物的表型，即，生物的物理性状。术语“表型”是指生物的任何可观察到的性质，由生物的基因型与环境的相互作用产生。表型可以包括表现变异性和表型的外显率。示例性的表型包括但不限于可见的表型、生理表型、易感性表型、细胞表型、分子表型及其组合。表型可能与胆碱代谢和/或胆碱缺乏相关性健康效应（choline deficiency-associated health effect）有关。这样，当与参考基因型或一个或多个其他受试者的基因型相比较时，受试者的基因型可以提供有价值的与当前的或预测的表型有关的信息。这样，术语“基因型”是指一个感兴趣的表型、多个感兴趣的表型或整个细胞或生物的遗传组分。基因型可以使用标记而被间接表征和/或通过核酸测序而被直接表征。

如在此使用的，短语一个个体的“确定基因型”是指确定该个体的基因构成的至少一部分并且具体地可以是指确定能用作表型指示物或预测物的在个体中的遗传变异性。在一些实施方案中，确定的基因型可以是一个个体的整个基因组序列，但是通常远远少于经常考虑到的序列信息。确定的基因型可以小至确定的单个碱基对，如在个体中确定一种或多种多态性。

此外，基因型的确定可以包括一个或多个单体型的确定。更进一步地，个体的基因型的确定可以包括一种或多种多态性的确定，这些多态性显示了对于至少一种多态性或者具有基因型值的单体型的连锁不平衡。如在此使用的，短语“基因型值”是指关于一个性状表型的单体型的实际效应，并且事实上可以将其考虑为单体型对性状的影响。在一些实施方案中，可以通过在单体型上的表型的回归来计算基因型值。

如在此使用的，“单体型”是指在特定的基因或基因群内的许多紧密连锁的基因座的共同特征或多个特征，这个或这些特征可以作为一个单位遗传。例如，在一些实施方案中，一个单体型可以包括一组紧密相关的多态性（例如，单核苷酸多态性；SNP）。

如在此使用的，“连锁不平衡”（LD）是指一种衍生的两个相异的遗传标记的关联或一起出现的强度的统计测量。可以使用不同的统计方法来概述在两个标记之间的LD，但是实际上广泛使用的只有两种，称为D′和r2（参见，例如，戴文&里施（Delvin&Risch），1995；乔德（Jorde），2000）。

这样，短语“连锁不平衡”是指一种来自单个世代中的许多个体的种群的配子型的期望相对频率的改变，使得两个或多个基因座充当遗传连锁基因座。如果在种群中的等位基因S的的频率是x，等位基因s的频率是x'，或一部分，子代，或其组织培养，B是y，以及一部分，子代，或其组织培养，b是y'，那么基因型SB的期望频率是xy，Sb的期望频率是xy'，sB的期望频率是x'y并且sb的期望频率是x'y'，并且任何来自这些频率的偏差是不平衡的实例。

在一些实施方案中，个体基因型的确定可以包括鉴定至少一个基因和/或至少一个基因座的至少一种多态性。在一些实施方案中，个体基因型的确定可以包括鉴定至少一个基因和/或至少一个基因座的至少一种单体型。在一些实施方案中，个体基因型的确定可以包括鉴定相对于单体型是独特的至少一个基因和/或至少一个基因座的至少一种多态性。

如在此使用的，术语“杂合的”是指当不同的等位基因位于同源染色体上相应的基因座上时存在于细胞或生物中的遗传情况。如在此使用的，术语“纯合的”是指相同的等位基因位于同源染色体上相应的基因座上时存在的遗传情况。应当指出的是，这两个术语都可以指同源染色体上的单核苷酸位置；多核苷酸位置，不论是否是连续的；和/或整个基因座。

如在此使用的，当在植物背景中使用时，术语“杂种”是指由至少两个遗传上不同的植物亲本杂交所得的种子以及种子发育而成的植株。

如在此使用的，当在核酸背景中使用时，术语“杂种”是指由互补的核苷酸碱基之间的氢键形成的双链核酸分子或双链体。术语“杂交”以及“退火”是指藉此单链核酸序列通过互补碱基之间的氢键结合形成双螺旋片段的过程。

如在此使用的，当在植物背景中使用时，术语“改良”以及“优良”及其语法上的变体是指相对于另一种缺乏（或具有）特定的感兴趣的等位基因植物（或一部分、子代、或其组织培养），作为具有（或缺乏）该特定的感兴趣的等位基因的结果的一种植物（或一部分、子代、或其组织培养）以更高或更低的程度（如所希望）表达感兴趣的表型。

如在此使用的，术语“近交”是指基本上纯合的个体或品系。应当指出的是，该术语可以是指遍及它们的整个基因组基本上是纯合的或者相对于它们的基因组的、特定的感兴趣的子序列基本上是纯合的个体或品系。

如在此使用的，当用来描述与含有多态性的DNA杂交的核酸分子时，短语“紧邻”是指与直接邻接感兴趣的序列（例如，多态核苷酸碱基位置）的DNA序列杂交的核酸。例如，可以将核酸分子用于单碱基延伸测定，以分析多核苷酸碱基位置是否“紧邻”该多态性。

如在此使用的，短语“询问位置”（"interrogation position"）是指在固相载体上的物理位置，可以对其进行查询以获得针对一个或多个预定的基因组多态性的基因分型数据。

如在此使用的，术语“询问”（introgression）、“询问”（introgressed）以及“询问”（"introgressing）是指藉此通过使这些个体杂交将一个个体的基因组区域移动至另一个个体的基因组中的自然方法或人工方法两者。用于询问感兴趣的性状的示例性的方法包括但不限于将具有感兴趣的性状的个体培育成不具有该性状的个体，并且使具有该感兴趣的性状的个体与轮回亲本回交。

如在此使用的，术语“分离的”是指一种不含有通常在植物基因组中的核苷酸序列的一个侧翼或双侧的序列的核苷酸序列（例如，遗传标记）。这样，短语“分离的并且纯化的遗传标记”可以是，例如，重组DNA分子，条件是通常发现于天然发生的基因组中的重组DNA分子侧翼上的核酸序列之一被去除或缺乏。因此，分离的核酸包括，但不限于，作为单独的分子存在的重组DNA（包括，但不限于，通过聚合酶链式反应（PCR）或限制性内切核酸酶处理产生的基因组DNA片段），该重组DNA小于其侧翼序列存在的完整互补物，以及结合入一种载体、自主复制质粒，或者作为杂种或融合核酸分子的一部分结合入植物的基因组DNA的重组DNA。

如在此使用的，术语“连锁”是指一种现象，其中在同一条染色体上的等位基因可能倾向于比预期更经常地一起遗传（如果它们的遗传是独立的话）。因此，当在同一条染色体上的两个等位基因在一些实施方案中小于50%的次数，在一些实施方案中小于25%的次数，在一些实施方案中小于20%的次数，在一些实施方案中小于15%的次数，在一些实施方案中小于10%的次数，在一些实施方案中小于9%的次数，在一些实施方案中小于8%的次数，在一些实施方案中小于7%的次数，在一些实施方案中小于6%的次数，在一些实施方案中小于5%的次数，在一些实施方案中小于4%的次数，在一些实施方案中小于3%的次数，在一些实施方案中小于2%的次数，并且在一些实施方案中小于1%的次数在下一个世代中彼此分离时，它们被称为“连锁的”。

这样，“连锁”典型地意味着并且同样是指在一条染色体上的物理接近。因此，如果两个基因座彼此在一些实施方案中在20厘摩（cM），在一些实施方案中15cM，在一些实施方案中12cM，在一些实施方案中10cM，在一些实施方案中9cM，在一些实施方案中8cM，在一些实施方案中7cM，在一些实施方案中6cM，在一些实施方案中5cM，在一些实施方案中4cM，在一些实施方案中3cM，在一些实施方案中2cM并且在一些实施方案中1cM之内，则它们是连锁的。同样，在一些实施方案中，如果本披露主题的基因座与标记（例如，遗传标记）在20、15、12、10、9、8、7、6、5、4、3、2或1cM之内，那么该基因座与该标记是连锁的。

如在此使用的，短语“连锁群”是指位于同一条染色体上的所有的基因或者遗传性状。在该连锁群之内，充分靠近在一起的那些基因座可以在遗传杂交中显示出连锁。由于在两个基因座之间发生交换的机率随着在同一条染色体上的这两个基因座之间的物理距离的增加而增加，对于那些在一个连锁群内彼此远离的位置上的基因座而言，在直接遗传测定中可能不会显示出可检测的连锁。术语“连锁群”主要用来指在尚未进行染色体定位的遗传体系中显示出连锁行为的基因座。因此，在本文中，虽然本领域的普通技术人员将理解连锁群还可以被定义为相应于给定的染色体的一个区域（即，小于该整体），术语“连锁群”与染色体的物理实体是同义的。

如在此使用的，术语“基因座”是指一个在种类的染色体上的位置，并且包括在特定基因组区域的在一些实施方案中一个单核苷酸、在一些实施方案中几个核苷酸、以及在一些实施方案中多于几个核苷酸。在一些实施方案中，术语“基因座”与“基因”可互换地使用。

如在此使用的，可互换地使用的术语“标记”与“分子标记”是指在一条其遗传可以被监测的染色体上的可鉴定的位置和/或一种试剂，该试剂可以在一种用于将在染色体上的此类可鉴定位置处存在的核酸序列的差异进行可视化的方法中使用。因此，在一些实施方案中，一个标记包括一条已知的或可检测的核酸序列。这些标记的实例包括但不限于遗传标记、蛋白质组成、多肽水平、蛋白质水平、油组成、油水平、碳水化合物组成、碳水化合物水平、脂肪酸组成、脂肪酸水平、氨基酸组成、氨基酸水平、生物聚合物、淀粉组成、淀粉水平、可发酵淀粉、发酵产量、发酵效率、能量产量、次生化合物、代谢产物、形态特征以及农学特征。分子标记包括但不限于限制性片段长度多态性（RFLP）、随机扩增多态性DNA（RAPD）、扩增片段长度多态性（AFLP）、单链构象多态性（SSCP）、单核苷酸多态性（SNP）、插入/缺失突变（Indel）、单序列重复（SSR）、微卫星重复序列、序列特征化扩增区（SCAR）、酶切扩增多态性序列（CAPS）标记以及同工酶标记、基于微阵列的技术、

标记、

测定标记、核酸序列或在此所述的定义特定基因或染色体位置的这些标记的组合。如在此定义的短语“连锁至QTL的分子标记”因此在一些实施方案中可以指SNP、Indel、AFLP标记或任何可以用于鉴定特定基因组序列的存在或缺乏的其他类型的标记。

在一些实施方案中，通过用一个或多个寡核苷酸扩增核酸，例如，通过聚合酶链式反应（PCR）产生相应于扩增产物的标记。如在此使用的，在标记背景下的短语“相应于扩增产物”是指具有核苷酸序列的标记，该核苷酸序列与通过用一组特定的寡核苷酸扩增一种核酸产生的扩增产物相同或者反向互补（允许通过扩增反应本身和/或天然发生的和/或人工等位基因差异而引入突变）。在一些实施方案中，通过PCR进行扩增，并且这些寡核苷酸是PCR的引物，将这些寡核苷酸设计成用与基因组DNA分子的相反链杂交，以便于扩增存在于这些基因组DNA中的、这些PCR引物杂交至其上的序列之间的基因组DNA序列。使用这样的引物安排、从一轮或多轮扩增得到的扩增片段是一种双链核酸，其中的一条链具有包含以5'到3′顺序的、这些引物之一的序列的核苷酸序列，该基因组DNA序列位于这些引物之间，并且是该第二引物的反向互补序列。典型地，该“正向”引物被指定为具有与有待扩增的双链核酸的“顶端”链的子序列（任意指定的）相同的序列的引物，使得该扩增片段的“上游”（"top"）链包含这样的核苷酸序列，即，以5'到3'方向的，等同于该正向引物的序列-该序列位于该基因组片段的上游链的正向物与反向引物之间-该反向引物的反向互补序列。因此，“相应于”一个扩增片段的标记是具有与该扩增片段的这些链之一相同的序列的标记。

如在此使用的，短语“标记测定”是指一种用于使用一种特定方法检测在特定基因座的多态性的方法，该特定方法例如但不限于至少一种表型的测量（例如，种子颜色、油含量、或视觉上可检测的性状如玉米以及大豆籽粒产量、株高、花期、倒伏率、抗病性、耐铝性、铁缺乏性萎黄病抗性以及籽粒水分）；基于核酸的测定，包括但不限于限制性片段长度多态性（RFLP）、单碱基延伸、电泳、序列比对、等位基因特异性寡核苷酸杂交（ASO）、随机扩增多态性DNA（RAPD）、基于微阵列的技术、

测定、

测定分析、核酸测序技术；肽和/或多肽分析；或者可以用来检测在生物中的感兴趣的基因座的多态性的任何其他技术。

如在此使用的，短语“自然性状”是指任何存在于某个个体的种质中的单基因或多基因性状。当通过使用一个或多个分子标记进行鉴定时，通过在此披露的预测种群的选择育种，所获得的信息可以用于改良种质。

如在此使用的，短语“核苷酸序列一致性”是指在两个多核苷酸的相应位置处存在一致的核苷酸。当最大对应地比对时，如果在两个多核苷酸中的核苷酸序列相同，则这两个多核苷酸具有“一致的”序列。通常通过在比较窗口上比较这两个序列的部分来进行两个或多个多核苷酸之间的序列比较，以鉴定并比较序列相似性的局部区域。该比较窗口通常是从大约20至200个连续的核苷酸。对与多核苷酸而言，“序列一致性百分比”（如50、55、60、65、70、75、80、85、90、95、98、99或100的序列一致性百分比）可以通过在比较窗口上比较这两条最佳比对的序列进行确定，其中当与这两个序列的最佳比对的参考序列比较时，在比较窗口中的多核苷酸序列部分可以包括添加或缺失（即，空位）。

可以通过任何在分子生物学领域中普遍适用的方法来计算该百分比。在一些实施方案中，通过以下步骤计算该百分比：(a)确定该一致的核苷酸碱基在两种序列中都出现的位置的数目，以产生匹配位置的数目；(b)用比较窗口中的位置总数目除以该匹配位置的数目；并且(c)将该结果乘以100以确定序列一致性百分比。还可以通过已知算法的计算机化实施方式或者通过目视检查进行用于比较的序列的最佳比对。易于获得的序列比较以及多重序列比对的算法分别是基本局部比对搜索工具（BLAST；阿尔丘尔（Altschul）等人，1990；阿尔丘尔（Altschul）等人，1997）以及ClustalW程序（Larkin等人，2007），两者都可在因特网上获得。其它适合的程序包括但不限于，GAP、BestFit、Plot相似性以及FASTA，它们是Accelrys

威斯康星软件包（Wisconsin Package）的一部分，可以从美国，加利福尼亚州，圣地亚哥的Accelrys公司获得。在一些实施方案中，序列一致性百分比是指进行比较的这些序列之一的全长上的序列一致性。在一些实施方案中，用于确定序列一致性百分比的计算不包括在任何其中有待比较的核酸包含一个“n”的核苷酸位置（即，任何核苷酸可以存在于那个位置）的计算中。

如在此使用的，术语“表型标记”是指一个可以用来区分两个不同的表型的标记。

如在此使用的，术语“植物”是指整个植物、它的器官（即，叶、茎、根、花，等等）、种子、植物细胞以及它们的子代。术语“植物细胞”包括但不限于在种子、悬浮培养物、胚、分生组织区、愈伤组织、叶、嫩枝、配子体、孢子体、花粉以及小胞子之内的细胞。短语“植物部分”是指植物的一部分，包括单细胞以及细胞组织，如在植物、细胞团块以及植物可以从其再生的组织培养中的完整的植物细胞。植物部分的实例包括但不限于来自花粉、胚珠、叶、胚、根、根尖、花药、花、果实、茎、嫩枝与种子；以及接穗、根茎、原生质体、愈伤组织等等的单细胞以及组织。

如在此使用的，术语“多态性”是指在一个或多个个体的种群中的基因座处存在核酸序列的一个或多个变异。该序列变异可以是一个或多个碱基的不同、插入或缺失。多态性可以是，例如，单核苷酸多态性（SNP）、单序列重复（SSR）以及作为插入和缺失的Indel。另外，该变异可以在转录谱或甲基化模式中。可以通过在两个或更多个种质条目中的一个或多个基因座处进行核酸序列比较来确定核酸序列的多态位点。这样，在一些实施方案中，术语“多态性”是指在一个种群中的两个或更多个遗传上确定的替代变体序列（即，等位基因）的存在。多态标记是在其处发生差异的基因座。示例性的标记具有至少两个（或在一些实施方案中更多）等位基因，每一个以大于1%的频率发生。一个多态基因座可以小至一个碱基对（例如，一个单核苷酸多态性；SNP）。

如在此使用的，术语“种群”是指在一些实施方案中共享一个共同的遗传来源的植物的遗传异质性集合。

如在此使用的，短语“预测种群”是指基于在此披露的这些方法以及组合物，将要对其预测感兴趣的表型的种群或植物。在一些实施方案中，预测种群是其基因型信息是可获得的，但是相对于感兴趣的性状的表型信息不可获得的一个种群。如在此披露的，鉴于已经衍生自在参比种群中可可获得的基因型以及表型信息的标记效应，仅仅基于基因型信息就可以预测一个预测种群的一个或多个成员（在此称为“预测植物”、“预测个体”和/或“在预测种群中的植物”）的表型。

如在此使用的，短语“参比种群”是指就感兴趣的性状而言针对其基因型以及表型信息是可获得的个体（例如，植物）的群体。在一些实施方案中，参比种群的这些成员就与感兴趣的性状关联的一个或多个遗传标记而言可以是被基因分型的。就感兴趣的性状表型而言的参比种群的基因分型的成员（在此称为“表型分型”）的观察使得与感兴趣的性状关联的一个或多个遗传标记的存在或缺乏的效应（在此称为“标记效应”）的确定变得容易。然后就在此披露的这些遗传标记而言，仅基于该预测种群的这些成员的基因型就可以使用这些标记效应来预测一个预测种群的成员的表型。

在一些实施方案中，一个参比种群是一个网络种群。如在此使用的，短语“网络种群”是指包含由多个双亲本杂交产生的多个子代个体的种群，使得该网络种群的每个成员可以追溯其祖先直到这些被用于至少一个双亲本杂交体中的个体的至少一个。在一些实施方案中，网络种群产生自用于双亲本杂交体中的n个亲本，并且该n个亲本的每一个与其他n个亲本的每一个（除了它们本身之外）杂交。这样，在一些实施方案中，一个网络种群包括n(n–1)个遗传相异的F₁个体，和/或通过互交、回交、自交和/或双杂交种的创建从其中衍生出的子代个体。在此详细披露了用于建立网络种群的方法。

如在此使用的，术语“引物”是指一种寡核苷酸，当被放置于诱导引物延伸产物合成的条件下（例如，在核苷酸以及一种用于聚合反应的试剂如DNA聚合酶的存在下并且在适合的温度以及pH下）时，该寡核苷酸能够退火到目标核酸上（在一些实施方案中，特异性地退火到目标核酸上），从而允许一种DNA聚合酶附接，由此用作DNA合成的起始点。在一些实施方案中，采用多个引物来扩增核酸（例如，使用聚合酶链式反应；PCR）。

如在此使用的，术语“探针”是指一种可以与目标核酸序列中的互补序列形成一种氢键双链体的核酸（例如，一个单链核酸或者双链核酸或更高阶的核酸链或其子序列）。典型地，探针是足够长的以便于与其互补物形成稳定且序列特异的双链分子，并且这样可以在一些实施方案中用来检测在多个核酸中存在的感兴趣的序列。

如在此使用的，术语“子代”是指由一株或多株植物的自然或辅助育种产生的任何植物。例如，可以通过两个植物的杂交产生子代植物（包括但不限于，使两个无亲缘关系的植物杂交，使一个植物与一个亲本植物回交，使两个植物互交，等等）产生，但是也可以通过植物自交，创建一个双单倍体或本领域的普通技术人员已知的其他技术产生。这样，“子代植物”可以是从一个或多个亲本植物或其后代的营养或有性繁殖的子代产生的任何植物。例如，子代植物可以通过一个亲本植物的克隆或自交或者通过两个亲本植物的杂交而获得，并且包括自交体以及F₁或F₂或甚至更远的世代。F₁是产生自两个亲本的第一世代的子代（两个亲本的至少一个是第一次用作一种性状的供体），而第二世代（F₂）或后续世代（F₃、F₄，等等）的子代在一些实施方案中是样本，这些样本产生于自交（包括但不限于双单倍化）、互交、回交或其他F₁个体、F₂个体等等个体的杂交。因此，F₁可能是（并且在一些实施方案中，是）产生自两个真实的育种亲本杂交的杂种（即，对感兴趣的性状或其等位基因而言，真实育种的亲本的每一个是纯合的，并且在一些实施方案中，是近交的），而F₂可能是（并且在一些实施方案中，是）产生自F₁杂种自花授粉的子代。

如在此使用的，短语“数量性状基因座”（QTL；多个数量性状基因座-QTLs）是指一个或多个在一定程度上控制一种在数值上可表示的性状的基因位点，在一些实施方案中，它是连续分布的。当一个QTL可以由多个标记指示时，两个终点标记之间的遗传距离指示了该QTL的大小。

如在此使用的，短语“重组”是指在相似的或相同的核苷酸序列区域上的两个DNA分子之间的DNA片段或成对染色体的染色单体的交换（“交换体”）。在此，“重组事件”被理解为是指减数分裂交换（meiotic crossover）。

如在此使用的，可互换使用的短语“选择的等位基因”、“所希望的等位基因”以及“感兴趣的等位基因”是指包含与所希望的性状相关联的多态等位基因的核酸序列。应当指出的是，“选择的等位基因”、“所希望的等位基因”和/或“感兴趣的等位基因”可以与所希望的性状的增加或所希望的性状的减少相关联，这取决于在基因渗入的植物中力求产生的表型的性质。

如在此使用的，短语“显著性QTL标记”是指这样的QTL标记，其特征为检验统计量LOD大于从5000排列估算的经验LOD阈值（参见丘吉尔&道奇（Churchill&Doerge），1994）。

如在此使用的，短语“单核苷酸多态性”或“SNP”是指两个核苷酸序列之间的单个碱基对的差异构成的一种多态性。如在此使用的，术语“SNP”还指在两个核苷酸序列之间的差异，这些差异由一个序列的简单变异（鉴于另一个发生在该序列中的单一位点）产生。例如，术语“SNP”不仅仅意图是指由于核酸置换一个相对于另一个的单个核苷酸不同的序列，还意图是指由于在这些序列中的一个相对于另一个在单个位点的1、2、3或更多个核苷酸的缺失的1、2、3或更多个核苷酸不同的序列。应当理解的是，在两个序列彼此不同（仅仅凭借与另一个相比，在这些序列的一个中的单个位点的1、2、3或更多个核苷酸的缺失）的情况下，可以考虑同样的方案（与另一个相比，在这些序列的一个中的单个位点处添加1、2、3或更多个核苷酸），这取决于这两个序列的哪一个被看作参考序列。因此，也将单个位点插入和/或缺失考虑为被术语“SNP”包括。

如在此使用的，短语“严紧杂交条件”是指在其下使多核苷酸与它的目标子序列杂交的条件，典型地在核酸的复杂混合物中，但基本上没有其他序列。严紧条件是序列依赖性的并且在不同的情形下可以不同。

典型地，较长的序列在较高的温度下特异性地杂交。核酸杂交的延伸指南发现于泰杰森（Tijssen），1993中。通常，对于在一个限定的离子强度和pH下的特异性序列，严紧杂交条件被选择为比热熔点（Tm）大约低5°C至10°C。Tm是与目标互补的探针的50%与目标序列杂交在平衡时（由于该目标序列过量存在，在Tm时，在平衡时50%的探针被占用）所处的温度。示例性的严紧条件是这些：其中盐浓度小于约1.0M钠离子、典型地在pH7.0至8.3下大约0.01至1.0M钠离子浓度（或其他盐），并且对于短探针（例如，10至50个核苷酸）温度为至少大约30°C而对于长探针（例如，大于50个核苷酸）至少大约60°C。

严紧条件还可以用添加去稳定剂（例如，甲酰胺）来实现。另外的示例性的严紧杂交条件包括50%甲酰胺,5x SSC以及在42°C孵育的1%SDS；或者SSC，1%SDS，在65°C孵育；用在0.2x SSC中以及在65°C的0.1%SDS中洗涤一次或多次。对于PCR，大约36°C的温度典型地用于低严紧度扩增，虽然退火温度可以在大约32°C与48°C（或更高）之间变化（取决于引物长度）。在大量的参考文献中提供了用于确定杂交参数的另外的指南（参见，奥索贝尔（Ausubel）等人，1999）。

如在此使用的，短语“

测定”是指使用基于

测定（由美国，加利福尼亚州，福斯特城的应用生物系统公司（Applied Biosystems,Inc.）销售）的PCR的实时序列检测。对于鉴定标记，测定可以发展为在育种计划中应用。

如在此使用的，术语“测交系”（“tester"）是指在具有一个或多个其他品系的测交中使用的一个品系，其中该测交系以及待检测的一个或多个品系是遗传上不相似的。对于该杂交系，测交系可以是一个等基因系。

如在此使用的，术语“性状”是指感兴趣的表型、促成感兴趣的表型的基因、以及与促成感兴趣的表型的基因相关联的核酸序列。

如在此使用的，术语“转基因”是指通过一些形式的人工转移技术被引入生物或它的祖先的核酸分子。因此这些人工转移技术创建了一种“转基因生物”或“转基因细胞”。应当理解的是，这些人工转移技术可以在祖先生物（或其中的和/或可以发育称为祖先生物的细胞）中发生，并且具有该人工转移的核酸分子或其片段的任何子代个体仍然被考虑为转基因的，即使一种或多种自然和/或辅助育种导致了该人工转移的核酸分子存在于在这些子代个体中。

II.用于预测未观察到的表型的示例性方法

本披露主题提供了用于预测未观察到的表型的三种通用方法：(i)使用单个参比种群（在此称为“PUP1”）对表型未知种群进行预测；(ii)使用包括两个或更多个亚群的网络种群（在此称为“PUP2”）对表型未知种群进行预测；以及(iii)使用一种相关和/或不相关种质（包括但不限于，如在此定义的连锁不平衡组）的代表性样品对表型未知种群进行预测。

II.A.PUP1：使用全基因组分子标记来预测来自单个双亲本参比种群的子代的未观察到的表型

在一些实施方案中，本披露主题采用了单个双亲本参比种群（在此称为“PUP1”）。如在图1中所示的，PUP1是一种用于对表型未知的（即，预测的）种群个体的感兴趣的表型进行预测的方法，该方法使用了单个双亲本参比种群，对于该单个双亲本参比种群而言，关于感兴趣的性状的基因型数据和表型数据都是已知的或可知的（即，已知为先验的或可以被确定的）。参考图1并且通过举例而非限制的方式，一种用于对表型未知的（即，预测的）种群的个体的感兴趣的表型进行预测的方法包括使用亲本谱系信息和/或育种者的经验在含有一个或多个网络种群（其基因型数据和表型数据都是可得的）的数据库中寻找遗传上相关的种群，该方法使用单个双亲本参比种群（例如，衍生自近交亲本A与近交亲本B杂交的F₄种群），对于该单个双亲本参比种群而言，关于感兴趣的性状的基因型数据和表型数据都是已知的或可知的（即，已知为先验的或可以被确定的）。该一个或多个网络种群的数据库可以包括用于一系列杂交的表型数据和基因型数据，例如但不限于，W x Q、Zx E、C x D、H x F、H x D、F x G、C x J、M x N以及M x G，其中亲本C、D、E、F、G、H、J、M、N、Q、W以及Z的每一个都是近交个体。然后可以使用特定的标记组对亲本A与B，以及那些其他可获得的亲本（例如，亲本C、D、F、G、M以及N）进行筛选，从而将允许确定在预测种群与每个候补种群之间的遗传相似性。然后可以选择具有最高遗传相似性的或遗传相似性大于阈值量（例如但不限于0.8）的参比种群（例如，衍生自近交亲本C与近交亲本D的杂交的F₄种群）。

继续参考图1，然后可以就感兴趣的性状将参比种群用于估算每个标记的效应，并且然后可以将每个这样的标记的标记效应用于预测衍生自近交亲本A与近交亲本B杂交的F₄种群的子代的未观察到的表型和/或育种值，对于F₄种群子代而言，仅仅基因型数据是可获得的。在一些实施方案中，然后可以在进行到下一轮的选择之前，选择前20%至30%的育种值（即，“优良子代”）。

这样，在一些实施方案中，对于参比种群而言，基因型数据和表型数据都是已知的和/或可知的，并且对预测种群而言，仅仅产生标记基因型信息。然后基于该预测种群中的这些个体的基因型的确定，预测在该预测种群中的个体的表型。在一些实施方案中，预测种群由新的育种计划产生，而参比种群是先前产生的、基因型和表型信息已经知道（例如，存储在数据库中）的种群。

在一些实施方案中，就基因型信息而言，基于共有序列的遗传图谱，使用同一组分子标记将预测种群和参比种群进行基因分型。在这样的情形下，可以使用这些相同的标记来测量在预测种群与参比种群之间的遗传相似性（参见下文II.A.1.部分）。另一个优点是，允许使用从参比种群估算的QTL效应来预测多个预测种群的未检验的成员的表型（仅使用基因型数据）。这是用于使用PUP1预测表型的遗传基础。

在本披露主题的一些实施方案中，将全基因组标记用于预测，该预测显著不同于常规的基于QTL的预测策略。为了突出显示这种方法的优点，对来自两种方法的准确度进行了比较并且确定来自PUP1的准确度超过来自基于传统QTL的预测的准确度的27%。下文更详细展示并解释了这些结果。

II.A.1.通过亲本分子标记筛选，选择一个针对预测种群的参比种群

对于一个给定的预测种群而言，基于包括但不限于谱系信息以及育种者的育种经验的这些标准，可以选择若干候选参比种群，条件是这些参比种群的基因型数据和表型数据是已知的或可知的（例如，可以产生的）。因此，这些用于选择参比种群的标准可以包括：(i)与预测种群的高遗传相似性（例如，包括但不限于至少0.70、0.75、0.80、0.85、0.90、0.95、0.97、0.98、0.99的遗传相似性；即所有大于0.70的值）；(ii)与预测种群相似的作物成熟度；(iii)相同的测试位置；和/或(iv)在感兴趣的种群中的QTL的分离（例如，在平均基础上的遗传率H²>0.40）。可以采用这些标准来设计提供尽可能与该预测种群相似的QTL信息的参比种群。

对产生待预测种群以及选择的参比种群的亲本进行标记筛选。在一些实施方案中，将近交个体用作亲本。在这样的实施方案中，在每个个体亲本基因组中的每一个基因座上仅有一个等位基因。基于亲本筛选信息，可以计算在参比种群与预测种群之间的遗传相似性。

因此，选择一个适当的针对PUP的参比种群可以增强预测的准确度。就遗传学而言，准确度可以受到在预测种群与参比种群之间的遗传相似性的影响，可以基于分子标记，使用在此披露的这些方法来计算它们本身的准确度。如在此使用的，短语“遗传相似性”及其语法上的变体，是指相比较的这些个体的基因组（即，这些基因组的核苷酸序列）在一定程度上是相同的。鉴于在相同种类的成员之间的实际核苷酸差异可能非常低的事实，已经认识到不能典型地在全基因组基础上以核苷酸-对-核苷酸的方式来比较基因组，并且因此可以采用全基因组比较取代。

因此，在一些实施方案中，可以通过比较两个或更多个个体共享它们的基因组的有关子序列的程度来估算遗传相似性。这样的比较包括但不限于两个或更多个个体共享某些标记的程度的确定，包括但也不限于限制性片段长度多态性（RFLP）、随机扩增多态性DNA（RAPD）、扩增片段长度多态性（AFLP）、单链构象多态性（SSCP）、单核苷酸多态性（SNP）、插入/缺失突变（Indel）、单序列重复（SSR）、微卫星重复序列、序列特征化扩增区（SCAR）、酶切扩增和/或多态性序列（CAPS）标记。鉴于本披露主题的这些方法在一些实施方案中与使用遗传标记来预测未观察到的表型有关的事实，可以通过确定在预测中采用的多少比例的遗传标记被比较个体共享来估算遗传相似性。其他用于鉴定、估算和/或计算遗传相似性的方法对本领域的普通技术人员而言将是已知的，并且包括但不限于使用聂（Nie）（即，所谓的“聂氏距离”（Nie’s Distances）；参见聂&罗伊乔杜里（Nei&Roychoudhury），1974；聂，1978）的技术来计算遗传距离；并将参考文献引用在其中。

在一些实施方案中，使用图2中描绘的示例性方法来计算遗传相似性。参考图2，假定雌株A与雄株B是针对预测种群的两个近交亲本，并且雌株C与雄株D是针对参比种群的两个亲本。可以计算雌株A与C之间的遗传相似性S_AC（在一些实施方案中，是在A与C之间的基因组中的整个基因座中共享的等位基因比例）。还可以将雄株B与D之间的遗传相似性计算为S_BD。可以将预测种群与参比种群之间的遗传相似性表示为S_AC与S_BD的平均值（即，S₁=0.5×(S_AC+S_BD)）。同样，基于用来产生这两个种群的雌株与雄株的不同组合，可以将该遗传相似性表示为S₂=0.5×(S_AD+S_BC)。在一些实施方案中，这两个种群之间的遗传相似性被定义为S₁与S₂之间的最大遗传相似性（即，S=Max(S₁,S₂)）。

在一些实施方案中，显示了足够高的遗传相似性（包括但不限于至少0.70、0.75、0.80、0.85、0.90、0.95、0.97、0.98、0.99；即，所有大于0.70的值）的种群被选择为针对给定的预测种群的参比种群。在一些实施方案中，与基于QTL的预测相比较，超过0.80的遗传相似性可以提供增加的预测准确度（在一些实施方案中，测量为种群中的子代的预测的与观察到的表型之间的相关系数。）（参见图3）。然而，应当理解的是，该预测准确度可以相对于预测种群和参比种群的不同性状和/或遗传背景而变化。

通过举例而非限制，对玉米水分（玉米最重要的性状之一）的预测进行了检验，以解释遗传相似性与预测准确度之间的关系。如在下文的实例1中详细陈述的，确定大于0.80的遗传相似性（即，相对于选择的基因标记的80%的遗传相似性）可以用来获得大于0.40的预测准确度。

II.A.2.估算来自参比种群的每个标记的效应

在PUP1中，在此将参比种群定义为衍生自两个近交亲本的一个分离种群如F_n世代（其中在一些实施方案中n=2、3、4、5或6并且在一些实施方案中其中该F_n世代由F₁个体的迭代自交（iterative selfing）产生）、一个重组近交系（RIL）或双单倍体（DH）。从该参比种群中可以获得至少两种类型的数据：(i)针对一个或多个感兴趣的性状的、来自多个（例如，至少25、50、100、150、200、250或更多个）子代的表型数据；以及(ii)在一些实施方案中基本上遍及整个基因组的标记的基因型数据。在一些实施方案中，该表型数据来自在不同生长条件下生长的个体，例如但不限于生长在多个不同位置（例如，至少2、3、4、5或更多的位置），这些个体可以提供更好的标记效应的估算，条件是可获得足够的表型信息。

另外，在一些实施方案中，这些标记是均匀地分布和/或数量充分的，以便覆盖该参比种群植物的整个基因组或基本上整个基因组。例如，在每一个染色体上的相邻标记之间的平均间隔是在一些实施方案中小于10cM，在一些实施方案中小于5cM，在一些实施方案中小于4cM，在一些实施方案中小于3cM，在又另一个实施方案中小于2cM并且在一些实施方案中小于1cM。通过该参比种群的遗传连锁图可以获得这些标记的覆盖信息。在一些实施方案中，由于这些QTL与这些标记之间的强的连锁不平衡，通过这些标记捕获与感兴趣的性状相关联的大多数或所有QTL。

通过举例而非限制，用在该参比种群和预测种群中的这些标记的基因型可以通过使用以下示例性的规则进行编码：(i)如果在一个给定的基因座上存在两个不同的等位基因α与β，在每一个基因座上具有两个等位基因的二倍体植物的基因型αα被编码为0并且基因型ββ被编码为1。杂合基因型αβ和βα被编码为0.5；(ii)如果在一个给定的基因座上存在三个等位基因α、β以及γ，这些基因型αα、ββ以及γγ分别被编码为0、1以及2，并且杂合基因型αβ、βγ以及αγ分别被编码为0.5、1.5以及1。这种示例性的编码规则仅仅基于每一个等位基因的累加效应。在一些实施方案中，将显性效应从该模型中排除，因为杂合基因型在采用的大多数植物繁殖种群中构成了一个相对较小的比例。

可以使用来自参比种群的表型计算遗传方差（该遗传方差是感兴趣的性状的所有QTL的遗传变异之和）、环境方差（如由许多环境因素土壤、温度、水、肥料等等引起的）、广义遗传率（H²）（遗传方差除以遗传方差与环境方差之和的比率）；并且使用方程式（3）的模型进行每个品系的跨位置的最佳线性无偏预测（BLUP）：

y_ij=μ+G_ig_i+L_jb_j+e_ij (3)

其中y_ij是品系i在位置j处的表型（该表型是感兴趣的性状的一种可观察的特性）；μ是一种性状的表型的总平均值；G_i是代表品系i的基因型的指示变量；g_i是品系i的基因型效应，可以被考虑为QTL效应之和；L_j是指示变量，其中1指示在位置j处已经表型分型的品系并且0指示在该位置处尚未表型分型的品系；b_j是位置j处的、由水、土壤、温度和/或其他因素的差异引起的效应；并且e_ij是品系i的在位置j处的表型的残差，遵循e_ij~N(0,σ_e ²)，在此假定将gi被考虑为遵循g_i~N(0,σ_g ²)的随机效应并且b_j是固定效应。可以通过约束最大似然估计（REML；亨德森（Henderson），1975）来估算遗传方差σ_g ²和环境方差σ_e ²，并且将遗传率估算为H²=σ_g ²/(σ_g ²+σ_e ²/L)，其中L是用于表型分型的位置的数目。在该模型中，参数g_i可以通过由亨德森（Henderson），1975开发的BLUP程序来计算，并且在以下模型中将每个品系的BLUP用作表型。

在一些实施方案中，基于来自一个参比种群的表型BLUP以及标记基因型数据，使用岭回归-最佳线性无偏预测（RR-BLUP）、贝叶斯定理A或贝叶斯定理B（麦威森（Meuwissen）等人，2001）来估算每个标记的效应。在本披露主题的一些实施方案中，使用RR-BLUP来估算标记效应。用于RR-BLUP的线性模型是：

y_{i} = μ + Σ_{j = 1}^{m} (z_{ij} g_{j}) + e_{i} - - - (4)

其中y_i是品系i的表型BLUP，μ是总平均值，z_ij是针对品系i的基因型的标记j，g_j是标记j的效应，并且e_i是服从e_i~N(0,σ_e ²)分布的残差。在一些实施方案中，该表型BLUP可以是跨多个位置的一个品系的表型的平均值。由于采用了一个混合模型来计算该量值，在混合模型理论的背景下，将该量值称为表型BLUP（亨德森（Henderson），1975）。在该模型中，假定μ是固定效应并且假定g_j是服从正态分布g_j~N(0,σ_gj ²)的随机效应。还假定每个标记具有一个相等的遗传方差，该遗传方差由方程式（4a）表示：

σ_gj ²=σ_g ²/m (4a)

其中m是所使用的标记的总数（麦威森（Meuwissen）等人，2001；伯纳多&于（Bernardo&Yu），2007；詹尼克（Jannink）等人，2010）。基于该模型，针对表型y的方差-协方差矩阵V由方程式（4b）表示：

V = Σ_{j = 1}^{m} (Z_{j} Z_{j}^{T} σ_{gj}^{2}) + I_{(n \times n)} σ_{e}^{2} - - - (4 b)

其中Z_j是跨种群中的n个个体的标记j的基因型评分向量并且I_(nxn)是一个具有对角元素1和其他元素0的单位矩阵。该总平均值μ，一种固定效应，如在方程式（4c）中所提出的进行估算：

\hat{μ} = {(X^{T} V^{- 1} X)}^{- 1} X^{T} V^{- 1} y - - - (4 c)

其中X是全1的向量，并且标记j的效应可以如在方程式（4d）中所提出的进行估算。

{\hat{g}}_{j} = σ_{gj}^{2} Z_{j} V^{- 1} (y - X \hat{μ}) - - - (4 d) .

在一些实施方案中，通过适当程序化的计算机来执行方程式(4)、(4a)、(4b)、(4c)以及(4d)的一个或多个。

II.A.3.预测一个预测种群的未观察到的表型

与参比种群的情况类似，将预测种群定义为衍生自两个近交亲本的一个分离种群如一个F_n世代（其中在一些实施方案中n=2、3、4、5或6并且在一些实施方案中其中该F_n世代由F1以及后续世代个体的迭代自交产生）、一个重组近交系（RIL）、或一个双单倍体（DH）。通常，不需要指定预测的个体的数目和/或用于该分析的标记的数目。然而，在一些实施方案中，存在着用于形成一个预测种群的三条通用指南：(i)用来产生该种群的这些亲本应当选自具有不同的感兴趣的性状的品系（包括但不限于良种品系）并且不具有致死性状（killer trait）（如对植物病害的严重易感性）；(ii)在该预测种群中的子代个体的数目应当足够大（例如但不限于不少于25、50、75、100或更多个），以确保用于进一步选择的足够的遗传变异；以及(iii)在该预测种群中的基因分型的标记应当与用来将参比种群基因分型的那些一样，以通过QTL的相互作用确保直截了当的QTL与QTL的投射。

基于在此提出的估算的这些标记效应，针对该预测种群中的子代中的感兴趣的性状的表型，可以如在方程式（5）中所提出的进行估算：

{\hat{y}}_{i} = \hat{μ} + Σ_{j = 1}^{m} (z_{ij} {\hat{g}}_{j}) - - - (5)

其中是由方程式（4b）估算的效应并且z_ij是该品系i的标记j的基因型。可以看出，可以通过对该子代个体中存在的每个标记的效应进行求和来预测一个子代个体的表型。还可以看出，该预测模型是一个加性模型，其相应于用于估算在该参比种群中的标记效应的加性模型。在一些实施方案中，该预测种群可以如在方程式（5）中所提出的、通过适当程序化的计算机来计算。

II.A.4.在一个预测种群中进行选择

基于针对感兴趣的性状的预测表型，可以在一个预测种群中的作出优良子代个体（即，预期将表达所希望的表型和/或具有关于一个或多个感兴趣的性状的所希望的基因型的子代个体）的选择。通过举例而非限制，本披露方法预测个体的表型。在作出这些预测之后，选择来自这些个体的种子（经预测与该所希望的性状标准相匹配）并且仅仅使那些来自于满足这些标准的个体（即，具有高位的预测的值）的种子生长以便用于验证，由此减少或消除了验证“低值”个体的需要。

为了详尽阐述，用于选择的两个示例性的（即，非限制性的）策略如下：(i)基于总基因评分，选择前30%的子代个体；和/或（2）抛弃后30%的子代个体。第一个策略可以用于具有高遗传率的性状（例如，H²>0.5），并且第二个策略可以用于具有低遗传率的性状（例如，H²<0.5）。在实践中，应当使用哪一种策略可能取决于育种资源、遗传变异、不同育种计划的目标、和/或任何其他感兴趣的标准。

如果在选择中考虑了若干感兴趣的性状，可以使用方程式（6）针对预测种群中的子代个体来计算多性状选择指数：

I_{i} = Σ_{j = 1}^{t} [w_{j} \frac{{\hat{y}}_{i}^{j} - Min ({\hat{y}}^{j})}{Max ({\hat{y}}^{j}) - Min ({\hat{y}}^{j})}] - - - (6)

其中I_i是针对子代个体i的多性状选择指数，是针对子代的每个性状的遗传值的加权平均值；w_j是针对性状j的、范围从0至1的加权，用于测量性状j的相对重要性；

是使用方程式（5）的子代i中的性状j（j＝1,2，...,t）的预测表型；是在该预测种群中的所有子代中的性状j的预测表型的最小值；并且

是在该预测种群中的所有子代中的性状j的预测表型的最大值。在一些实施方案中，通过适当程序化的计算机针对一个子代个体进行多性状选择指数的计算。

因此，该多性状选择指数是针对一个子代的每个性状的预测表型的加权和。在一些实施方案中，在此使用的加权由育种者确定，其代表在一个特定的育种计划中的一个性状的相对重要性。例如，假定考虑了三个性状，那么针对性状1、2以及3的加权分别是0.2、0.3以及0.5。注意这些加权之和等于1。从育种的角度看，这些加权代表每个性状的相对重要性，并且这样可以被使用者定义。在这种情况下，性状3在总的多性状指数中具有50%的贡献，并且可以将其看作是这三个性状之中最重要的性状。

II.B.PUP2：使用全基因组分子标记预测来自一个选择的参比网络种群中的一个种群中的未观察到的表型

作为PUP1的一个替代方案，其中该参比种群由单个双亲本杂交产生，PUP2被开发成使用一个网络种群来改进预测（参见图4）。如在此定义的，一个“网络种群”是一组具有共享的和/或重叠的亲本的双亲本种群。参考图4并且通过举例而非限制，一种用于对表型未知的（即，预测的）种群个体的感兴趣的性状的表型进行预测的方法可以包括使用如在此定义的模型1或模型2选择一个参比网络种群，该方法使用单个双亲本参比种群（例如，衍生自近交亲本A与近交亲本B杂交的F₄种群），对于该参比种群而言，关于感兴趣的性状的基因型数据和表型数据都是已知的或可知的（即，已知为先验的或可以被确定的）。

在模型1中，通过使近交亲本A和B与近交亲本C和D的每一个杂交，产生了四个种群（种群1、种群2、种群3以及种群4）。在模型2中，通过使近交亲本C、D、E以及G的每一个与其他近交种群（即，C x D.C x E.C x G,D,xE,D x G以及E x G）杂交，产生了六个种群（种群1、种群2、种群3、种群4、种群5以及种群6）。在每个模型中，选择的参比网络种群具有可获得的表型数据和基因型数据两者。

继续参考图4，然后可以将参考种群就感兴趣的性状用于估算每个标记的效应，并且然后可以将每个这样的标记的标记效应用于预测衍生自近交亲本A与近交亲本B杂交的F₄种群后代的未观察到的表型和/或育种值，对于F₄种群子代而言，仅仅基因型数据是可获得的。在一些实施方案中，然后可以在下一轮的选择之前，选择前20%至30%的育种值（即，“优良子代”）。

在此披露了一种使用标记信息组装一个网络种群的简约法。在一些实施方案中，采用三个步骤来准备用于构建一个网络的遗传数据：(i)进行亲本选择并将其用于一个网络；(ii)使用一组分子标记对亲本进行基因分型（亲本筛选）；并且(iii)使用在II.A.1部分所述的方法，计算在亲本i与j之间的配对遗传相似性S_ij。

作为举例而非限制，可以如以下步骤构建一个网络种群。在一些实施方案中，一个网络种群的生成开始于选择多个亲本，它们共同显示显著的遗传分化。如在此使用的，短语“显著的遗传分化”表示在该多个亲本之中总的遗传相似性在一些实施方案中小于0.70，在一些实施方案中小于0.65，在一些实施方案中小于0.60，在一些实施方案中小于0.55，在一些实施方案中小于0.50，在一些实施方案中小于0.45，在一些实施方案中小于0.40，在一些实施方案中小于0.35，在一些实施方案中小于0.30，在一些实施方案中小于0.25，在一些实施方案中小于0.20，在一些实施方案中小于0.15，在一些实施方案中小于0.10，并且在一些实施方案中小于0.05。使该多个近交亲本的显示了低的遗传相似性的两个（任意地指定为“P₁”以及“P₂”）（在一些实施方案中，来自该多个近交亲本的至少遗传上一致的那两个近交亲本）杂交。然后从其余的亲本中选择显示了与P₁和P₂较低的遗传相似性的一个第三亲本（任意地指定为“P₃”）并且将其作为与P₁或P₂的杂交体添加到该网络中。然后重复该过程直到达到一个所希望数量的杂交（在一些实施方案中，针对该多个近交亲本的所有或几乎所有可能的杂交，在又另外的实施方案中包括该多个近交亲本的一个、一些或所有的正反交）。

在此所述的该PUP2方法的基本假定是来自在一个网络之内的所有种群的遗传变异可以通过使用显示了长的遗传距离的亲本进行杂交而被最大化。另一个可能在植物育种中影响杂交进行的因素是该感兴趣的性状。通常，育种者倾向于使来自针对该感兴趣的性状的显示了相异表型的两个亲本杂交。因此，用于构建一个网络的示例性的方法可以结合来自这些亲本的标记和性状信息。

在一些实施方案中，被引入到一个网络参比种群中的等位基因比引入到单个双亲本参比种群中的等位基因更多。在PUP1中，在每个参比种群中仅有两个等位基因。一个来自母本，而另一个来自父本。当使用一个网络种群时，在给定基因座处的等位基因的数量可以通过采用在该给定基因座处具有多个（例如，超过2个）等位基因的多个亲本而增加，从而产生该网络种群。这可以确保在该参比种群中存在足够的等位基因，以便反映在给定的预测种群中存在的所有或基本上所有等位基因。

II.B.1.针对一个给定的预测种群选择一个参比网络种群

对于一个给定的预测种群，一个参比网络种群可以选自一个网络种群数据库（定义为先前测试的网络种群的集合，针对这些网络种群的表型和基因型数据是可获得的或可以产生的）。在一些实施方案中，使用同一组标记将网络种群和预测种群进行基因分型。

基于该PUP2的方法，并且进一步基于用于选择参比种群的不同策略，已经开发了两个基本的实施方案。在模型1中，选择了一个参比网络种群（例如，来自一个网络种群数据库），使得用来产生该预测种群的这两个亲本被包含在该参比网络种群中。在模型2中，选择了一个参比网络种群，使得在该预测种群的这些亲本与用来产生该参比网络种群的亲本的两个之间的遗传相似性均高于一个最小截断值（例如，用来产生该预测种群的每一个亲本与用来产生该参比网络种群的亲本之一具有大于0.80的遗传相似性）。这样，模型1可以考虑为模型2的一种特殊情况。

如在图5中举例说明的，基于亲本标记筛选数据，在一些实施方案中，可以计算出在PUP2的模型2中使用的遗传相似性。如在图5中描绘的、在代表性的实施方案中显示的，假定A与B是用来产生一个预测种群的两个近交亲本，并且C、D、E以及G是用来产生参比网络种群的四个亲本。可以计算在该预测种群中的一个亲本与该参比网络种群中的一个亲本之间的配对遗传相似性，在一些实施方案中，该遗传相似性是跨基因组中所有基因座（在一些实施方案中，所有测定的基因座）的共享等位基因的比例。然后，可以选择显示了最高遗传相似性的一对亲本[Max(S_AE,S_AG,S_AC,S_AD)]。在此之后，可以将该预测种群的另一个亲本B与该参比网络种群中除了与亲本A展示出最高遗传相似性（例如，D）的那一个之外的每一个亲本进行比较，并且可以将Max(S_BE,S_BG,S_BC)用作B与该网络中的其余亲本之间的遗传相似性的一个量度。将D排除在外的一个原因是，一个预测的双亲本种群与一个参比网络种群之间的遗传相似性被定义为在四个不同亲本之间的遗传相似性，其中两个亲本来自该预测种群并且另外两个亲本来自该网络种群。因此可以将D排除，使得可以鉴定来自该网络中的其余三个亲本的、除D之外的、与B具有最近的遗传相似性的另一个亲本。最后，该预测种群与该参比网络种群之间的遗传相似性可以被测量为S=0.5×[Max(S_AE,S_AG,S_AC,S_AD)+Max(S_BE,S_BG,S_BC)]。

在一些实施方案中，该网络种群被选择为具有一个或多个以下特性：(i)在一个网络之内针对这些亚群的靠近的成熟度；(ii)针对表型分型的相同的位置；以及(iii)一个结合来自不同亚群的标记数据的共有连锁图谱。在一些实施方案中，该网络种群同时具有上述的每一个特性。

II.B.2.估算来自一个参比网络种群的每个标记的效应

基于来自一个参比种群的表型BLUP以及标记基因型数据，使用岭回归-最佳线性无偏预测（RR-BLUP）可以估算每个标记的效应。用于RR-BLUP的一个示例性的线性模型是：

y_{ik} = μ + x_{k} b_{k} + Σ_{j = 1}^{m} (z_{ikj} g_{j}) + e_{ik} - - - (7)

其中y_ik是该种群k中的子代i的表型的BLUP评分，是基于多位置性状表型数据，使用模型3，通过REML来计算的；μ是针对所有子代的表型的总平均值；x_k是一个指示变量，其中1表示来自该种群k的品系并且0表示不是来自该种群k的品系；b_k是该种群k的效应，其被定义为该该种群结构朝向该感兴趣的表型性状的贡献；z_ikj是使用在上文的II.A.1部分所提出的编码规则针对该种群k中的子代i编码的标记j的基因型评分；g_j是在所有这些种群中的标记j的遗传效应；并且e_ik是该解释该模型中的标记和种群效应之后的残差项，假定其服从e_ik~N(0,σ_e ²)。在该模型中，假定μ和b_k是固定效应并且假定g_j是服从正态分布g_i~N(0,σ_gi ²)的一个随机效应。还假定每个标记具有相等的遗传方差σ_gi ²=σ_g ²/m，其中m是标记的总数。

II.B.3.预测一个预测种群的未观察到的表型

类似于PUP1，在一个预测育种种群中的子代的表型可以使用在上文中的方程式（5）进行预测。

II.B.4.在一个预测种群中进行选择

如在上文所提出的，相对于用于进一步分析的PUP1方法（例如但不限于田间试验），可以选择就单个性状或多个性状而言的优良子代。

II.C.PUP3：预测来自一个连锁不平衡组（包括该预测种群的这些亲本）中的子代的未观察到的表型（参见图6）

虽然使用PUP2相关的基于QTL的预测或基于PUP1的预测可以提高准确度，从数量遗传学和植物育种的角度来看，可以使用本披露主题的第三个实施方案获得进一步的改进。不同于基于传统的繁殖种群的PUP1和PUP2，PUP3采用连锁不平衡（LD）组作为一个参比种群。

如在此使用的，短语“LD组”是指包含多个近交种质的个体种质的集合。在一些实施方案中，该LD组包含来自至少2、3、4、5、6、7、8、9、10或者更多个，包括但不限于至少25、50、75、100或者甚至几百个近交亲本的种质。与PUP1和PUP2相比较（其中需要特定杂交以产生繁殖种群），基于短期内的种质贮存，一个LD组可以被简单地装配。

一个示例性的LD组包含尽可能多的遗传多样性，这有益于解决一个或多个基因的复杂性状变异（杨等人（Yang），2010）。在PUP3中，一个LD组以这样的方式构成，使得包含在该组中的这些品系应当解释为比该种质的预设的最小遗传变异更高（例如，70、75、80、85、90、85或更高的遗传变异）。在一些实施方案中，PUP3提供了胜过PUP2的优点，因为存在于LD组中的这些等位基因的多样性常常高于存在于PUP2中所采用的网络种群中的那些。

在一些实施方案中，将高密度标记用来捕获在QTL和标记之间的LD。这是归因于由历史重组引起的LD衰变。与在PUP1和PUP2中典型使用的该几百个标记相比较，由于在PUP1和PUP2种群中的标记与QTL之间的强的连锁不平衡，在PUP3中采用的标记的数量可能是非常大的，这是由于该连锁不平衡衰变归因于在PUP3品系之中的历史重组并且因此需要更多的标记以确保在QTL与标记之间的连锁不平衡的捕获。通过举例而非限制，10,000、25,000,50,000、100,000、250,000、500,000或者甚至1,000,000个SNP标记或更多可以被用在该PUP3实施方案中（例如，用于玉米和大豆的基因发现）。随着第二代以及其他先进的DNA测序技术的发展，就越来越多的标记的个体的基因分型而言不再局限于LD分析的实践应用。

预测一个品系的表型的能力可以通过使用基因组预测而改进（麦威森（Meuwissen）等人，2001；麦威森&戈达德（Meuwissen&Goddard），2010）。在基因组预测中，遍及基因组的所有可测定的标记可以被包含在一个用于预测品系的表型的模型中。与MAS相比，使用基因组预测的模拟研究显示了遗传增益的显著增加（麦威森（Meuwissen）等人，2001；伯纳多&于（Bernardo&Yu），2007；詹尼克（Jannink）等人，2010），并且来自基于动物与植物育种中的实验衍生数据的交叉验证的研究结果进一步证明并证实了基因组预测的优点（海耶斯（Hayes）等人，2009）。

然而，迄今为止的研究集中在来自动物中的LD组的基因型数据和表型数据上，并且在高密度标记基因分型中需要非常复杂的工作。在另一方面，PUP3是一种用于将LD组研究与大量的双亲本繁殖种群结合的通用方法（例如，F₄、RIL和/或DH种群；参见图6）。

广义上来看，在图6中描绘的PUP3的广义育种方案包括四个基本的步骤，这些基本步骤类似于在PUP1和PUP2中使用的那些，但是在两个方面不同。第一个不同涉及用于将全基因组标记（在一些实施方案中，至少大约1,000,000个标记，包括但不限于SNP标记）过滤为信息性的“核心”标记的相对小的子集（在一些实施方案中，大约5,000个信息性的核心标记）的一个操作，其中核心标记的子集在难度、时间和/或测定大量的全基因组标记的花费以及在较少的标记被采用时的预测准确度水平的降低之间提供了一种可接受的平衡。第二个不同涉及芯片的开发，该芯片包含这些核心标记并且可以使用该芯片用以对一些、大多数或所有有关的双亲本种群进行基因分型。在此更详细描述了PUP3的这两个方面，虽然应当理解的是，使用上文中所述的相应的PUP1或PUP2的策略可以实施PUP3的其他方面。

在一些实施方案中，并非所有的标记（例如，SNPs）或者序列信息都同时用在一个模型中。如在上文所论述的，可以获得来自超过常规的MAS的基因组预测的增益，因为所有与感兴趣的性状相关联的QTL都可以被包括在该模型中。然而，这并不意味着当使用更多的标记时，必然会增加预测的准确度。事实上，在一个模型中包含太多的标记可能导致增加的噪音引入该模型，尤其是当使用RR-BLUP方法时（参见麦威森&戈达德（Meuwissen&Goddard），2010）。为了在增加的覆盖度与增加的噪音之间找到一个适当的平衡，可以使用一种标记过滤操作（即，用于将所有可用的标记的子集用作一个取代物而不是使用所有可用的标记本身）。

在一些实施方案中，可以用一种简单的方法将来自一个所有可能的标记的初始种群的标记（在一些实施方案中，一个全基因组标记集可以包括100,000、500,000、1,000,000、2,000,000、3,000,000或更多的标记，这取决于，例如基因组的大小以及所希望的标记之间的平均遗传间隔）过滤降至一个核心标记的信息子集（在一些实施方案中，一个子集包括几百至几千个核心标记）。

例如，可以使用一种单标记回归的方法，其中针对一个标记通过在基因型上的表型回归获得t统计值（刘（Liu），1998）。在一些实施方案中，该方法包括t检验、ANOVA或单回归。t检验以及ANOVA集中在检验标记基因型类别的表型方法之间的差异上，而单回归提供了标记效应的一种估算。在一个标记处，根据基因型标记以及这些组用以比较的表型的方法，可以将所有这些预测的个体拆分为相异的组。在一些实施方案中，可以采用具有高于预定的显著性水平（包括但不限于0.001、0.005、0.01或0.05)的p值的标记。如可能预期的，选择的标记的数量可以随着选择的显著性水平而变化。然而，通常没有办法知道一个先验，该先验特定的显著性水平将提供最佳（即，最准确的）预测。

因此，在此披露了一个解决该问题的方法。通过举例而非限制，可以创建一组如图7中所示例的顺序的显著性水平（例如，a=1.0、0.50、0.30、0.20、0.10、0.05、0.01、0.005、0.001、0.0005、0.0001等等）。当a=1.00时，使用所有可能的标记。当在该水平上没有显著性的标记鉴定时，确定最严谨的显著性水平（即，在该水平上没有假阳性产生的水平）。在一些实施方案中，QTL鉴定停止在这个点。对于一个给定的水平-例如，当a=0.05时-基于针对在表型与标记基因型评分之间的个体关联的的t检验，使用单标记回归鉴定QTL标记。将显示来自t检验的p值小于a=0.05的标记鉴定为QTL。

在下文中，整体样本被定义为具有由单标记回归鉴定的标记的表型和基因型数据的所有品系的一个组。在每一个重复之内，将该整体样本随机拆分为两个次级样本：一个由这些品系的一个部分组成的训练样本（例如，整体样本中60%的品系）以及一个由这些品系的其余部分组成的验证样本（例如，余下的40%）。使用如在II.A.2.部分所述的RR-BLUP，针对一个训练数据集，可以估算这些标记的效应，并且然后如在II.A.3.部分所述的将其用来预测在一个验证样本中的一个品系的表型。可以将该预测的准确度表示为在该验证样本中的预测表型与真实表型之间的相关系数。所得的准确度是进行的所有重复的预测准确度的平均值，并且记录用于使用单标记回归进行的QTL鉴定的显著性水平。然后针对所有顺序的显著性水平重复该过程并且记录所有针对每一个水平所获得的准确度。在此之后，可以绘制出准确度相对于显著性水平的曲线，并且在一些实施方案中，相应于最高准确度的该显著性水平可以被选择为一个用于预测的适当的水平（参见图7，为一个代表性的实例）。

例如并且参考图7中所绘制的曲线，在该实例中，可以采用a=0.05（在该实例中相应于3000个SNP）作为一个选择的水平，用来向前移动，或者可以采用a=5x10^-4（对应1000个SNP）作为一个选择的水平，用来向前移动。此后，在选择的水平处，使用单标记回归来鉴定所有显著性标记，并且仅仅那些用作核心标记集的标记被用于将来的预测。在实践中，可以基于该核心标记集构建一个标记集。可以使用上文更详细描述的RR-BLUP方法来估算这些标记的效应。然后可以将这些效应用于双亲本繁殖种群中的基因组预测。

PUP3的下一个方面是使用一个包含这些核心标记（如在下文所述经鉴定的）的芯片对繁殖种群进行基因分型。预期包含在一个芯片中的核心标记的数量将典型地是至少大约1000并且在一些实施方案中多达5000或更多。与具有50,000或更多SNP的芯片相比，该核心标记集芯片可以节约基因分型的成本。另外，通过从这些芯片中移除（或者，在一些实施方案中，不包含在这些芯片上）那些与该感兴趣的性状不具有可鉴定的关联的标记，可以降低用于数据分析所需的时间。这样，基于由这样的核心标记芯片的使用得到的基因型数据，可以预测在一个预测种群中的子代的表型。

实例

以下实例提供了多个说明性实施方案。根据本披露以及本领域中一般水平的技能，普通技术人员应当理解以下实例仅仅旨在是示例性的并且可以采用不离开本披露的主题的范围的许多改变、修改和变更。

实例1

示例性的PUP1实施方式

仅基于标记基因型数据，采用PUP1方法来预测在预测种群中的表型。使用的参比种群是衍生自两个亲本A与B的F₄种群，而测试种群也是衍生自两个亲本A与C的F₄种群。通过使初始亲本杂交以产生F₁，使F₁自交以产生F₂，使F₂自交以产生F₃，并且使F₃自交以产生F₄种群，从而产生各个F₄种群。两个F₄种群具有共同的亲本A，所以通过检查不同的亲本B与C来确定这两个种群之间的遗传相似性。已经发现在参比种群与预测种群之间的遗传相似性是0.78。

首先，就籽粒水分而言，对存在于遍及10条玉米染色体上的基因座处的一系列标记的效应进行了估算。这些标记的位置以及所估算的标记效应呈现在表1中。

表1

在参比种群中估算的标记效应

染色体	标记名称	标记位置(cM)	估算的标记效应
				1	SM0095C	6.9	0.03
1	SM0208B	47.5	-0.03
				1	SM1099B	49.3	-0.01
1	SM0687C	60.2	0.04
				2	SM0372B	31.6	-0.07
2	SM0064A	52.2	-0.02
				2	SM0070C	54.4	-0.05
2	SM0616A	63.3	-0.05
				2	SM0040B	66.3	-0.07
2	SM0516A	67.7	-0.06
				2	SM0410D	89.7	-0.04

2	SM0370A	90.2	0.01
				2	SM1095A	91.8	0.01
2	SM0289B	96.4	-0.01
				2	SM1100A	98.6	0.08
2	SM0588B	109.0	0.07
				2	SM0357A	126.2	0.04
3	SM0646D	51.0	-0.09
				3	SM0314B	93.2	0.04
3	SM0967A	101.4	0.04
				3	SM0005B	106.7	0.07
3	SM0364B	113.1	0.06
				3	SM0668H	114.5	0.01
3	SM0543A	121.3	-0.08
				4	SM0236A	48.5	-0.11
4	SM0239A	65.3	0.04
				4	SM0274A	72.9	-0.04
4	SM0425A	100.2	-0.02
				4	SM0258B	102.0	-0.03
5	SM0269B	27.1	0.05
				5	SM0493B	73.8	-0.03
5	SM0105C	74.0	0.02
				5	SM0648A	80.1	0.01
5	SM0108C	82.5	-0.01
				5	SM0632H	86.3	0.05
5	SM0205B	91.7	0.02
				5	SM0803D	96.8	-0.07
5	SM0987C	105.0	-0.01
				6	SM0156B	37.2	-0.02
6	SM0940E	85.6	-0.02
				6	SM0939C	88.2	0.01
7	SM0368A	0.0	-0.01
				7	SM0359F	28.1	-0.03
7	SM0093B	38.5	-0.03
				7	SM0014F	39.5	-0.07
7	SM0912D	63.8	0.01
				7	SM0167B	64.6	-0.04
7	SM0074D	82.8	0.04
				7	SM0139B	101.3	0.02
7	SM0128E	103.9	-0.02
				8	SM0246B	0.0	-0.03
8	SM0300B	0.8	-0.02
				8	SM0727B	7.1	0.02
8	SM1080D	15.3	0.03
				8	SM0712B	16.7	-0.02
8	SM0826B	19.1	-0.01
				8	SM0248D	28.3	0.07

8	SM0036B	43.0	0.10
				8	SM0271A	65.5	-0.02
8	SM0464D	66.2	0.05
				8	SM0538A	99.3	0.04
8	SM0596E	105.9	-0.07
				8	SM0528B	107.6	-0.09
8	SM0780C	110.0	0.01
				9	SM0847C	23.6	-0.01
9	SM0469A	25.9	-0.01
				10	SM0913B	16.7	0.02
10	SM0804F	19.7	0.06
				10	SM0474B	25.0	0.02
10	SM1019B	56.0	-0.08
				10	SM0478A	58.5	-0.11
10	SM0954B	76.9	-0.06
				10	SM0953C	77.8	0.00
10	SM0898A	78.6	-0.07

在该参比种群中，有45个个体，并且将这些个体的表型分型为五个不同的生长位置。使用上述的SNP标记对每一个个体进行基因分型，并且将计算的每个SNP的效应列于表1中。这些估算值是使用方程式(4)、(4a)、(4b)、(4c)以及(4d)计算的。

然后，基于使用方程式（5）的标记基因型数据，确定关于预测种群中的这些个体的玉米籽粒水分的表型。该预测种群包含102个个体，使用108个SNP标记将它们的每一个进行基因分型。在这些标记中，有27个标记未在参比种群中显示出分离，并且由此未产生对这些标记效应的估算（见表2）。基于在该参比种群中估算出其效应的其余标记，计算在该预测种群中的每一个个体的表型。表3概述了在该预测种群中的102个个体的预测籽粒水分。

表2

预测种群中的标记信息

“-”表示这些标记未在参比种群中显示出分离，并且因此不可能对该标记效应进行估算。

为了评估使用PUP1预测的准确度，收集应用于该参比种群跨相同位置的籽粒水分数据（见表3）。将预测准确度表示为在预测的与观察到的表型之间的相关系数。该预测准确度是R=0.33（见图8）。

表3

预测种群中的预测的和测量的籽粒水分

实例2

基于PUP1与QTL的预测的比较

在玉米QTL作图以及MAS计划中（参见，下面的表10、11以及12），基于来自九（9）个参比种群的78个双亲本F₄种群的实际数据，将PUP1在预测种群中预测表型的能力与常规的基于QTL的预测进行比较。该感兴趣的性状是玉米水分，玉米水分是玉米育种中最重要的性状之一。基于QTL的预测包括两个步骤：(i)在一个参比种群中，基于从5000排列估算的经验LOD阈值，使用具有由前向选择所选的五个辅因子的、基于标记的复合间隔作图（曾（Zeng），1994）来鉴定QTL标记（丘吉尔&道奇（Churchill&Doerge），1994）；并且(ii)使用多重回归来估算鉴定的那些QTL标记的效应并且基于该个体的基因型，通过对鉴定的这些QTL标记的效应进行求和，将其用来预测在一个预测种群中的一个个体的表型。用于PUP1的预测方法是在上文II.A.部分所述的方法。在PUP1与基于QTL的预测之间的初步比较中，未考虑遗传相似性对预测准确度的影响。

针对来自九个标记辅助育种计划的78个F₄种群建立了该比较（参见表10-12；在下文更详细地论述了关于PUP2中的网络种群的用途）。出于这些比较的目的，使用7个亲本来产生6个双亲本亚群从而建立了一个网络种群，所有亚群就同一组分子标记进行基因分型。将每一个亚群作为一个预测种群进行处理，并且进而通过其余的种群的每一个进行预测。例如，在网络9中有六（6）个亚群（参见表12以及图9）。为了预测亚群1的表型，将亚群2、3、4、5以及6（参见图9）用作五个不同的为此目的的参比种群。同样，将亚群1以及3-6用作参比种群来预测亚群1，将亚群1、2以及4-6用作参比种群来预测亚群3，将亚群1-3、5以及6用作参比种群来预测亚群4，等等。

该计划包括六个双亲本种群（网络种群9、亚群1-6，参见表12）。总共地，采用七个不同的亲本来产生六个双亲本种群，并且这些亚群是通过一个共同的亲本互相连接的（表12中的049）。通过使用1200个基因座标记对这些亲本进行基因分型来确定针对每一个种群的多态性基因座标记的数量并且将232个在这些亲本中分离的标记用于基因分型。多态性标记的实际数量从种群到种群不同（参见下面的表12）。典型地，该232个分离的基因座的每一个由1至5个SNP确定，并且一个给定个体的基因座的基因型由这些存在于每一个基因座上的表达为单体型的SNP的组合来表示。使用在上文所述的方法对一个基因座的基因型进行编码。每个双亲本种群包括衍生自两个近交亲本的多个F₄后代，将其进行基因分型并且然后与一个测交系测交。

基于跨五个位置上的F₄子代个体的杂种，获得关于籽粒水分的表型评分。然后使用方程式（3）的混合模型来分析这些表型，并且将每一个子代个体的BLUP用于以后的预测分析。

仅仅基于使用另外五个个体种群作为个体的参比种群确定的基因型，就表型而言对每个个体种群以实验的方式进行预测。在这些初步实验中，遗传相似性不用于控制针对给定的预测种群的参比网络种群的选择。使用类似于复合区间作图法（CIM）的程序，将基于QTL的预测用来首先鉴定显著性QTL标记，并且然后通过每个参比种群中的多重回归来计算这些标记的效应。在PUP1中，基于一个参比种群，使用RR-BLUP（麦威森（Meuwissen）等人，2001）来计算基因组上的每个标记的效应。

图9还显示了相比于使用针对网络中的六个亚群的基于QTL的预测，使用PUP1的预测更准确。归因于PUP1的预测准确度的增加程度随着预测种群和参比种群而变化。针对其他网络种群显示了这种趋势的类型，表明PUP1产生了比基于QTL的方法更高的预测能力。

图10显示了在该预测种群与参比种群之间的预测准确度与遗传相似性之间的关系。在上文的II.A.1部分提出了在PUP1中用于计算遗传相似性的方法。确切地说，基于来自这些亲本（用来产生该预测种群与参比种群）的标记基因型，计算了在预测种群与参比种群之间的遗传相似性。将预测准确度表示为在预测的与观察到的表型之间的相关系数。理论上，在一个用作参比种群（由n个亚群组成）的网络种群中，使用PUP1有[nx(n-1)]x0.5的可能的预测，因为每个种群可以由另一个n–1亚群的个体被预测（n–1）次，这样就组成了该参比网络种群。

因此，针对在表10-12中列出的九个网络，对于基于QTL或PUP1的预测存在347次预测。参比种群与预测种群之间的遗传相似性还可以与每个种群的预测一起进行计算。在表10的网络1中，将亚群1用作一个参比种群来预测亚群4。为了这样做，首先计算在亚群1与4之间的遗传相似性。确定了用来产生这两个亚群的四个亲本的标记基因型（即，针对亚群1的亲本001和002以及针对亚群4的亲本003和004）。使用同一组标记对这些亲本进行基因分型，并且确定总计1200个检查的标记中的总计263个标记被鉴定为用于基因分型的多态性标记。

首先检查了亲本003（被用来产生预测的亚群4的亲本之一）。使用这263个标记将参比种群1的亲本003与亲本001和亲本002之间的遗传相似性确定为S_003-001=0.76以及S_003-002=0.65。首先选择亲本001来与003配对，因为亲本001显示了比亲本002更高的遗传相似性。将其余两个亲本004与002之间的遗传相似性S_004-001计算为S_004-002=0.69。最后，将S_003-001与S_004-002的平均数计算为亚群1与4之间的遗传相似性。遵循类似的策略，确定在表10-12的每一个网中的每一对亚群之间的遗传相似性。

结果，在图10中绘制了347对的预测以及针对基于QTL或PUP1的预测的遗传相似性，以便清楚地研究它们跨九个网络之间的关系。对于每一个网络内的每一对预测，存在着一个预测种群和一个参比种群。首先，从该参比种群中估算了QTL或标记的效应，并且然后使用仅基于该预测种群的成员的基因型的估算效应，计算预测种群的成员的预测表型。随后，计算来自该预测种群的预测表型与真实表型之间的相关系数，作为预测准确度的一种测量。总体而言，针对每一对预测，产生了一个遗传相似性的值以及一个预测准确度的值。

使用类似于复合区间作图法（CIM：曾（Zeng），1994）的程序，将基于QTL的预测用来首先鉴定显著性QTL标记，并且然后通过一个参比种群中的多重回归来计算这些标记的效应。使用RR-BLUP（麦威森等人，2001）而不用鉴定参比种群中的QTL，使用PUP1来计算基因组上的每个标记的效应。使用两种方法，预测了来自九（9）个网络种群的七十八（78）个双亲本种群。图10在X轴上的0.8与1之间的阴影区域代表PUP1的集中区域，其中该遗传相似性标准大于0.80。该准确度随着针对基于PUP1和QTL的预测的遗传相似性而增加。遗传相似性越高，预测得越好。可以看出，可以使用遗传相似性的标准来确保一个预期的预测准确度。针对PUP1，选择的标准是0.8，使得由该标准选择的预测的平均准确度等于0.40，与来自基于QTL的预测的0.33相比，增加了21%（参见图3）。

图9显示了在相同的情形下，基于QTL的预测完成的比PUP1更好，这可以被解释如下。在PUP1中，典型地采用了单个参比种群。其结果是，不能提供仅存在于预测种群中的一个等位基因的效应的估算。通过举例而非限制，假定在一个参比种群中的一个QTL基因座处有两个等位基因α和β。可以计算出来自该种群的α和β的效应（例如，通过BLUP）。然后，用在相同基因座处的等位基因α和γ，将这些效应用于预测一个表型未知种群（即，一个预测种群）的表型。在这些条件下，由于等位基因γ不存在于该参比种群中，不能确定等位基因γ的效应。因此，如果等位基因γ具有与等位基因β不同的效应，这可能会导致一个使用PUP1的次最佳的预测。

实例3

PUP2的示例性实施方式

采用PUP2来预测在预测种群中的个体的表型。该参比种群是由五个F₄亚群组成的网络种群，五个F₄亚群的每一个衍生自两个近交亲本（见表4）。这5个种群之中的连接结构示于图11中。基于亲本标记筛选，在参比种群与预测种群之间的遗传相似性是0.86。

表4

在PUP2参比网络种群之内的每个亚群的概述

亚群编号	母本	父本	个体	标记	多态性标记的数目
						1	A	B	45	232	170
2	C	A	97	232	156
						3	D	A	53	232	132
4	E	A	156	232	164
						5	F	A	103	232	156

基于来自该网络参比种群的基因型数据和表型数据估算了这些标记的效应（见表5）。这些估算值是使用方程式(7)、(4a)、(4b)、(4c)以及(4d)计算的。

表5

从以上网络参比种群估算的标记效应

然后，基于使用方程式（5）的标记基因型数据，预测在该预测种群中的这些个体的表型。该种群包含102个个体，并且使用81个SNP标记对每一个个体进行基因分型。基于同一组的、从该参比种群估算出其效应的这些标记，计算了在预测种群中的每一个个体的表型（见表6）。表7概述了在该预测种群中的102个个体的预测籽粒水分。

表6

用于表型预测的标记和计算的标记效应

为了评估使用PUP2预测的准确度，收集在该参比种群中跨相同位置使用的籽粒水分数据（见表7）。将预测准确度表示为在该预测种群中的预测表型与在同一个预测种群中实际观察到的表型之间的相关系数。该预测准确度是0.56（见图12）。

表7

在预测玉米种群中的预测的以及观察到的籽粒水分

实例4

由PUP2预测的准确度

为了测试PUP2的准确度，将一个完整的网络分解为一个预测种群或测试种群（参见表10的亚群6）、以及一个包括其余种群的新的网络（即，亚群1-亚群5）。通过该新的网络对在亚群6中的子代的表型进行预测并且将预测的准确度计算为在亚群6中的预测的与观察到的表型之间的相关系数。在该网络1或该新的网络中，亲本001、002、003以及004是四个不同的近交亲本，用来产生亚群1、亚群2、亚群3、亚群4、亚群5以及亚群6（参见图13和表10）。如在图13中指出的，每个种群是一个衍生自这些列出的近交亲本的F₄种群。针对每一个种群，采用两个亲本之间的一个杂交来产生一个F₁。使F₁自交以产生一个F₂，使F₂自交以产生一个F₃。最后，通过使F₃自交以获得该F₄。通过遵循这个基本的策略，九个网络的每一个中的每个亚群通过一个新的网络进行预测，该新的网络包括该同样的网络中的其余亚群以用作参比种群。关于这些网络和种群的详细信息，如用于产生这些种群的雌株以及雄株、子代的数量以及用于网络与个体种群的标记的数量，可以很容易地在表10-12中找到。针对每一个种群，取决于网络，使用不同的一组标记，预测每一个个体关于玉米水分的表型（参见表10-12）。由于跨同一组位置将一个网络之内的个体种群中的所有子代进行表型分型，所采用的这些表型是跨多个位置的这些子代的BLUP。

为了将基于PUP2与基于QTL的预测进行比较，如在上文实例1中所述的，使用QTL来预测亚群。如在图14中所显示的，PUP2显示了比基于QTL的预测更高的预测准确度。已经确定的是，除了在两个特定的亚群中基于QTL的预测略微高于PUP2之外，归因于针对来自9个网络的78个亚群的PUP2的预测的准确度高于那些基于QTL的预测得到的准确度（参见图14）。进一步研究这两个特定的亚群并且确定存在着与玉米水分相关联的一个或两个主效QTL（large-effect QTL）。这表明由RR-BLUP捕获的这些QTL而不是这些主效QTL具有通过遗传背景相互作用的强QTL，并且这种类型的种群特异性相互作用降低了使用RR-BLUP进行预测的能力。

通常，PUP2还提供了胜过PUP1的预测准确度。已经确定，用PUP2针对来自网络9的6个亚群的预测准确度高于从PUP1中得到的那些预测准确度（参见图15）。对于PUP1，使用另外的五个种群逐一地作为参比种群，对每一个个体种群的表型以实验的方式进行了预测（即，仅基于针对这六个种群的每一个的基因型的五个预测）。将针对一个种群的预测准确度计算为跨由其他个体种群产生的五个预测的准确度的平均值。相比之下，对于PUP2，通过一个由其他五个个体种群组成的网络对一个种群进行预测（即，对该参比种群累积地而不是逐一地考虑了给出的亚群）。在PUP1和PUP2两者中，将预测的准确度测量为在一个预测种群中的预测的与观察到的表型之间的相关系数。平均起来，用PUP2的预测准确度比用PUP1的那些增加了65%。针对其他网络观察到了类似的趋势。

另外，PUP2比PUP1提供了更稳定的预测。例如，对于网9络，当在PUP1方法下通过种群2、3、4、5以及6的每一个逐一地对种群1进行预测时，该预测随着该参比种群从0.15至0.52变化。这表明，这些准确度实际上取决于参比种群的选择并且是不稳定的。如果使用一个适当的参比种群，可以实现高准确度。否则，该准确度可能非常低。相比之下，从PUP2获得了0.59的更稳定的预测。

在PUP2中，高的遗传相似性产生了更准确的预测。这对于模型1和模型2均可看出（参见图16）。对于模型1，在预测种群与参比种群之间的遗传相似性总是1.00，这是因为该预测种群的两个亲本已经包含在该参比种群中。然后选择一个0.8的经验相似性作为用来在随后的分析中选择一个参比网络种群的标准。给定该标准，由在PUP2中的模型1提供的预测的平均准确度是0.47，这代表超过基于QTL的预测（0.29，参见图17）的67%的增加。关于模型2，观察到了同样的趋势。

基于真实的数据分析，观察到在PUP2的预测准确度上超过传统的基于QTL的预测的显著增益。对此有至少两个原因。首先，PUP2被设计为在该预测系统中包含比基于QTL的预测系统更多的QTL，后者仅利用显著性QTL标记。其次，当整个基因组作为所有QTL的组合被用于选择时，还可能通过QTL的相互作用利用来自QTL的遗传变异。

PUP2超过PUP1的增益可能取决于在该参比种群中的等位基因多样性的程度。例如，将预期的是难于准确预测在一个子代中的表型，因为一个QTL等位基因不包含在一个参比种群中。相反地，预测的准确度可以随着一个网络中的等位基因的多样性而增加。这样，合理的是采用多个不同的亲本来产生网络种群，以便使其中的等位基因多样性最大化。

实例5

PUP3的示例性实施方式

用PUP3来预测一个预测种群的表型。用来估算标记效应的该参比种群是一个连锁不平衡（LD）组（即，包含多个近交种质的个体种质的集合）。该LD组包含585个玉米近交品系，并且在该LD组中的每一个品系是就大约20,000个SNP标记进行基因分型的。

使用在上文的II.C部分所述的选择方法来鉴定最佳子集的标记。已经确定可以将3000个SNP标记的信息子集用于预测。然后，使用方程式（4）、（4a）、（4b）、（4c）以及4d，基于在该LD组中产生的籽粒的基因型数据和表型数据来估算每个标记的效应，并且将针对3000个SNP标记的100个的估算显示在表8中。

表8

从玉米LD组估算的标记效应

标记编号	标记名称	标记效应	标记编号	标记名称	标记效应
						1	SX3609352	0.00	51	SX2972292	0.00
2	SX4523970	0.01	52	SX2759276	0.00
						3	SX15539566	0.00	53	SX2893920	0.01
4	SX15539603	0.02	54	SX2894279	0.00
						5	SX15542934	0.00	55	SX2894600	0.00
6	SX15542983	0.02	56	SX2830700	0.00
						7	SX15545449	0.01	57	SX2830509	0.01
8	SX15545491	0.00	58	SX2829199	0.00
						9	SX4789404	0.03	59	SX2827713	0.01
10	SX4784548	0.00	60	SX2826410	0.00
						11	SX13437169	0.03	61	SX16009902	0.02
12	SX13437171	0.00	62	SX16009959	0.01
						13	SX13437202	0.00	63	SX16010279	0.00
14	SX13437213	0.00	64	SX16011279	0.03
						15	SX13438476	0.00	65	SX5656865	0.00
16	SX4026025	0.00	66	SX5657337	0.04
						17	SX4029449	0.01	67	SX5658150	0.00
18	SX4028275	-0.02	68	SX5656232	-0.02
						19	SX4028330	-0.04	69	SX3374292	0.00
20	SX4028397	0.01	70	SX3374911	0.00
						21	SX4950655	0.01	71	SX3369008	0.00
22	SX4951069	0.00	72	SX3369056	0.01
						23	SX4951398	0.02	73	SX3369058	-0.01
24	SX4951411	0.01	74	SX5326026	0.00
						25	SX6498867	0.00	75	SX5325969	0.00
26	SX6499053	0.03	76	SX5325060	0.00
						27	SX6499093	0.00	77	SX5752872	0.01
28	SX4485579	0.03	78	SX5752858	0.02
						29	SX4486424	0.02	79	SX5752840	0.00
30	SX4486874	0.02	80	SX4686974	0.04
						31	SX4489113	0.02	81	SX4686943	0.01
32	SX4489119	0.02	82	SX4686928	0.00
						33	SX4489302	0.03	83	SX4686923	0.01
34	SX3243873	0.03	84	SX4685951	0.01
						35	SX3247177	0.03	85	SX4685922	0.04
36	SX3247218	0.03	86	SX4684871	0.02
						37	SX4855973	0.03	87	SX4684718	-0.01
38	SX4856144	0.00	88	SX2858814	0.02
						39	SX2807979	0.00	89	SX2998083	0.01
40	SX2807601	0.00	90	SX15637877	0.01
						41	SX2807341	0.00	91	SX5124222	-0.02
42	SX2807317	0.00	92	SX5124679	0.03
						43	SX2807206	0.02	93	SX5125041	0.00
44	SX2807196	0.00	94	SX2782820	0.00
						45	SX2806796	0.00	95	SX2783780	0.00

46	SX2806667	0.00	96	SX9194219	0.02
						47	SX17191575	0.00	97	SX9197494	0.00
48	SX17191581	-0.02	98	SX6055655	0.00
						49	SX17191599	0.02	99	SX6055024	0.03
50	SX2971993	-0.03	100	SX6054617	-0.01

产生了衍生自LD组的品系35与100的模拟杂交的一个模拟F₄预测种群，并且就3000个选择的SNP标记，对F₄预测种群的150个模拟基因组进行基因分型。使用方程式（5），基于基因型信息，确定了针对该预测种群的150个模拟基因组的每一个所预测的表型。参见表9。

表9

针对PUP预测种群的预测籽粒水分

实例的讨论

在此披露的这些方法被认为不同于先前披露的在植物育种方面的研究（参见，詹尼克（Jannink）等人，2010）。例如，迄今为止，仅将基因组选择应用于预测在繁殖种群内的子代（参见，例如，雷克斯&于（Rex&Yu），2007；詹尼克（Jannink）等人，2010）。相比之下，在此披露的这些方法可以采用从先前的繁殖种群和/或从不同的位置和/或生长季中确定的信息，仅仅基于基因型数据来预测在一个子代个体中的表型。这样，本披露主题提供了被认为是在植物育种领域中的基因组预测的首次申请。

在此披露的这些组合物和方法的优点包括至少以下几点。首先，它们提供了专为植物育种开发的时间与成本有效的育种策略。仅基于基因型标记数据而不需要用于对大量子代个体的表型分型所需的时间、花费、努力以及资源就可以选择优良子代，这意味着在育种计划中可以很早地进行所希望的品系和/或育种配偶体（breeding partner）的选择。

其次，在此披露的这些方法考虑了将育种资源的三种类型进行结合，从而增加遗传增益：(i)典型的双亲本种群；(ii)先进的网络种群，可以包含几个或许多双亲本种群；以及(iii)LD组，包含几个或许多当前的良种品系。

第三，根据在此披露的这些组合物和方法，更高的预测准确度是预期的，这至少部分是由于引入了一个或多个参比种群的成员中的遗传相似性和/或用来产生这些预测种群的亲本的考虑，该考虑促进了选择性地选择基于其上可以进行分析的一个或多个所希望的参比种群。因此，考虑在参比种群与预测种群之间的遗传相似性，尤其是在QTL与不同的遗传背景之间的相互作用被考虑的情况下，可以增强最终的预测。

并且最后，不是使用所有的高密度标记来预测，在一些实施方案中本披露主题涉及用于组合简单标记回归、基因组的最佳线性无偏预测以及交叉验证的方法，以便鉴定一个或多个可以产生优良预测的最佳标记的子集。最佳标记集的使用可以导致成本与时间的节约而不大幅地降低预测准确度。

参考文献

下面列出的所有参考文献、以及在即时披露中引用的所有参考文献，包括但不限于所有专利、专利申请及其出版物、科学杂志上的文章以及数据库条目（例如，

数据库条目及所有在其中可获得的注释），将其全部内容通过引用结合在此，其结合程度是它们补充、解释、提供一种针对（或传授）在此采用的方法、技术和/或组合物的背景。

Allard(1960)Principles of Plant Breeding,John Wiley&Sons,New York,New York,United States of America,pages50-98.

Altschul et al.(1990)Basic local alignment search tool.J Mol Biol215:403-410.

Altschul et al.(1997)Gapped BLAST and PSI-BLAST:A new generation ofprotein database search programs.Nucl Acids Res25:3389-3402.

Ausubel et al.(eds.)(1999)Short Protocols in Molecular BiologyWiley,NewYork,New York,United States of America.

Beavis(1997)“QTL analyses:power,precision,and accuracy,have missinggenotypes at the marker”,inMolecular Dissection of Complex Traits Paterson(ed.)CRC Press,New York,New York,United States of America.

Bernardo&Yu(2007)Prospects for genome-wide selection for quantitativetraits in maize.Crop Science47:1082-1090.

Delvin&Risch(1995)A comparison of linkage disequilibrium measures forfine-scale mapping.Genomics29:311-322.

Hayes et al.(2009)Invited review:Genomic selection in dairy cattle:Progress and challenges.Journal of Dairy Science92:433-443.

Henderson(1975)Best Linear Unbiased Estimation and Prediction under aSelection Model.Biometrics31:423-448.

Hocking(1976)The Analysis and Selection of Variables in LinearRegression.Biometrics32:1-49.

Hospital etal.(1997)More on the efficiency of marker-assisted selection.Theoretical and Applied Genetics95:1181-1189.

Jannink et al.(2010)Genomic selection in plant breeding:from theory topractice.Briefings in Functional Genomics9:166-177.

Jorde(2000)Linkage disequilibrium and the search for complex diseasegenes.Genome Res10:1435-1444.

Lande&Thompson(1990)Efficiency of marker-assisted selection in theimprovement of quantitative traits.Genetics124:743-756.

Larkin et al.(2007).Clustal W and Clustal X version2.0.Bioinformatics,23:2947-2948.

Legarra et al.(2008)Performance of genomic selection in mice.Genetics180:611-618.

Liu(1998)Statistical Genomics:Linkage,Mapping and QTL Analysis.CRCPress LLC,Boca Raton,Florida,United States of America,pages402-405.

Meuwissen et al.(2001)Prediction of total genetic value using genome-widedense marker maps.Genetics157:1819-1829.

Meuwissen&Goddard(2010)Accurate prediction of genetic values forcomplex traits by whole genome resequencing.Genetics185:623-631.

Nei(1978)Estimation of Average Heterozygosity and Genetic Distancefrom a Small Number ofIndividuals.Genetics89:583-590.

Nei&Roychoudhury(1974)Sampling variances of heterozygosity andgenetic distance.Genetics76:379-390.

Tijssen(1993)inLaboratory Techniques in Biochemistry and Molecular Biology,Elsevier,New York,New York,United States of America.

Yang et al.(2010)Genetic analysis and characterization of a new maizeassociation mapping panel for quantitative trait loci dissection.Theoretical andApplied Genetics121:417-431.

Zeng(1994)Precision Mapping of Quantitative Trait Loci.Genetics136:1457-1468.

应当理解的是，可以改变本披露主题的不同细节而不偏离本披露主题的范围。此外，前面的描述仅为了说明的目的，而不是为了限制的目的。

Claims

1.一种用于预测在一个预测种群中的植物的表型的方法，该方法包括：

(a)确定在一个基因分型的并且表型分型的参比种群中针对一种表型的多个标记的标记效应，其中该参比种群包括：

(i)一个F₂代，该F₂代是通过使两个亲本植物杂交以产生一个F₁代并且然后使F₁代互交、回交、和/或自交，和/或从F₁形成一个双单倍体而产生的；和/或

(ii)一个F₃或后续代，其中该F₃或后续代是通过使F₂代和/或一个后续代互交、回交、自交，和/或从其中产生多个双单倍体而产生的；

(b)对一个预测种群中的一株或多株植物针对该多个标记进行基因分型，其中该预测种群中的一株或多株植物中的每一个都是两个亲本的一个后代并且每一个亲本与被用来产生该参比种群的这两个亲本植物中的至少一个具有至少80%的遗传一致性；

(c)基于步骤(b)的基因分型，针对该预测种群中的一株或多株植物中的每一株对在步骤(a)中所确定的这些标记效应进行求和；并且

(d)基于来自步骤(c)的这些标记效应之和来预测在该预测种群中的一株或多株植物的一种表型。

2.如权利要求1所述的方法，其中该参比种群包括多个通过产生来自F₂代的双单倍体而产生的F₃或者后面的世代的成员。

3.如权利要求1所述的方法，其中该参比种群是一个包括多个成员的参比网络，是通过以下步骤产生的：

(i)选择多个不同的亲本品系；

(ii)使该多个不同的亲本品系杂交以产生多个F₁代；

(iii)使每个F₁代的成员互交或回交以产生多个相异的F₂代，并且任选地逐一地或顺序地使该多个相异的F₂代互交、回交、自交和/或从其产生双单倍体以产生相异的F₃代、以及任选的后续代；

(iv)汇集相异的F₂、F₃、或后续代的一些或者所有成员以产生该参比网络，其中该参比网络的每个成员的基因组源于两个不同的亲本品系。

4.如权利要求3所述的方法，其中该参比网络包括源于少于所有可能的在该多个不同的亲本品系之间的杂交的植物。

5.如权利要求4所述的方法，其中该预测种群的植物是在该多个不同的亲本品系的两个成员之间杂交的一个F₂或后续代，这些不同的亲本品系不包含在该参比网络之内。

6.如权利要求3所述的方法，其中该参比网络包括源于所有可能的在该多个不同的亲本品系之间的杂交的植物。

7.如权利要求6所述的方法，其中该预测种群的植物是在两个亲本之间杂交的一个F₂或后续代，这两个亲本中的每一个与该多个不同的亲本品系之一具有至少80%的遗传一致性，该多个不同的亲本品系被用来产生该参比网络。

8.如权利要求1所述的方法，其中该参比种群包括至少50个成员，任选地至少100个成员，任选地至少150个成员，并且进一步任选地至少200个成员。

9.如权利要求1所述的方法，其中该确定步骤包括通过岭回归-最佳线性无偏预测（RR-BLUP）来估算针对多个标记的每一个的标记效应。

10.如权利要求1所述的方法，其中该多个标记足以覆盖该参比种群的植物的基因组，使得在每一个染色体上的相邻标记之间的平均间隔小于大约10cM，任选地小于大约5cM，任选地小于大约2cM，并且进一步任选地小于大约1cM。

11.如权利要求1所述的方法，其中该参比种群的每个成员，该预测种群的一株或多株植物的每一株，或者两者都是近交植物或双单倍体。

12.如权利要求1所述的方法，其中该基因分型的步骤包括将一株或多株植物（如种子）基因分型，将从生长的一株或多株植物上获得的叶组织基因分型，或其组合。

13.如权利要求12所述的方法，进一步包括当一株或多株植物正在在温室中生长时从该一株或多株植物上分离叶组织。

14.如权利要求1所述的方法，其中通过计算在这些亲本的每一个与被用来产生该参比种群的这两个亲本植物中的至少一个之间共享的、预先选择的标记的百分比来确定在每一个亲本与被用来产生该参比种群的两个亲本植物中的至少一个之间的遗传一致性。

15.如权利要求1所述的方法，其中预测步骤(d)包括采用一个如在方程式（4）中所提出的用于岭回归-最佳线性无偏预测（RR-BLUP）的线性模型：

y_{i} = μ + Σ_{j = 1}^{m} (z_{ij} g_{j}) + e_{i} - - - (4),

其中：

(i)y_i是品系i的表型BLUP，μ是总平均值，z_ij是针对品系i的标记j的基因型，g_j是标记j的效应，并且e_i是服从e_i~N(0,σ_e ²)的残差；

σ_gj ²=σ_g ²/m (4a),

其中，m是所使用的标记的总数；

(iv)针对表型y的方差-协方差矩阵V由方程式（4b）表示：

V = Σ_{j = 1}^{m} (Z_{j} Z_{j}^{T} σ_{gj}^{2}) + I_{(n \times n)} σ_{e}^{2} - - - (4 b)

其中Z_j是跨种群中的n个个体的标记j的基因型评分向量并且I_(nxn)是一个具有对角元素1和其他元素0的单位矩阵；

\hat{μ} = {(X^{T} V^{- 1} X)}^{- 1} X^{T} V^{- 1} y - - - (4 c)

其中，X是全1的向量，并且

是标记j的效应，如在方程式（4d）中所提出的进行估算。

{\hat{g}}_{j} = σ_{gj}^{2} Z_{j} V^{- 1} (y - X \hat{μ}) - - - (4 d) .

16.如权利要求15所述的方法，其中该预测步骤(d)是由适当程序化的计算机执行的。

17.如权利要求1所述的方法，进一步包括选择被预测具有感兴趣的表型的预测种群的一株或多株植物的一株或多株。

18.如权利要求17所述的方法，其中该选择考虑了若干感兴趣的性状，并且针对该预测种群中的个体计算了多性状选择指数。

19.如权利要求18所述的方法，其中使用方程式（6）计算了在该预测种群中的子代个体的多性状选择指数：

I_{i} = Σ_{j = 1}^{t} [w_{j} \frac{{\hat{y}}_{i}^{j} - Min ({\hat{y}}^{j})}{Max ({\hat{y}}^{j}) - Min ({\hat{y}}^{j})}] - - - (6)

并且进一步地，其中：

(i)I_i是针对子代i的多性状选择指数；

(iii)

是在子代中的性状j（j＝1,2，…,t）的预测表型；

(iv)

(v)

是在预测种群中的所有子代中的性状j的预测表型的最大值。

20.如权利要求19所述的方法，其中该多性状选择指数计算是由适当程序化的计算机执行的。

21.如权利要求16所述的方法，进一步包括在组织培养中或者通过种植使被预测具有感兴趣的表型的预测种群的一株或多株植物的一株或多株生长。

22.一种用于预测在一个预测种群中的植物的表型的方法，该方法包括：

(a)确定在基因分型以及表型分型的参比种群中针对多个标记的标记效应，其中该参比种群包括一个连锁不平衡（LD）组；

(b)将该预测种群的一株或多株植物针对多个标记进行基因分型，其中该预测种群的一株或多株植物中的每一株是两个亲本的一个后代，每一个亲本具有与该参比种群的一个成员至少80%的遗传一致性；

(c)基于步骤(b)中的基因分型，针对该预测种群的一株或多株植物的每一株对标记效应进行求和；

(d)基于步骤(c)中的标记效应之和，预测该预测种群的一株或多株植物的表型。

23.如权利要求22所述的方法，其中该预测种群的一株或多株植物的每一株是通过使参比种群的两个成员杂交产生的F₁代植物或者是使来自F₁代植物单或多互交、回交、自交和/或从其产生双单倍体而产生的F₂或后续代植物或者其任何后续代。

24.如权利要求22所述的方法，其中该预测种群的植物的每一个是通过使两个亲本植物杂交产生的F₁代植物，每一个亲本植物具有与该参比种群的一个成员至少80%的遗传一致性。

25.如权利要求22所述的方法，其中该参比种群包括至少50个成员，任选地至少100个成员，任选地至少150个成员，任选地至少200个成员，并且进一步任选地至少250个成员。

26.如权利要求22所述的方法，其中该确定步骤包括通过岭回归-最佳线性无偏预测（RR-BLUP）来计算针对多个标记的每一个的标记效应。

27.如权利要求22所述的方法，其中该多个标记足以覆盖该参比种群的植物的基因组，使得在每一个染色体上的相邻标记之间的平均间隔小于大约1cM，任选地小于大约0.5cM，并且任选地小于大约0.1cM。

28.如权利要求22所述的方法，其中该参比种群的每个成员、该预测种群的一株或多株植物的每一株、或者两者都是近交植物或双单倍体。

29.如权利要求22所述的方法，进一步包括使用通过结合交叉验证、单标记回归以及RR-BLUP的方法确定的预先选择的显著性水平来鉴定一个核心集的标记，并且采用在求和步骤(c)中的该核心集的标记。

30.如权利要求22所述的方法，进一步包括选择被预测具有感兴趣的表型的预测种群的一株或多株植物的一株或多株并且在组织培养中或者通过种植使其繁殖。

31.一种用于产生具有感兴趣的表型的植物的方法，该方法包括：

(a)确定在基因分型以及表型分型的参比种群中的针对多个标记的标记效应，其中该参比种群包括：

(i)一个F₂代，该F₂代是通过将两个亲本植物杂交以产生一个F1代并且然后使该F₁代互交、回交和/或自交而产生的；和/或

(ii)一个F₃代或后续代，其中该F₃或后续代是通过使F₂代和/或后续代互交、回交和/或自交；和/或从其产生双单倍体而产生的；和/或

(iii)包括多个成员的参比网络，该参比网络通过以下产生的：

(1) 选择多个不同的亲本品系；

(2) 使该多个不同的亲本品系杂交以产生多个F₁代；

(3) 使每一个F₁代互交、回交和/或自交；和/或从F₁形成双单倍体以产生多个相异的F₂代，并且任选地逐一地或顺序地使该多个相异的F₂代互交、回交、自交和/或从其产生双单倍体以产生相异的F₃代以及任选的后续代；

(4) 汇集该相异的F₂、F₃、或后续代的一些或者所有成员以产生该参比网络，其中该参比网络的每个成员的基因组源于两个亲本品系；和/或

(iv)一个连锁不平衡（LD）组；

(b)将预测种群的一株或多株植物针对多个标记进行基因分型，其中该预测种群的一株或多株植物中的每一株是两个亲本的一个后代，每一个亲本与包括或在此被采用以产生该参比种群的两个植物中的至少一个具有至少80%的遗传一致性；

(c)基于步骤(b)中确定的基因型，针对该预测种群的一株或多株植物的每一株对标记效应进行求和，从而产生该预测种群的一株或多株植物的每一株的基因评分；

(d)基于步骤(c)中产生的基因评分，预测该预测种群的一株或多株植物的表型；

(e)基于该预测步骤，选择被预测具有感兴趣的表型的该预测种群的一株或多株植物的一株或多株，并且

(f)使所选择的该预测种群的一株或多株植物生长，

其中产生了具有感兴趣的表型的植物。

32.如权利要求31所述的方法，其中该选择步骤包括选择具有超过预先选择的阈值的基因评分的该预测种群的那些植物。

33.一种用于估算在一个第一与第二种群之间的遗传相似性的方法，该方法包括：

(a)提供一个第一与第二种群，其中：

(i)该第一种群包括作为F₂或后续世代的子代的个体，它们是通过使一个第一亲本与一个第二亲本杂交以产生一个第一F₁代，并且然后使该第一F₁代互交、回交、自交和/或从其产生双单倍体以产生F₂代，并且任选地，进一步使该F₂代以及任何后续世代互交、回交、自交和/或从其产生双单倍体以产生该第一种群而产生的；并且

(ii)该第二种群包括作为F₂或后续世代的子代的个体，它们是通过使一个第三亲本与一个第四亲本杂交以产生一个第二F₁代，并且然后使该第二F₁代互交、回交、自交和/或从其产生双单倍体以产生F₂代，并且任选地，进一步使该F₂代以及任何后续世代互交、回交、自交和/或从其产生双单倍体以产生该第二种群而产生的；

(b)将该第一、第二、第三以及第四亲本针对多个预定的标记进行基因分型；

(c)计算第一、第二、第三以及第四遗传相似性的百分比，其中：

(i)该第一遗传相似性的百分比是跨越相对于该第三亲本的该第一亲本的所有预定标记的共享的等位基因的百分比；

(ii)该第二遗传相似性的百分比是跨越相对于该第四亲本的该第一亲本的所有预定标记的共享的等位基因的百分比；

(iii)该第三遗传相似性的百分比是跨越相对于该第三亲本的该第二亲本的所有预定标记的共享的等位基因的百分比；并且

(iv)该第四遗传相似性的百分比是跨越相对于该第四亲本的该第二亲本的所有预定标记的共享的等位基因的百分比；

(d)确定一个第一遗传相似性的平均百分比，包括该第一遗传相似性的百分比以及该第三遗传相似性的百分比的遗传相似性的平均百分比；

(e)确定一个第二遗传相似性的平均百分比，包括该第二遗传相似性的百分比以及该第四遗传相似性的百分比的遗传相似性的平均百分比；并且

(f)选择该第一遗传相似性的平均百分比以及该第二遗传相似性的平均百分比的较大者，其中这两个遗传相似性的平均百分比的较大者提供了在第一与第二种群之间的遗传相似性的估算。

34.如权利要求33所述的方法，其中该第一种群与第二种群分别由通过使该第一F₁种群以及该第二F₁种群的F₁、F₂以及F₃个体自交产生的F4子代组成。

35.如权利要求33所述的方法，其中该多个预定的标记基本上跨越了该第一与第二种群的整个基因组。