CN106028794B

CN106028794B - 改良的分子育种方法

Info

Publication number: CN106028794B
Application number: CN201480076351.9A
Authority: CN
Inventors: D.哈比尔
Original assignee: Pioneer Hi Bred International Inc
Current assignee: Pioneer Hi Bred International Inc
Priority date: 2013-12-27
Filing date: 2014-12-22
Publication date: 2020-07-28
Anticipated expiration: 2034-12-22
Also published as: CA2932507C; CN106028794A; AU2014370029B2; US20160321396A1; ZA201603680B; MX2016008461A; WO2015100236A1; AU2014370029A1; EP3086633A1; BR112016015033A2; BR112016015033B1; EP3086633B1; CA2932507A1; PH12016501255A1; RU2016130577A

Abstract

本发明提供了用于改良作为育种计划一部分的育种个体选择的方法，其中通过选择来自候选者集的用于表型分型的候选者(基因型信息对其也可用)，以及将这些候选者放入所述评估数据集中，然后针对每个候选者评估基因型估计育种值的准确性(即基因组预测准确性)以构建优化的评估数据集。然后将所述优化的评估数据集用作模型，以完全基于基因型信息确定育种个体的基因组估计育种值。

Description

改良的分子育种方法

相关申请的交叉引用

本专利申请要求2013年12月27日提交的美国临时专利申请61/921,216的权益，该临时专利申请全文以引用方式并入本文。

技术领域

本技术领域涉及分子遗传学和育种，尤其涉及使用基因组预测用于做出作为植物或动物育种计划的一部分的选择。

背景技术

基因组预测(GP)(Meuwissen等人，2001，Genetics 157∶1819-1829(《遗传学》，2001年，第157卷，第1819-1829页))用于植物和动物育种以预测用于所选目的的育种值，并用于人类遗传学以预测疾病风险。它由两个步骤组成。首先，使用针对数量性状进行表型分型并且在遗传标记上进行基因型分型的个体来评估标记效应。这些个体被称为训练个体；所有个体的数据集被称为训练或评估数据集；同时该步骤被称为训练或评估。然后，将被评估的标记效应与(所选)候选者的标记基因型结合使用，以预测它的育种值或疾病风险。该步骤被称为预测。育种值的准确性强烈取决于训练个体和所选候选者之间的亲缘关系，如(Habier等人，2013.Genetics 194:597-607(《遗传学》，2013年，第194卷，第597-607页))中所证明，并且使用所有表型可降低特定家系的准确性，如Habier等人(2013年，出处同上)所证明。这可通过对连锁不平衡和共分离进行建模的改进的统计方法进行缓解，如Habier等人(2013年，出处同上)所提出的。然而，利用观测数据的统计模型均不能够补偿可能得自更好地匹配特定预测集所需信息的评估集的较高准确性。

基因组预测大大促进了育种计划，因为模拟和实证研究已展示了它比标记辅助选择和传统表型选择更具优势(Meuwissen等人，2001年，出处同上；Bernardo和Yu，2007.CropScience 47:1082-1090(《作物科学》，2007年，第47卷，第1082-1090页)；Lorenzana和Bernardo，2009.Theor Appl Genet 120:151-161(《理论与应用遗传学》，2009年，第120卷，第151-161页))。在不久的将来，动物和植物育种计划将更多注重于基因组预测，因为胚胎的基因型分型会更加可行并更具成本效益。因此，需要用以增加基因组预测准确性的方法。

发明内容

本文提供了用于在育种计划中选择个体的方法，其中所述方法包括通过以下步骤构建优化的评估数据集：(i)从候选者集中选择候选者用于表型分型，并将候选者置于评估数据集内，其中所述基因型信息可用于该候选者；(ii)评估候选者的基因组估计育种值的准确性，(iii)仅在该候选者的基因组估计育种值的准确性高于候选者集中其它候选者的准确性时，将该候选者移入优化的评估数据集中；以及(iv)继续进行步骤(i)-(iii)直至产生优化的评估数据集；在优化的评估数据集中对候选者进行表型分型；以多个标记对育种个体进行基因型分型；利用优化的评估数据集中候选者的表型和基因型，得到育种个体的基因组估计育种值；以及基于基因组估计育种值选择育种个体。

该方法可还包括使所选育种个体杂交。可使用计算机来构建优化的评估数据集。

可通过基因型分型或使用Monte Carlo模拟来获得针对每个候选者的基因型信息。

育种个体可以是纯合的，部分纯合的或杂合的。育种个体可以是植物或动物。如果是植物，该植物可选自：玉米、大豆、向日葵、高粱、卡诺拉、小麦、苜蓿、棉花、稻、大麦、粟、甘蔗和柳枝稷。

可使用数学公式代入来自候选者集中候选者的标记信息，以及来自组成预测靶标的一个或多个群体亲本的标记信息，从而获得基因组估计育种值的准确性。所用的数学公式取决于预测靶标。如果预测靶标由一个群体组成，那么可使用以下公式来确定基因组预测准确性或基因组估计育种值的准确性：

其中

是SNP效应的方差，G_i是由群体(全同胞家系)i的连锁不平衡加权的基因组关系矩阵，

是评估数据集中个体的性状表型的方差-协方差矩阵的倒数，N_i是群体i中分离基因座的数量。

如果预测靶标由一个以上群体组成，则可使用下列公式确定基因组预测准确性或基因组估计育种值的准确性：

此为预测靶标的所有N_I群体中的近交群体中准确性的平均值。

或者

其中δ∈[0，1]被称为社会福利经济学中的风险规避参数。如果δ＝0，则

与

相同，但是随着δ增加，具有高准确性的群体被加权降低以有利于具有较低准确性的群体。如果预测靶标变得太大，则后一个公式可用于防止不同群体准确性之间的差异。

如果预测靶标由大量群体(家系)组成，则可在后两个等式中由

的可靠性取代基因组预测准确性或基因组估计育种值的准确性，以使计算更加可行。该等式可定义为：

具体实施方式

本公开提供了用于通过建立优化的评估数据集而优化基因组预测的方法。理念是使用数学公式捕获基因组预测的训练和预测步骤，并返回育种群体中基因组估计育种值的准确性，或预测靶标的所有群体中的育种群体中准确性的平均值，从而鉴定用于训练的最优杂交体。

本文给出的每个参考文献的公开内容据此全文以引用方式并入本文。

如本文中和所附权利要求书中所用的，单数形式“一个”、“一种”和“所述”包括复数指代，除非上下文清楚表明并非如此。因此，例如，提及“一株植物”包括多株此类植物，提及“一个细胞”则包括一个或者多个细胞以及本领域技术人员已知的其等同物，以此类推。

如本文所用：

涉及基因组估计育种值时，“准确性”可在本文中被定义为群体中实际育种值和估计育种值之间的相关性。

在本文中，“基因组预测的准确性”与“基因组估计育种值”的准确性可互换使用。

如本文所用，术语“等位基因”是指基因座处的变体或替代序列形式。在二倍体中，单个等位基因由分别来自每个基因座的每个亲本的子代个体继承。虽然本领域普通技术人员理解到，任一个特定个体中的等位基因不一定代表存在于物种中的所有等位基因，但是存在于二倍体生物体中的给定基因座的两个等位基因占据一对同源染色体上的相应位置。

如本文所用，短语“与...相关联”是指两个实体之间的可辨认和/或可分析的关系。例如，短语“与性状相关联”是指基因座、基因、等位基因、标记、表型等或它们的表达，它们的存在或缺失可能影响性状在一个或多个个体中表达的范围、程度和/或速率。

如本文所用，术语“回交”及其语法变化形式是指育种者将子代个体与其亲本之一进行杂交的过程，例如，第一代F₁与F₁个体的亲本基因型中的一个杂交。

如本文所用，短语“育种群体”是指从中选择潜在育种个体和育种对的个体集合。育种群体可以是分离群体。

“候选者集”是针对用于基因组预测的标记基因座进行基因型分型的一组个体。“候选者”可以是杂交体。

如本文所用，术语“染色体”以其本领域公认的含义使用，即为包含基因组DNA，并且在其核酸序列中携带基因线性阵列的自我复制的遗传结构。

如本文所用，术语“栽培品种”和“品种”是指在结构和/或遗传特征和/或性状表现上可与相同物种的其它成员区分开来的一组类似植物。

如本文所用，短语个体的“基因型确定”是指确定个体的遗传组成的至少一部分，并且尤其可指确定可用作个体中相应表型的指示因子或预测因子的遗传变异。确定基因型可包括确定一种或多种单倍型或确定一种或多种多态性，后者展示出对于具有基因型值的至少一个多态性或单倍型的连锁不平衡。确定个体的基因型还可包括识别至少一个基因和/或至少一个基因座的至少一种多态性、识别至少一个基因和/或至少一个基因座的至少一个单倍型、或识别对至少一个基因和/或至少一个基因座的至少一个单倍型来说是独特的至少一种多态性。

“双单倍体植物”是通过使染色体的单倍体组加倍而开发的植物。双单倍体植物是纯合的。

如本文所用，短语“骨干品系”是指大体上是纯合的，并且由针对优秀农艺性状表现而育种并选择得到的任何品系。

一般而言，“评估数据集”或“训练数据集”是既针对遗传标记进行基因型分型又针对数量性状或质量性状进行表型分型的个体的集。这些个体用于评估那些标记的效应。然而，对于我们的优化过程来讲，这些个体还不需要进行表型分型，因为找到应该进行表型分型的个体才是该方法的目的所在。

如本文所用，术语“基因”是指包括占据染色体上具体位置并包含针对生物体中具体特征或性状的遗传指令的DNA序列的遗传单位。

如本文所用，短语“遗传增益”是指通过人工遗传改良计划获得的在性状表现上增加的量。术语“遗传增益”可以指经过一代后获得的性状表现上增加(参见Allard，1960年)。

如本文所用，短语“遗传图谱”是指通常与基因座在特定染色体上的相对位置相关的有序基因座列表。

如本文所用，短语“遗传标记”是指已被识别为与所关注的性状、基因座和/或等位基因相关联，并且指示和/或可用于确定细胞或生物体中所关注的性状、基因座和/或等位基因的存在或缺失的核酸序列(例如，多态性核酸序列)。遗传标记的示例包括但不限于基因、DNA或RNA来源的序列(例如，对于给定染色体上的具体位点来说是特异的染色体亚序列)、启动子、基因的任何非翻译区、微RNA、短抑制性RNA(siRNA；也被称为小抑制性RNA)、数量性状基因座(QTL)、转基因、mRNA、双链RNA、转录模式和甲基化模式。

如本文所用，“基因组估计育种值”(GEBV)可以指一个或多个单倍型和/或基因型对与性状相关联的表型的表达的可测影响程度，并且它可被视为单倍型和/或基因型对性状的贡献。

短语“基因组预测”是指用于增加物种的遗传增益的方法，该方法使用遍布整个物种基因组的标记来预测个体的基因组估计育种值(GEBV)。基因组预测不基于使用先前已被识别为与同任一给定的所关注的性状相关的基因座(例如，QTL)连锁的标记。相反，通常，每个标记被视为推定QTL，并且所有标记与子代的预测基因组估计育种值(GEBV)相组合。

如本文所用，术语“基因型”是指生物体的基因构成。基因型的表达可产生生物体的表型(即生物体的可观察的性状)。当与参考基因型或一个或多个其它受试者的基因型相比较时，受试者的基因型可提供与当前表型或预测表型相关的宝贵信息。因此，术语“基因型”是指一个所关注表型、多个所关注表型和/或整个细胞或生物体的遗传组分。

如本文所用，“单倍型”是指可作为单元被遗传的特定基因或基因组中多个紧密连锁的基因座的集体特征或特征。例如，在一些实施方案中，单倍型可包括一组紧密相关的多态性(例如，单核苷酸多态性；SNP)。单倍型也可以是一对同源染色体的单条染色体(或其区域)上的多个基因座的表征，其中该表征指示了该单条染色体(或其区域)上所存在的具体基因座和/或等位基因。

如本文所用，术语“杂合的”是指当不同等位基因居于同源染色体上的相应基因座时，存在于细胞或生物体中的遗传条件。

如本文所用，术语“纯合的”是指当相同的等位基因居于同源染色体上的相应基因座时存在的遗传条件。需注意的是，以上两个术语都可指单核甘酸位置、多个核甘酸位置(无论连续与否)和/或同源染色体上的整个基因座。

如本文所用，当用于植物语境中时，术语“杂交体”是指因杂交至少两个遗传上不同的植物亲本而得的种子和此类种子所长成的植物。

如本文所用，术语“近交体”是指大体上或完全纯合的个体或品系。需注意的是，该术语可指在它们的整个基因组中大体上或完全纯合的个体或品系，或相对于它们特别受关注的基因组的子序列大体上或完全纯合的个体或品系。

如本文所用，术语“基因渗入”(introgress)及其语法变化形式(包括但不限于“introgression”、“introgressed”和“introgressing”)是指一个个体的一个或多个基因组区域凭借其移入另一个个体的基因组中而创造具有遗传基因座、单倍型和/或等位基因的新组合的种质的天然和人工过程。用于基因渗入所关注性状的方法可包括但不限于，将具有所关注性状的个体与不具有所关注性状的个体杂交，并将具有所关注性状的个体与轮回亲本回交。

如本文所用，“连锁不平衡”(LD)是指推导出的两个不同遗传标记的关联强度或共现强度的统计学量度。虽然可使用多种统计方法来概括两个标记之间的LD，但在实施过程中仅有两种方法是广泛使用的，其命名为D′和r²(参见，例如，Devlin和Risch，1995年；Jorde，2000年)。同样地，短语“连锁不平衡”是指单世代中很多个体的群体中的配子类型与期望的相对频率相比的变化，使得两个或更多个基因座用作基因连锁的基因座。

如本文所用，短语“连锁群”是指位于同一染色体上的全部基因或基因性状。在连锁群中，那些物理上充分紧密联合起来的基因座可以在遗传杂交中展示出连锁效果。因为两个基因座之间发生交换的概率随着染色体上的两个基因座之间物理距离的增加而增加，所以连锁群内的彼此相互远离的基因座可能不会在直接基因检测中展示出任何可检测的连锁。术语“连锁群”多用于指在尚未进行染色体定位的遗传系统中展示出连锁行为的遗传基因座。因此，在当前语境中，尽管本领域普通技术人员会理解到连锁群还可被限定为与给定染色体的区域(即小于整体)相对应，但是术语“连锁群”与染色体物理实体同义。

如本文所用，术语“基因座”是指物种染色体上的位置，其可涵盖特定基因组区域中的单个核苷酸、若干核甘酸或更多核甘酸。

如本文所用，可互换使用的术语“标记”和“分子标记”是指其遗传可被监测的染色体上的可辨认位置，和/或用于显现存在于染色体上这类可识别位置处的核酸序列的差异的方法的试剂。标记可包括已知的或可检测的核酸序列。标记的示例包括但不限于遗传标记、蛋白质组成、肽水平、蛋白质水平、油组成、油水平、碳水化合物组成、碳水化合物水平、脂肪酸组成、脂肪酸水平、氨基酸组成、氨基酸水平、生物聚合物、淀粉组成、淀粉水平、可发酵淀粉、发酵收率、发酵效率、能量收率、次生化合物、代谢产物、形态特征和农艺特征。分子标记包括但不限于限制性片段长度多态性(RFLP)、随机扩增多态性DNA(RAPD)、扩增片段长度多态性(AFLP)、单链构象多态性(SSCP)、单核甘酸多态性(SNP)、插入/缺失突变(indel)、简单重复序列(SSR)、微卫星重复序列、序列特征性扩增区域(SCAR)、酶切扩增多态性序列(CAPS)标记、以及同工酶标记、基于微阵列的技术、TAQMAN.RTM.标记、ILLUMINA.RTM.GOLDENGATE.RTM、测定标记、核酸序列或本文所述的可用于明确具体遗传和/或染色体位置的标记组合。

标记可对应于采用一个或多个寡核苷酸对核酸进行扩增(例如通过聚合酶链式反应(PCR))而产生的扩增产物。如本文所用，短语“与扩增产物相对应”在标记语境中是指这样一种标记，其具有的核苷酸序列与用具体寡核苷酸集扩增核酸产生的扩增产物的序列相同或反向互补(允许通过其自身的扩增反应和/或自然发生和/或人工等位基因差异引入突变)。在一些实施方案中，通过PCR进行扩增，并且寡核苷酸为PCR引物，该PCR引物被设计用以与基因组DNA分子的相反链杂交从而扩增基因组DNA序列，该基因组DNA序列存在于与PCR引物在基因组DNA中杂交的序列之间。由使用这种排列方式的引物进行的一轮或更多轮扩增产生的扩增片段是双链核酸，其中一条链具有如下核苷酸序列，其从5′至3′顺序包含引物中的一个的序列、位于引物之间的基因组DNA的序列、以及第二引物的反向互补序列。通常，“正向”引物被指定为具有与待扩增双链核酸的(任意指定的)“顶”链的子序列相同的序列的引物，使得扩增片段的“顶”链包括在5′至3′方向与正向引物序列(位于基因组片段“顶”链的正向引物和反向引物之间的序列——反向引物的反向互补序列)相等的核酸序列。因此，“对应于”扩增片段的标记为具有与扩增片段双链之一相同序列的标记。

术语“表型”是指通过生物体的基因型和环境的相互作用产生的生物体的任意可观察的属性。表型可涵盖表型的表现变异性和外显率。示例性表型包括但不限于可见表型、生理表型、易感性表型、细胞表型、分子表型以及它们的组合。

如本文所用，术语“植物”是指整个植物、植物器官(即叶、茎、根、花等)、种子、植物细胞和它们的子代。术语“植物细胞”包括但不限于种子、悬浮培养物、胚芽、分生区域、愈伤组织、叶、苗、配子体、孢子体、花粉和小孢子内的细胞。短语“植物部分”是指植物的一部分，包括单个细胞和细胞组织，诸如完整存在于植物、细胞丛和组织培养物(植物能够通过该组织培养物再生)中的植物细胞。植物部分的示例包括但不限于来自花粉、胚珠、叶、胚芽、根、根尖、花药、花、果实、茎、苗和种子；以及来自接穗、根茎、原生质体、愈伤组织等的单细胞和组织。

如本文所用，术语“多态性”是指在一个或多个个体的群体中，某一基因座上存在核酸序列的一种或更多种变异。序列变异可以是不同的、插入的或缺失的一个或多个碱基。多态性可以是，例如，单核苷酸多态性(SNP)、简单重复序列(SSR)和插入缺失(即插入且缺失)。另外，变异可以是转录模式或甲基化模式。可通过比较与两个或更多个种质资源中一个或多个基因座上的核酸序列来确定核酸序列的多态性位点。同样地，在一些实施方案中，术语“多态性”是指群体中出现了两个或更多个由遗传决定的供选择的变体序列(即等位基因)。多态性标记是指发生变异的基因座。示例性标记具有至少两个(或在一些实施方案中更多个)等位基因，每一个的出现频率大于1％。多态性基因座可以如一个碱基对一样小(例如，单核苷酸多态性；SNP)。

如本文所用，术语“群体”是指植物的具有遗传异质性的集合，所述植物在一些实施方案中共享共同的遗传衍化。

“预测靶标”是来自全同胞近交群体的所选候选者的集，其中它们的亲本在遗传标记上进行基因型分型。

术语“前TC1”是指正好产生近交体(诸如例如双单倍体)后并且产生顶交数据前(即当来自它们全同胞和半同胞的数据不可用的时候)的时间。

如本文所用，术语“子代”是指由一个或多个植物经自然育种或辅助育种产生的任意植物。例如，子代植物可通过使两种植物杂交产生(包括但不限于两种不相关的植物的杂交，使植物与亲本植株回交，两种植物的互交等)，但也可通过植物自交，建立近交体(例如双单倍体)或本领域普通技术人员已知的其它技术来产生。同样地，“子代植物”可以是一个或多个亲本植物或其后代经无性生殖或有性生殖而产生子代的任意植物。例如，子代植物可通过亲本植物的克隆或自交或者使两种亲本植物杂交获得，并且包括自交和F₁或F₂或还有世代。F₁是由亲本产生的第一代子代，其亲本中的至少一者是第一次作为性状供体，而在一些实施方案中第二代(F₂)或后续世代(F₃、F₄等)的子代是自交(包括但不限于双单倍化)、互交、回交或F₁个体、F₂个体等的其它杂交产生的样本。因此，F₁可以是(并且在一些实施方案中是)由两个纯育亲本(即每个纯育亲本就所关注性状或其等位基因而言是纯合的，并且在一些实施方案中是近交的)杂交产生的杂交体，而F₂可以是(并且在一些实施方案中是)由F₁杂交体经自花授粉产生的子代。

如本文所用，短语“单核苷酸多态性”或“SNP”是指构成两个核苷酸序列之间单碱基对差异的多态性。如本文所用，术语“SNP”也指两个核苷酸序列之间的差异，其由一个序列相对于另一个在序列中的单个位点发生的简单改变产生。例如，术语“SNP”不仅意指与另一个序列相比，在一个序列中由核酸取代而产生的具有单个不同核苷酸的序列，也意指与另一个序列相比，在一个序列中由于单个位点处缺失1个、2个、3个或更多个核苷酸而产生的具有1个、2个、3个或更多个不同核苷酸的序列。应当理解，在两个序列仅因序列之一的单位点处相比另一个序列缺失了1个、2个、3个或更多个核苷酸而彼此不同的情况下，取决于两个序列中的哪一个被认为是参考序列，也可认为序列之一的单位点处相比另一个序列添加了1个、2个、3个或更多个核苷酸属于同一情形。因此，也可认为单位点插入和/或缺失由术语“SNP”所涵盖。

术语“测试并搁置”是指不为田间试验选择/精选近交体，但是保持近交体直至可获得来自它们的全同胞和/或半同胞的数据的状态。

如本文所用，术语“测验种”是指用于一个或多个其它品系测交中的品系，其中测验种和被测品系基因相异。测验种可以是杂交品系的同基因系。

术语“顶交”是指被测亲本和测验种(通常是纯合品系)之间的杂交。“顶交测试”是通过每一个亲本与相同测验种(通常是纯合品系)进行杂交衍生出的子代测试。被测亲本可以是自由授粉品种、杂交品系或近交品系。

如本文所用，术语“性状”和“所关注的性状”是指所关注的表型、有助于产生所关注表型的基因，以及与有助于产生所关注表型的基因相关联的核酸序列。被期望在后续世代中筛选得到或去除的任意性状都可以是所关注性状。

“性状”可以指植物或具体植物体或植物细胞的生理、形态、生物化学或物理特性。在一些情况下，这些特性是肉眼可见的或可通过生物化学技术进行测量。

玉米中所关注的示例性非限制性性状包括收率、抗病性、农艺性状、非生物性状、核组分(包括但不限于蛋白、油和/或淀粉组分)、抗虫性、能育性、青贮和形态性状。在一些实施方案中，在子代个体中筛选得到和/或去除所关注的两个或更多个性状(单独地或共同地)。

下文转而描述实施方案：

本文中提供了通过优化基因组预测而选择作为育种计划一部分的个体的方法，其中所述方法包括从候选者集中选择用于表型分型的候选者，从而构建优化的评估数据集；将候选者放入该评估数据集内；以及评估每个候选者的基因组估计育种值的准确性(即基因组预测准确性)。该优化方法所依赖的原则是：育种值的准确性强烈取决于训练个体和所选候选者之间的亲缘关系(Habier等人，2013年，出处同上)。可使用计算机构建优化的评估数据集。

可使用标记对候选者进行基因型分型，但是如果没有进行基因型分型，可使用Monte Carlo模拟来评估特定个体类型或个体组得到准确基因组预测的可能性。候选者可以或者可以不与预测靶标中的群体相关。

如果候选者相比于候选者集中的其它候选者，基因组估计育种值的准确性更高，那么仅将该候选者永久性地移入优化的评估数据集中。利用包括基因组预测的评估和预测步骤并返回基因组估计育种值的准确性的数学公式获得基因组估计育种值的准确性，并测量群体内的个体和预测靶标中所有群体的基因组估计育种值的准确性。这种准确性关联或涉及包含来源于候选者集的个体的评估数据集。因此，可将数学公式视为从代入的预测靶标的候选者集和群体中取得个体的集，并为预测靶标的个体返回基因组预测准确性或基因组估计育种值的准确性。

在数学-遗传术语中描述了预测靶标的育种群体，即近交亲本的标记基因型，标记的遗传图距用于推导预测靶标中每个群体的标记基因座之间的连锁不平衡(LD)的模式。因为每个杂交具有不同亲本并且每个亲本具有不同标记基因型，所以每个育种群体具有独特的LD模式。公式中LD的使用自然由数学公式的推导以及由亲本产生近交后代的过程中等位基因的LD和共分离两种状态的定义得出，如下文实施例中所示。仅使用亲本的标记基因型的优势在于，可使用优化方法来识别F₁或F₂衍生的未来育种杂交群体的最佳训练数据集。另外，使用这些LD模式可以避免在其它优化方法中遇到的问题(Maenhout等人，2010TheorAppl Genet.120:415-427；Rincent等人，2012.Genetics 192:715-728)，这决定了将基因型分型的近交系中的哪些宣布为选择候选者或用于训练的候选者。使用连锁不平衡意味着这个优化方法不需要对来自预测靶标中群体的未来选择候选者进行基因型分型。因此，允许在那些群体(被实际上构建)可供选择的数年前便优化训练数据集；并且与其它方法一样，既不需要也不受限于基因型分型个体在候选者和选择候选者中的任意分配。

优化方法的核心是用于预测靶标群体中的基因组估计育种值的准确性的数学公式，该数学公式采用如下基因组预测过程，包括组合评估数据集、通过基因组预测软件运行评估数据集，并使用评估得到的单核苷酸多态性效应和预测靶标的标记一起评估基因组估计育种值。根据预测靶标确定数学公式的使用。

如果预测靶标由一个群体(例如一个全同胞家系)组成，那么可使用以下公式来确定基因组预测准确性或基因组估计育种值的准确性：

其中

如果预测靶标由多于一个群体(即一个以上全同胞家系)组成，那么可使用以下公式来确定基因组预测准确性或基因组估计育种值的准确性：

或者

与

相同，但是随着δ增加，具有高准确性的群体被加权降低以有利于具有较低准确性的群体。后一个公式可用于防止预测靶标中不同群体准确性之间的差异变得太大。

针对一种或多种性状获得优化的评估数据集中的候选者的表型，并且优化的评估数据集中候选者的表型和基因型可用于获得育种个体的基因组估计育种值。基本上，优化的评估数据集中的候选者的表型和基因型用于参数化统计模型，使得用包含在优化的评估数据集中的信息并通过育种个体的基因型来确定基因组估计育种值。

育种个体是育种计划中待进行选择的个体。(重要的是需注意，优化的评估数据集中的育种个体和候选者属于相同物种。)育种个体可以是纯合的、部分纯合的或杂合的。如果是纯合的，则育种个体可以是近交体或者双单倍体。

以多个标记对育种个体进行基因型分型，并使用优化基因组预测程序为育种个体给出基因组估计育种值，所述基因组估计育种值可用作在育种个体之间进行比较的手段(并且允许对育种个体进行分类)。可选择具有所需基因组估计育种值的育种个体以供进一步的植物改良，这既可以是选择作为杂交亲本的个体，也可以是选择进行生长以供进一步评估的一个或多个个体。结合整个育种个体库和育种个体各自的基因组估计育种值，所选育种个体可以是前25％、24％、23％、22％、21％、20％、19％、18％、17％、16％、15％、14％、13％、12％、11％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％。如果选择用于杂交的育种个体，则可(诸如例如，在玉米中)进行杂交以产生杂交体。

应用

所述方法不仅适用于植物育种，还适用于动物育种。该方法是使用优化规划工具作出育种个体选择的改良方法，所述优化规划工具允许单独基于标记使用来选择育种个体，从而能够更加高效地使用领域资源(即对于所用相同量的资源具有较高准确性，或对于所用减少量的资源具有相似准确性)。

例如，在玉米中，该方法可用于产物发育的所有选择阶段，但因为系谱信息不能区分全同胞和表型信息，所以在近交系发育的早期阶段中双单倍体的家系内分类的最大效用受限或尚不可用。在选择的第一阶段(前TC1)，育种者从大量双单倍体群体中选择TC1资源，其中每个家系包含几十甚至几百个双单倍体。最初仅使用数据本身来选择TC1资源，但之后育种者可使用前几年的TC1数据或标记增强型系谱选择(MEPS)实验，按照最大多样性或者基因组预测来随机地选择TC1资源。前TC1中的基因组预测还可用于直接选择TC2资源并“跳”过TC1。

本文所公开的方法中的任一个可与美国专利申请号14/473,183、14/473,074和14/473,183中所公开的方法中的任一个组合使用。

另一些实施方案包括如下方法：用于全基因组增强预测，以选择具有耐旱性的近交体和杂交体，从而提高干旱条件下的作物收率和更有利的环境条件下的同等收率表现的方法；用于多性状全基因组增强预测，以针对具体目标环境选择收率和农艺性状表现提高的近交体和杂交体的方法；用于全基因组增强预测，以针对其中基因型-环境互作非常重要的目标地理区域，选择收率和农艺性状表现提高的近交体和杂交体的方法；以及针对上述的每一种方法，用于全基因组增强预测转基因和天然遗传变异对近交体和杂交体的收率和农艺性状表现的组合效应的方法。

实施例

以下实施例进一步说明本发明，其中份数和百分比是按重量计，度是指摄氏度，除非另行指出。应当理解，这些实施例虽然说明本发明的各实施方案，但仅以举例说明的方式给出。由以上讨论和这些实施例，本领域技术人员可确定本发明的必要特征，并且在不脱离本发明的实质和范围的前提下，可作出本发明的各种变化和修改以使本发明适合于各种应用和条件。因此，根据前文的描述，除了本文示出和描述的那些修改之外，本发明的各种修改对于本领域技术人员而言是显而易见的。此类修改形式也旨在落入所附权利要求的范围内。

实施例1

优化判据的推导

近交群体内的准确性

本文将群体内准确性定义为从近交群体i中随机抽取的个体j的真实育种值和估计育种值(分别为g_ij和

)之间的相关性，并且可被描述为

假设统计模型与将在下文中详述的真实遗传模型相同

那么上述公式简化为

在下文中，推导出g_ij和

的方差。

遗传和统计模型

在数量遗传学中区分用于统计分析训练数据的统计模型和真实遗传模型是一种很好的实践方法。虽然研究者可明确指定统计模型，但真实遗传模型代表对数据的真实但未知的性质(诸如，数量性状基因座数量、遗传方式、基因作用和基因互作)的假定。在大多数遗传研究中，假设这两种类型的模型相同。就本文所述的优化方法而言，假设遗传模型和统计模型相同。为了简便起见，本文所提出的推导适用于F₁来源的近交体，但是本领域普通技术人员将会理解，该推导也可适用于预测靶标中的其它群体。

真实育种值的遗传模型和方差

来自预测靶标中近交群体i的选择候选者j的真实育种值g_ij可被描述为

g_ij＝2z′_ijβ，

其中z′_ij表示K SNP处等位基因状态的向量。等位基因状态可取值0或1，并通过双亲F₁来源的近交群体内期望的等位基因频率来调整，从而使得z′_ij的期望值为零。在两个亲本呈现多态(即，一个亲本的等位基因状态为0，另一个亲本的等位基因状态为1)的基因座处，期望的等位基因频率为0.5，而在两个亲本呈现单态(即，两个亲本的等位基因状态相同)时，期望的等位基因频率为0或1。调整后的等位基因状态的方差在多态基因座处为0.25，在其它位置为0。向量β包含均值为0、方差为

的随机SNP效应。给出统计模型后，稍后将详细说明方差

在统计中指定随机变量或模型的期望值和方差也是一种很好的实践方法；因此，g_ij的期望值为

因为E(z_ij)＝0和E(β)＝0。g_ij的方差为

其中N_i为近交群体i的多态性SNP的数量。

推广

如果SNP效应的平均值为μ_β且方差-协方差矩阵为V_β，那么

其中

Var(z_ijk)等于0.25或0，并且Coy(z_ijk，z_ijk′)由下文推导得出。如果μ_β＝0，并且V_β为对角矩阵

那么

其中I_poly在SNP k呈现多态时表示1，否则表示0。

统计模型

用于N杂交表型的统计模型可被描述为

y＝Xb+Zβ+e，

其中y为表型的向量，X为向量b中固定环境效应的已知关联矩阵，Z为观察到的基因型得分的N×K矩阵，β为被视为平均值为零、方差为

的随机值的SNP效应的K×1向量，并且e为包含平均值为零、方差为

的随机残余效应的向量。因此，y的期望值和方差分别为E(y)＝Xb和

所有SNP效应的公方差

被假设为杂交体性能的加性-遗传方差

的函数，二者关系表示如下

其中，c是需要被指定的常数。该常数确定了每个SNP效应在统计分析中向0缩小多少，因此，可对评估效应具有决定性影响，从而对选择的准确性具有决定性影响。

统计方法

选择候选者j的基因组估计育种值可通过最佳线性无偏预测(BLUP)估计为

其中，v′_gy为选择候选者j和训练个体之间的亲缘关系的行向量。假设观察到选择候选者和训练个体二者的SNP基因型，则v′_gy推导为

Cov(g_ij，y′)＝Cov(2z′_ijβ，β′Z′)

＝2z′_ijV_βZ′.

因此，

通常在基因组BLUP中假定为第一种实例(HABIER等人，2013年，出处同上)，而第二种实例更类似于贝叶斯A和贝叶斯B(MEUWISSEN等人，2001年Genetics 157:1819-1829)。项

可被重新描述为

因此，

估计育种值的方差

首先，

(给定z′_ij)的方差可被描述为

并且因为PXb＝0，所以

(给定z′_ij)的期望值

为零。因此，

进一步地，

其中，z_ijk和z_ijk′分别表示在SNPk和k′下，群体i的个体j的等位基因状态。

的期望值针对单态基因座为0，并且针对多态基因座为Var(z_ijk)＝0.25。在两个单态基因座的等位基因状态之间的交叉乘积为0，而在两个多态SNPk和k′下该交叉乘积可表示为群体中的连锁不平衡(LD)，所述连锁不平衡可在此估计为

D_ikk′＝Cov(z_ijk，z_ijk′)

＝E(z_ijkz_ijk′)，

这是因为等位基因状态通过其期望值和等位基因频率进行调整。LD完全由在从亲本到产生近交后代的过程中在不同基因座处等位基因的共分离状态而产生。因此，可如下由近交体的等位基因起源状态推导出这种家系内LD。因为未调整的等位基因状态

和

为伯努利随机变量，所以E(z_ijkz_ijk′)的推导只需要集中于

的实例。根据近交亲本的未调整的等位基因状态，存在4种概述于表1中的不同实例。

表1：以两个亲本的未调整等位基因状态为条件，来自双亲本F₁来源的群体的近交体在SNPk和k′下的未调整等位基因状态的期望交叉乘积。O_ijk和O_ijk′表示群体i的近交体j 的等位基因状态的亲本等位基因起源，并且c_kk′表示SNPk和k′之间的重组频率。

然后，可在亲本具有已知SNP基因型的情况下计算双亲本群体中、分离基因座之间的LD，具体如下

如果SNPk和k′不连锁，即c_kk′＝0.5，则D_ikk′＝0；但如果它们紧密连锁，即c_kk′→0，则

并且作为

测量的LD等于1，这是因为Var(z_ijk)＝Var(z_ijk′)＝0.25。一般来讲，使用Haldane基因定位函数将重组频率c_kk′替换为0.5(1-e^-2·d)，得出

其中，d表示SNPk和k′之间的图距，单位为摩尔根。作为一个方面，图距按下式计算

结果得到，

其中

最后得到，

如果使用选择指数法替代BLUP并且

则公式简化为

这减少了计算量，进而缩短了运行时间，但是对准确性影响不大。需注意，针对预测靶标中的每个近交群体，需要计算不同D_i。矩阵积ZD_iZ′可被认为是基因组关系矩阵G_i，该基因组关系矩阵由加权标记得分与D_i得到，从而该基因组关系矩阵特定于每个群体i。在迭代优化算法开始(如下文所述)前，计算每个群体i的G_i。

优化判据

的准确性现在可描述为

如果在预测靶标中存在多于一个群体，则优化判据为

此为预测靶标的所有N_I群体中的近交群体中准确性的平均值。使用此平均值可产生的问题是一些群体可能具有较高准确性，而其它群体可能具有较低准确性，这是一种可见于社会福利经济学中的问题。因此，等式(1)可由等弹性函数替换得到

与

相同，但是随着δ增加，具有高准确性的群体被加权降低以有利于具有较低准确性的群体。

使用

的另一个问题是必须针对每个群体储存G_i，并且必须在优化算法的每次迭代中估计每个群体的迹函数，随着群体数量的增加这二者将造成巨大的计算负担。为分析解决这个问题，

的准确性可替换为如下定义的

的可靠性

然后，

的平均值可被描述为

现在只需要储存

并且每次迭代只需估计一次迹函数而不用考虑预测靶标中的群体数量。虽然可靠性已代替准确性被广泛接受和普遍用于育种应用中，但是因为它描述了通过估计育种值解释的遗传方差的量，所以它并不再是所需的优化判据。然而，使用这两个判据的分析表明，优化性能受影响不大。

实施例2

优化方法

为鉴定最佳杂交体，从空评估数据集开始实施迭代前向选择算法。在每次迭代中，将候选者集的杂交体逐个放入评估数据集内，并针对每个杂交体记录预测靶标的基因组估计育种值准确性的增加。将导致准确性增加最多的杂交体永久性地移入评估数据集中，而将所有其它杂交体保留在候选者集中。这样重复直至达到所需评估数据集大小。

描述预测靶标所需的数据为育种杂交的亲本的标记基因型。这样的好处是可进行对未来杂交的优化。描述杂交体候选者所需的数据是它们的近交亲本的基因型。然而，即使不能获得这些基因型，也可使用实际标记数据通过模拟来进行先验研究。好处是考虑到其对于增加基因组估计育种值准确性的可能性，可评估任何类型的杂交。

实施例3

实际数据结果

将包括来自16个双亲本非刚性茎杆群体的约1000个杂交体的元数据集用于研究优化的评估数据集与随机组合的评估数据集。使用实施例1所述的数学公式并按实施例2所述执行获得优化评估数据集的步骤，以确定预测靶标的群体中基因组估计育种值的准确性。

将群体分成候选者集和验证集，并且演示两种单独的情形。在第一情形中，分别优化每个群体，并且候选者是全同胞或半同胞。在第二情形中，同时优化所有群体，并且存在来自所有群体的约800个候选者。对于来自第一情形和第二情形的收率，其基因组估计育种值的准确性分别示于表2和表3中。还针对谷粒水分性状执行情形2。结果示于表4中。

表2：情形1：在群体中观察到的收率和预测的收率之间的相关性

表3：情形2：在群体中观察到的收率和预测的收率之间的相关性

表4：情形2：在群体中观察到的谷粒水分和预测的谷粒水分之间的相关性

评估数据集大小	优化值	随机值
			100	0.42	0.36
200	0.5	0.42
			300	0.53	0.49
400	0.54	0.53

结果显示，优化的评估数据集给出较高的基因组估计育种值准确性(结合收率性状的较小评估数据集大小的情形2除外)。一个原因是所述方法鉴定了预测靶标中双单倍体的信息量最大的全同胞的杂交体，所述双单倍体为其中基因组的一半来自双亲本育种杂交的一个亲本而另一半来自另一亲本的双单倍体。另一个原因是，优化方法通过选择母本和父本半同胞(如果有的话)鉴定用于评估的最佳半同胞。最终，优化方法通过将那些使预测靶标的尽可能多的群体的准确性增加的候选者选入评估数据集中，来利用预测靶标中的家系结构。

实施例4

模拟结果

进行模拟，以针对800的评估数据集大小，比较通过优化方法获得的前TC1双单倍体和测试并搁置双单倍体二者的基因组预测准确性，并与通过最大多样性选择和随机选择获得的两种双单倍体的基因组预测准确性进行比较。另外，当将基因组预测应用于具有来自前一年的评估数据集的前TC1时，分析测试并搁置的基因组预测的准确性。

预测靶标由包括25个F₁来源的双单倍体群体、18个F₂来源的双单倍体群体、2个三元杂交和3个四元杂交的48个双单倍体的群体组成。前TC1研究的候选者集由比预测靶标的群体构建早两年构建的双单倍体群体组成，而测试并搁置研究的候选者集由预测靶标的群体组成。为了评估来自骨干近交系的杂交体的信息价值，使用在预测靶标中最经常使用的6个近交体由那些近交体的所有可能的二元和四元组合，即15个F₁来源的双单倍体群体和15个四元双单倍体群体来构建杂交体。候选者集中的每个群体具有80个杂交体。

就作为整个群体中基因组估计育种值和模拟真实育种值之间的相关性测量的前TC1期间的基因组估计育种值的准确性而言，与随机评估数据集相比，优化的评估数据集的准确性高0.02。此外，将来自四元杂交的杂交体加入评估数据集中使基因组估计育种值的准确性就优化的评估数据集而言提高了4％-6％，但是所述准确性就随机评估数据集而言降低。

与随机评估数据集相比，优化的评估数据集的测试并搁置的准确性高0.03，并且当基因组选择应用于前TC1时，随机评估数据集的准确性比OPT低0.1-0.13。将来自四元杂交的杂交体包括在候选者集内，使准确性提高了4％-6％。

实施例5

针对大豆中近交群体的评估集优化

在当前大豆育种计划中，选择候选者来自通过两个近交体杂交和其后续世代的自交产生的群体，这使得只有两个近交配子的染色体片段在群体中循环。F₁杂交体产生自近交杂交，其中每一个均包含两个亲本配子的拷贝。这些配子通过多个减数分裂重组直至形成新的选择候选者的集。然后，使用近交亲本的新一代的所选品系重复这些步骤。

为了使用优化方法，必须针对每个群体推导出基因组上的标记之间的连锁不平衡(LD)。这通过以下方式完成。建立优化方法的理论基础的来自群体i的个体j的真实育种值和估计育种值可分别描述为g_ij＝z_ij′β和

其中z_ij是SNP基因型的向量。标记之间的LD被测量为直接进入优化公式的z_ij、Var(z_ij)，的方差-协方差矩阵。由于多次减数分裂以及每个单群体中固有的子结构，很难推导出精确公式。因此，使用发生在减数分裂期间的系谱和重组的Monte Carlo模拟凭经验计算Var(z_ij)。为了产生稳定、良态的和可能正定的方差-协方差矩阵，方差-协方差矩阵被估计为

其中大于z_ij中SNP基因型数量的N＝20,000个个体。一旦建立这个矩阵，与玉米实施例一样，进行优化算法。

用于证明大豆育种中评估集的优化优势的数据集包括具有至少168个个体的19个群体。这些群体大于玉米育种中的典型群体，从而产生了与随机组合的集相比，优化评估集的准确性增益的较高可能性。对于交叉验证，群体随机分成预测集和大小为100的候选者集。这重复10次。将优化算法应用于相应的包含来自相同群体的个体的候选者集和预测集的对。根据预测集的准确性的最高期望增加，这个结果是候选者集的100个个体的分类。为了评估不同评估集大小下优化方法和随机化方法之间准确性的差异，由最终优化结果产生大小为5、10、15、20和25的子集。针对优化方法，保存分类，而针对随机化方法，从候选者集中随机抽取子集。评估集用于使用贝叶斯A评估标记效应，然后将该标记效应用于预测来自与评估集中相同群体的个体的GEBV。

表5示出了对于随机和使用优化方法产生的不同评估集大小，对所有群体取平均值而观察到的表型和预测的表型之间的相关性。除了评估集大小为5的情况，优化产生了比随机设计大的相关性。特别地，25和30个个体的评估集大小显示出比针对玉米育种大的优势，这最可能归因于较大的群体大小。

表5：根据用于优化评估集和随机评估集的评估集大小，对整个群体取平均值而观察到的表型和预测的表型之间的相关性。

Claims

1.一种用于在育种计划中选择个体的方法，所述方法包括：

a. 通过以下步骤构建优化的评估数据集：(i)从候选者集中选择候选者用于表型分型，并将所述候选者置于所述评估数据集中，其中基因型信息能够用于所述候选者；(ii)评估所述候选者的基因组估计育种值的准确性，(iii)仅在所述候选者的基因组估计育种值的准确性高于所述候选者集中其它候选者的准确性时，将所述候选者移入所述优化的评估数据集中；以及(iv)继续进行步骤(i)-(iii)直至产生优化的评估数据集；

b. 在所述优化的评估数据集中对候选者进行表型分型；

c. 以多个标记对育种个体进行基因型分型；

d. 利用所述优化的评估数据集中所述候选者的表型和基因型，获得所述育种个体的基因组估计育种值；以及

e. 基于所述基因组估计育种值选择育种个体，

其中使用数学公式计算基因组估计育种值的所述准确性，所述数学公式代入来自所述候选者集中的候选者的标记信息和来自组成预测靶标的一个或多个群体的亲本的标记信息，

如果所述预测靶标由一个群体组成，

使用下列公式确定基因组估计育种值的所述准确性：