CN111788634B

CN111788634B - 用于识别供植物育种使用的杂交种的方法和系统

Info

Publication number: CN111788634B
Application number: CN201880079548.6A
Authority: CN
Inventors: S·P·K·查瓦利; S·达斯古普塔; M·加达里哈; N·波拉瓦拉普; 王梓
Original assignee: Monsanto Technology LLC
Current assignee: Monsanto Technology LLC
Priority date: 2017-12-10
Filing date: 2018-12-07
Publication date: 2024-03-26
Anticipated expiration: 2038-12-07
Also published as: WO2019113480A1; US11627710B2; PH12020550837A1; EP3720269A1; CA3084443A1; US20190174691A1; AU2018380430A1; US20230247953A1; CN111788634A; EP3720269A4; MX2020006027A; BR112020011276A2

Abstract

公开了用于识别供植物育种流水线使用的杂交种的示例性方法。一种示例性的由计算机实现的方法包括访问包括代表杂交种池的数据的数据结构，以及基于所述数据结构中包括的所述数据确定所述池中包括的至少一部分杂交种的预测得分。所述预测得分指示基于历史数据对杂交种进行选择的概率和/或所述杂交种的成功概率。所述方法还包括基于所述预测得分从所述池中选择杂交种群；基于杂交种集合的预期表现和/或与所述杂交种和/或构成所述杂交种的品系相关的一个或多个因素从所述杂交种群中识别所述杂交种集合；以及使所述杂交种集合进入所述育种流水线中的进一步迭代或不同阶段。

Description

用于识别供植物育种使用的杂交种的方法和系统

相关申请的交叉引用

本申请要求2017年12月10日提交的美国临时申请No.62/596,907的权益和优先权。上述申请的完整公开内容以引用方式并入本文。

技术领域

本公开总体上涉及用于供植物育种使用的系统和方法，并且具体地涉及用于从潜在杂交种池中识别杂交种集合，并用所识别的杂交种集合填充育种流水线的系统和方法。

背景技术

本部分提供与本公开相关的背景信息，该背景信息不一定是现有技术。

在植物发育中，通过选择育种或遗传操纵对植物进行修饰。并且，当实现了所需的改进时，往往通过种植植物/种子以实现期望的改进，并经由若干代收获所得的种子来开发商业产品。在整个开发过程中，许多决定是基于正在进行评估的植物的特性和/或性状，并且类似地基于后代的特性和/或性状做出的，所述特性和/或性状不能保证继承或表现出亲本的所需性状。传统上，作为选择特定植物以进行进一步开发的一部分，评估亲本基因组的遗传序列，所述遗传序列当杂交时可产生具有所需特性和/或性状的起源，然后可通过测试植物来选择和/或过滤出所述具有所需特性和/或性状的起源。已知植物开发涉及大量可能的品系和起源，育种者通过常规技术从所述大量可能的品系和起源做出最终育种决策(和/或选择商业产品)。

附图说明

本文所述的附图仅出于说明选定实施方案，而非所有可能实施方式的目的，并且并非旨在限制本公开的范围。

图1示出了本公开的示例性系统，该示例性系统适合于从潜在杂交种池中识别杂交种集合以实现一个或多个育种流水线中的推进；

图2是可以在图1的示例性系统中使用的计算设备的框图；

图3是适合与图1的系统一起使用以从潜在杂交种池中识别杂交种集合的示例性方法；并且

图4包括代表从多个品系识别杂交种集合的二分图，所述识别形成了杂交种池。

在附图的若干视图中，对应的附图标记表示对应的部分。

具体实施方式

现在将参考附图更全面地描述示例性实施方案。本文所包括的描述和具体示例仅旨在用于说明目的，而不旨在限制本公开的范围。

在农业产业中采用各种育种技术来产生所需的植物。该过程的组成部分涉及选择具有一种或多种所需性状的品系以与具有一种或多种所需性状的其他品系杂交，以产生具有所需性状的至少一部分的杂交种。然而，在给定多个品系和杂交种池(从所述多个品系和杂交种池选择杂交种)的情况下，尤其是当所述池包含大量杂交种(例如，在商业环境中)时，很难准确地选择高表现的杂交种。例如，如果给予人类育种者m个数目的雄性品系和n个数目的雌性品系，则可能的杂交种池是N≤m×n，其中目标是为育种流水线选择例如r个数目的杂交种。因此，存在多达个不同的待识别杂交种集合，所述待识别杂交种集合可折减至约/>在一个说明性示例中，在人类育种者正在选择从一百个雄性品系(m)和一百个雌性品系(n)提供的一百个杂交种(r)的情况下，待识别的潜在集合的数目，作为复杂性指标，被量化为约10²⁰⁰。通过该示例，以及其他实际数目的品系/杂交种，很明显在选择杂交种中存在相当大的复杂性，尤其是当需要和/或期望考虑性状分布和/或遗传多样性时。

独特地，本文的系统和方法允许从潜在杂交种池中识别杂交种集合，以将所述杂交种集合包括在一个或多个育种流水线中。具体地，选择引擎基于预测得分从杂交种池中选择杂交种群，然后基于与杂交种相关的一个或多个其他因素从所述杂交种群中识别杂交种集合。特别地，例如如下所述，选择引擎可采用考虑预测性能，但是控制通过一个或多个因素和/或约束(例如，基于一种或多种所需的性状、品系分布、杂种优势多样性、风险，或所需的市场分割等)识别的杂交种集合的算法。以这种方式，可以减轻和/或降低与要朝向商业化推进的杂交种集合的识别相关的复杂性，同时保持在选择和考虑所述杂交种集合中的可能性能和/或遗传多样性方面的相当大的准确性。

杂交种是两株单独植物或近交系的杂交，所述杂交种是一些历史起源的子代。如本文所用，品系是指杂交种的一个或多个亲本，并且在适用时被解释为单数或复数个。所述品系可分为遗传上不同的群，也称为杂种优势群。杂种优势群可称为“雄性池”和“雌性池”。当例如基于标记物的相似性被用作近交系之间距离的度量时，将雄性杂种优势群和雌性杂种优势群识别为两个集合，该两个集合可分离为两个不同的群。利用此类术语来区分两个杂种优势群，从该两个杂种优势群中选择用于给定杂交种的两个品系。术语“雄性”和“雌性”并非旨在传达除了雄性品系和雌性品系来自不同的杂种优势群以外的任何信息。品系的表型数据、性状分布、祖先、遗传序列、商业成功和附加信息通常是已知的，并且可以存储在如下文更详细描述的存储器中。

如本文所用，表型数据包括但不限于关于给定品系或杂交种或所述给定品系或杂交种的群体的表型的信息。表型数据可包括品系的大小和/或活力(heartiness)(例如，株高、茎杆周长、茎杆强度等)、产量、成熟时间、对生物胁迫的抗性(例如，抗病性或抗虫性)、对非生物胁迫的抗性(例如，耐干旱性或耐盐碱性等)、生长气候或任何附加表型，和/或它们的组合。应当理解的是，本文的系统和方法通常涉及和/或依赖于与一个或多个品系、杂交种等相关的表型数据。这就是说，应当理解的是，在一个或多个示例性实施方式中，基因型数据可以与本文所述的表型数据结合或组合(或以其他方式)使用(例如，以补充表型数据和/或进一步通知本文的模型、算法和/或预测等)，这随后可帮助选择与本文的描述一致的杂交种群或杂交种集合

图1示出了用于从杂交种池中识别杂交种集合以进行推进的示例性系统100，在所述示例性系统100中可以实现本公开的一个或多个方面。尽管在所描述的实施方案中，系统100的各部分以一种布置呈现，但是其他实施方案可包括例如取决于待识别的杂交种的特定类型以其他方式布置的相同或不同部分。

如图1所示，系统100通常包括育种流水线102，提供该育种流水线102以从杂交种池中识别杂交种集合来朝向商业产品开发推进。育种流水线102通常限定锥体级数；由此其以大量杂交种(例如，可用品系的潜在杂交)开始，并随后成功地将杂交种的数目缩小(例如，折减)至优选的和/或期望的杂交种。虽然育种流水线102被配置为识别和/或选择如本文所提供的杂交种，但是育种流水线102可被配置为采用一种或多种其他技术，该一种或多种其他技术可包括本领域已知的多种方法，这往往取决于提供育种流水线102所针对的特定植物和/或生物。

在某些育种流水线实施方案(例如，大型工业育种流水线等)中，可以在几年中在多个阶段在几个地点针对数百个、数千个或更多的品系、杂交种等进行测试、选择和/或推进，以得出折减的杂交种集合等，然后选择所述折减的杂交种集合进行商业产品开发。简而言之，育种流水线102被配置为通过包括在其中的测试、选择等来将大量的品系和可能的杂交种折减成相对较少数目的被预测为如所需表现的杂交种作为商业产品。

在该示例性实施方案中，参考并且通常针对玉米或玉蜀黍及其性状和/或特性来描述育种流水线102。然而，应当理解的是，本文公开的方法不限于玉米，并且可以用于与其他植物有关的植物育种流水线/程序中，例如以改善任何水果、蔬菜、草、树或观赏性作物，包括但不限于玉蜀黍(Zea mays)、大豆(Glycine max)、棉花(Gossypium hirsutum)、花生(Arachis hypogaea)、大麦(Hordeum vulgare)；燕麦(Avena sativa)；野茅(Dactylisglomerata)；稻(Oryza sativa，包括籼稻和粳稻变种)；高粱(Sorghum bicolor)；甘蔗(Saccharum sp)；高羊茅(Festuca arundinacea)；草坪用草物种(例如，物种：匍茎剪股颖(Agrostis stolonifera)、草地早熟禾(Poa pratensis)、圣奥古斯丁草(Stenotaphrumsecundatum)等)；小麦(Triticum aestivum)，以及苜蓿(Medicago sativa)，芸苔属(Brassica)的成员，包括花椰菜、卷心菜、花菜、油菜和油菜籽、胡萝卜、大白菜、黄瓜、干豆、茄子、茴香、菜豆、葫芦、韭菜、莴苣、甜瓜、秋葵、洋葱、豌豆、胡椒、南瓜、萝卜、菠菜、南瓜、甜玉米、番茄、西瓜、蜜瓜、哈密瓜和其他瓜类、香蕉、蓖麻子、椰子、咖啡、黄瓜、杨树、南方松、辐射松、花旗松、桉树、苹果树和其他树种、柑橘、葡萄柚、柠檬、酸橙和其他柑橘属、三叶草、亚麻子、橄榄、棕榈、辣椒、胡椒和牙买加胡椒、甜菜、向日葵、枫香树、茶叶、烟草和其他水果、蔬菜、块茎和块根作物。这些方法还可以连同非作物物种一起使用，所述非作物物种尤其是那些用作模型系统的物种，诸如拟南芥。此外，本文公开的系统和方法可以在植物以外采用，例如用于动物育种程序或其他非植物和/或非作物育种程序中。

如图1所示，育种流水线102包括杂交种开始阶段104和培养和测试阶段106(通过一次或多次迭代)，所述杂交种开始阶段104和培养和测试阶段106一起识别和/或选择一个或多个杂交种以推进到验证阶段108，在所述验证阶段108中例如取决于杂交种的特定类型或其他合适的过程(例如，表征和/或商业开发阶段等)将所述杂交种引入商业前测试，其中意图和/或目标是种植和/或商业化所述杂交种。按照这种说法，应当理解的是，育种流水线102可包括图1所示的三个不同阶段104、106和108中的本领域技术人员已知的多种常规过程。

在杂交种开始阶段104中，从一个或多个品系集合中提供潜在杂交种池。品系可以例如由育种者选择，或者以其他方式取决于植物的特定类型等进行选择。品系(以及随后与其相关的起源)也可例如基于起源选择系统和/或(至少部分地)基于发明名称为“Methodsfor Identifying Crosses for use in Plant Breeding(用于识别供在植物育种中使用的杂交的方法)”的美国专利申请15/618,023中公开的方法和系统来选择，该美国专利申请的全部公开内容以引用方式并入本文。一旦选择了品系，即雄性品系和雌性品系两者，就将所述品系合并以提供杂交种池。然后使杂交种池进入培养和测试阶段106，在该培养和测试阶段106中将杂交种种植或以其他方式引入一个或多个生长空间，例如温室、遮荫棚、苗圃、育种小区、田地等中。

一旦杂交种生长，就对每个杂交种进行测试以得出和/或收集所述杂交种的表型数据，由此将表型数据存储在下面描述的一个或多个数据结构中。测试可包括例如用于确定表型数据的任何合适的技术。此类技术可包括已知可用于评估植物表现(包括本领域已知的任何表型)的任何数目的测试、试验或分析。在为此类测试做准备时，可将胚胎和/或胚乳材料/组织的样本以不杀死或以其他方式阻止种子或植物在考验中存活的方式从子代中收获/取出。例如，可采用种子切片来从子代获得组织样本以用于确定期望的表型数据。也可以使用任何其他收获组织样本的方法，如直接在种子组织上进行测定，而不需要取出组织样本。在某些实施方案中，胚胎和/或胚乳保持与种子的其他组织连接。在某些其他实施方案中，将胚胎和/或胚乳与种子的其他组织分离(例如，胚胎拯救、胚胎切除等)。可以通过此类测试得到的表型的常见示例包括但不限于大小、形状、表面积、体积、质量、和/或在种子的至少一种组织中的化学物质(例如在胚胎、胚乳或其他种子组织中的花青素、蛋白质、脂质、碳水化合物等)的量。在已经选择或以其他方式修饰杂交种(例如，从种子等培养而成)以产生特定化学物质(例如，药物、毒素、香料等)的情况下，可以测定该杂交种以量化所需的化学物质。

按照这种说法，应当理解的是，该实施方案中的育种流水线102的培养和测试阶段106不限于某些或特定的测试技术，因为可使用任何适合于帮助确定与在生命周期的任何阶段的杂交种相关的有关表型数据的技术。也就是说，在某些示例中，可为有利的是使用测试技术，所述测试技术可以在不使杂交种的种子发芽和/或不以其他方式培养植物孢子体的情况下进行(例如，如上所述通过种子切片等)。还应当理解的是，育种流水线102的培养和测试阶段106可以包括多个迭代，如图1中的循环箭头所指示，其中使杂交种生长和/或进行测试和选择，并且由此折减杂交种池，其中将所述杂交种传递到下一个迭代或验证阶段108。在培养和测试阶段106内执行的测试可以经调适以包括多次迭代，以提供适合杂交种的测试和/或数据和/或与本文所述的技术一致。

继续参考图1，在系统100中由选择引擎110控制杂交种从一个培养和测试阶段106到另一个培养和测试阶段(当是周期性的时)和/或验证阶段108的转变。选择引擎110包括计算设备，该计算设备可以是独立的计算服务，或者可以是与一个或多个其他计算设备集成的计算设备。选择引擎110促进控制识别杂交种以在培养和测试阶段106内从一次迭代转变到另一次迭代(例如，当包括多次迭代时，等等)，或以转变到验证阶段108(如由虚线标志所指示的)，以及更一般地从一个阶段前进到下一个阶段。

选择引擎110被配置为通过计算机可执行指令和/或本文的一种或多种算法(或其变体)来执行本文所述的操作。此外，应当理解的是选择引擎110可被配置为提供(例如，产生并导致在人类育种者的计算设备处显示)和/或响应于一个或多个用户界面，人类育种者(广泛而言，用户)能够通过该一个或多个用户界面提供有关杂交种或杂交种所需性状和/或可由本文的算法使用的输入(例如，所选择的杂交种的数目、指示市场分割的输入、定义所需性状型态的输入、特定于一种或多种育种策略的其他输入，或更一般地，杂交种集合的识别的其他方面；等等)。可以直接在人类育种者的其中采用选择引擎110的计算设备(例如，如下所述的计算设备200等)处提供用户界面，或者经由一个或多个基于网络的应用程序来提供用户界面，远程用户(再次可能是人类育种者)可能能够通过所述一个或多个基于网络的应用程序与如本文所述的选择引擎110进行交互。

另外，如图1所示，系统100还包括耦合到选择引擎110的杂交种数据结构112。在该示例性实施方案中，杂交种数据结构112包括与品系和杂交种等有关的数据。所述数据可包括品系和杂交种等的任何类型的数据，所述数据可以是历史数据(例如，通过培养和测试阶段的去年、两年、五年、十年、十五年或更多或更少年的植物；等等)，和/或与培养和测试阶段106的当前迭代有关的数据等。可以在育种流水线102中或从育种流水线102外部进一步提供和/或生成数据。

表1包括来自一系列玉米植物杂交种(H_1,1至H_m,n)的示例性历史表型数据，其中提供了关于杂交种所来源于的每种品系的产率和可站立性的变量值。应当理解的是，如本文所预期的，可包括玉米植物和其他类型植物的其他数据，特别是表型数据。

表1

除了每个杂交种的特定表型数据外，杂交种数据结构112的表1还包括关于在一个或多个先前育种循环，年份、和/或季节中在育种流水线102或其他育种流水线中的杂交种推进决策。如所示出的，例如，杂交种H_1,1和H_m,n是先前已推进的(“真”)，而杂交种H_1,2是先前未推进的(“假”)。

在该示例性实施方案中，选择引擎110被配置为全部或部分地基于杂交种数据结构112中包括的历史数据来生成预测模型，其中该预测模型提供针对给定表型数据“推进”杂交种的概率。选择引擎110可以采用用于生成预测模型的任何合适的技术(也称为“预测算法”)。这些技术可包括但不限于随机森林、支持向量机、逻辑回归、基于树的算法、朴素贝叶斯、线性/逻辑回归、深度学习、最近邻法、高斯过程回归，和/或各种形式的推荐系统技术、方法和/或算法，以提供确定给定数据集合(例如，玉米的产量、高度和可站立性等)的推进概率的方式)。

具体地，例如，预测模型可以与随机森林一致，该随机森林是多个决策树分类器的集合。在来自训练数据集(例如，包括在表1中的训练数据集等)的随机采样的数据上训练决策树中的每个决策树。此外，然后可以选择特征的随机子集(例如，如表型数据等所指示的)以生成单独树。由选择引擎110计算通过随机森林生成的最终预测得分，以作为单独树的聚合，并且与相对于树生成所基于的特征的真或假的预测(即，是否推进)有关。

同样，尽管有该特定示例，但是应当理解的是，可由选择引擎110采用任何合适的技术来生成预测模型。

一旦生成了模型，选择引擎110就被配置为基于该预测模型确定杂交种池中的每个杂交种的预测得分(在本发明的培养和测试阶段106中)。具体地，当测试来自杂交种池的杂交种时，将表型数据(例如，产率、高度、可站立性、油含量、荚计数等)收集并存储在杂交种数据结构112中。为了确定预测评分，选择引擎110被配置为访问杂交种数据结构112并检索与杂交种池中的每个杂交种有关的数据，所述杂交种为例如在表2中被指定为F₁+M₁、F₁+M₂、F₁+M_m、F₂+M₁、F₃+M₁、F₄+M₁直至F_n+M_m的杂交种。如所示出的，对于杂交种中的每个杂交种，来自杂交种数据结构112的表型数据包括在表2中。选择引擎110被配置为随后基于检索到的数据和预测模型来生成预测得分，并根据数据确定每个杂交种的预测得分。

表2

此外，选择引擎110被配置为基于预测得分从杂交种池中选择杂交种群。具体地，选择引擎110可被配置为选择预测得分满足一个或多个阈值的杂交种，或者可替代地基于预测得分对杂交种进行排序，然后基于索引来选择多个杂交种。在表2中，例如，由选择引擎110选择的杂交种群包括被指定为“真”的杂交种，而不包括被指定为“假”的杂交种。

选择引擎110还被配置为随后从杂交种群中识别杂交种集合，以推进到培养和测试阶段106的下一迭代和/或推进到验证阶段108。为此，选择引擎110被配置为采用如本文或其他方式的一种或多种算法，以考虑杂交种的表现(例如，基于预测得分等)以及与杂交种有关的一个或多个其他因素。如本文所述，所述因素可与例如品系分布(例如，雄性和/或雌性等)、杂种优势多样性(例如，雄性和/或雌性等)、性状(例如，抗病性等)、市场分割、风险、生产成本、性状可用性/准备状态等有关。当合适时，选择引擎110可被配置为执行培养和测试阶段106和/或本文的算法的进一步迭代，以识别其中具有多个所需杂交种的杂交种集合。

最终，在育种流水线102中，选择引擎110被配置为使所识别的杂交种集合进入培养和测试阶段106的进一步迭代和/或进入验证阶段108，在所述验证阶段108中使杂交种暴露于商业前测试或其他合适的过程(例如，表征和/或商业开发阶段等)，其中目标和/或目的是杂交种的种植和/或商业化。例如，一个或多个植物产品(例如，种子等)可包括在育种流水线102的生长空间(例如，种植和测试阶段106、验证阶段108等)中，由此从所识别的杂交种集合得到该一个或多个植物产品(例如，每个所识别的杂交种的一个或多个植物产品等)。也就是说，然后所识别的杂交种集合可以经受一个或多个附加的测试和/或选择方法、性状整合，以及潜在的一种或多种填充技术以制备杂交种或基于杂交种的植物材料，以进行进一步测试和/或商业活动。

图2示出了示例性计算设备200，该示例性计算设备200可以例如与育种流水线102的各个阶段结合、与选择引擎110、杂交种数据结构112等结合而在系统100中使用。例如，在育种流水线102的不同部分处，与同计算设备200一致的计算设备交互的育种者或其他用户输入数据和/或访问杂交种数据结构112中的数据，以支持由此类育种者或其他用户完成/实现的育种决策和/或测试。此外，选择引擎110包括同计算设备200一致的至少一个计算设备。与此相关，系统100的选择引擎110包括同计算设备200一致的至少一个计算设备。计算设备200可配置为通过可执行指令来实现本文关于选择引擎110所描述的各种算法和其他操作。应当理解的是，如本文所述，系统100可包括同计算设备200一致或与计算设备200不同的各种不同的计算设备。

示例性计算设备200可包括例如一个或多个服务器、工作站、个人计算机、膝上型计算机、平板电脑、智能手机、其他合适的计算设备，它们的组合等。此外，计算设备200可以包括单个计算设备，或者其可包括多个计算设备，该多个计算设备紧邻地定位或在某一地理区域中分布，并经由一个或多个网络相互耦合。此类网络可包括但不限于互联网、内联网、专用或公共局域网(LAN)、广域网(WAN)、移动网络、电信网络，它们的组合，或一个或多个其他合适的网络等。在一个示例中，系统100的杂交种数据结构112包括至少一个服务器计算设备，而选择引擎110包括至少一个单独的计算设备，该至少一个单独的计算设备直接和/或通过一个或多个LAN等耦合到杂交种数据结构112。

按照这种说法，所示的计算设备200包括处理器202和耦合至处理器202(并与其通信)的存储器204。处理器202可包括但不限于一个或多个处理单元(例如，以多核配置等)，所述一个或多个处理单元包括中央处理单元(CPU)、微控制器、精简指令集计算机(RISC)处理器、专用集成电路(ASIC)、可编程逻辑器件(PLD)、门阵列，和/或具有本文所述功能的任何其他电路或处理器。上面的列表仅是示例性的，因此并非旨在以任何方式限制处理器的定义和/或含义。

如本文所述，存储器204是使得信息(例如可执行指令和/或其他数据)能够被存储和检索的一个或多个设备。存储器204可包括一种或多种计算机可读存储介质，例如但不限于动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、固态设备、闪存驱动器、CD-ROM、拇指驱动器、磁带、硬盘，和/或任何其他类型的易失性或非易失性物理或有形计算机可读介质。存储器204可被配置为存储但不限于杂交种数据结构112、表型数据、测试数据、集合选择算法、近交系、各种阈值、预测模型，和/或适合供如本文所述使用的其他类型的数据(和/或数据结构)。在各种实施方案中，计算机可执行指令可存储在存储器204中，以供处理器202执行以使处理器202执行本文所述功能中的一种或多种功能，因此存储器204是物理的、有形的和非暂时性的计算机可读存储介质。应当理解的是，存储器204可包括各种不同的存储器，每个存储器以本文描述的功能或过程中的一个或多个功能或过程实现。

在示例性实施方案中，计算设备200还包括呈现单元206，该呈现单元206耦合到处理器202(并与其通信)。呈现单元206通过例如显示和/或以其他方式输出信息(例如但不限于选定的杂交种、来自杂交种的作为商业产品的子代，和/或任何其他类型的数据)来向计算设备200的用户(例如，育种者等)进行输出或呈现。应当进一步理解的是，在一些实施方案中，呈现单元206可包括显示设备，使得各种接口(例如，应用程序(基于网络或其他方式的应用程序)等)可以显示在计算设备200处，特别是在显示设备处，以显示此类信息和数据等。并且在一些示例中，计算设备200可以使接口显示在另一计算设备的显示设备处，该另一计算设备包括例如托管具有多个网页的网站的服务器，或者与在另一计算设备处采用的网络应用程序进行交互的的服务器等。呈现单元206可包括但不限于液晶显示器(LCD)、发光二极管(LED)显示器、有机LED(OLED)显示器、“电子墨水”显示器，以及它们的组合等。在一些实施方案中，呈现单元206包括多个单元。

计算设备200还包括接收来自用户的输入的输入设备208。输入设备208耦合到处理器202(并与其通信)，并且可包括例如键盘、指示设备、鼠标、触笔、触敏面板(例如，触摸板或触摸屏，等)、另一计算设备，和/或音频输入设备。此外，在一些示例性实施方案中，触摸屏(诸如包括在平板电脑或类似设备中的触摸屏)用作呈现单元206和输入设备208两者。在至少一个示例性实施方案中，省略呈现单元和输入设备。

另外，所示的计算设备200包括网络接口210，该网络接口210耦合到处理器202(并与其通信)(并且在一些实施方案中还耦合到存储器204)。网络接口210可包括但不限于有线网络适配器、无线网络适配器、电信适配器，或能够与一个或多个不同网络通信的其他设备。在至少一个实施方案中，采用网络接口210来接收对计算设备200的输入。例如，网络接口210可耦合到现场数据收集设备(并与其通信)，以便收集数据以供如本文所述使用。在一些示例性实施方案中，计算设备200可包括处理器202以及结合到处理器202中或与处理器202结合的一个或多个网络接口。

图3示出了用于从潜在杂交种池中识别出待在育种流水线中推进的杂交种集合的示例性方法300。本文结合系统100描述了示例性方法300，并且该示例性方法300可以全部或部分地在系统100的育种流水线102、选择引擎110和杂交种数据结构112中实现。此外，出于说明的目的，还参考图2的计算设备200描述了示例性方法300。然而，应当理解的是，方法300或本文描述的其他方法不限于系统100或计算设备200。并且相反地，本文所述的系统、数据结构和计算设备不限于示例性方法300。

首先，育种者(或其他用户)初始选择识别杂交种集合所针对的植物类型(例如，玉米等)。根据该选择中，针对植物类型识别出一系列品系，其中将所述品系分离为两个杂种优势池：雄性品系和雌性品系。图4示出了二分图400，该二分图400包括一系列品系，该一系列品系中的每个品系被示出为节点并且被指定为M₁至M₁₁或F₁至F₁₁。应当理解的是，图4中包括的品系数目仅出于说明性目的，并且方法300的一个或多个实施方式中通常将包括不同数目的品系(例如，每个杂原子基团100个品系(或更多或更少)等)。如图所示，在图4中，所示出的品系被分离为雄性杂种优势池402和雌性杂种优势池404。然后，如图4所示，使雄性品系与雌性品系杂交，以提供杂交种，以及更具体地，要从中识别杂交种集合的杂交种池。杂交种池包括例如指定为F₁+M₁、F₁+M₂...F₂+M₁...F_n+M_m的杂交种，所述杂交种包括图4中所示的通过雄性品系与雌性品系之间的品系连接器得到的杂交种406(例如，杂交种F₃+M₁等)。

尽管有图4所示的示例，其中100个雄性品系(n＝100)和100个雌性品系(m＝100)被识别给选择引擎110，但是选择引擎110可例如通过使用方法300来识别100个杂交种(r)的集合。

如图3所示，然后，在开始处，选择引擎110在302处访问杂交种数据结构112内的杂交种的表型数据，其中表型数据通常包括与过去的杂交种有关的历史数据，以及当前或现在的与杂交种池中包括的杂交种有关的数据，即，F₁+M₁、F₁+M₂...F₂+M₁...F_n+M_m。历史数据可包括但不限于玉米的针对先前杂交种中包括的品系中的每种品系的产率数据、高度数据和稳定性数据，以及杂交种的历史选择，其中真例如指示杂交种已在先前的育种程序中推进，并且其中假例如指示杂交种未在先前的育种程序中推进。在该示例性实施方案中，选择引擎110在304处基于过去杂交种的历史表型数据和历史选择来生成预测模型，其中该模型提供预测得分(基于表型数据)，该预测得分指示对杂交种进行选择的概率。预测模型可以由选择引擎110通过一种或多种不同的有监督的、无监督的或半监督的算法/模型来生成，所述算法/模型为诸如但不限于随机森林、支持向量机、逻辑回归、基于树的算法、朴素贝叶斯、线性/逻辑回归、深度学习、最近邻法、高斯过程回归，和/或各种形式的推荐系统算法等。

一旦预测模型生成，选择引擎110就在306处基于杂交种的表型数据(在存储器204中的杂交种数据结构112中访问)和预测模型生成杂交种池中的每个杂交种的预测得分(例如，F₁+M₁...F_n+M_m等)。

随后，选择引擎110在308处基于在306处生成的预测得分从杂交种池中选择杂交种群。由选择引擎110进行的选择可以利用预测得分以各种不同的方式来完成。在该示例性实施方案中，例如，选择引擎110基于相关的预测得分为杂交种编索引(例如，以从最高到最低的次序等)，然后选择引擎110根据该索引从有序的杂交种池中选择杂交种群作为最大数目(例如，最大6,000个杂交种，等等)(在308处)。在其他示例中，选择引擎110可将一个或多个阈值施加至预测得分，以保留预测得分满足一个或多个阈值(例如，大于(或小于)该一个或多个阈值等)的杂交种，而不选择预测得分不能满足该一个或多个阈值的杂交种。从图4的杂交种群中，例如如表2所示，在308处将杂交种F₁+M₁、F₂+M₁、F₃+M₁和F_n+M₁从杂交种池选择到杂交种群中，而杂交种F₁+M₂、F₁+M_m和F_n+M_m则不被选择到杂交种群中。

接下来，在方法300中，选择引擎110在310处基于一种或多种集合识别算法来从杂交种群中识别杂交种集合。通常，一种或多种集合识别算法基于杂交种的成功概率，该成功概率是杂交种群中的每个杂交种的预测得分(例如，如在306处确定的，等等)和/或是从该预测得分推导出的。另外，选择引擎110还依赖于一个或多个因素来改善和/或改变可仅基于预测得分识别的杂交种集合。例如，选择引擎110可对待识别的杂种集合施加性状限制，或者限定所需的品系分布或杂种优势多样性型态，所识别的杂交种集合限定相对于所述性状限制或所述所需的品系分布或杂种优势多样性型态的偏差或误差等，然后将所述偏差或误差计数为例如在杂交种集合的识别中杂交种的成功概率的罚分或成本。其他因素可包括例如风险、生产成本(例如，商品成本等)、抗病性或其他性状(单独或组合的)、市场分割、性状整合、性状可用性或准备状态，或与从生长、有效性和/或商业成功的角度等杂交种的表现相关的其他因素。

在该示例性实施方案中，选择引擎110采用集合识别算法作为限定要求解的方程组的一系列算法。特别地，提供了两个二次方程式，每个二次方程式各自针对雄性杂交种(方程式1)和雌性杂交种(方程式3)。将每个方程式求解以提供品系分布，所述品系分布是杂交种集合的最终识别所遵循的(即，作为连续变量)。就是说，就图4的二分图而言，二次方程式与杂种优势池402和404相关的。混合整数规划选择特定于一个或多个优化器的二分图边缘，该二分图边缘遵循所需的节点型态区分。通过使用混合整数规划，还保持了在310处识别的杂交种集合中的几个群体分布。将包含在方程式(以下方程式1-4)中的优化器和用作混合整数规划的输入，然后在混合整数规划中使用所述输入来识别杂交种集合。雌性二次方程式(方程式1)如下：

最大化

与此相关，方程式1受方程式2约束：

雄性二次方程式(方程式3)如下：

最大化

与此相关，方程式3受方程式4约束：

在雌性二次方程式中(以及类似地对于雄性二次方程式)，和/>表示品系使用的线性表现和二次多样性，其中/>是雌性品系的成功概率(例如，通过对相关杂交种的概率取平均，或通过确定和/或检索特定于雌性品系的概率，等等)。具有100％同源性的雌性品系的值将为“1”。具有0％同源性的雌性品系的值将为“0”。大多数品系将共享某一同源性，并作为介于0与1之间的十进制数进行评分。在下表3中提供了雌性杂种优势池中的品系的示例性成对矩阵或S_f。

表3

此外，和/>表示品系使用的线性表现和二次多样性，其中/>是雄性品系的成功概率(例如，通过对相关杂交种的概率取平均，或通过确定和/或检索特定于雌性品系的概率，等等)。同样，具有100％同源性的雄性品系的值将为“1”。具有0％同源性的雄性品系的值将为“0”。大多数品系将共享某一同源性，并被作为介于0与1之间的十进制数评分。在下表4中(并且基于所述品系的聚类，如下所述)提供了雄性杂种优势池中的品系的示例性成对矩阵或S_m。

表4

将遗传多样性包括在集合识别算法中以限制和/或减轻与在所识别的杂交种集合内具有高强度的相似遗传背景的品系的使用相关的风险。一旦识别出品系使用的这些分布，就由选择引擎110采用优化器和/>来识别杂交种集合、使杂交种集合受以下项约束，所述杂交种集合遵循具有给定的和/或所需的成功概率(例如，相对较高或最高的成功概率)的所需和/或要求的品系使用。

结合上述，选择引擎110在310处采用以下混合整数算法来从杂交种群中识别杂交种集合x_OPT。以下的这种示例性算法(方程式5)与上面的二次方程式(方程式1-4)组合或相结合，在本文中还被称为集合识别算法。

与此相关，方程式5受方程式6-11约束：

对于上述，在310处，提供选择引擎110以将r个杂交种识别至杂交种集合中，其中r可包括例如100个杂交种。

项p_i指示成功概率，并且是通过杂交种的预测算法生成的。特别地，项p_i被计算为预测得分(在306处确定的)和一个或多个表型性状的组合。然后，项p_i反映了主要性状的线性组合，其中权重由与历史数据相关的相互信息限定。以这种方式，与上述更广泛的子代池相比，为杂交种群提供了更离散的评估表现的方式。

在方程式7和8中，根据二次方程式(例如,方程式1-5等)提供杂交种集合要遵循的型态，如上面的和/>另外，项M_m指示来自雄性品系集合的杂交种集合的关联矩阵，其中存在特定雄性品系是“1”，并且不存在特定雄性品系是“0”。简化的示例矩阵如下表5所示。

表5

项M_f指示来自雌性品系集合的杂交种集合的关联矩阵，其中存在特定雌性品系是“1”，并且不存在特定雌性品系是“0”。简化的示例矩阵如下表6所示。

表6

基于上述，当杂交种集合(x)偏离雄性品系分布和雌性品系分布的型态时，方程式5中的集合识别算法将施加罚分或成本，这可能反复灌输来自待识别的杂交种集合的某些品系的过代表(over representation)。

根据上述，方程式7和8提供了相对于由上述二次方程式定义的型态(该型态为所需型态)的偏差θ_m(i)和θ_f(i)。当偏差包含在方程式5(集合识别算法)中时，则每个偏差都针对相对于所需型态的偏差向杂交种集合提供成本或罚分。也就是说，对于雄性品系分布和雌性品系分布两者，都向相对于所需型态的偏差分配成本。尽管在该示例性实施方案中以特定方式提供，但是雄性品系和/或雌性品系中的一者或两者的品系分布(或者甚至可能是杂交种)可以在不同的实施方案中以其他方式提供(或者甚至在其他实施方案中作为一个因素被省略)。

此外，通过方程式9和10，集合识别算法(方程式5)考虑了杂交种集合中包括的雄性品系和雌性品系中的每一者的杂种优势多样性。如图4所示，将杂种优势池402和404中的品系中的每种品系分组为一个或多个聚类。特别地，例如，选择引擎110或与方法300相关的其他计算设备可使用以下距离度量(如由方程式12和方程式13表示的)将近交系分类到杂种优势池中。

l_ii:＝-∑_j，j≠il_ij (13)

在此，s_ij是第i个与第j个品系之间的相似性，并且l_ij是拉普拉斯矩阵L的第ij个杂交条目。在该示例中，选择引擎110采用谱聚类，之后是本征分析，以确定/估计聚类数目(即，图4中的杂种优势池402和404中的每一者中三个)，然后采用K均值法将近交系聚类在杂种优势池内。然而，应当理解的是，可以替代地使用各种其他已知的聚类技术。在该示例性实施方案中，对雄性近交系集合和雌性近交系集合单独执行聚类，以识别品系中的遗传池。在该示例中，选择引擎110利用本征分析(Eigen Analysis)来以非监督的方式估计聚类数目。

然后，一旦确定了所需的聚类数目，就由选择引擎110通过例如经由以下提供的方程式(方程式14和15)将拉普拉斯矩阵L投影到主要本征模上来执行降维。在以下的第一方程式(方程式14)中，L是根据相似性距离s_ij创建的拉普拉斯矩阵，并且是通过对角矩阵D进行归一化的归一化拉普拉斯矩阵。/>的本征分析提供聚类的数目。在以下第二方程式(方程式15)中，使用奇异值分解对归一化的拉普拉斯矩阵进行分解。矩阵∑含有本征值，所述本征值根据频谱聚类捕获聚类的数目。然后选择引擎110使用K均值算法对品系F₁至F₁₁和品系M₁至M₁₁进行聚类(在它们相应的杂种优势池402和404中)。因为K均值算法是猜测的或随机的聚类机制，所以在该示例中，选择引擎110可将品系聚类在K均值算法的多个不同实现中，选择最大或相对较高的聚类间距离，等等。又，虽然本文中使用谱聚类，但是应当理解的是，可由选择引擎110或其他计算设备采用其他聚类算法，包括例如分层聚类、贝叶斯聚类、C均值聚类等。

如图4所示，品系中的每个品系包括在品系聚类的一个品系聚类中，并且与到所述聚类内的其他品系的距离或与所述聚类内的其他品系的相似性相关。还应当理解的，在该实施方案中，提供了基于相同标记的相似性矩阵或相似矩阵，以表征上述二次方程式中的多样性。因此，相同的相似性矩阵可以在聚类中形成项s_ij，并用于将品系分类为杂种优势池。

另外，项指示从子代到雄性杂种优势群的关联矩阵，其中聚类中存在雄性品系由“1”指示，并且聚类中不存在雄性品系由“0”指示。简化的示例性矩阵/>在下表7中示出，其中图4中的聚类被指定为针对雄性杂种优势池402的C₁、C₂和C₃。

表7

另外，项指示从子代到雄性杂种优势群的关联矩阵，其中聚类中存在雌性品系由“1”指示，并且聚类中不存在雌性品系由“0”指示。简化的示例性矩阵/>如下表8所示，其中图4中的聚类被指定为针对雄性杂种优势池402的C₁、C₂和C₃。

表8

此外，参考方程式9，项指示来自第i个杂种优势池的雄性品系的杂交种的概率得分的平均值。项/>可以例如通过将得分向量乘以映射矩阵/>获得。并且，参考方程式10，项/>指示来自第i个杂种优势池的雌性品系的杂交种的概率得分的平均值。项/>可以例如通过将得分向量乘以映射矩阵/>获得。

根据上述，方程式9和方程式10分别提供了相对于雄性品系和雌性品系的杂种优势多样性的所需型态的偏差γ_m(i)和γ_f(i)。当偏差包含在方程式5中时，则每个偏差都针对相对于杂种优势多样性的所需型态的偏差向杂交种集合提供成本或罚分。也就是说，对于雄性杂种优势多样性和雌性杂种优势多样性两者，都向相对于所需型态的偏差分配成本。尽管在该示例性实施方案中以特定方式提供，但是雄性品系和/或雌性品系中的一者或两者的杂种优势多样性，或更一般地遗传多样性(或者甚至可能是杂交种)可以在不同的实施方案中以其他方式提供(或者甚至在其他实施方案中作为一个因素被省略)。

现在参考方程式11，项指示来自杂交种性状T_k的关联矩阵，并且因此包括如上述矩阵那样的矩阵，其中矩阵中的值对于每个杂交种包括例如1或0，所述1或0指示所述杂交种中是否存在所述性状。应当理解的是，可以将杂交种的矩阵提供为不同于0或1，以提供对于某些类型的性状，不仅是性状是否存在，还有性状的程度的更准确的指示。

以这种方式，项可用于按市场分割控制性状组合。例如，对于五个市场分割MS₁、MS₂、MS₃、MS₄和MS₅，以及对于杂交种中的每个杂交种，基于它们的产率、疾病易感性等，可以采用项/>来识别可以将性状潜在地提供和/或推出到哪些市场分割中。表9中的以下矩阵向市场分割提供了杂交种的简单示例性矩阵。

表9

如图所示，与上面的矩阵类似，表9的矩阵包括“1”以指示杂交种可能是市场分割的潜在候选者，并且包括“0”以指示杂交种不是市场分割的候选者。一个杂交种可有资格用于多种市场分割。在上面的示例中，M₁+F₁是针对市场分割MS₁、MS₄和MS₅指示的。当矩阵乘以方程式11中的决策向量x_j时，它将产生杂交种在不同市场分割中的组合分布。根据市场分割的要求，如由一个或多个育种和/或商业策略限定的，选择引擎110然后可实现和/或了解界限和/>它们是性状T_k的组合界限上限和组合界限下限。可以由例如人类育种者基于一个或多个业务约束条件和/或考虑因素(例如，所需的市场分割参与度、所需的性状型态等)或以其他方式来选择界限的值。应当理解的是，在该示例性实施方案中，方程式11不对杂交种集合对市场分割的适用性施加任何罚分或成本，而是对集合识别算法的严格约束，因此必须满足该严格约束。也就是说，通过方程式5识别的杂交种集合必须包括满足方程式11中提供的上限和下限的杂交种集合。

然而，应当理解的是，在其他方法实施方案中性状因素(例如，市场分割因素，等)可以是不同的，使得性状因素(如品系分布和/或杂种优势多样性)施加对方程式5(或其他合适的算法)的成本和/或罚分，而不是严格约束。应当进一步理解的是，可以在集合识别算法中提供本文所述的其他因素作为严格约束，如上面关于性状因素(由此迫使算法满足该约束)所述。

此外，虽然该示例性实施方案中在提供中以特定方式确定和/或考虑市场分割，但是在不同实施方案中可以其他方式可考虑和/或提供市场分割(或者甚至在其他实施方案中作为因素省略)。

此外，如上所示，方程式5包括多个不同的加权因子，其中一个加权因子与成功概率有关λ_p，一个加权因子与雄性品系有关一个加权因子与雌性品系有关/>一个加权因子与雄性品系的杂种优势多样性有关/>并且一个加权因子与雌性品系的杂种优势多样性有关/>等。应当理解的是，由人类育种者选择权重以设置与权重相关的不同因素中的优先级。其中例如在品系分布更重要的情况下，可施加加权因子以增大相对于所需型态的偏差的成本和/或罚分/>和/>此外，权重或权重的一部分可以基于与品系和/或杂交种相关的历史数据等进行选择。另外，可以确定性状组合分布的权重(参见上面的方程式11)，由此该权重将针对所识别的杂交种集合的性状组合分布相对于所需型态的偏差提供罚分或成本，由此性状组合分布将不是严格约束。

除上述特定因素(例如，表现因素等)外，还可在二次方程式和/或混合整数问题(或在某些实施方案中潜在地作为严格约束)中的一个或多个中将风险作为品系成本包括在内。对于给定的杂交种集合，可以将风险建模为一个或多个近交系或杂交种失败的机会。在表征品系的风险时，选择引擎110可考虑所述品系的例如可站立性、疾病易感性等，或其他性状和/或表现指标等。另外或替代地，当表征杂交种的风险时，选择引擎110可以通过可站立性、疾病易感性和商品成本等来对杂交种风险进行建模。应当理解的是，风险可以被建模为具有负系数的线性成本，以便所需的所识别的杂交种集合(例如，在上述二次方程式(例如，方程式1-4等)和/或方程式5中进行修改以包括风险等)将继而提供与所识别的杂交种集合相关的风险的限制和/或约束(如与其他潜在的杂交种集合相比)。

如上所指示的，品系分布、杂种优势多样性和市场分割的特定因素是出于说明的目的呈现的，而并非旨在限制可包括在一个或多个集合识别算法中的因素的不同排列。因此，可以在其他集合识别算法中采用本文所述的因素的不同排列以及不同的权重(或没有权重)，然后由选择引擎110使用所述因素的不同排列以及不同的权重(或没有权重)，其中算法可依赖于杂交种的成功概率、构成所述杂交种的品系，或将杂交种包含在待识别的杂交种集合中的某一其他基础等。显然，应当理解的是，在其他方法实施方案中可以采用其他集合选择算法。

但是，在该示例性实施方案中，选择引擎110结合其他方程式求解方程式5，以提供用于x_i的向量，该向量包括“1”以在杂交种集合中包括杂交种，并且包括“0”以从杂交种集合中排除杂交种，由此在310处将杂交种识别为杂交种集合。在上面的示例中，选择引擎110将x_i∈{0，1}^N确定为具有与表示包含的“1”相关联的100个杂交种的向量。此外，如图3所示，然后选择引擎110在312处使该杂交种集合进入培养和测试阶段106的进一步迭代和/或进入验证阶段108，从而将该杂交种集合朝向商业活动推进。与此相关，根据需要将来自该杂交种集合的一个或多个杂交种包括和/或汇编成种子和/或其他植物产品，并且还包括在育种流水线102的生长空间(例如，一个或多个温室、遮荫棚、苗圃、育种小区、田地等)中。(例如，在培养和测试阶段106中和/或到验证阶段108等)。

除上述之外，将与选择引擎110将杂交种选择到杂交种集合有关的数据以及与所述杂交种集合的表现有关的其他数据包括在数据结构112中以用于本文所述的用于识别供植物育种流水线(例如，在流水线102等中)使用的杂交种的方法的进一步和/或后续迭代。

有鉴于上文，本文的系统和方法允许识别要在育种流水线中推进的杂交种。具体地，如上所述，在商业育种流水线中，来自近交系的潜在杂交种的数目大大减少。以这种方式，育种者的期望、倾向和/或假设的作用在过程中被减小，从而导致从各种潜在杂交种中更有效地捕获商业上可行的杂交种。通过本文公开的系统和方法，育种者可以基于对与杂交种有关的大量数据的分析来极大地改善相关联的育种流水线，以识别并潜在地选择这些杂交种进行推进，其中常规育种方法在可以考虑什么方面受到限制。此外，本文的系统和方法不以任何方式受地理或其他方面的限制。例如，如果作物可在给定区域中生长，则在此的选择引擎110可用于通过对与影响该环境中的作物表现和/或成功的某些性状相对应的数据进行加权来识别针对该特定市场/环境的杂交种集合。此类环境可以被全局或区域地表示，或者它可以像田地中的特定位置一样细粒度(使得同一田地被标识为具有不同的此类环境)。以这种方式，本文的系统和方法可用于针对特定于某些市场、地理、土壤类型等的产品的开发，或用于最大化利润、最大化客户满意度、最小化生产成本等。

据此，应当理解的是，在一些实施方案中，本文描述的功能可以描述为存储在计算机可读介质上的计算机可执行指令，并且可由一个或多个处理器执行。计算机可读介质是非暂态计算机可读介质。作为示例而非限制，此类计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储装置、磁盘存储装置或其他磁性存储装置，或者可用于承载或存储指令或数据结构形式并且可由计算机访问的期望程序代码的任何其他介质。上述的组合也应该包括在计算机可读介质的范围内。

还应当理解，当通用计算装置被配置为执行本文描述的功能、方法和/或过程时，本公开的一个或多个方面将通用计算装置变换为专用计算装置。

如基于前述说明书将理解的，本公开的上述实施方案可以使用计算机编程或工程化技术来实现，所述计算机编程或工程化技术包括计算机软件、固件、硬件，或它们的任何组合或子集，其中技术效应可以通过执行以下操作中的至少一者来实现：(a)访问包括代表杂交种池的数据的数据结构；(b)由至少一个计算设备基于数据结构中包括的数据来确定该杂交种池中包括的至少一部分杂交种的预测得分，该预测得分指示基于历史数据对杂交种进行选择的概率和/或杂交种的成功概率；(c)由该至少一个计算设备基于预测得分从子代池中选择杂交种群；(d)由该至少一个计算设备基于杂交种集合的预期表现和/或与杂交种和/或构成杂交种的品系相关的一个或多个因素从杂交种群中识别杂交种集合；以及(e)使该杂交种集合进入育种流水线的某一阶段的进一步迭代和/或进入该育种流水线的不同阶段。

提供示例和实施方案，使得本公开将是透彻的，并且将向本领域的技术人员充分传达范围。阐述了许多具体细节，例如具体部件、设备和方法的示例，以提供对本公开的实施方案的透彻理解。对于本领域技术人员而言显而易见的是，不需要采用具体细节，可以许多不同形式体现示例性实施方案，并且示例性实施方案也不应被解释为限制本公开的范围。在一些示例实施方案中，没有详细描述众所周知的过程、众所周知的设备结构和众所周知的技术。另外，利用本文公开的一个或多个示例性实施方案可以实现的优点和改进可以提供全部上述优点和改进或者没有上述优点和改进，并且仍然落入本公开的范围内。

本文公开的具体值本质上是示例性的，而不限制本公开的范围。本文公开的给定参数的特定值和特定值的范围不排除可在本文公开的一个或多个示例中有用的其他值和值范围。此外，可以设想，本文所述的特定参数的任何两个特定值可以定义可适合于给定参数的一系列值的端点(即，对于给定参数的第一值和第二值的公开可以被解释为公开了第一值和第二值之间的任何值也可以用于该给定参数)。例如，如果参数X在本文中例示为具有值A并且还例示为具有值Z，则可以设想参数X可以具有从约A到约Z的值范围。类似地，设想公开参数的两个或更多个值范围(无论此类范围是嵌套的、重叠的还是不同的)包含可能使用所公开范围的端点要求保护的值的范围的所有可能组合。例如，如果参数X在本文中示例为具有在1-10或2-9或3-8范围内的值，则还可以设想参数X可以具有其他值范围，包括1-9、1-8、1-3、1-2、2-10、2-8、2-3、3-10和3-9。

本文使用的术语仅用于描述特定的示例性实施方案的目的，而并非旨在为限制性的。如本文所用，单数形式“一”、“一个”和“该”也可旨在包括复数形式，除非上下文另有明确指示。术语“包括(comprises、comprising、including)”和“具有”是包括性的，并且因此规定了所述特征、整数、步骤、操作、元件和/或部件的存在，但是不排除一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组的存在或添加。本文描述的方法步骤、过程和操作不应被解释为必须要求它们以所讨论或说明的特定次序执行，除非具体地被标识为执行顺序。还应当理解的是，可以采用附加的或替代的步骤。

当一个特征被称为“在另一个元件或层上”、“接合到另一个元件或层”、“连接到另一个元件或层”、“耦接到另一个元件或层”、“与另一个元件或层相关联”、“与另一个元件或层通信”或“包含在另一个元件或层中”时，该特征可以直接在其他特征上、接合到其他特征、连接到其他特征或耦接到其他特征，或与其他特征相关联或与其他特征通信或包括在其他特征中，或者可以存在中间特征。如本文所用，术语“和/或”包括一个或多个相关列出项目的的任意一者和所有组合。

尽管术语“第一”、“第二”等可以用于描述各种特征，但这些特征不应受这些术语的限制。这些术语仅可用于将一个特征与另一特征区分开。除非上下文明确指示，否则诸如“第一”、“第二”等术语以及其它数字术语在本文中使用时并不暗示次序或顺序。因此，在不脱离示例实施方案的教导的情况下，本文讨论的第一特征可以被称为第二特征。

出于说明和描述的目的，已经提供了实施方案的前述描述。并非旨在穷举或限制本公开。特定实施方案的单独元件或特征通常不限于该特定实施方案，而是在适当的情况下是可以互换的，并且可以被用在选定实施方案中，即使该实施方案没有被具体示出或描述也如此。同样也可以在许多方面有变化。此类变化不应被视为脱离本公开，并且所有此类更改旨在被包括在本公开的范围内。

Claims

1.一种用于识别供植物育种流水线使用的杂交种的方法，所述方法包括：

访问包括代表杂交种池的数据的数据结构，所述杂交种池的每一个杂交种包括一个雄性品系和一个雌性品系，其中所述杂交种池的所述雄性品系和所述雌性品系限定雄性品系池和雌性品系池；

由至少一个计算设备基于所述数据结构中包括的所述数据确定所述杂交种池中包括的至少一部分杂交种的预测得分，所述预测得分指示基于历史数据对杂交种进行选择的概率和/或所述杂交种的成功概率；

由所述至少一个计算设备基于所述预测得分从杂交种池中选择杂交种群；

由所述至少一个计算设备基于以下项从所述杂交种群中识别杂交种集合：

(i)所述杂交种集合的预期表现；

(ii)所述杂交种集合中所述雌性品系的优势多样性，如以下项的最大化：

其中是所述雌性品系针对性状T的成功概率，λ_p是与所述雌性品系的成功概率相关的加权因子，λ_d是与所述雌性品系相关的加权因子，/>是与所述雌性品系相关的针对性状T的优化器，并且S_f是所述雌性品系池的同源性的成对矩阵，

所述项受以下项约束：

(iii)所述杂交种集合中所述雄性品系的优势多样性，如以下项的最大化：

其中是所述雄性品系针对性状T的成功概率，λ_p是与所述雄性品系的成功概率相关的加权因子，λ_d是与所述雄性品系相关的加权因子，/>是与所述雄性品系相关的针对性状T的优化器，并且S_m是所述雄性品系池的同源性的成对矩阵，

所述项受以下项约束：

和

(iv)与所述杂交种和/或所述雄性和雌性品系相关的一个或多个因素；以及

使所述杂交种集合进入所述育种流水线的某一阶段的进一步迭代或进入所述育种流水线的不同阶段。

2.如权利要求1所述的方法，其中所述历史数据包括与多个杂交种和/或多个杂交种的所述雄性和雌性品系有关的历史表型数据和对所述多个杂交种中的每个杂交种的历史选择；以及

还包括由所述至少一个计算设备基于所述历史表型数据和所述历史选择来生成预测模型，其中所述多个杂交种和/或多个杂交种的所述雄性和雌性品系与同所述杂交种池的植物类型一致的类型的植物材料相关；并且

其中确定所述杂交种池中包括的所述至少一部分杂交种的所述预测得分包括基于所述预测模型确定所述预测得分。

3.如权利要求1所述的方法，其中所述一个或多个因素包括以下项中的一个或多个：所述雄性品系池的品系分布、所述雌性品系池的品系分布、性状或性状型态、市场分割、风险、产品成本、性状可用性或性状准备状态。

4.如权利要求1所述的方法，其中所述数据包括代表所述杂交种池的表型数据；并且

其中选择所述杂交种群包括当选定的杂交种的预测得分满足一个或多个阈值时选择所述杂交种群。

5.如权利要求1所述的方法，其中识别所述杂交种集合(x_OPT)是进一步基于以下集合识别算法：

其中p_i指示所述杂交种的成功概率，并且θ代表来自第一所需型态的偏差。

6.如权利要求5所述的方法，其中所述集合识别算法受以下算法中的至少一者约束：

其中指示从子代到雄性杂种优势群的关联矩阵，并且/>指示来自第i个杂种优势池的雄性品系的杂交种的概率得分的平均值；和/或

其中指示从子代到雌性杂种优势群的关联矩阵，并且/>指示来自第i个杂种优势池的雌性品系的杂交种的概率得分的平均值。

7.如权利要求6所述的方法，其中所述集合识别算法受以下算法中的至少一者约束：

其中M_m指示来自雄性品系集合的杂交种集合的关联矩阵；和/或

其中M_f指示来自雌性品系集合的杂交种集合的关联矩阵。

8.如权利要求7所述的方法，其中所述杂交种集合的所述识别受以下算法约束：

其中和/>代表性状T_k的组合界限上限和组合界限下限，并且/>指示来自杂交种性状T_k的关联矩阵。

9.如权利要求1所述的方法，其中使所述杂交种集合进入所述育种流水线的不同阶段包括在识别所述杂交种集合之后在所述育种流水线的生长空间中包括植物产品，所述植物产品基于在所述识别的杂交种集合中的至少一个杂交种。

10.一种用于识别供植物育种流水线使用的杂交种的系统，所述系统包括：

数据结构，所述数据结构包括与杂交种池有关的表型数据，所述杂交种中的每一个杂交种基于两个品系，所述两个品系来自不同的杂种优势池；以及

计算设备，所述计算设备与所述数据结构通信耦合并且被配置为：

访问与所述杂交种池有关的所述表型数据；

基于所述访问的表型数据确定所述杂交种池中的每个杂交种的预测得分，所述预测得分指示基于历史数据对所述杂交种进行选择的概率和/或所述杂交种的成功概率；

基于所述预测得分从所述杂交种池中选择杂交种群；

基于：(i)与所述杂交种相关的一个或多个因素，(ii)雌性品系的优势多样性，如以下项的最大化：

其中是所述雌性品系针对性状T的成功概率，λ_p是与所述雌性品系的成功概率相关的加权因子，/>是与所述雌性品系相关的针对性状T的优化器，λ_d是与所述雌性品系相关的加权因子，并且S_f是所述雌性品系池的同源性的成对矩阵，

所述项受以下项约束：

和(iii)雄性品系的优势多样性，如以下项的最大化：

其中是所述雄性品系针对性状T的成功概率，λ_p是与所述雄性品系的成功概率相关的加权因子，/>是与所述雄性品系相关的针对性状T的优化器，λ_d是与所述雄性品系相关的加权因子，并且S_m是所述雄性品系池的同源性的成对矩阵，

所述项受以下项约束：

从所选择的杂交种群中识别杂交种集合；以及

使所述杂交种集合进入种植和/或测试的验证阶段。

11.如权利要求10所述的系统，其中所述计算设备被配置为至少部分地基于所述识别的杂交种集合相对于针对以下项中的至少一者的期望型态的偏差来识别所述杂交种集合：品系分布、杂种优势多样性和市场分割。

12.如权利要求11所述的系统，其中所述计算设备还被配置为基于以下项来识别所述杂交种集合(x_OPT)：

13.如权利要求12所述的系统，所述系统还包括所述育种流水线，所述育种流水线与所述计算设备通信耦合；并且

其中所述育种流水线包括培养和测试阶段和验证阶段；并且

其中所述计算设备被配置为从所述培养和测试阶段接收包括在所述数据结构中的所述表型数据的至少一部分，并存储包括在所述数据结构中的所述表型数据的所述至少一部分；并且

其中在使所述杂交种集合进入所述育种流水线之后，将来源于所述杂交种集合中的至少一个杂交种的植物种植在所述育种流水线的所述验证阶段的生长空间中。

14.如权利要求12所述的系统，其中所述计算设备还被配置为在确定所述杂交种池中的每个杂交种的预测得分之前，基于用户输入来识别所述杂交种池。

15.如权利要求12所述的系统，所述系统还包括生长空间，所述生长空间包括一株或多株植物，其中所述一株或多株植物来源于所述识别的杂交种集合。

16.一种非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质包括用于识别供植物育种流水线使用的杂交种的可执行指令，所述可执行指令当由至少一个处理器执行时使所述至少一个处理器：

访问包括代表杂交种池的数据的数据结构；

基于所述数据结构中包括的所述数据确定所述杂交种池的至少一部分的预测得分，所述预测得分指示基于历史数据对杂交种进行选择的概率；

基于所述预测得分从所述杂交种池中选择杂交种群；

基于：(i)杂交种集合的成功概率，(ii)与所述杂交种相关的至少一个因素，(iii)雌性品系的优势多样性，如以下项的最大化：

所述项受以下项约束：

和(iv)雄性品系的优势多样性，如以下项的最大化：

所述项受以下项约束：

从所述杂交种群中识别所述杂交种集合；以及

使所述杂交种集合进入育种流水线的培养和测试阶段的进一步迭代和/或进入所述育种流水线的验证阶段。

17.如权利要求16所述的非暂时性计算机可读存储介质，其中所述至少一个因素包括以下项中的至少一者：雄性品系的品系分布、雌性品系的品系分布、雄性品系的杂种优势多样性、雌性品系的杂种优势多样性、性状或性状型态、市场分割、风险、产品成本、性状可用性/准备状态；并且/或者

其中所述可执行指令当由至少一个处理器执行时使所述至少一个处理器进一步基于所述至少一个因素的所需型态来识别所述杂交种集合。

18.如权利要求16所述的非暂时性计算机可读存储介质，其中所述可执行指令当由所述至少一个处理器执行时使所述至少一个处理器：

基于所述数据结构中包括的所述杂交种和/或品系的历史表型数据和历史选择来生成预测模型，所述历史表型数据与同子代池的植物类型一致的类型的植物材料相关；并且/或者

其中确定所述预测得分包括基于所述预测模型确定所述预测得分。

19.如权利要求16所述的非暂时性计算机可读存储介质，其中所述数据包括代表所述杂交种池的表型数据；并且/或者

其中选择子代群包括当选定的杂交种的预测得分满足一个或多个阈值时选择所述杂交种群。