CN111465320B

CN111465320B - 用于识别供植物育种使用的子代的方法和系统

Info

Publication number: CN111465320B
Application number: CN201880079546.7A
Authority: CN
Inventors: S·P·K·查瓦利; S·达斯古普塔; M·加达里哈; A·P·科瓦克斯; N·波拉瓦拉普; 王梓
Original assignee: Monsanto Technology LLC
Current assignee: Monsanto Technology LLC
Priority date: 2017-12-10
Filing date: 2018-12-07
Publication date: 2024-05-24
Anticipated expiration: 2038-12-07
Also published as: EP3720270A4; US20190180845A1; US11728010B2; CA3084440A1; MX2020006028A; CN111465320A; EP3720270A1; US20230386609A1; PH12020550836A1; AU2018378934A1; WO2019113468A1; BR112020011321A2

Abstract

公开了用于识别供植物育种使用的子代的示例性方法。一种示例性的由计算机实现的方法包括访问包括代表子代池的数据的数据结构；以及基于所述数据结构中包括的所述数据确定所述子代池的至少一部分的预测得分。所述预测得分指示基于历史数据选择子代的概率。所述方法还包括基于所述预测得分从所述子代池中选择子代群；基于所述子代群的预期表现和与子代集合、所述子代池和/或所述子代群相关联的至少一个因素中的至少一者，从所述子代群中识别所述子代集合，以及使所述子代集合进入育种流水线的验证阶段。

Description

用于识别供植物育种使用的子代的方法和系统

相关申请的交叉引用

本申请要求2017年12月10日提交的美国临时申请No.62/596,905的权益和优先权。上述申请的完整公开内容以引用方式并入本文。

技术领域

本公开总体上涉及用于供在植物育种中使用的方法和系统，并且具体地涉及用于基于预测框架和/或优化框架从潜在子代池中识别子代集合，并用所识别的子代集合填充育种流水线的方法和系统。

背景技术

本部分提供与本公开相关的背景信息，该背景信息不一定是现有技术。

在植物发育中，通过选择育种或遗传操纵对植物进行修饰。当实现理想的改进时，通过种植来自植物中选定植物的种子并收获若干代中所产生的种子来开发商业量。在整个该过程中，许多决定是基于正在进行育种的植物的特性和/或性状，并且类似地基于子代的特性和/或性状做出的，所述特性和/或性状不能保证继承或表现出子代的亲本和/或祖先的期望性状。传统上，作为选择特定植物以用于进一步发育的一部分，从植物和/或它们产生的种子中取得样本并进行测试，从而使具有所需特性和/或性状的植物得到推进。与此相关，植物发育涉及大量可能的杂交，从而产生大量潜在的子代，必须从所述大量潜在的子代中做出最终育种决策和/或选择商业产品。

附图说明

本文所述的附图仅出于说明选定实施方案，而非所有可能实施方式的目的，并且并非旨在限制本公开的范围。

图1示出了本公开的示例性系统，该示例性系统适合于从潜在子代池中识别出子代集合以实现育种流水线中的推进；

图2是可以在图1的示例性系统中使用的计算设备的框图；

图3是适合与图1的系统一起使用以从潜在子代池中识别子代集合的示例性方法；

图4是被组合以提供一系列子代的示例性起源集合的图形表示，从该一系列子代中可以通过图3的方法选择某些子代；

图5是预测得分、表型性状和将植物产品推进至进一步育种的历史决策之间的相互信息的图形表示；并且

图6示出了与包括在例如结合图3的方法所指示或识别的杂种群中的杂种的多个性状相关联的示例性风险曲线。

在附图的若干视图中，对应的附图标记表示对应的部分。

具体实施方式

现在将参考附图更全面地描述示例性实施方案。本文所包括的描述和具体示例仅旨在用于说明目的，而不旨在限制本公开的范围。

各种育种技术通常用于农业中以产生所需的子代。通常，育种程序实施此类技术以获得具有所需特性或特性和/或性状(例如，产量、茎秆强度、抗病性等)的组合的子代。然而，当从此类程序中选择子代集合时，很难准确地确定最佳子代，特别是当有大量选项可用时。例如，如果育种者给出N个数目的起源，并从每个起源创建n个数目的子代，则子代的总数目变成N×n，其中目标可以是选择r个数目的子代以用于育种流水线。因此，假设和/或考虑到与子代有关的某些表型数据，例如产量、高度、稳定性或与其他植物有关的其他数据(诸如遗传数据)，可以评估子代中的每个子代，从而可以存在多达个不同的子代集合，这些不同的子代集合可以折减为/>个。在潜在现实世界示例的情况下，其中N＝100，n＝10并且r＝100，复杂度被量化为10¹⁰⁰。如从该示例可以看出的，子代的选择会导致相当大的复杂度，尤其是在需要和/或希望考虑性状分布和/或遗传多样性时。

独特地，本文的方法和系统允许从子代池中识别子代集合，以将该子代集合包括在育种流水线中。具体地，最初例如基于子代中的每个子代的预测得分将子代池折减为子代群，该预测得分表示基于子代的以往选择(例如，基于表型数据等)和/或与子代相关的可用相关数据的子代的成功。然后，对于子代群(如经最初折减的)，采用选择算法来识别要在育种管道中推进的子代集合。因此，以比常规已知技术更有效和更全面的方式解决了与要在育种流水线中推进的子代的识别相关的复杂度。因此，可以识别出最佳的子代集合，从而最终的最佳集合平衡了子代的预期性能和子代之间的遗传多样性。

子代通常是源自相同物种的一种或多种亲本生物的生物。子代可指例如来自特定育种程序的各种所有可能子代、所有可能子代的子集，或表现出一种或多种不同表型的植物的后代等。子代还可包括来自给定代中的某一品系和/或某一杂交的所有后代、来自某一杂交的某些后代，或单独植物等。

如本文所用，术语“起源”是指子代的一个或多个亲本，并且因此在适用时被解释为单数或复数。起源的表型数据、性状分布、祖先、遗传序列、商业成功和附加信息通常是已知的，并且可以存储在本文所述的存储器中。遗传的遗传学表明了要传代给子代的亲本的性状。并且突变、基因重组和/或定向遗传修饰可能相对于起源改变子代的基因型和所产生的表型。

如本文所使用的“表型数据”包括但不限于关于给定子代(例如，植物等)或子代群体(例如，植物群等)的表型的信息。表型数据可包括子代的大小和/或活力(heartiness)(例如，株高、茎杆周长、茎杆强度等)、产量、成熟时间、对生物胁迫的抗性(例如，抗病性或抗虫性等)、对非生物胁迫的抗性(例如，耐干旱性或耐盐碱性等)、生长气候或任何附加表型，和/或它们的组合。

应当理解的是，本文的方法和系统通常涉及与一个或多个子代、杂交、品系等相关的表型数据。这就是说，应当理解的是，在一个或多个示例性实施方式中，基因型数据可以与本文所述的表型数据结合或组合(或以其他方式)使用(例如，以进一步补充表型数据和/或进一步通知本文的模型、算法和/或预测等)，以帮助选择子代群和/或识别与本文描述一致的子代集合。

图1示出了用于选择子代的示例性系统100，在所述示例性系统100可以实现本公开的一个或多个方面。尽管在所描述的实施方案中，系统100的各部分以一种布置呈现，但是其他实施方案可包括例如取决于子代的特定特性和/或感兴趣的性状、子代的特定遗传多样性、植物的特定类型和/或感兴趣的子代等以其他方式布置的相同或不同部分。

如图1所示，系统100通常包括育种流水线102，提供该育种流水线102以从子代池中选择子代集合来朝向商业产品开发推进。育种流水线102通常限定锥体级数，由此其以大量潜在子代开始，并随后成功地将潜在子代的数目缩小(例如，折减)至优选的和/或期望的子代。虽然育种流水线102被配置为采用本文提供的选择，但是育种流水线102可被配置为采用一种或多种其他技术，该一种或多种其他技术通常包括本领域已知的多种方法，这往往取决于提供育种流水线102所针对的特定植物和/或生物。

在某些育种流水线实施方案(例如，大型工业育种流水线等)中，可以在几年中在多个阶段和几个地点针对数百个、数千个或更多的起源、子代等进行测试、选择和/或推进，以得出折减的起源集合、子代等，然后选择所述折减的起源集合、子代进行商业产品开发。简而言之，育种流水线102被配置为通过包括在其中的测试、选择等来将大量的起源、子代等折减成相对较少数目的表现优异的商业产品。

在该示例性实施方案中，参考并且通常针对玉米或玉蜀黍及其性状和/或特性来描述育种流水线102。然而，应当理解的是，本文公开的系统和方法不限于玉米，并且可以用于与其他植物有关的植物育种流水线/程序中，例如以改善任何水果、蔬菜、草、树或观赏性作物，包括但不限于玉蜀黍(Zea mays)、大豆(Glycine max)、棉花(Gossypium hirsutum)、花生(Arachis hypogaea)、大麦(Hordeum vulgare)；燕麦(Avena sativa)；野茅(Dactylisglomerata)；稻(Oryza sativa，包括籼稻和粳稻变种)；高粱(Sorghum bicolor)；甘蔗(Saccharum sp)；高羊茅(Festuca arundinacea)；草坪用草物种(例如，物种：匍茎剪股颖(Agrostis stolonifera)、草地早熟禾(Poa pratensis)、圣奥古斯丁草(Stenotaphrumsecundatum)等)；小麦(Triticum aestivum)，以及苜蓿(Medicago sativa)，芸苔属(Brassica)的成员，包括花椰菜、卷心菜、花菜、油菜和油菜籽、胡萝卜、大白菜、黄瓜、干豆、茄子、茴香、菜豆、葫芦、韭菜、莴苣、甜瓜、秋葵、洋葱、豌豆、胡椒、南瓜、萝卜、菠菜、南瓜、甜玉米、番茄、西瓜、蜜瓜、哈密瓜和其他瓜类、香蕉、蓖麻子、椰子、咖啡、黄瓜、杨树、南方松、辐射松、花旗松、桉树、苹果树和其他树种、柑橘、葡萄柚、柠檬、酸橙和其他柑橘属、三叶草、亚麻子、橄榄、棕榈、辣椒、胡椒和牙买加胡椒、甜菜、向日葵、枫香树、茶叶、烟草和其他水果、蔬菜、块茎和块根作物。本文的方法和系统还可以连同非作物物种一起使用，所述非作物物种尤其是那些用作模型方法和/或系统的物种，诸如拟南芥。此外，本文公开的方法和系统可以在植物以外使用，例如用于动物育种程序或其他非植物和/或农作物育种程序中。

如图1所示，育种流水线102包括子代开始阶段104和培养和测试阶段106，该子代开始阶段104和该培养和测试阶段106一起识别和/或选择一个或多个子代以推进至验证阶段108。然后，在验证阶段108中，例如基于子代的特定类型或其他合适的过程(例如，表征和/或商业开发阶段等)，将子代作为子代、品系或杂种引入商业前测试，其中最终目标和/或目的是子代的种植和/或商业化。按照这种说法，应当理解的是，育种流水线102可包括图1所示的三个不同阶段104、106和108中的本领域技术人员已知的多种常规过程。

在子代开始阶段104中，从一个或多个起源集合中提供潜在子代池。起源可以例如由育种者选择，或者以其他方式取决于植物的特定类型等进行选择。起源也可以例如基于起源选择系统和/或(至少部分地)基于发明名称为“Methods for Identifying Crossesfor use in Plant Breeding(用于识别供在植物育种中使用的杂交的方法)”的美国专利申请15/618,023中公开的方法和系统来选择，该美国专利申请的全部公开内容以引用方式并入本文。一旦选择了起源，就从起源的多个杂交创建子代池。然后使子代池进入培养和测试阶段106，在该阶段中将子代种植或以其他方式引入一个或多个生长空间，例如温室、遮荫棚、苗圃、育种小区、田地(或试验田)中。根据需要，在育种流水线102的一些应用中，子代池可以与一株或多株测试植物组合，以产生适合引入培养和测试阶段106的植物产品。

一旦子代在培养和测试阶段106中生长，就对每个子代进行测试(在此示例中再次作为培养和测试阶段106的一部分)以得出和/或收集子代的表型数据，从而将表型数据存储在一个或多个数据结构中，如下所述。与此相关，测试可包括例如用于确定表型数据的任何合适的技术。此类技术可包括已知可用于评估植物表现(包括本领域已知的任何表型)的任何数目的测试、试验或分析。在为此类测试做准备时，可将胚胎和/或胚乳材料/组织的样本以不杀死或以其他方式阻止种子或植物在考验中存活的方式从子代中收获/取出。例如，可采用种子切片来从子代获得组织样本以用于确定期望的表型数据。也可以使用任何其他收获组织样本的方法，如直接在种子组织上进行测定，而不需要取出组织样本。在某些实施方案中，胚胎和/或胚乳保持与种子的其他组织连接。在某些其他实施方案中，将胚胎和/或胚乳与种子的其他组织分离(例如，胚胎拯救、胚胎切除等)。可以通过此类测试评定的表型的常见示例包括但不限于抗病性、非生物胁迫抗性、产量、种子和/或花的颜色、湿度、大小、形状、表面积、体积、质量、和/或在种子的至少一种组织中的化学物质(例如在胚胎、胚乳或其他种子组织中的花青素、蛋白质、脂质、碳水化合物等)的量。作为示例，在已经选择或以其他方式修饰子代(例如，从种子等培养而成)以产生特定化学物质(例如，药物、毒素、香料等)的情况下，可以测定该子代以量化所需的化学物质。

按照这种说法，应当理解的是，所说明的实施方案中的育种流水线102的培养和测试阶段106不限于某些或特定的测试技术，因为可以使用任何适合于帮助确定子代在生命周期的任何阶段的一个或多个特性和/或性状的技术。在某些示例中，可为有利的是使用测试技术，所述测试技术可以在不使子代的种子发芽或不以其他方式培养植物孢子体的情况下进行(例如，如上所述通过种子切片等)。还应当理解的是，培养和测试阶段106可以包括多个迭代，如由图1中的箭头所指示，其中使杂交生长和/或进行测试，并且进行选择，从而折减潜在子代池。在培养和测试阶段106内执行的测试可以经调适以包括多次迭代，以提供适合子代(例如，特定类型的子代等)的测试和/或数据和/或本文所述的技术。

继续参考图1，在系统100中由选择引擎110控制子代从一个培养和测试阶段106到另一个培养和测试阶段，和/或到验证阶段108的转变。选择引擎110包括至少一个计算设备，该至少一个计算设备可以是独立的计算服务，或者可以是与一个或多个其他计算设备集成的计算设备。选择引擎110促进控制识别子代以在培养和测试阶段106内从一次迭代转变到另一次迭代(例如，在具有一次或多次迭代的测试和培养循环之间，等等)(如由圆圈箭头所指示的)，和/或识别子代以转变到验证阶段108(如由虚线标志所指示的)，以及更一般地从一个阶段前进到下一个阶段。选择引擎110被配置为通过计算机可执行指令和/或本文提供的一种或多种算法(或其变体或其他)来执行本文所述的操作。

另外，系统100还包括耦合到选择引擎110的子代数据结构112。在该示例性实施方案中，子代数据结构112包括与子代、基础起源以及进一步的祖先和/或相关起源、子代等相关的数据。数据可包括子代、起源等的例如与植物材料的来源、植物材料的测试等相关的任何类型的数据。数据结构112可以包括与当前生长/测试循环一致的数据，并且可包括与先前生长/测试循环相关的数据。例如，数据结构112可包括指示在培养和测试阶段106，或包括在育种管道102之内或之外的其他生长空间中的植物的当年和/或最后一年、两年、五年、十年、十五年或更多或更少年的植物的各种不同特性和/或性状的数据，并且还呈现来自培养和测试阶段106的数据。表1示出了来自一系列玉米植物的示例性历史表型数据(如可包括在数据结构112中)，其中提供了关于植物的产量、植物的高度和植物的可站立性的可变值(但是其中此类变量可以另外(或替代地)包括例如大豆植物的每株荚数、含油量和/或蛋白质含量等)。应当理解的是，如本文所预期的，其他数据，特别是表型数据，可包括在玉米植物和其他类型植物的数据结构112中。

表1

如上所述，表1中包含的表型数据是历史数据(例如，通过当前和/或先前的育种循环和/或当前和/或过去几年、几个循环等中的实验汇编的数据)。结果，除了特定的表型数据之外，数据结构112的表1还包括与该数据相关联的植物的推进决策。如表1所示，植物P₁、P₄和P₅在前一个季节、年份或其他循环中在育种流水线中推进(基于真指示)，而植物P₂和P₃则没有推进。换句话说，表1中的历史数据还包括子代的历史选择，其中真表示子代在育种过程中推进，而假表示子代未在育种过程中推进。

在该示例性实施方案中，选择引擎110被配置为基于全部或部分包括在数据结构112中和/或通过一个或多个用户输入、决策和/或迭代提供的历史数据来生成预测模型，其中预测模型表示如在过去基于数据集合(例如，表型数据)定义的起源、子代等例如被“推进”(例如，进入验证阶段108等)的概率。选择引擎110可以采用任何合适的技术和/或生成预测模型的算法(也称为预测算法)。这些技术可包括但不限于随机森林、支持向量机、逻辑回归、基于树的算法、朴素贝叶斯、线性/逻辑回归、深度学习、最近邻法、高斯过程回归，和/或各种形式的推荐系统技术、方法和/或算法(参见Kevin P.Murphy的“Machine learning：a probabilistic perspective(机器学习：概率论)”(MIT press，2012(麻省理工学院出版社，2012年))，该文献全文以引入方式并入本文，以提供确定给定数据集合(例如，玉米的产量、高度和可站立性等)的推进概率的方式)。

作为示例，并且如下面更详细地描述，本文的预测模型可以与随机森林技术一致。随机森林技术是多个决策树分类器的集合。在来自训练数据集(例如，包括在表1中的训练数据集等)的随机采样的数据上训练决策树中的每个决策树。此外，然后可以选择特征的随机子集(例如，如表型数据等所指示的)以生成单独树。由选择引擎110计算通过随机森林生成的最终预测模型，以作为单独树的聚合。应当理解的是，选择引擎110被配置为基于其他用户输入(例如，与树、参数等有关的用户输入)等来生成模型(以及模型的不同迭代)，直到生成/实现了满意的预测模型为止。在另一个示例中，本文的预测模型可包括或利用支持向量机(SVM)技术，该SVM技术可用于基于表型将品系分为阳性和阴性类别。在此，预测模型(或SVM模型)训练涉及解决凸优化问题，该凸优化问题找到最佳超平面(线性或非线性)，该最佳超平面将能够基于表型数据分离正样本和负样本，然后该表型数据可从模型中选择，如下所述。

在任何情况下，一旦生成了预测模型，选择引擎110就进一步被配置为基于该预测模型确定在子代开始阶段104中引入并包括在培养和测试阶段106中的子代池中的每个子代的预测得分。具体地，当测试子代池时，在培养和测试阶段106中，将表型数据(例如，产量、高度、可站立性等)，或者通常与子代有关的数据，收集并存储在数据结构112中。在确定预测得分时，选择引擎110被配置为访问数据结构112并检索与包括在池中的子代有关的数据。根据该数据以及针对该数据的预测模型的应用，选择引擎110被配置为确定预测得分。表2说明了在该示例中可能包括在池中的示例性子代，所述示例性子代被指定为A₁/A₂@0001、A₁/A₂@0002至A₁/A₂@000n，以及A₃/A₄@0001至A₃/A₄@000n。还包括子代的起源和子代中的每个子代的某些表型数据。

表2

子代	起源	产率	高度	可站立性	选择
						A₁/A₂@0001	A₁/A₂	Y₁	H₁	S₁	真
A₁/A₂@0002	A₁/A₂	Y₂	H₂	S₂	假
						…	…	…	…	…	…
A₁/A₂@000n	A₁/A₂	Y_n	H_n	S_n	假
						A₃/A₄@0001	A₃/A₄	Y_n+1	H_n+1	S_n+1	真
…	…	…	…	…	…
						A₃/A₄@000n	A₃/A₄	Y_2n	H_2n	S_2n	假
…	…	…	…	…	…

也就是说，应当理解的是，选择引擎110可被配置为基于对表型数据进行排名和/或与包括在数据结构112中的子代相关联的导出表型数据(例如，最佳线性无偏预测(BLUP)等)来确定预测得分。在此类实施方案中，将数据用在此选择进行推进的前X个数目的子代进行排名，由此该排名被用作每个子代的高于阈值(与数据结构112中包括的数据的任何建模相比)的预测得分(例如，真/假等)。

然后，在育种流水线102的操作中(根据本公开)，基于所确定的预测得分，选择引擎110被配置为(从池中)选择要包括在子代群中的子代。该选择可以基于相对于一个或多个阈值的预测得分，或者其可以基于相对于彼此或其他方式的预测得分。在表2中，由选择引擎110(基于所确定的预测得分)选择到子代群的子代被指定为真，而没有被选择引擎110选择到子代群的子代被指定为假。

选择引擎110还被配置为从子代群中识别出子代集合，以推进到培养和测试阶段106的下一迭代和/或推进到验证阶段108。为此，选择引擎110被配置为采用如本文所述或以其他方式所述的一种或多种附加算法，以例如考虑特定子代的预测表现(例如，基于预测得分等)，并进一步基于任选地例如与子代相关联的风险、和/或所识别的子代与期望的和/或优选的表现型态(例如，与起源、谱系、家族等有关的表现型态)的偏差，或指示此类选择的所需子代的其他因素(例如，单独性状、多重性状、产品成本(例如商品成本等)、市场分割需求/愿望、商业育种决策、可用性状和/或准备度等)等。当合适时，选择引擎110可被配置为根据需要执行培养和测试阶段106的进一步迭代，以识别子代集合，从而在所述子代集合中包括期望数目的子代。

最后，在育种流水线102中，来自选择引擎110(在子代集合中)的所识别的子代被推进到验证阶段108，在该验证阶段108中，子代被暴露于商业前测试或其他合适的过程(例如，表征和/或商业开发阶段等)，其中目标和/或目的是子代的种植和/或商业化。也就是说，然后子代集合可以经受一个或多个附加/进一步的测试和/或选择方法、性状整合操作、和/或填充技术以制备子代或基于子代的植物材料，以进行进一步测试和/或商业活动。在一个特定实施方案中，在育种流水线102的至少一个生长空间中包括源自所识别的子代的一株或多株植物，由此使该一株或多株植物生长并进行进一步测试和/或商业活动。

此外，应当理解的是，选择引擎110可被配置为提供(例如，生成并导致在育种者的计算设备处显示等)和/或响应于用户界面，育种者(广泛地，用户)能够通过该用户界面进行选择并提供关于子代或子代所需性状的输入以供本文使用。可以直接在与育种者相关联的其中采用选择引擎110的计算设备(例如，如下所述的计算设备200等)处提供用户界面，或者经由一个或多个基于网络的应用程序来提供用户界面，远程用户(再次可能是育种者)可能能够通过所述一个或多个基于网络的应用程序与如本文所述的选择引擎110进行交互。

图2示出了示例性计算设备200，该示例性计算设备200可以例如与育种流水线102的各个阶段结合、与选择引擎110、子代数据结构112等结合而在系统100中使用。例如，在育种流水线102的不同部分处，与同计算设备200一致的计算设备交互的育种者或其他用户输入数据和/或访问子代数据结构112中的数据，以支持由此类育种者或其他用户完成/实现的育种决策和/或测试。与此相关，系统100的选择引擎110包括同计算设备200一致的至少一个计算设备。计算设备200可配置为通过可执行指令来实现本文关于选择引擎110所描述的各种算法和其他操作。应当理解的是，如本文所述，系统100可包括同计算设备200一致或与计算设备200不同的各种不同的计算设备。

示例性计算设备200可包括例如一个或多个服务器、工作站、个人计算机、膝上型计算机、平板电脑、智能手机、其他合适的计算设备，它们的组合等。此外，计算设备200可以包括单个计算设备，或者其可包括多个计算设备，该多个计算设备紧邻地定位或在某一地理区域中分布，并经由一个或多个网络相互耦合。此类网络可包括但不限于互联网、内联网、专用或公共局域网(LAN)、广域网(WAN)、移动网络、电信网络，它们的组合，或一个或多个其他合适的网络等。在一个示例中，系统100的子代数据结构112包括至少一个服务器计算设备，而选择引擎110包括至少一个单独的计算设备，该至少一个单独的计算设备直接和/或通过一个或多个LAN等耦合到子代数据结构112。

按照这种说法，所示的计算设备200包括处理器202和耦合至处理器202(并与其通信)的存储器204。处理器202可包括但不限于一个或多个处理单元(例如，以多核配置等)，所述一个或多个处理单元包括中央处理单元(CPU)、微控制器、精简指令集计算机(RISC)处理器、专用集成电路(ASIC)、可编程逻辑器件(PLD)、门阵列，和/或具有本文所述功能的任何其他电路或处理器。上面的列表仅是示例性的，因此并非旨在以任何方式限制处理器的定义和/或含义。

如本文所述，存储器204是使得信息(例如可执行指令和/或其他数据)能够被存储和检索的一个或多个设备。存储器204可包括一种或多种计算机可读存储介质，例如但不限于动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、固态设备、闪存驱动器、CD-ROM、拇指驱动器、磁带、硬盘，和/或任何其他类型的易失性或非易失性物理或有形计算机可读介质。存储器204可被配置为存储但不限于子代数据结构112、表型数据、测试数据、集合识别算法、起源、各种阈值、预测模型，和/或适合供如本文所述使用的其他类型的数据(和/或数据结构)。在各种实施方案中，计算机可执行指令可存储在存储器204中，以供处理器202执行以使处理器202执行本文所述功能中的一种或多种功能，因此存储器204是物理的、有形的和非暂时性的计算机可读存储介质。应当理解的是，存储器204可包括各种不同的存储器，每个存储器以本文描述的功能或过程中的一个或多个功能或过程实现。

在示例性实施方案中，计算设备200还包括呈现单元206，该呈现单元206耦合到处理器202(并与其通信)。呈现单元206通过例如显示和/或以其他方式输出信息(例如但不限于选定的子代、作为商业产品的子代，和/或任何其他类型的所需数据)来向计算设备200的用户(例如，育种者等)进行输出或呈现。应当进一步理解的是，在一些实施方案中，呈现单元206可包括显示设备，使得各种接口(例如，应用程序(基于网络或其他方式的应用程序)等)可以显示在计算设备200处，特别是在显示设备处，以显示此类信息和数据等。并且在一些示例中，计算设备200可以使接口显示在另一计算设备的显示设备处，该另一计算设备包括例如托管具有多个网页的网站的服务器，或者与在另一计算设备处采用的网络应用程序进行交互的的服务器等。呈现单元206可包括但不限于液晶显示器(LCD)、发光二极管(LED)显示器、有机LED(OLED)显示器、“电子墨水”显示器，以及它们的组合等。在一些实施方案中，呈现单元206可包括多个单元。

计算设备200还包括接收来自用户的输入的输入设备208。输入设备208耦合到处理器202(并与其通信)，并且可包括例如键盘、指示设备、鼠标、触笔、触敏面板(例如，触摸板或触摸屏，等)、另一计算设备，和/或音频输入设备。此外，在一些示例性实施方案中，触摸屏(诸如包括在平板电脑或类似设备中的触摸屏)可以用作呈现单元206和输入设备208两者。在至少一个示例性实施方案中，可以省略呈现单元和输入设备。

另外，所示的计算设备200包括网络接口210，该网络接口210耦合到处理器202(并与其通信)(并且在一些实施方案中还耦合到存储器204)。网络接口210可包括但不限于有线网络适配器、无线网络适配器、电信适配器，或能够与一个或多个不同网络通信的其他设备。在至少一个实施方案中，采用网络接口210来接收对计算设备200的输入。例如，网络接口210可耦合到现场数据收集设备(并与其通信)，以便收集数据以供如本文所述使用。在一些示例性实施方案中，计算设备200可包括处理器202以及结合到处理器202中或与处理器202结合的一个或多个网络接口。

图3示出了在子代识别过程中选择子代的示例性方法300。本文结合系统100描述了示例性方法300，并且该示例性方法300可以全部或部分地在系统100的选择引擎110中实现。此外，出于说明的目的，还参考图2的计算设备200描述了示例性方法300。然而，应当理解的是，方法300或本文描述的其他方法不限于系统100或计算设备200。并且相反地，本文所述的系统、数据结构和计算设备不限于示例性方法300。

首先，育种者(或其他用户)最初识别潜在地与要在已识别的植物中推进的一种或多种期望的特性和/或性状、或商业植物产品中的所需表现一致的植物类型(例如，玉米、大豆等)和一种或多种可能的表型。继而，基于以上和/或一种或多种其他标准，育种者或使用者单独地或通过各种过程选择起源集合作为子代选择的起点(基于初始识别)。然后，对于给定的起源群体，识别出多个杂交，从所述多个杂交中提供子代群作为示例性方法300的输入。

作为此类识别的示例(用于输入到方法300中)，图4示出了布置成不同聚类的品系A₁至A₁₁，其中聚类(在该示例中)指示遗传相关性。在此，某些杂交/起源A₁/A₂和A₃/A₄例如可以经由方法300识别以用于推进。具体地，所述品系是从不同的遗传相关性聚类402、404、406中选择以促进遗传多样性，或者是基于商业成功进行选择的，或者是基于其他特性和/或性状等进行选择的。并且，杂交/起源408、410提供多个子代412，该多个子代412被指定为A₁/A₂@0001、A₁/A₂@0002至A₁/A₂@000n，以及A₃/A₄@0001、A₃/A₄@0002至A₃/A₄@000n等。来自杂交的子代中的每个子代都是截然不同但相关的。

在该示例中，子代412中的每个每个被包括在杂交体(例如，玉米杂交体等)中，由此子代中的每个子代与测验种结合以实现测试的目的。具体地，如图所示，采用测验种T₁、T₂和T₃作为已知的起源/植物，以供用于创建用于种植的植物产品。应当理解的是，对于某些子代(例如，大豆等)，可以省略测验种。不管是否使用测验种，子代都被种植在田间、实验室或其他生长空间中，并进行生长。随着来自子代的植物产品的生长，子代的某些表型数据被测量、收集和/或通过测试获得，然后直接或经由选择引擎110存储在数据结构112中。

例如，利用该输入，选择引擎110随后采用方法300来最终识别子代集合(例如，100个子代等)，以在育种流水线102中推进。此外，作为说明方法300的基础，可以选择一百个起源以供使用，其中从所述起源的每种组合有十个子代，目标是选择一百个子代进行推进。该示例产生了所识别的子代的10¹⁰⁰个不同潜在集合。

如图3所示，在方法300中的302处，选择引擎110最初访问数据结构112内的子代池的历史数据(例如，与育种者的期望一致的用于育种流水线102的可用子代池的历史数据等)。这可包括历史数据和当前数据。例如，所访问的数据可包括表1的示例性子代的历史数据，所述示例性子代的历史数据与图4所示的子代一致或不同，并且是通过当前和/或先前的育种循环和/或当前和/或过去的年份、循环等中的实验汇编的。一旦数据被访问，选择引擎110就在304处基于所访问的历史表型数据(广义地，输入数据)和子代的对应历史选择(广义地，一个或多个响应变量)生成预测模型，所述预测模型然后在使用中提供给定子代的该给定子代将被针对给定表型数据选择用于推进的预测得数。模型(或预测算法)可以由选择引擎110通过一种或多种不同的有监督的、无监督的或半监督的算法/模型来生成，所述算法/模型为诸如但不限于随机森林、支持向量机、逻辑回归、神经网络、基于树的算法、朴素贝叶斯、线性/逻辑回归、深度学习、最近邻法、高斯过程回归，和/或各种形式的推荐系统算法(其全部内容以引用方式并入本文)，其中此类算法中的每一种算法通常适合于对所述算法操作的数据进行分类和/或聚类。

特别地，例如，可以生成预测评分模型，以提供给定子代将推进到育种流水线102的下一个阶段和/或通过育种流水线102的特定阶段的可能性。与此相关，用户以从历史数据中访问的相关子代的数据集开始。该数据集将需要包括子代的表型数据(以及潜在的基因型数据)(再次是输入数据)。输入数据将形成特征，模型将在所述特征上进行训练并且模型将依赖于所述特征对未来的子代进行预测。数据集还包含响应变量，所述响应变量指示每个子代是否从育种流水线102(或其他类似的育种流水线)内的一个特定阶段和/或级推进(例如，其是否从验证阶段108推进，其是否从商业产品推进，等等)。用户可选择推进阶段，以指示方法300的特定实现目的。如果存在多个阶段和/或级，则应当理解的是，可以采用复合响应变量，从而到每个阶段/级的推进构成了针对数据集中的子代中的每个子代所包括的最终响应值的一部分。

应当理解的是，包括在数据集中的特定表型数据可以根据所包括的特定子代，表型数据与推进之间的相关程度、表型数据的重要性等而变化。

一旦为该数据集提供了输入数据和响应变量，用户就可以将数据集随机或沿逻辑划定(例如，年、月等)分离成训练集、验证集和测试集。可以将数据集分离为例如分别为70∶20∶10(或其他)的集合比。使用这三个不同的数据集，通过对如上列出的算法进行选择来启动针对数据训练集的建模。例如，如果选择随机森林作为创建该预测得分的潜在算法，则用户通常会选择受良好支持的编码包，该受良好支持的编码包以合适的编码语言(例如R或python)实现随机森林。一旦已经选择了包和语言，例如python中的scikit-learn，用户就开始构建代码框架以指定、构建、训练、验证和测试模型的过程。

当构建框架时，将框架连接到训练数据集、验证集和测试集的适当位置中。之后，调谐算法超参数，所述算法超参数是定义算法本身结构的参数。这些超参数的一些特定于随机森林的示例包括树的大小、树的数目，以及每次拆分时要考虑的特征数目，但是超参数的具体性质将因算法而异(和/或基于用户输入、表型等)。为了开始调谐过程，使用初始超参数集合来训练模型，该初始超参数集合可以基于过去的经验、有根据的猜测、随机地或通过其他合适的方式等来选择。在训练过程中，算法将尝试最小化其正在进行的分类与包括在数据集中的真实响应值之间的误差。一旦此过程完成，就可以通过在单独的验证数据集上评估经训练的模型的错误率来验证从训练过程报告的错误率。训练结果与验证结果之间的错误率的密切一致可表明已成功训练了广义模型，而两者之间的强烈差异(例如，验证错误率远高于训练错误率)可表明该模型可能已与训练数据过拟合。为了解决任何过拟合问题或只是为了探索其他超参数是否可提供较低的错误率，用户可以使用不同的超参数集合来重复训练和验证过程，同时跟踪错误率如何与不同的超参数关联。通常，如本领域的技术人员将理解的，用户正在寻找超参数集合，所述超参数集合增强模型表现(并例如限制错误率)，而不会表现出过拟合的迹象(例如，在训练集和验证集上的表现之间的强烈差异可表明过拟合)。为了进一步增加对所得模型的可推广性的信心，用户可以对训练数据集和验证数据集的多个不同子集中的任何子集重复上述过程(交叉验证)。

一旦如上所述通过训练、验证和/或交叉验证(即基于训练和验证数据集)生成了模型，就在测试数据集上对该模型进行进一步评估，以确定该模型对该模型当时未见过的新数据的预期表现。应当理解的是，在各个实施方案中，在交叉验证或调谐过程中不使用测试集，以便尽可能实用地提供和/或确保测试数据先前尚未被模型看到过(即，不是基于测试数据生成的)，模型对新数据的表现的评估是合理的，并且模型在预测子代的推进方面是有效的。

接下来，作为方法300或以前的一部分，如果模型的表现达到或超过了例如如用户所定义的期望、业务需求等，则可以采用该模型来确定预测得分，如下文所提供的。相反地，如果模型的表现不如预期那样好，或者如果存在另一种算法可产生具有更好或更有效表现的模型的合理预期，则数据科学家可替代地决定用一种或多种不同的算法(例如，神经网络等)构建预测模型(作为步骤304的一部分)，然后比较不同模型的最终表现，以确定应在方法300的其余步骤中使用哪种模型(如果有的话)。

也就是说，应当理解的是，通过不同模型类型进行数据分离、超参数调谐和/或迭代建模，可以由用户手动完成，或者它们可以通过一个或多个自动化过程来完成。

继续参考图3，然后，选择引擎110再次访问数据结构112(或作为步骤302的一部分)以至少检索子代的表型数据，然后在306处基于模型和收集(例如，从数据结构112或以其他方式等)和/或从生长空间中的子代的测试汇编的当前表型数据确定所识别子代中的每个子代(例如，在图4中被指定为A₁/A₂@0001、A₁/A₂@0002至A₁/A₂@000n、A₃/A₄@0001，以及A₃/A₄@0002至A₃/A₄@000n并在表2中标识的子代等)的预测得分。然后，在308处选择引擎110基于预测得分从潜在子代池中选择子代群。在此类示例性实施方案中，子代由预测得分以降序索引，并且例如，得分最高的10,000个子代可以推进到经滤的群中。在其他示例中，选择引擎110可将阈值应用于预测得分，以保留预测得分满足阈值(例如，大于阈值等)的子代，同时丢弃预测得分未能满足阈值的子代。

再次参考图4，在表2中还通过真和假指定来指示其中包括的子代群412，其中将真子代包括在经过滤的群中(在方法300中的308处)。如此，例如子代A₁/A₂@0001和A₃/A₄@0001推进到经过滤的群中(即，被指定为真)，而子代A₁/A₂@0002、A₁/A₂@000n和A₃/A₄@000n不被推进到经过滤的群中(即，被指定为假)。

在该示例性实施方案中，在308处选择引擎110通常通过预测得分(以及潜在的一个或多个预测前过滤器和/或限制等)选择100,000个或更少的子代、50,000个或更少的子代、20,000个或更少的子代、10,000个或更少的子代，或5,000个或更少的子代等以包括在子代群中。在一个示例中，子代池包括约10,000个子代，在308处从这些子代中选择约6,000个或更少的子代。应当理解的是，如由选择引擎110选择的包括在子代群中的子代的数目可以取决于例如池中子代的数目、子代/植物的类型、计算资源等而变化，并且可以不同于上面提供的大小中的任何大小。

接下来，在方法300中，选择引擎110在310处基于一个或多个选择算法来识别子代集合(从经过滤的子代群)。在该示例性实施方案中，选择引擎110采用A选择算法(等式1)，其中子代总数包括N×n个子代，并且所识别的子代集合包括r个子代，并且其中x₁在第一子代被选择到集合中时为“1”，并且在第一子代没有被选择到集合中时为“0”：

X∈{0，1}^nN (1)

与此相关，选择引擎110采用以下示例性集合识别算法(等式2)来识别要包括在子代集合中的子代。应当理解的是，在其他实施方案中可采用其他集合识别算法。具体地，例如，如下所示，在等式2处，集合识别算法最初包括用于说明子代被包括在子代集合中的概率预测得分的项(即，成功概率)。此外，集合识别算法还包括其他约束项，所述其他约束项通常基于其他感兴趣的因素(例如，风险、遗传多样性(例如，品系分布等)、一种或多种性状(例如，存在、表现等)(例如，抗病性、产量等)、基础起源的成功概率，基础谱系的成功概率、杂种群的成功概率、性状型态、市场分割、产品成本(例如，商品成本(COGS)等)、性状整合、或与子代相关的其他因素等)，通常通过将成本函数折减为与子代集合的概率预测得分相关的项(或者通过包括在与等式2类似的集合识别算法中的严格约束(即，必须满足))来改变子代集合。其他集合识别算法可包括以上因素中的一个或多个因素。在示例性等式2中，集合识别算法包括风险项。

集合识别算法(等式2)的项说明子代的表现，项/>说明风险，并且项/>和/>说明相对于一种或多种表现型态的偏差。另外，项p_i指示成功概率，并且由子代的预测算法(或预测模型)生成，如在304处生成的。项p_i和r_i与单独子代品系的表现和风险得分相关。每个子代集合的成本有利于以决策变量x_i的形式选择品系，从而提高、期望和/或最大化该子代集合的整体表现，同时限制、减少或最小化风险(与其他子代集合相比)。在没有成本中的最后三项的情况下，则如果选择了高表现和低风险的品系，则成本将最大化。然而，在此类情况下，一个或多个多样性因素(在起源、基础谱系或杂种群水平上)将受到危害。另外，为了维持多样性和性状组合，引入了辅助变量θ、/>和γ。这些变量/因素当选择趋于无法提供多样性时充当总成本的罚分因素。项p_i被计算为预测得分(在306处确定的)和一个或多个表型性状的组合。在该示例中，将关于是否进行推进的历史决策的性状的相互信息用作权重。例如，通过与选择有关的历史决策之间的相互信息(例如，上表1中的真/假确定，等)来确定权重。并且，将一种或多种性状用作特定性状的相对权重。然后，将熵用作概率分布中不确定性的度量，其中变量x的熵由以下等式3定义：

H(x)＝-∫p(x)logp(x)dx (3)

然后，通过以下等式4和5定义两个随机变量x和y的互信息(例如，预测得分和性状的存在，等)：

以这种方式，对预测得分和/或性状的了解可减少一个或多个其他变量的不确定性(例如，与子代的成功概率有关)。例如，当确定了一个部分中的表型性状(如产量、选择指数和预测得分)与另一部分上的历史决策之间的相互信息时，可以确定用于计算表现的权重p_i。与此相关，图5示出了子代的各种性状的相互信息。如可以看出的，与其相关联的预测得分与子代的相关历史决策共享最大的互信息。换句话说，预测得分能够用于最大程度地识别潜在成功的品系。除了预测得分外，selin和产量水分比(ym)(以及其他性状)也具有可评估的和/或预测性的相互信息。这些附加的性状因此可用于例如通过如以上算法中所提供的加权来提供表现得分。在该示例性实施方案中使用了相互信息，因为所述相互信息提供了到与预测得分和/或一种或多种性状具有非线性关系的离散变量(例如，进行推进的历史决策等)的适当概括和/或扩展。也就是说，在其他方法实施方案中可以使用其他相关技术。

然后，以上等式(等式2)中的项p_i(表示成功概率)反映了主要性状的线性组合，其中权重例如如图4所示由相互信息定义。以这种方式，与上述更广泛的子代池相比，为子代群提供了更离散的评估表现的方式。

上面的等式(等式2)中的项r_i指示子代的失败风险(例如，是风险向量等)。风险由选择引擎110确定为可站立性/高度/疾病性状(和/或玉米或其他植物类型的相同或不同的合适性状，等)的指数函数。每个都是负性状，并且通常基于方法300，最终的子代集合将包括这些特定性状的较小值。将风险向量归一化以确保值落在0与1之间(例如，其中0为最小风险，而1为最大风险，等等)。风险通常是尽管明显具有较高的表现得分但失败的概率。例如，图6示出了曲线图600，该曲线图600指示子代的风险值如何随着某些性状(包括可站立性性状，等)的疾病的增加而增加。如图所示，通常将生长建模为指数函数。

可以结合确定上面的集合识别算法(等式2)的不同项来使用各种附加方等式(包括以下等式13-15)。与此相关联(即，与以下等式13-15相关)，项o_i指示基础起源的成功概率。在该示例性实施方案中，该项包括来自第i个起源的所有子代的平均值p_i。例如，可以通过以下等式6计算该项：

o_i＝∑_jM_l(i，j)p_j (6)

项b_i(以及与此一致的等式14中的b_k)是基础谱系的成功概率。在该示例性实施方案中，该项包括来自某一起源并且含有第i个谱系的所有子代的平均值p_i。例如，可以通过以下等式7计算该项：

b_i＝∑_jM_o(i，j)p_j (7)

并且，项h_i(以及与此一致的等式15中的h_j)是杂种群的成功概率。在该示例性实施方案中，该项包括来自第i个杂种群的所有子代的平均值p_i。例如，可以通过以下等式8计算该项：

h_i＝∑_jM_h(i，j)p_j (8)

应当理解的是，对于某些植物类型，可以消除和/或省略上述项中的一个或多个项，同时可以添加或包括与其他因素相关的其他或不同项。例如，对于选择大豆和其他品种作物/植物，可以从上述选择算法中省略杂种群的成功概率。

关于项o_i，其中包含的项M_l(参见等式6)是代表关于不同起源的子代群的关联矩阵，其中存在起源是“1”并且缺乏起源是“0”。如与图4中所示的子代有关，下面在表3中说明了简化的示例行矩阵。特别是在该示例性实施方案中，M_i是表3所示矩阵的转置。

表3

关于项b_i，其中包括的项M_o(参见等式7)是从起源集合到谱系集合的关联矩阵。这类似于上面有关起源的矩阵。表4呈现了M_o的一个简化示例。特别地在该示例中，M_o是表4中所显示矩阵的转置。

表4

此外，在以上等式中，项χ_M是雄性子代的特性向量。项χ_F是雌性子代的特性向量。项是来自子代的关于性状T_k的关联矩阵。也就是说，它是矩阵，该矩阵基于一个或多个阈值来指示子代中性状的存在与否。此外，项/>是关于性状T_k的下限和上限组合边界。项M_H是从子代到杂种群的关联矩阵。如上所述，该矩阵包括关于将子代包括在杂种群中的子代群。并且，项λ是与各种目标相对应的各权重。例如，λ_p是用于对表现加权的值，λ_r是用于对风险加权的值，并且λ_d是用于使各种不同因素(如起源、品系、杂种群)多样化的值，等等。

而且，以下等式9提供了被识别为子代集合的子代总数等于r。

另外，集合识别算法(等式2)还可由等式10-12来限制，该等式10-12识别可包括在所识别的子代的集合中的经过滤的子代群中的可行的子代。具体地，等式10限制了雄性对子代集合的参与，而等式11限制了雌性对子代集合的参与。通过将它们包括在内，等式10和11限制和/或确保了选定子代中的性别平衡(根据需要)。具体地，等式10和11保证了选定子代中的性别平衡。并且，X_F和X_M是雌性和雄性的特性向量。例如，X_F对于所有雌性品系为“1”，并且对于雄性品系为“0”。可以观察到X_M(i)+X_F(i)＝1。此外，α_F和α_M是所存在的选定子代与子代集合的比例的极限(例如，雌性和雄性品系的最小比例，等)。

此外，等式(3)基于一种或多种性状的存在来识别子代中的子代，其中矩阵M基于例如与子代和/或提供子代的起源相关的表型数据相对于一个或多个阈值来指示性状是否存在。在该示例中，矩阵包括针对性状存在的“1”和针对性状不存在的“0”。

如在该示例性实施方案中所使用的，项T_k提供了将被针对而包括在子代集合中的性状，使得该项不会引起等式(2)中的偏差或cos，但是在该示例中必须被遵循。并且，和/>是允许的上限和下限，所述允许的上限和下限例如可以基于一个或多个业务和/或商业策略(或基于需求和/或历史数据的分析)。例如，如果T_k代表某种疾病性状，则/>可为选择中可能具有某种疾病易感性风险的品系的最大允许数目。对于此特定示例，项/>应为0。另一个示例可为T_k是植物的相对成熟度是否在一定范围内。这样，上限和下限可用于确保和/或提供由集合识别算法选择的品系的数目在相对成熟群(或根据需要或期望的一个或多个其他性状)的期望界限内，等等。在该示例性实施方案中，等式12是与步骤310相关的严格约束，因为在识别子代集合时必须遵循该等式12。在其他实施方案中等式12可经修改、修订和/或更改(例如，结合等式2)以在子代集合的识别中提供与以下等式13-15一致的成本和/或罚分。

另外，并且通常如上所述，集合识别算法(等式2)包括针对起源、谱系和家族的表现型态的项，如在一下等式13-15中提供的和/或由以下等式13-15说明的。具体地，等式13说明了上面定义的子代起源的表现型态o_i，确定了子代群中的子代集合之间的偏差，然后界定-θ_i与θ_i之间的偏差。因此，相对于起源的偏差是对集合识别算法中的罚分或折减。同样地，采用等式14和15，分别具有针对子代的谱系和家族的表现型态，由此，偏差再次是上述集合识别算法(等式2)中的罚分或折减(例如，成本等)。

在该示例性实施方案中，如应当理解的，θ_i，Y_i是三个辅助变量，它们被引入以确保维持多样性型态，换句话说，所有选择都不是来自相同的起源、谱系或杂种群。

虽然等式13-15包括与相对于型态的偏差相关联、特定于起源、谱系和家族的罚分，但是这些罚分中的一个或多个，无论是由上述等式还是由其他等式表示，都可以被从其他集合标识算法中省略。具体地，表现项/指标可单独用于识别该集合的子代，和/或表现项/指标可仅与风险函数(或其他合适的函数)组合使用。

最终，在方法300中，在310处，选择引擎110根据以上确定识别要包括在用于推进的子代集合中的r个数目的子代。并且，然后在312处，选择引擎110使该子代集合进入培养和测试阶段106的进一步迭代和/或进入验证阶段108，从而将所识别的子代集合朝向商业活动推进。例如，来源于所识别的子代集合的一株或多株植物(例如，每个所识别的子代的一株或多株植物，等等)被包括(例如，种植等)在育种流水线102中的生长空间中(例如，温室、遮荫棚、苗圃、育种小区、田地(或试验田)，等)中，作为培养和测试阶段106或验证阶段108的一部分。使一个或多个生长空间中的一株或多株植物生长和/或以其他方式经受测试和/或商业活动。此外，子代集合的识别和/或其推进被包括在数据结构112中，从而向该方法中提供反馈以便在随后的迭代、循环、季节等中持续改进表现。

应当理解的是，例如，在依赖于任何特定方法或方法组合之前，选择引擎110可评估该一种或多种方法的表现，并在必要时选择为给定作物和/或给定区域提供最佳预测的方法。为了评估方法和/或模型的表现，可以收集历史数据，然后针对方法中的每种方法划分为训练集和测试集。然后，基于不同的方法，使用利用各种性状的若干特征预测商业成功的训练数据，并使用子代亲本的历史推进/成功，来建立模型。一旦建立了模型，就可以通过模型预测测试数据的商业成功，并将其与子代的实际商业成功进行比较，以确定模型的准确性(例如，针对不同方法中的每种方法，等)。考虑到这一点，应当理解的是，本文包括的模型、算法、等式等本质上是示例性的，并且不限于本公开(因为其他模型、算法、等式等可用于系统100和/或方法300的其他实施方式中)。

有鉴于上文，本文的方法和系统允许识别要在育种流水线中推进的子代。具体地，如上所述，在商业育种流水线中，潜在起源的数目和来自起源的潜在子代的数目大大减少。此外，通过利用受本文所述的算法和/或可执行指令约束的选择引擎，所述方法和系统提供用于对子代集合的选择，所述子代集合的集合被预测为相对于给定池和/或子代群中未被选择的其他子代是高表现的子代，同时消耗最少的资源(或至少减少消耗的资源)。

以这种方式，育种者的期望、倾向和/或假设的作用在过程中被减小，从而导致从各种潜在子代中更有效地捕获商业上可行的子代。通过本文公开的系统和方法，育种者可以基于对与子代有关的大量数据的分析来极大地改善相关联的育种流水线，以识别并潜在地选择这些子代进行推进，其中相比之下，在过去的常规育种方法中，是在可以考虑什么和如何考虑方面受到限制。此外，本文的方法和系统不以任何方式受地理或其他方面的限制。例如，如果作物可以在给定区域中生长，则在此的选择引擎110可用于通过对与影响该环境中的作物表现和/或成功的某些性状相对应的数据进行加权来识别针对该特定市场/环境的子代集合。此类环境可以被全局或区域地表示，或者它们可以像田地中的特定位置一样细粒度(使得同一田地被标识为具有不同的环境)。以这种方式，本文的方法和系统可用于针对特定于某些市场、地理、土壤类型等的产品的开发，或用于最大化利润、最大化客户满意度、最小化生产成本等。

据此，应当理解的是，在一些实施方案中，本文描述的功能可以描述为存储在计算机可读介质上的计算机可执行指令，并且可由一个或多个处理器执行。计算机可读介质是非暂态计算机可读介质。作为示例而非限制，此类计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储装置、磁盘存储装置或其他磁性存储装置，或者可用于承载或存储指令或数据结构形式并且可由计算机访问的期望程序代码的任何其他介质。上述的组合也应该包括在计算机可读介质的范围内。

还应当理解，当通用计算装置被配置为执行本文描述的功能、方法和/或过程时，本公开的一个或多个方面将通用计算装置变换为专用计算装置。

如基于前述说明书将理解的，本公开的上述实施方案可以使用计算机编程或工程化技术来实现，所述计算机编程或工程化技术包括计算机软件、固件、硬件，或它们的任何组合或子集，其中技术效应可以通过执行以下操作中的至少一者来实现：(a)访问包括代表子代池的数据的数据结构；(b)由至少一个计算设备基于包括在数据结构中的数据来确定该子代池的至少一部分的预测得分，该预测得分指示基于历史数据选择子代的概率；(c)由该至少一个计算设备基于预测得分从子代池中选择子代群；(d)由该至少一个计算设备基于子代群的预期表现、与子代群中的子代相关联的风险以及子代群相对于与至少一个型态的偏差中的至少一者，从子代群中识别子代集合；以及(e)使该子代集合引入育种流水线的测试和培养阶段和/或育种流水线的验证阶段。

提供示例和实施方案，使得本公开将是透彻的，并且将向本领域的技术人员充分传达范围。阐述了许多具体细节，例如具体部件、设备和方法的示例，以提供对本公开的实施方案的透彻理解。对于本领域技术人员而言显而易见的是，不需要采用具体细节，可以许多不同形式体现示例性实施方案，并且示例性实施方案也不应被解释为限制本公开的范围。在一些示例实施方案中，没有详细描述众所周知的过程、众所周知的设备结构和众所周知的技术。另外，利用本文公开的一个或多个示例性实施方案可以实现的优点和改进可以提供全部上述优点和改进或者没有上述优点和改进，并且仍然落入本公开的范围内。

本文公开的具体值本质上是示例性的，而不限制本公开的范围。本文公开的给定参数的特定值和特定值的范围不排除可在本文公开的一个或多个示例中有用的其他值和值范围。此外，可以设想，本文所述的特定参数的任何两个特定值可以定义可适合于给定参数的一系列值的端点(即，对于给定参数的第一值和第二值的公开可以被解释为公开了第一值和第二值之间的任何值也可以用于该给定参数)。例如，如果参数X在本文中例示为具有值A并且还例示为具有值Z，则可以设想参数X可以具有从约A到约Z的值范围。类似地，设想公开参数的两个或更多个值范围(无论此类范围是嵌套的、重叠的还是不同的)包含可能使用所公开范围的端点要求保护的值的范围的所有可能组合。例如，如果参数X在本文中示例为具有在1-10或2-9或3-8范围内的值，则还可以设想参数X可以具有其他值范围，包括1-9、1-8、1-3、1-2、2-10、2-8、2-3、3-10和3-9。

本文使用的术语仅用于描述特定的示例性实施方案的目的，而并非旨在为限制性的。如本文所用，单数形式“一”、“一个”和“该”也可旨在包括复数形式，除非上下文另有明确指示。术语“包括(comprises、comprising、including)”和“具有”是包括性的，并且因此规定了所述特征、整数、步骤、操作、元件和/或部件的存在，但是不排除一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组的存在或添加。本文描述的方法步骤、过程和操作不应被解释为必须要求它们以所讨论或说明的特定次序执行，除非具体地被标识为执行顺序。还应当理解的是，可以采用附加的或替代的步骤。

当一个特征被称为“在另一个元件或层上”、“接合到另一个元件或层”、“连接到另一个元件或层”、“耦接到另一个元件或层”、“与另一个元件或层相关联”、“与另一个元件或层通信”或“包含在另一个元件或层中”时，该特征可以直接在其他特征上、接合到其他特征、连接到其他特征或耦接到其他特征，或与其他特征相关联或与其他特征通信或包括在其他特征中，或者可以存在中间特征。如本文所用，术语“及/或”包括一个或多个相关列出项目的的任意一者和所有组合。

尽管术语“第一”、“第二”等可以用于描述各种特征，但这些特征不应受这些术语的限制。这些术语仅可用于将一个特征与另一特征区分开。除非上下文明确指示，否则诸如“第一”、“第二”等术语以及其它数字术语在本文中使用时并不暗示次序或顺序。因此，在不脱离示例实施方案的教导的情况下，本文讨论的第一特征可以被称为第二特征。

出于说明和描述的目的，已经提供了实施方案的前述描述。并非旨在穷举或限制本公开。特定实施方案的单独元件或特征通常不限于该特定实施方案，而是在适当的情况下是可以互换的，并且可以被用在选定实施方案中，即使该实施方案没有被具体示出或描述也如此。同样也可以在许多方面有变化。此类变化不应被视为脱离本公开，并且所有此类更改旨在被包括在本公开的范围内。

Claims

1.一种用于识别供植物育种流水线使用的子代的方法，所述方法包括：

访问包括代表子代池的数据的数据结构，所述数据包括针对子代池的历史表型和推进数据；

由至少一个计算设备基于所述数据结构中包括的所述历史表型和推进数据生成预测模型；

使用所述预测模型由所述至少一个计算设备基于所述数据结构中包括的表型数据确定所述子代池的至少一部分的预测得分，所述预测得分指示基于所述历史表型和推进数据推进所述育种流水线中的子代的概率；

由所述至少一个计算设备基于所述预测得分从所述子代池中选择子代群；

由所述至少一个计算设备基于以下集合识别算法从所述子代群中识别出子代集合：

其中：与所述子代群的表现相关；/>与风险相关；/>和与一种或多种表现型态的偏差相关；并且其中x_i是第i个子代的决策变量，如果所述子代被选择到子代集合中，则所述决策变量的值为“1”，并且如果所述子代没有被选择到子代集合中，则所述决策变量的值为“0”；p_i和r_i与针对所述子代群的表现和风险得分相关；和/>是与多样化相关的权重变量；T代表子代的感兴趣的性状；并且θ、/>和γ是用于维持相对于理想分布的多样性和性状组合的辅助变量；以及

使所述子代集合进入所述育种流水线的测试和培养阶段和/或进入所述育种流水线的验证阶段。

2.如权利要求1所述的方法，其中所述数据包括代表所述子代池的表型数据；并且

其中选择所述子代群包括当选定的子代的预测得分满足一个或多个阈值时从所述池中选择一个或多个子代。

3.如权利要求1所述的方法，其中所述集合识别算法受于以下算法中的至少一者约束：

其中χ_M是雄性子代的特性向量；χ_F是雌性子代的特性向量；α_F和α_M分别是子代集合中存在的雌性和雄性品系比例的极限；是来自子代的关于性状T_k的关联矩阵；并且/>和/>分别是关于性状T_k的下限和上限组合边界。

4.如权利要求3所述的方法，其中所述集合识别算法受以下算法中的至少一者约束：

和或

其中M_l是从子代到起源集合的关联矩阵；o_j是基础起源的成功概率；M_o是从子代到基础谱系集合的关联矩阵；b_k是基础谱系的成功概率；M_H是子代到杂种群的关联矩阵；并且h_j是杂种群的成功概率。

5.如权利要求1所述的方法，其中使所述子代集合进入育种流水线的测试和培养阶段包括在所述育种流水线的生长空间中包括一株或多株植物，所述一株或多株植物来源于所述识别的子代集合。

6.一种用于识别供植物育种使用的子代的系统，所述系统包括：

数据结构，所述数据结构包括与子代池有关的历史表型数据和推进数据，所述子代中的每个子代基于一个或多个起源；以及

计算设备，所述计算设备与所述数据结构通信耦合并且被配置为：

访问所述数据结构中与所述子代池有关的所述表型和推进数据；

基于所述数据结构中包括的所述历史表型和推进数据生成预测模型；

使用所述预测模型基于所述访问的表型数据确定所述子代池中的所述子代中的每个子代的预测得分，所述预测得分指示基于与所述子代池相关联的历史表型和推进数据推进育种流水线中的所述子代的概率；

基于所述子代池中的所述子代中的每个子代的所述预测得分，从所述子代池中选择子代群；

基于以下集合识别算法，从所述子代群中识别子代集合：

使所述子代集合进入种植和/或测试的验证阶段和/或进入所述育种流水线的验证阶段以实现商业化。

7.如权利要求6所述的系统，所述系统还包括所述育种流水线，所述育种流水线与所述计算设备通信耦合，所述育种流水线包括所述培养和测试阶段和所述验证阶段；

其中所述计算设备被配置为收集包括在所述数据结构中的所述表型数据的至少一部分，并存储包括在所述数据结构中的所述表型数据的所述至少一部分；并且

其中在使所述子代集合进入所述育种流水线之后，将来源于所述子代集合中的至少一个子代的植物种植在所述育种流水线的所述验证阶段的生长空间中。

8.如权利要求6所述的系统，其中所述计算设备还被配置为在访问所述数据结构中与所述子代池有关的所述表型数据之前，基于用户输入来识别所述子代池。

9.如权利要求6所述的系统，其中所述计算设备被配置为基于与所述子代集合的成功概率相关联的值减去与所述子代集合同期望型态的偏差相关联的值来识别所述子代集合。

10.如权利要求6所述的系统，所述系统还包括所述育种流水线的生长空间；并且

其中所述生长空间包括在所述生长空间中的至少一株植物，所述至少一株植物来源于所述识别的子代集合中的所述子代中的至少一个子代。

11.一种非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质包括用于识别供植物育种使用的子代的可执行指令，所述可执行指令当由至少一个处理器执行时使所述至少一个处理器：

使用所述预测模型基于所述数据结构中包括的所述数据确定所述子代池的至少一部分的预测得分，所述预测得分指示基于历史表型和推进数据推进育种流水线中的所述子代的概率；

基于所述预测得分从所述子代池中选择子代群；

基于以下集合识别算法从所述子代群中识别子代集合：

使所述子代集合进入育种流水线的测试和培养阶段和/或进入所述育种流水线的验证阶段。

12.如权利要求11所述的非暂时性计算机可读存储介质，其中所述数据包括代表所述子代池的表型数据；并且/或者

其中所述可执行指令当由所述至少一个处理器结合选择所述子代群来执行时，使所述至少一个处理器在所述选定的子代的所述预测得分满足一个或多个阈值时从所述池中选择一个或多个子代。

13.如权利要求11所述的非暂时性计算机可读存储介质，其中所述集合识别算法受以下算法中的至少一者约束：

和或

其中χ_M是雄性子代的特性向量；χ_F是雌性子代的特性向量；α_F和α_M分别是子代集合中存在的雌性和雄性品系比例的极限；是来自子代的关于性状T_k的关联矩阵；并且/>和分别是关于性状T_k的下限和上限组合边界；M_l是从子代到起源集合的关联矩阵；o_j是基础起源的成功概率；M_o是从子代到基础谱系集合的关联矩阵；b_k是基础谱系的成功概率；M_H是子代到杂种群的关联矩阵；并且h_j是杂种群的成功概率。