CN116982113A

CN116982113A - 机器学习驱动的植物基因发现和基因编辑

Info

Publication number: CN116982113A
Application number: CN202180095800.4A
Authority: CN
Inventors: B·扎姆夫特; V·辛格; M·沃格斯; T·阮
Original assignee: X Development LLC
Current assignee: Ke Genetic Agriculture Co.,Ltd.
Priority date: 2021-03-19
Filing date: 2021-11-24
Publication date: 2023-10-31
Also published as: EP4285368A1; US20220301658A1; JP2024516768A; CA3211204A1; WO2022197336A1; KR20230146617A

Abstract

本公开涉及利用可解释的机器学习方法和特征重要性机制作为基因发现的机制，并且还利用基因发现的输出来推荐理想基因表达谱和有助于所需表型的必要基因组编辑。特别地，本公开的方面涉及获得在植物的组织样本中测量的基因集合的基因表达谱，将基因表达谱输入到为预测表型的任务而构建的预测模型中作为输出数据，使用预测模型生成植物表型的预测，通过可解释的人工智能系统分析由预测模型做出的决策以预测表型，并且基于分析将表型的候选基因靶标集合识别为对预测具有最大贡献或影响。

Description

机器学习驱动的植物基因发现和基因编辑

相关申请的交叉引用

本申请要求于2021年3月19日提交的美国申请号17/207,169的权益和优先权，其全部内容通过引用并入本文用于所有目的。

技术领域

本公开涉及植物基因组编辑，并且具体地涉及利用可解释的机器学习方法和特征重要性机制(在神经网络和其他非线性模型两者上)作为基因发现的机制，并且还利用这些基因发现模型的输出来推荐理想基因表达谱，包括有助于所需表型的必要基因组编辑。

背景技术

遗传多样性主要是有性重组和诱变的功能，并且是植物性状改良的重要手段。例如，植物遗传资源中的遗传多样性为植物育种者提供了开发具有所需特征的新的和改良的栽培种的机会，这些特征包括农民偏好的性状(例如，高产潜力、果粒大等)和育种者偏好的性状(例如，害虫和疾病抗性和光敏性等)。数千年来，植物驯化依赖于经由进化力量(例如，选择、突变、迁移、遗传漂变(genetic drift)等)的天然遗传变异性来选择有利的遗传改变。植物驯化或人工选择有利于一些等位基因，而以其他等位基因为代价，导致所选择的等位基因的频率增加。因此，与野生的多样性相比，植物驯化减少了遗传多样性。此外，经由进化力量生成遗传变体是完全不受控制的，并且在很大程度上依赖于植物栽培的环境。

为了获得对遗传多样性的一些控制并且创造新品种，育种者已经使用不同的技术来分析植物的遗传多样性并且使用该分析将可遗传的突变引入植物基因组中。例如，结合各种统计工具(例如，多元统计)的形态学、细胞学、生物化学和分子标志物表征与组合可以用于评估物种的不同品系、品种或条目之间的遗传多样性。这些技术已经被用于评估遗传趋异，将种质分类为不同的组，以及选择不同的亲本以开发杂交表型，诸如超亲分离体。然而，从多样性分析获得的关于产量和质量的潜在基因组因素的知识越多，传统育种方法的局限性就越明显。由于重组和非定向诱变的随机性质，所选择的种质的进一步改良是一个冗长且乏味的过程，其常常受到连锁阻力(与所需性状遗传连锁的有害遗传物质的转移)的损害。因此，对天然或随机诱导的多样性的依赖是减慢常规育种过程并导致不可预测的育种结果的限制因素。

在过去的一个世纪中，各种诱变剂(例如，化学化合物和辐射)的使用促进了大量遗传变异的快速生成，然后可以将其用于加速育种过程。然而，这些方法具有几个缺点，包括生成的突变的非特异性性质，大量核苷酸同时突变，以及有时大基因组片段的缺失、复制或重排。因此，经由随机诱变识别感兴趣的突变是一个漫长且劳动密集型的过程。序列特异性工程化核酸内切酶、大范围核酸酶、锌指核酸酶(ZFN)、转录激活因子样效应物核酸酶(TALEN)和II型聚集规律间隔短回文重复序列(CRISPR)/CRISPR相关蛋白9(Cas9)的开发为植物基因组中的靶向基因编辑(靶向诱变)提供了工具。这些可编程核酸酶能够以位点特异性方式生成单链或双链DNA断裂(DSB)。在真核细胞中，诱导的DSB可以经由易错末端连接途径或经由无错同源定向修复(HdR)途径修复。这两种途径都被用来在目标基因座处引入基因修改(modification)。尽管如此，传统遗传多样性分析仍然限制了基因发现和有助于所需表型的基因修改的识别。因此，尽管CRISPR和其他基因编辑工具具有巨大潜力，但如果要完全实现这种潜力，则仍然存在重大挑战。

发明内容

在各种实施例中，提供了一种方法，包括：获得在植物的组织样本中测量的基因集合的基因表达谱集合；通过非线性算法学习基因表达谱的特征与表型之间的关系或相关性，将该基因表达谱集合输入到为预测表型的任务而构建的预测模型中作为输出数据；使用预测模型，基于该基因表达谱集合的特征与表型之间的关系或相关性生成植物表型的预测；通过可解释的人工智能系统分析由预测模型做出的决策以预测表型，其中，该分析包括：(i)为表型预测中使用的特征生成特征重要性分数集合，以及(ii)基于与每个特征相关联的特征重要性分数对特征进行排名或以其他方式排序；基于排名或以其他方式排序的特征，将表型的候选基因靶标集合识别为对预测具有最大贡献或影响；以及基于所识别的候选基因靶标集合来识别基因组区域集合，该基因组区域集合在被编辑时提供基因表达谱中的必要改变以实现预期的表型改变。

在一些实施例中，可解释的人工智能系统使用SHapley加法解释、深度提升、集成梯度、局部可解释模型不可知解释(LIME)、基于注意力的神经网络模型或逐层相关传播来分析预测模型做出的决策。

在一些实施例中，该方法还包括：识别该基因组区域集合包括将该候选基因靶标集合输入到为对该候选基因靶标集合的基因编辑建模的任务而构建的基因编辑模型中，并且基于建模的基因编辑，识别用于对该候选基因靶标集合内的一个或多个基因进行基因组编辑的最佳遗传靶标集合，从而最大化、最小化或以其他方式调节表型；以及使用基因编辑模型，基于用于候选基因靶标集合内的一个或多个基因的基因组编辑的最佳遗传靶标，生成表型的理想基因表达谱。

在一些实施例中，可解释的人工智能系统使用SHapley加法解释，其生成SHapley值集合作为表型预测中使用的特征的特征重要性分数；Shapley值表示每个特征重要性以及方向的估计；并且基因编辑模型通过直接从Shapley值确定调节的方向性来对基因编辑进行建模。

在一些实施例中，预测模型是高斯过程模型；并且基因编辑模型使用贝叶斯优化算法对基因编辑进行建模，该贝叶斯优化算法包括两个组件(component)：(i)基础高斯过程函数的高斯过程模型，以及(ii)用于对各种数据点进行采样的采集函数。

在一些实施例中，预测模型是深度神经网络；并且基因编辑模型通过对深度神经网络执行对抗性攻击来对基因编辑进行建模，该对抗性攻击包括冻结深度神经网络的权重，以及在受约束输入的空间上进行优化以最大化或最小化表型。

在一些实施例中，该方法还包括：将理想基因表达谱与植物的基因表达的天然存在的分布进行比较；基于该比较确定用于上调或下调理想基因表达谱内的特定基因、基因亚组或每个基因的基因编辑推荐；以及使用基因编辑系统，根据基因编辑推荐对植物的基因组进行遗传编辑或扰动。

在一些实施例中，提供了一种系统，该系统包括一个或多个数据处理器和包含指令的非暂时性计算机可读存储介质，当在一个或多个数据处理器上执行时，该指令使得一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部。

在一些实施例中，提供了一种计算机程序产品，该计算机程序产品有形地体现在非暂时性机器可读存储介质中，并且包括被配置为使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部的指令。

已经采用的术语和表达被用作描述而非限制的术语，并且在使用这些术语和表达时不意图排除所示和所描述的特征或其部分的任何等同物，但是应当认识到，在所要求保护的本发明的范围内可以进行各种修改。因此，应当理解，尽管已经通过实施例和可选特征具体公开了所要求保护的本发明，但是本领域技术人员可以采用本文公开的概念的修改和变化，并且这些修改和变化被认为是在由所附权利要求限定的本发明的范围内。

附图说明

鉴于以下非限制性附图，将更好地理解本公开，其中：

图1示出了根据各种实施例的用于植物中的基因发现和基因编辑的机器学习流水线(pipeline)的框图；

图2A示出了根据各种实施例的示例性深度神经网络；

图2B示出了根据各种实施例的用于基因-基因相互作用发现的图蒸馏；

图3A和图3B示出了根据各种实施例的使用高斯过程模型和贝叶斯优化来对基因编辑建模；

图3C示出了根据各种实施例的与使用Shapley值相比使用贝叶斯优化的基因编辑建模的结果；

图4示出了根据各种实施例的对深度学习架构进行对抗性攻击以对基因编辑进行建模；

图5示出了根据各种实施例的示例性差分进化算法；

图6示出了根据各种实施例的使用基于对抗的建模方法确定的理想基因表达谱的示例；

图7示出了根据各种实施例的基因发现和编辑系统的框图；

图8示出了根据各种实施例的用于基因发现和编辑的示例性流程；以及

图9示出了根据各种实施例的用于识别给定表型的重要基因集或簇的示例性流程。

在附图中，类似的组件和/或特征可以具有相同的附图标记。此外，相同类型的各种组件可以通过在附图标记之后跟随破折号和区分相似组件的第二标记来区分。如果在说明书中仅使用第一附图标记，则该描述适用于具有相同的第一附图标记的类似组件中的任何一个组件，而不管第二附图标记如何。

具体实施方式

随后的描述仅提供优选的示例性实施例，并且不旨在限制本公开的范围、适用性或配置。相反，优选示例性实施例的随后描述将为本领域技术人员提供用于实现各种实施例的使能描述。应当理解，在不脱离所附权利要求中阐述的精神和范围的情况下，可以对元素的功能和布置进行各种改变。

在以下描述中给出具体细节以提供对实施例的透彻理解。然而，应当理解，可以在没有这些具体细节的情况下实践实施例。例如，电路、系统、网络、过程和其他组件可以以框图形式示出为组件，以免不必要的细节模糊实施例。在其他实例中，可以在没有不必要的细节的情况下示出众所周知的电路、过程、算法、结构和技术，以避免模糊实施例。

此外，应当注意，各个实施例可以被描述为过程，该过程被描绘为流程图、流图、数据流图、结构图或框图。尽管流程图或图可以将操作描述为顺序过程，但是许多操作可以并行或同时执行。另外，可以重新布置操作的顺序。过程在其操作完成时终止，但是可以具有未包括在图中的附加步骤。过程可以对应于方法、函数、程序、子例程、子程序等。当过程对应于函数时，该过程的终止可以对应于函数返回到调用函数或主函数。

I.引言

理解控制植物中特定表型的潜在生物学机制传统上需要冗长的实验迭代。这种实验包括遗传操纵(诸如经由基因递送系统的基因敲除和过表达)和关键分子信号通路的药理学靶向。对于分子机制很大程度上未被探索的生物体来说，该过程尤其是时间和资源密集型的，并且建立关于这些机制的重要知识组合的过程在历史上已经花费了科学界数十年。

用于将生物体基因组中称为单核苷酸多态性(SNP)的基因组中的特定碱基对差异与特定表型相关联的传统计算方法基于全基因组关联研究(GWAS)和数量性状基因座(QTL)分析。GWAS用于通过对具有特定表型分布的天然存在的基因组样本进行统计分析，将特定遗传变体与特定表型相关联。QTL分析与GWAS的类似之处在于，最终目标是将表型变异与基因组的特定区域相关联，尽管QTL不是观察群体中的天然变异，而是靶向关于特定表型的两个遗传上截然不同的品系，并且分析第一代(F1)和第二代(F2)后代。虽然GWAS和QTL分析在识别随后已经验证的感兴趣的候选SNP方面取得了巨大的进展，但是GWAS和QTL分析的一些弱点是它们在建模复杂的非线性相互作用(诸如上位性)、识别因果SNP和识别弱效应大小的SNP方面的弱点。

为了利用更复杂的非线性机器学习方法进行GWAS和QTL分析，最近已经注意力被吸引到深度学习架构上。诸如深度神经网络(DNN)、深度信念网络、递归神经网络(RNN)和卷积神经网络(CNN)的深度学习架构已经应用于包括计算机视觉、机器视觉、语音识别、自然语言处理、音频识别、生物信息学和机器翻译的技术领域，其中，它们已经产生了与人类表现相当并且在一些情况下超过人类表现的结果。虽然深度学习架构已经在涉及GWAS和QTL数据集的各种预测任务(例如，风险预测)中应用并证明了一些成功，但是在其现实世界应用和部署中的主要问题是由于这些网络中使用的算法的黑盒性质而缺乏内在的可解释性。因此，大多数植物表型的遗传结构和差异在很大程度上仍然无法解释。

为了解决这些限制和问题，本文公开了用于植物中的基因发现和基因编辑的机器学习流水线，其首要目标是获得植物表型的粒度控制。流水线可以被分解成两个分离的组件。对于第一组件，可以通过可解释的人工智能方法(XAI)识别给定植物物种中特定表型的潜在相关基因。更具体地，使用基因表达谱作为输入来预测表型值的机器学习模型(非线性)可以经由XAI检查，以识别对预测模型具有最大影响的基因。通过XAI在预测模型上识别的这些顶级基因用作参与特定植物物种和表型的分子调节过程的候选基因。对于第二组件，给定靶向参与特定表型的表现的顶级基因，可以应用建模技术来生成关于那些特定基因的调节的建议。更具体地，流水线的第二组件对调节的方向性(上调/下调)进行粗粒度和细粒度推荐，这些建议可以翻译成可以经由合成生物学中的方法进行的可操作编辑。

在一个示例性实施例中，提供了一种方法，该方法包括：获得在植物的组织样本中测量的基因集合的基因表达谱集合；通过非线性算法学习基因表达谱的特征与表型之间的关系或相关性，将该基因表达谱集合输入到为预测表型的任务而构建的预测模型中作为输出数据；使用预测模型，基于该基因表达谱集合的特征与表型之间的关系或相关性生成植物表型的预测；通过可解释的人工智能系统分析由预测模型做出的决策以预测表型，其中，该分析包括：(i)为表型预测中使用的特征生成特征重要性分数集合，以及(ii)基于与每个特征相关联的特征重要性分数对特征进行排名或以其他方式排序；以及基于排名的特征将表型的候选基因靶标集合识别为对预测具有最大贡献或影响。该方法还可以包括基于所识别的候选基因靶标集合识别基因组区域集合，该基因组区域集合在被编辑时提供基因表达谱中的必要改变以实现预期的表型改变。识别该基因组区域集合可以包括将该候选基因靶标集合输入到为对该候选基因靶标集合的基因编辑建模的任务而构建的基因编辑模型中，并且基于建模的基因编辑，识别用于对该候选基因靶标集合内的每个基因进行基因组编辑的最佳遗传靶标集合，从而最大化或最小化表型。该方法还可以包括使用基因编辑模型，基于用于候选基因靶标集合内的每个基因的基因组编辑的最佳遗传靶标集合，生成表型的理想基因表达谱。

II.机器学习流水线

图1示出了根据各种实施例的用于植物中的基因发现和基因编辑的机器学习流水线100的框图。机器学习流水线100包括用于经由可解释的人工智能在植物中发现基因的第一组件105和用于使用机器学习对植物中的基因编辑进行建模的第二组件110。第一组件105包括被配置为从基因表达谱120预测给定植物的特定表型115的模型架构。给定植物的表型描述了基因型连同环境植物的可观察特征对的集体表达。植物高度、生物量、芽密度、叶形状、颜色、果实或谷粒产量、抗旱性、抗虫性等都是表型特征(离散和连续变异)的示例，这些表型特征可以随着不同的生长条件而变化，甚至在相同的基因型内也是如此。训练模型架构以输出指示表型115的预测的响应变量。在一些实例中，表型115是二元、序数或连续表型，并且模型架构的输出层根据最适合于识别表型115的响应变量的类型使用非线性激活函数(例如，双曲正切或线性函数可以用于连续表型，sigmoid可以用于二元表型，并且softmax可以用于序数或多类表型)。在某些实例中，被预测的特定表型115是连续表型，并且模型架构的输出层使用非线性激活函数(诸如双曲正切函数)来生成用于识别连续表型115的响应变量。

植物的细胞取决于外部和内部信号调节它们含有的基因的表达水平。控制各种基因的表达水平使得每个细胞能够控制其大小、形状和功能。植物细胞表达其含有的基因的方式影响植物的表型，例如对给定昆虫或干旱的抗性，或其是否会产生甜果实或酸果实。基因表达谱分析125测量在任何给定时刻哪些基因在细胞中表达。这是因为细胞基因表达受到外部和内部刺激的影响，包括细胞是否正在分裂、细胞环境中存在哪些因子、它从其他细胞接收的信号，甚至是一天中的时间。为了确定哪些基因正在表达，基因表达谱分析125测量mRNA水平的量，显示每个细胞在转录水平表达的基因模式。在一些实例中，这意味着在两种或更多种实验条件下测量相对mRNA量，然后评估哪些条件导致特定基因表达。可以使用不同的技术来测量mRNA水平的量并且确定基因表达。在一些实例中，经由微阵列分析、逆转录聚合酶链式反应(RT-PCR)、下一代cDNA测序(由组织的纯化RNA的逆转录反应产生的DNA(RNA-seq))或其任何组合来测量mRNA水平。

基因表达谱分析125输出基因表达谱120，基因表达谱120包括在植物发育周期中的特定时间在植物中的特定组织中测量的固定基因集合的特征(a)-(n)。如果基因在特定时间被组织细胞用来制备mRNA，则该基因在基因表达谱120内被认为是“开启”的；并且如果该基因在特定时间未被组织细胞用来制备mRNA，则该基因在基因表达谱120内被认为是“关闭”的。

在一些实例中，基因表达谱被变换为在对组织取样的特定时间点的给定组织中固定的测量基因集合的基因表达的数值表示集合(例如，对数变换的基因表达谱)。在一些实例中，生成附加数据127用于与基因表达谱一起输入到第一组件105的模型架构中，如本文更详细描述的(例如，输入数据可以从环境和管理实践系统、培养系统、多组学系统和/或建模系统获得)。附加数据127可以包括：(i)关于植物暴露于直到任何给定时刻(例如，测量mRNA水平的量的时刻)的环境条件的数据，以及(ii)关于植物暴露于直到任何给定时刻(例如，测量mRNA水平的量的时刻)的维持条件的数据。环境条件包括植物暴露的位置特定的环境条件，例如温度、降水、土壤性质等。维持条件包括植物生长管理的任何可调节方面，例如，诸如肥料或水的投入、种植、施肥、收获的时间等。

植物生物学中用于基因组预测的传统模型是线性模型(线性回归)或线性混合效应模型，诸如岭回归最佳线性无偏预测(rrBLUP)。虽然已知导致植物中各种表型(特别是那些高度多基因表型)的潜在过程固有地是非线性的，但是许多传统建模方法采用严格线性形式。甚至控制生化系统的一些最基本的方程，诸如Hill、Monod和Michaelis-Menten方程，通常是非线性的。然而，大多数旨在进行基因组预测的方法使用了线性方法，原因很简单，它们在计算上容易处理并且已经通过检查线性系数建立了可解释性。当使用更复杂的建模方法(诸如深度神经网络)时，可解释性并不是自然给出的。

尽管如此，由于更具表达性的非线性模型更适合于对生物系统的固有非线性性质建模，因此用于预测表型115的模型架构是深度学习架构130，当提供大量表现出大遗传变异的样本时(例如，与基因表达谱110一样)，深度学习架构130用作更强大的预测模型。在一些实例中，深度学习架构130是深度神经网络(即，两个或更多个隐藏层)；然而，应当理解的是，本文的教导适用于单独地、作为多个(诸如整体)或组合地实现的神经网络和其他非线性模型。深度学习架构130被构建用于通过学习输入数据(基因表达谱110)的特征与表型之间的关系或相关性来预测作为输出数据的表型的任务。具体地，深度学习架构130以强制算法学习如何捕获隐藏层中的非线性模式并通过使用一个或多个激活函数来根据概率(例如，二元分类)或间隔中的预测响应变量(例如，用于连续响应)产生输出的方式来构建。在训练过程中从标记的样本集合(例如，包括用表型基准真值标记的基因表达谱集合的训练数据)学习控制线性变换的权重，随后将线性变换传递给非线性激活函数。

图2A示出了示例性深度神经网络200(在该实例中，示例性深度神经网络是前馈神经网络；然而，应当理解的是，在不脱离本公开的精神和范围的情况下，可以实现其他类型的神经网络)。深度神经网络200包括输入层205、多个隐藏层210a-210(n)和输出层215。输入层205用于将输入数据或特征馈送到深度神经网络200。在一些实例中，输入数据或特征是基因表达谱或其变换版本，例如对数变换的基因表达谱。深度神经网络200使用多个隐藏层210a-210(n)将一系列函数应用于输入数据。隐藏层的数量定义了深度神经网络200的深度。通过具有多个隐藏层210a-210(n)，深度神经网络200可以通过级联更简单的函数来计算复杂的函数。在一些实例中，深度神经网络200的深度是两个或更多个隐藏层。在某些实例中，深度神经网络200的深度是两个隐藏层，如图2A所示。

多个隐藏层210a-210(n)中的每个节点220是神经元，节点220是深度神经网络200的基本处理单元。神经元的处理可以在两个步骤中实现-(1)每个神经元计算其输入和权重的加权和，以及(2)每个节点应用称为激活函数的变换以产生输出。每层中的神经元接收前一层中的神经元的输出作为输入。连接的强度被称为权重，它是反映其重要性的加权因子。权重是网络在训练阶段期间必须学习的参数。如果连接具有零权重，则神经元对下一层中的对应的神经元没有任何影响。当权重为正时，该影响是兴奋性的，或者当权重为负时，该影响是抑制性的。因此，深度神经网络可以被视为有向无环图(DAG)，它的节点对应于神经元，并且它的边对应于神经元之间的链接。每个神经元接收连接到其输入边的神经元的输出的加权和作为输入。激活函数被用作神经元的输出边处的决策组件。激活函数可以是线性的或非线性的，确定深度神经网络200的输出类型(连续的、二元的、分类的和计数的)，并且对于捕获输入数据的非线性模式是重要的。激活函数的示例包括线性激活函数、整流器线性单元(ReLU)、泄漏ReLU、sigmoid激活函数、softmax激活函数、双曲正切激活函数和指数激活函数。

输出层215输出指示预测(例如，特定表型)的响应变量。对于不同的问题，要在输出层中使用的激活函数是不同的。对于二元分类问题，输出需要为0或1。因此，可以使用sigmoid激活函数。对于多类分类问题，可以使用softmax激活函数。对于其中输出不是预定义类别的回归问题，可以使用线性单元激活函数。在一些实例中，特定表型是二元、序数或连续表型，并且输出层215根据最适合于识别特定表型的响应变量的类型使用非线性激活函数(例如，双曲正切函数可以用于连续表型，sigmoid可以用于二元表型，并且softmax可以用于序数或多类表型)。在某些实例中，被预测的特定表型是连续表型，并且输出层215使用非线性激活函数(诸如双曲正切函数)来生成用于识别特定连续表型的响应变量。

深度神经网络200的训练阶段包括选择深度神经网络200的超参数(例如，选择隐藏层的数量或激活函数)，执行将来自训练数据的数据集输入到深度神经网络200中的迭代操作以找到最小化深度神经网络200的损失或误差函数的学习的参数集合(例如，权重和/或偏置)，以及利用该学习的参数集合验证或测试网络。超参数是可以被调整(tune)或优化以控制深度神经网络200的行为的设置。大多数神经网络显式地定义控制网络的不同方面(诸如存储器或执行成本)的超参数。然而，可以定义附加的超参数以使网络适应特定场景。例如，超参数可以包括网络的隐藏层的数量、隐藏层中的神经元的数量、网络的学习速率或网络的激活函数的类型。定义超参数可能是具有挑战性的，因此调整过程可以用于为特定场景定义超参数值的最佳集合。超参数调整包括值搜索过程，该值搜索过程可以包括从具有不同超参数组合的值网格中选择超参数的值的组合。上述值搜索过程可以是穷举的或利用更智能的优化技术，诸如贝叶斯优化或遗传算法。

为了实现超参数调整过程、网络训练和测试/验证过程，可以获取训练数据，将其分成集合，并进行预处理(例如，用基准真值标签注释)。例如，可以通过获取一种或多种表型的基因表达谱集合、预处理数据集合、将数据集合分成训练集(用于训练网络以学习可学习参数)(例如70％)、调整集(用于调整超参数并选择最佳不可学习参数)(例如15％)和测试或验证集(用于估计网络的泛化性能)(例如15％)，并用基准真值标签注释数据子集来生成训练数据。在一些实例中，训练数据是具有基准真值标签的基因表达谱或其变换版本，例如，具有基准真值标签的对数变换基因表达谱。

可以使用诸如K折交叉验证、留一交叉验证、留一组交叉验证、嵌套交叉验证等的验证技术来获取和拆分数据集合。例如，可以使用K折交叉验证，其中，k-1个折叠用于训练(外部训练)并且剩余的折叠用于测试。然后，在具有对应的训练的每个折叠内，使用k个折叠交叉验证，并且k-1个折叠用于训练(内部训练)，剩余的折叠用于调整评估。用内部训练数据集训练网格中每个超参数组合的网络，并且选择网格中具有更低预测误差的组合作为每个折叠中的最佳超参数。然后，如果使用外部训练集的样本大小较小，则再次用最佳超参数拟合网络。最后，利用这些估计的模型参数(权重和/或偏差)，获得测试集的预测。在每个折叠中重复该过程，并且将k个测试集的平均预测性能报告为预测性能。在一些实例中，使用相关技术(诸如Bland-Altman方法和斯皮尔曼等级相关系数)并且计算性能度量(诸如误差、精确度、精度、召回率、接受者操作特征曲线(ROC)等)来相对于基准真值评估测试集的预测。

深度神经网络200的训练过程的每次迭代可以涉及输入来自训练和/或调整集的数据集并且学习模型参数集合(配置有定义的超参数集合)，使得使用该模型参数集合的损失或误差函数(例如，修改的交叉熵损失)的值小于在先前迭代中使用不同的模型参数集合的损失或误差函数的值。可以构建损失或误差函数以测量标记/基准真值与推断数据(诸如基因表达谱集合的推断表型)之间的差异。初始值(例如，随机值或基于先验知识选择的值)被分配给模型参数集合以用作训练深度神经网络200的起始点，并且深度神经网络200的训练过程的每次迭代还可以涉及通过网络向后馈送损失(即，反向传播)以微调该模型参数集合。这种通过深度神经网络200迭代地传递多批数据，基于训练数据集的子集来估计误差，并且更新权重从而使得误差减小的过程被称为梯度下降(Gradient Descent)。如本文所使用的，当动作“基于”某物时，这意味着该动作至少部分地基于某物的至少一部分。一旦通过优化损失或误差函数训练了深度神经网络200的模型参数集合，该网络就能够从基因表达谱集合预测未见基因型的表型。除了跟踪训练损失之外，还可以另外跟踪测试损失以便实现早期停止，这在注意到训练和测试损失之间的明显分歧时停止深度神经网络的训练。早期停止过程对抗过度拟合，防止神经网络以泛化到验证数据为代价对训练数据执行得非常好的场景。

在误差梯度的估计中使用的来自训练集的数据的示例的数量是批量大小，并且是影响学习算法的动态的重要超参数。训练深度神经网络200可能是具有挑战性的，因为它可能对初始的模型参数集合和学习算法的配置敏感。这种挑战的原因是当模型参数集合被更新时，在每批数据之后，输入到网络深处的层的分布可能改变。这可以使学习算法持续地追逐移动目标(称为内部协变量偏移)。在一些实例中，为了克服该挑战，使用批量归一化用于训练深度神经网络200。批量归一化可以通过缩放每个隐藏层210的输出来执行，例如，标准化每批数据的每个输入变量的激活，诸如来自前一层的节点的激活。标准化先前层的激活意味着后续层在权重更新期间关于输入的扩散和分布做出的假设将不会改变，至少不会显著改变。这稳定了学习过程并且减少了训练深度神经网络200所需的训练时期的数量(加速训练)。

如应当理解的是，其他训练-调整-验证机制是预期的并且可以被实现。例如，可以训练深度神经网络200，并且可以在来自第一数据子集的数据上调整超参数，并且来自第二数据子集的数据可以仅用于测试和评估模型的性能。此外，尽管本文描述的训练-调整-验证机制集中于训练新的深度神经网络200。这些训练-调整-验证机制还可以用于微调从其他数据集训练的现有深度神经网络200。例如，在一些实例中，深度神经网络200可能已经使用第一表型的基因表达谱数据进行了预训练。在那些情况下，深度神经网络200可以用于迁移学习，并且使用第二表型的新的基因表达谱集合重新训练/验证。

作为关于图2A描述的前馈神经网络的替代，在一些实施例中实现的示例性学习架构130是图神经网络(GNN)。GNN是神经网络，它能够处理编码为一般无向/有向标记图(由两个组件组成的数据结构：节点(顶点)和边)的输入数据，并提供执行节点级、边级和图级预测任务的方式。因此，在这样的实施例中，基因表达谱120被配置为植物物种中基因的图形结构表示。给定基因的图形结构表示，其中，每个节点表示基因，并且每个边表示基因-基因相互作用，GNN将节点转换为递归单元，并且将边转换为前馈神经网络。然后，GN对所有节点执行邻域聚合(Neighborhood Aggregation)n次，并对所有节点的嵌入向量执行全局池化(global pooling)以获得图表示H。然后将图表示H传递到较高层，其中，它用于预测基因表达谱120的表型115。

作为深度神经网络(诸如本文描述的DNN或GNN)的替代，在一些实施例中实现的示例性深度学习架构130是非线性模型，诸如高斯过程模型。高斯过程模型是高斯概率分布的推广，并且可以用作用于分类和回归任务的非参数机器学习算法的基础。涉及高斯过程的机器学习算法可以使用惰性学习在深度学习架构130中实现，并且点之间的相似性的度量(核函数)可以用于从训练数据预测未见点的值(例如，基因表达谱120的表型115)。预测不仅是对该点的估计，而且还具有不确定性信息并且表示为一维高斯分布。对于多输出预测，可以使用多变量高斯过程，其中，多变量高斯分布是每个点处的边际分布。

为了生成感兴趣的表型115的候选基因靶标，应用XAI技术以获得在维持数据集或新的输入数据集(即，基因表达谱集合120)中所有预测的每个特征的重要性。在一些实例中，使用基因表达谱120作为输入来预测表型115的深度学习架构130经由XAI 135进行分析，以识别对深度学习架构130输出或预测具有最大贡献或影响的特征(例如，一个或多个基因140)。XAI 135的主要目标是定义重要性度量(例如，Shapley值)，它识别哪个(哪些)基因在表型的确定中起重要作用。XAI是指人工智能(AI)应用中的技术，使得可以理解和解释机器学习模型的决策(例如，解结果)。XAI与机器学习中的“黑盒”的概念形成对比，在“黑盒”的概念中，即使机器学习模型的设计者也不能解释AI为什么通过机器学习模型得到特定决策。在一些实例中，用于XAI 135的技术是SHapley加法解释(SHAP)，其是用于分析和解释机器学习模型的决策的博弈论方法。然而，应该了解的是，预期用于XAI的其它技术以理解和解释由机器学习模型做出的预测。例如，替代地或附加地，基于梯度的方法(诸如集成梯度)、反向传播方法(诸如深度提升(DeepLIFT))、模型不可知技术(诸如局部可解释模型不可知解释(LIME))、神经网络和注意力权重方法(诸如基于注意力的神经网络模型)或深度泰勒分解方法(诸如逐层相关传播(LRP))可以用于理解和解释由机器学习模型做出的预测。

机器学习模型的基于SHAP的解释背后的核心思想是使用来自合作博弈论的公平分配结果在模型输入特征之间为模型的输出分配信用。换句话说，SHAP解释方法分解预测以显示每个特征(例如，基因表达谱中的每个基因)的影响。为了做到这一点，SHAP解释方法从合作博弈论计算Shapley值。特征以不同的幅度和符号对模型的输出或预测做出贡献，这由Shapley值说明。因此，Shapley值表示每个特征的重要性(贡献或影响的大小)以及方向(符号)的估计。具有正Shapley值的特征增加表型的预测值，而具有负Shapley值的特征降低表型的预测值。然后，绝对Shapley值的平均值可以用于对每个特征的重要性进行排名和排序。

用于XAI 135(例如，SHAP)的技术生成：(i)用于预测中的特征(一些或所有输入特征)的特征重要性分数(定量值)集合，以及(ii)通过聚合维持数据集或新的输入数据集(即，基因表达谱集合120)中的所有预测的每个特征的重要性分数来对特征进行排名或以其他方式排序。例如，关于SHAP，一旦通过绝对Shapley值的平均值排名和排序，则最高排名或排序的特征140(例如，基因集合)被识别为对深度学习架构130输出或预测具有最大贡献或影响。可以通过对具有绝对Shapley值的最大平均值的特征(例如，单个基因、五个基因、十个基因、十五个基因等)进行排序和识别来识别最高排名或排序的特征140。最高排序或排序特征140可以是在特定植物物种和表型的分子调节过程中涉及的候选基因，并且在第二组件110中用于建模基因编辑。

作为关于GNN的另一示例，可以利用GNN蒸馏过程来通过以下方式获得GNN的预测的解释：(i)识别关键子图结构和节点特征，以及(ii)获得每个预测的重要子图的子集，其节点可以跨样本聚合并排名以创建各个节点的重要性列表。图2B示出了用于基因-基因相互作用发现的图蒸馏250。多组学训练数据被变换为图集合，其中，图中的每个节点表示基因。输入训练数据255被馈送到冻结的预训练教师图260中以产生预测，该预测被用作蒸馏的学生图270的目标标签265。学生图270被训练有两个目标：(1)做出类似于教师图260的输出的预测275，以及(2)具有通过熵正则化280实现的最小数量的边。在训练之后，蒸馏的学生图270中的剩余边表示对给定输出预测有贡献的最重要的基因-基因相互作用。

从深度学习架构130上的XAI机制获得的排名的特征140(例如，基因)用作第一组件105的基础。在一些实例中，可以利用文献中记载的与给定表型相关联的特征集合(诸如基因)来对第一组件105的性能进行基准测试。例如，给定来自第一组件105的排名的特征140集合，可以通过计算在特征140的排名中的前k个特征中捕获的总文献特征的数量来计算“k处的召回率”度量。虽然k是可以影响该度量的关键参数，但是对于从1开始到数据集中的特征数量的所有k，可以通过从计算k处的召回率生成曲线来获得聚合度量。这样的曲线的积分直到预定数量的特征k产生连续值，“到k的曲线下面积”，其可以用作第一组件105的精确度的度量。虽然上述用于基准特征召回的方法对于衡量模型如何捕获特征(诸如由数十年的生物实验和验证产生的基因和表型)之间的关联，但是真实关联的集合是不完整的，因此来自第一组分105的未在已知的文献基因集合中捕获的关联可能是正确的(从进一步的生物验证确认)。在一些实例中，用于预测表型和特征发现的训练模型的部署可以基于由用于基准特征召回的方法确定的模型的性能来实现。例如，如果根据用于基准特征召回的方法，一个模型的性能优于另一个模型，则可以在表型预测和特征发现(例如，基因发现)的部署中使用更高性能的模型。

第二组件110包括模型架构，该模型架构被配置为对基因编辑进行建模并生成给定表型115的理想基因表达谱145。模型架构包括建模器150，其使用一种或多种不同的方法(A)-(N)来生成理想基因表达谱145。理想基因表达谱145是用于最大化或最小化表型115的特征140中所有基因的基因表达的推荐。然后可以将理想基因表达谱145与植物物种的基因表达的天然存在的分布进行比较，以了解基因编辑推荐155是上调还是下调理想基因表达谱145内的特定基因、基因亚组或每个基因。

第一种方法(A)包括建模器150直接从预测中使用的特征140的特征重要性分数(例如，Shapley值)集合确定用于对基因编辑进行建模的调节的方向性(上调或下调)。例如，深度学习架构130上的XAI机制针对基因表达值(例如，二元：1＝表达或0＝不表达)绘制特征重要性分数(例如，Shapley值)集合以获得特征贡献与预测的表型之间的相关性。建模器150利用这种相关性来确定某些特征(诸如基因)如何在深度学习架构130的背景下通过上调或下调来影响表型。例如，基因(a)表达的上调可能与预测的表型(I)正相关；而基因(b)表达的上调可能与预测的表型(I)负相关。然后，建模器150基于确定的调节方向性(上调或下调)生成给定表型115的理想基因表达谱145。继续上述示例，表型(I)的理想基因表达谱145可以包括基因(a)的上调(或基因(a)的表达增加)和基因(b)的下调(或基因(b)的表达减少)，以便积极地促进植物内给定表型(I)的表达。

第二种方法(B)包括建模器150将基因编辑的建模视为基因表达优化问题。更具体地，贝叶斯优化可以用于对基因编辑进行建模。贝叶斯优化是一种顺序搜索框架，它结合探索(exploration)和利用(exploitation)来指导搜索，以便找到目标函数的最小值或最大值。贝叶斯优化的目标是构建底层函数的概率模型，该模型将确定(i)给定数据点是采样的良好地方，因为函数将返回较高的值(与给定表型的相关性较高)，以及(ii)另一个给定数据点是采样的良好地方，因为返回的不确定性非常大，对应于采样后要获得的大量知识。贝叶斯优化算法包括两个组件：(i)底层函数的概率模型，以及(ii)用于对各种数据点进行采样的采集函数。

如图3A和图3B所示，概率模型可以是高斯过程模型(如关于深度学习架构130所描述的)，并且底层函数可以是特征310(例如，关于图1描述的特征140)处的高斯过程函数305。使用高斯过程函数305，建模器150能够估计高斯过程函数305在特征310处的分布，其然后能够用于指导未来的采样。高斯过程函数305的最佳估计由平均值μ[x]给出，并且不确定性由方差σ²[x]给出。根据高斯过程函数305及其不确定性，建模器150可以使用采集函数315选择接下来要采样哪个点。采样涉及在采集函数315中使用后验，其是关于高斯过程函数305的所有已知信息，用于获取更多样本。换句话说，关于高斯过程函数305的所有已知信息都用于对最可能得到回报的搜索空间区域进行采样，因此采集函数315将优化搜索中的位置的条件概率以生成下一个样本。采集函数315获取高斯过程函数上的每个数据点x处的平均值和方差，并计算指示在该位置处下一次采样的期望程度的值(考虑到探索和利用)。在一些实例中，采集函数315是模型的可调超参数，以在利用和探索权衡之间进行平衡。采集函数315的示例包括上置信界限、Thompson采样、预期改良和改良概率。一旦收集了附加样本及其经由高斯过程函数305的评估，就将样本添加到数据集，然后更新后验。重复该过程，直到定位高斯过程函数305的极值、定位足够好的结果或者资源耗尽。一旦迭代过程完成，建模器150基于所确定的高斯过程函数305的极值生成给定表型115的理想基因表达谱145。

图3C示出了通过贝叶斯优化的推荐与Shapely值一致。顶部350示出了通过贝叶斯优化(虚线垂直线)对下一个数据点进行采样以最大化性状的推荐。底部355示出了每个基因的表达水平与其SHAP值的相关性——SHAP越高，其对性状的贡献越大。相关性显示，为了最大化性状或表型，前三个基因应该被下调，并且最后一个基因应该被上调，这与前350个的贝叶斯优化提供的推荐一致。

第三方法(C)包括建模器150使用对抗性示例对深度学习架构130执行对抗性攻击以对基因编辑进行建模。对抗性示例是神经网络的输入，其导致来自网络的输出改变。如图4所示，执行对抗性攻击包括通过冻结训练的网络400的权重来反转优化问题，并且替代地在输入集合405(对抗性示例)上进行优化以最大化或最小化表型410。优化包括：(i)识别关于图1描述的特征140，诸如与流水线的基因发现组件(即，第一组件105)一致的基因，(ii)将训练的网络400的新优化问题定义为每个特征140(诸如基因)的最佳表达和/或计数，以在保持所有其他基因表达和/或计数的同时最大化表型410(这可以是所有样本中的平均基因表达和/或计数)，以及(iii)基于在特征140中观察到的最大/最小表达和/或计数来定义基因表达的约束，生物学基础的约束(例如，基因(a)和基因(b)分别表达必须一起表达以与蛋白质结合的蛋白质和配体)，实验方法限制(例如，CRISPR/Cas9对可以同时靶向的基因数量具有约束)，或它们的任何组合。

在一些实例中，建模器150利用基于梯度的优化技术来找到所定义的新优化问题的解决方案，该解决方案采用相对于输入集合而不是网络的权重的梯度。然而，在其他实例中，假设定义基因表达的约束是有利的，建模器150利用离散优化技术，诸如差分进化。差分进化是通过迭代地尝试关于给定的质量度量(例如，表型115的最大值/最小值)改进候选解决方案(例如，每个特征140的表达和/或计数)来优化问题的技术。如图5所示，差分进化算法500通过维护候选解决方案505(个体)的群体来搜索设计空间并通过根据特定过程组合现有解决方案来创建新的解决方案。在一些实例中，特定过程包括(i)选择目标向量，(ii)随机选择两个群体成员，(iii)基于两个群体成员构建加权差向量，(iv)为群体成员添加第三随机选择的向量，(v)在加权差向量、第三随机向量和目标向量之间执行交叉以获得包括具有新目标值(例如，成本值)的候选的试验向量，以及(vi)在算法的下一次迭代中保留具有最佳新目标值的候选，使得个体的新目标值得到改善，从而形成下一代的群体510的一部分，否则丢弃新目标值。该过程自身重复，直到满足给定的终止标准。一旦迭代过程完成，建模器150基于从对抗性攻击确定的最佳输入集合(对应于基因表达)生成给定表型115的理想基因表达谱145。

图6示出了使用基于对抗的建模方法确定的理想基因表达谱600的示例，该方法用于用DNN的基于SHAP的XAI识别的基因AT2G45660、AT2G45660、AT5G44590、AT3G52480。示出了理想基因表达谱600与理想基因表达谱605的比较，理想基因表达谱605是使用基于对抗的建模方法针对基因AT2G45660、AT2G45660、AT5G44590、AT3G52480确定的，基因是用线性回归(LR)模型的基于SHAP的XAI识别的。还示出了理想基因表达谱600/605与样本1-3上植物物种的基因表达的天然存在的分布的比较，以了解基因编辑推荐是上调还是下调理想基因表达谱600/605内的特定基因、基因亚组或每个基因。在这种实例中，基于比较，推荐上调AT5G44590，同时下调AT2G45660、AT2G45660和AT3G52480。

如应当理解的，其他建模方法也是可以预期并且可以实现的。例如，可以训练人工神经网络(ANN)用于基因编辑预测，并且可以使用训练的ANN优化基因表达谱。此外，尽管本文描述的建模方法集中使用单一方法对基因编辑进行建模，但是这些方法中的两种或更多种可以组合使用作为方法的集合，并且可以选择或组合所得的基因表达谱以获得理想基因表达谱。例如，每个模型对每个测试实例进行预测(投票)，并且最终输出预测是接收超过一半投票的预测。如果没有预测得到超过一半的投票，则可以确定集合方法不能对给定实例做出稳定预测。或者，可以使用平均技术，其中，对于测试数据集的每个实例，计算平均预测。权重也可以在这些集成技术中的任一个中实现，以增加一个或多个模型的重要性。

III.基因发现和编辑系统

图7示出了基因发现和编辑系统700的框图。基因发现和编辑系统700是实现为在一个或多个位置中的一个或多个计算设备上的计算机程序的系统的示例，其中，实现了本文所述的系统、组件和技术。基因发现和编辑系统700包括植物系统705、基因发现系统707、基因编辑建模系统710和基因编辑系统712。

植物系统705可以通过从植物715开始来执行植物生成生命周期。可以通过自动化系统(例如，机器人控制系统)或手动地解剖植物715，以获得植物组织717。然后可以使用文库720来修改植物组织715以生成修改的组织721。文库720是多个版本的试剂的集合，例如组合组装以给出代谢途径的许多不同版本的DNA序列的集合。文库720可以例如包括质粒、线性DNA片段、合成引导RNA(sgRNA)、RNA、蛋白质等。文库720可以从文库设计系统725示出，该文库设计系统725从植物的先前生命周期期间从模型生成的输出或从另一来源(例如，来自专家的手动设计)编译文库720的信息。

修改的组织系统722例如在培养物中生长，使修改的组织721生长成新的植物727，并将新的植物727提供给培养系统730。培养系统730可以由环境和管理实践系统732管理，环境和管理实践系统732规定植物727生长的环境条件和管理实践。培养系统730在植物727生长时从植物727获得组织样本和测量值，从样本和测量值提取数据，并将提取的数据提供给环境和管理实践系统732、多组学系统735和/或建模系统737。数据提取可以包括组织取样、分子提取和纯化以及分子定量或识别，并且可以在植物727的不同生长时间或整个生命周期在植物的任何或许多分离的组织/器官中发生。环境和管理实践系统732将提取的数据(如果从培养系统730接收)、管理实践简档数据和环境条件简档数据提供给建模系统737，用于开发各种模型740。管理实践简档数据可以包括在植物727的不同生长时间或整个生命周期中的植物727的生长管理的任何可调整方面，例如，诸如肥料或水的输入、种植、施肥、收割的时间等。数据环境条件简档数据可以包括在在植物727的不同生长时间或整个生命周期中植物727连续暴露的位置特定的环境条件，例如温度、降水、土壤性质等。多组学系统735跟踪从样本和测量值中提取的数据，从提取的数据生成小型植物的多组学谱(例如，基因表达谱)，并将多组学谱提供给建模系统737用于开发各种模型740。

建模系统737使用接收到的数据(例如，植物提取的数据、多组学谱、管理实践简档、环境条件简档等)来开发(例如，设计、训练、验证和部署)各种模型(例如，机器学习模型)，基因发现和编辑系统700然后可以使用这些模型来指导当前植物727的生长和具有所需表型的新植物的生成。例如，建模系统737可以向以下提供训练或更新的机器学习模型：(i)文库设计系统725以指导新植物的修改，(ii)环境和管理实践系统732以指导植物727的生长和管理，(iii)基因发现系统707以生成表型预测并促进基因发现，以及(iv)基因编辑建模系统710以对基因编辑建模，生成理想基因表达谱，并促进基因编辑的推荐。

基因发现系统707包括发现控制器745，用于获得一个或多个植物(例如，在植物系统705中生长的植物727)的输入数据(例如，植物提取的数据、来自多组学系统735的诸如基因表达谱的多组学谱、来自管理实践系统732的管理实践简档、环境条件简档)并将数据输入到一个或多个模型750中。输入数据可以从环境和管理实践系统732、培养系统730、多组学系统732和/或建模系统737获得。一个或多个模型750(例如，关于图1描述的深度学习架构130)被构建用于通过学习输入数据的特征(例如，多组学谱内的基因表达谱)与表型之间的关系或相关性来预测作为输出数据的表型752的任务。一个或多个模型750可以从建模系统737获得(各种模型740)。基因发现系统707还包括XAI模块755，用于将可解释的技术应用于一个或多个模型750以获得输入数据集合(例如，基因表达谱集合)中所有预测的每个特征的重要性。在一些实例中，经由XAI模块755检查使用基因表达谱作为输入来预测表型752的一个或多个模型750，以识别对一个或多个模型750输出或预测具有最大贡献或影响的特征(例如，一个或多个基因)。XAI模块755的主要目标是定义重要性度量(例如，Shapley值)，其识别哪些特征(诸如基因)在表型的确定中起重要作用。XAI模块755输出特征集合757，这些基因可以是涉及特定植物物种和表型的分子调节过程的候选基因，并且由基因编辑建模系统710用于对基因编辑进行建模。

基因编辑建模系统710包括建模控制器760，用于获得表型752和特征集合757，并将表型752和特征集合757输入到一个或多个模型762中。一个或多个模型762可以从建模系统737获得(各种模型740)。一个或多个模型762(例如，关于图1描述的建模器150)使用一种或多种不同的方法(A)-(N)来对基因编辑进行建模并生成理想基因表达谱765。理想基因表达谱765是用于最大化、最小化或以其他方式调节表型752的特征集合757中所有基因的基因表达的推荐。基因编辑建模系统710还包括推荐模块770，用于将理想基因表达谱765与植物物种的基因表达的天然存在的分布(例如，多组学谱内的基因表达)进行比较，以确定可以由基因编辑系统712使用的基因编辑推荐775。推荐775可以用于上调或下调理想基因表达谱765内的特定基因、基因亚组或每个基因。在一些实例中，推荐模块770使用一个或多个模型772来确定在何处进行将基于理想基因表达谱765调节基因表达的编辑。这些可以是多个碱基对的区域，可能具有关于如何对这些区域进行组合编辑的策略，或者具有确定的特定编辑的确切位置。一个或多个模型772可以是神经网络或非线性模型，其根据从遗传多样性植物群体收集的目标基因的基因组背景来预测目标基因的表达水平。一个或多个模型772可以在给定目标基因的背景的以下任何群体数据上进行训练：基因组序列、SNP、甲基化组、染色质可及性等以及与对应的表达值的组合。基因组编辑的推荐可以在特征重要性调查以及一个或多个模型772的输入特征消融(ablation)分析之后从目标基因的表达水平中提取。

基因编辑系统712根据推荐775对给定植物物种(例如，植物727)的基因组进行基因编辑或扰动。基因编辑系统的示例包括CRISPR/Cas9、CRISPR/Cpf1、CRISPR/Cas12、CRISPR碱基编辑、CRISPR抑制、限制酶、锌指核酸酶、转录激活因子样效应核酸酶(TALEN)等。例如，基因编辑系统712可以在一个或多个目标基因的基因调控基因组区域(启动子、5’UTR、3’UTR、终止子)中进行一个或多个组合编辑(“bashing”)以修改它们的表达(上调或下调)。附加地或可替代地，基因编辑系统712可以对一个或多个目标基因的转录因子的结合位点进行一个或多个特定的组合编辑，以调节它们对表达的影响(上调或下调)。附加地或可替代地，基因编辑系统712可以对基因组上的任何其他区域进行一个或多个基因组修改，其可以经由遗传操纵影响一个或多个目标基因的表达(上调或下调)。另外或可替代地，基因编辑系统712可以在没有基因组修改的情况下调节一个或多个目标基因的表达(上调或下调)，诸如CRISPRi(靶标抑制)、CRISPRa(靶标激活)、RNAi等。如果由系统710确定的编辑在群体中已经是可访问的，则系统还可以进行交叉。然后可以将给定植物物种的修改的基因组发送到文库设计系统725以供文库720和修改的组织系统722使用，以例如在培养物中使来自修改的基因组的修改的组织生长成新植物。

IV.基因发现和编辑技术

图8是示出用于基因发现和编辑的处理的示例的简化流程图800。图8中描绘的处理可以在由相应系统、硬件或其组合的一个或多个处理单元(例如，处理器、核)执行的软件(例如，代码、指令、程序)中实现。软件可以存储在非暂时性存储介质上(例如，存储在存储器设备上)。图8中呈现并在下面描述的方法旨在是说明性的而非限制性的。尽管图8描绘了以特定顺序或次序发生的各种处理步骤，但这不旨在是限制性的。在某些替代实施例中，步骤可以以一些不同的顺序执行，或者一些步骤也可以并行执行。在一些实施例中，诸如在图1和图7中描绘的实施例中，图8中描绘的处理可以由关于图1和图7描述的机器学习流水线100和/或基因发现和编辑系统700的组件执行。

过程800开始于框805，其中，获得在植物的组织样本中测量的基因集合的基因表达谱的训练集。在框810处，通过非线性算法学习基因表达谱的特征与表型之间的关系或相关性，将基因表达谱的训练集迭代地输入到为预测表型的任务而构建的预测模型中作为输出数据。在框815处，通过最小化损失或误差函数来在基因表达谱的训练集上训练预测模型。在一些实施例中，预测模型是深度神经网络，诸如前馈神经网络。在其他实施例中，预测模型是另一种类型的非线性模型，诸如高斯过程模型。预测模型的训练过程的每次迭代可以涉及输入来自训练集和/或调整集的数据集并且学习模型参数集合(配置有定义的超参数集合)，使得使用该模型参数集合的损失或误差函数(例如，修改的交叉熵损失)的值小于在先前迭代中使用不同模型参数集合的损失或误差函数的值。可以构建损失或误差函数以测量标记/基准真值与推断数据(诸如基因表达谱的训练集的推断表型)之间的差异。

在框820处，响应于训练，非线性算法学习用于预测植物表型的基因表达谱的训练集内的关系和相关性。另外，响应于训练，为预测模型获得与基因表达谱的特征和表型之间的关系或相关性相关的学习的模型参数集合。在框825处，训练的预测模型被部署为具有学习的模型参数集合的预测模型。

在框830处，获得在植物组织中测量的基因集合的基因表达谱集合。在框835处，将该基因表达谱集合输入到为预测表型的任务而构建的预测模型中作为输出数据。在框840处，预测模型用于基于基因表达谱集合的特征与表型之间的关系或相关性生成植物表型的预测。在框845处，由预测模型做出的预测表型的决策由可解释的人工智能系统分析，该分析包括：(i)为表型预测中使用的特征生成特征重要性分数集合，以及(ii)基于与每个特征相关联的特征重要性分数对特征进行排名或以其他方式排序。可解释的人工智能系统可以使用SHAP、集成梯度、时间、基于注意力的神经网络模型或LRP来分析由预测模型做出的决策。在框850处，基于排名的特征将表型的候选基因靶标集合识别为对预测具有最大贡献或影响，例如，基于排名的特征将对预测具有最大贡献或影响的前一个、五个、十个、十五个等基因识别为候选基因靶标。

在框855处，基于识别的候选基因靶标集合识别基因组区域集合，该基因组区域集合在被编辑时提供基因表达谱中的必要改变以实现预期的表型改变。识别基因组区域集合包括将候选基因靶标集合输入到为对候选基因靶标集合的基因编辑建模的任务而构建的基因编辑模型中，并且基于建模的基因编辑，识别用于对候选基因靶标集合内的每个基因进行基因组编辑的最佳遗传靶标集合，从而最大化、最小化或以其他方式调节表型。在框860处，基因编辑模型用于基于用于基因组编辑候选基因靶标集合内的每个基因的最佳遗传靶标集合来生成表型的理想基因表达谱。在可解释的人工智能系统使用SHAP的实例中，基因编辑模型可以通过直接从Shapley值确定调节的方向性来对基因编辑进行建模。在预测模型是高斯过程模型的实例中，基因编辑模型可以使用贝叶斯优化算法对基因编辑进行建模，贝叶斯优化算法包括两个组件：(i)基础高斯过程函数的高斯过程模型，以及(ii)用于对各种数据点进行采样的采集函数。在预测模型是深度神经网络的实例中，基因编辑模型可以通过对深度神经网络执行对抗性攻击来对基因编辑进行建模，对抗性攻击包括冻结深度神经网络的权重，以及在受约束输入的空间上进行优化以最大化、最小化或以其他方式调节表型。

在框865处，将理想基因表达谱与植物的基因表达的天然存在的分布进行比较。在框870处，基于推荐的表达谱与现有样本中天然存在的表达谱之间的比较，确定用于上调或下调理想基因表达谱内的特定基因、基因亚组或每个基因的基因编辑推荐。在框875处，基因编辑系统用于根据基因编辑推荐对植物的基因组进行基因编辑或扰动。

图9是示出用于识别给定表型的重要基因集或簇的处理的示例的简化流程图900。在该示例性过程中，经由在深度神经网络的第二层中解释SHAP/XAI值来识别在给定表型的预测中重要的基因集或簇。然而，应当理解，本文所述的所有其他XAI和建模技术(例如，LIME、集成梯度、贝叶斯优化、对抗性攻击等)可以以与这种聚类技术类似的方式应用，而不是直接应用于单个基因信息。图9中描绘的处理可以在由相应系统、硬件或其组合的一个或多个处理单元(例如，处理器、核)执行的软件(例如，代码、指令、程序)中实现。软件可以存储在非暂时性存储介质上(例如，存储在存储器设备上)。图9中呈现并在下面描述的方法旨在是说明性的而非限制性的。尽管图9描绘了以特定顺序或次序发生的各种处理步骤，但这不旨在是限制性的。在某些替代实施例中，步骤可以以一些不同的顺序执行，或者一些步骤也可以并行执行。在一些实施例中，诸如在图1和图7中描绘的实施例中，图9中描绘的处理可以由关于图1和图7描述的机器学习流水线100和/或基因发现和编辑系统700的组件执行。

过程900开始于框905，其中，获得在植物的组织样本中测量的基因集合的基因表达谱的训练集。在框910处，通过非线性算法学习基因表达谱的特征与表型之间的关系或相关性，将基因表达谱的训练集迭代地输入到为预测表型的任务而构建的深度神经网络模型(例如，前馈神经网络模型)中作为输出数据。在框915处，通过最小化损失或误差函数来在基因表达谱的训练集上训练深度神经网络模型。深度神经网络模型的训练过程的每次迭代可以涉及输入来自训练集和/或调整集的数据集并且学习模型参数集合(配置有定义的超参数集合)，使得使用该模型参数集合的损失或误差函数(例如，修改的交叉熵损失)的值小于在先前迭代中使用不同的模型参数集合的损失或误差函数的值。可以构建损失或误差函数以测量标记/基准真值与推断数据(诸如基因表达谱训练集的推断表型)之间的差异。

在框920处，响应于训练，非线性算法学习用于预测植物表型的基因表达谱训练集内的关系和相关性。另外，响应于训练，为深度神经网络模型获得与基因表达谱的特征和表型之间的关系或相关性相关联的学习的模型参数集合。

在框925处，修改训练的深度神经网络模型用于识别给定表型的重要基因簇或基因集。在一些实例中，给定具有N层和输入维度D(其中，D是已经获得表达信息的基因的数量)的训练的深度神经网络模型，可以隔离深度神经网络模型中的第一隐藏层，并且从深度神经网络模型提取与第一隐藏层的每个节点相关联的权重或模型参数集合。对于第一隐藏层中的每个节点，通过取每个权重向量的前K个分量(绝对值)来定义与原始输入层中的节点的聚类关系，其中，K被定义为聚类的理想大小。由于第一隐藏层中的每个节点(在激活步骤之前)可以由输入的线性组合表示，因此该聚类机制直观地做出从第一隐藏层中的每个节点到对第一隐藏层中的节点具有最强影响的一组基因的映射。可以使用超出顶部k的替代聚类来创建该映射，包括基于对应于该特定节点的权重分布为隐藏层的每个节点灵活地定义唯一k的方法，或者对权重本身进行分离的聚类步骤，获取顶部聚类中的基因。

既然在第一隐藏层中的每个节点与其在输入空间中的对应基因之间创建映射，则可以移除深度神经网络模式的输入层，并且可以在下游处理中使用诸如SHAP或集成梯度的XAI来获得神经网络的特征重要性分数。由于深度神经网络的第一隐藏层现在变成输入层，因此为第一隐藏层中的每个单个节点获得特征重要性分数集合。针对第一隐藏层中的每个单个节点获得的特征重要性分数集合可以与第一隐藏层中的节点到原始基因的映射结合，以获得这些基因簇或基因集的特征重要性分数集合。

在框930处，将修改的深度神经网络模型部署为具有学习的模型参数集合和第一隐藏层中的节点到原始基因的映射的深度神经网络模型。在框935处，修改的深度神经网络模型可以用于基因发现和编辑，如关于图8的框830-870描述的。

V.示例

通过参考以下示例可以更好地理解在各种实施例中实现的系统和方法。

实施例1：建立顺序神经网络以模拟拟南芥(Arabidopsis thaliana)的天然遗传变体品系达到生殖阶段所花费的时间(开花时间)。在一个示例中，在从叶收集的公开可获得的转录组上训练模型(Kawakatsu等人，2016，Cell，166(2):492-505)。转录组学数据可用于728种天然遗传变体，其中，620种携带开花时间信息(以抽薹开始天数计)。转录组学数据通过RNA-seq实验生成，分位数标准化，随后通过将原始24,175个转录物计数(特征)标准化为单位方差进行预处理。在模型训练之前创建维持数据集，其包含20％的原始数据。剩余的80％的数据用于训练模型。这些包括(1)岭回归模型和(2)具有由AutoKeras实施方式中的算法调整的超参数的多个顺序神经网络(Jin等人，2019，第25届ACM SIGKDD国际知识发现和数据挖掘会议论文集(第1946-1956页))。最高性能的神经网络模型架构(在20％验证数据集上测量为最低均方误差)随后在完整数据集上进行交叉验证。将Pearson相关系数和斯皮尔曼等级相关系数进行平均以比较模型在相同维持数据集上的性能。在应用SHapley加法解释之后获得的特征重要性分数跨在数据的不同分割上训练的模型进行平均，并且随后进行排名排序。模型识别影响基因的集合的程度以科学文献中已知的涉及感兴趣的表型的基因列表为基准。通过与表型值的相关分析，进一步确认了作为模型输出的最高影响基因的表达水平推荐，包括提出的改变的方向性。基于对目标基因序列周围的调控序列的建模，另外结合染色质可及性信息，诸如ChIP-seq和表观基因组标记，提出了影响基因表达改变的方向性的基因组编辑。在拟南芥中，针对提出的用于基因编辑的调节区域通过组合CRISPR/Cas9编辑用于遗传修改。该过程在拟南芥群体中的目标基因的调节区域中产生大规模遗传变异。预期从这些群体进一步采集分子和表型数据将迭代地改善当前模型套件的性能。

VI.附加的注意事项

在以上描述中给出了具体细节以提供对实施例的透彻理解。然而，应当理解，可以在没有这些具体细节的情况下实践实施例。例如，电路可以以框图示出，以免以不必要的细节模糊实施例。在其他实例中，众所周知的电路、过程、算法、结构和技术可以在没有不必要的细节的情况下示出，以避免模糊实施例。

上述技术、框、步骤和部件中的实施方式可以以各种方式完成。例如，这些技术、块、步骤和部件可以用硬件、软件或其组合来实现。对于硬件实施方式，处理单元可以在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行上述功能的其他电子单元和/或其组合内实现。

此外，应当注意，实施例可以被描述为被描绘为流程图、流图、数据流图、结构图或框图的过程。尽管流程图可以将操作描述为顺序过程，但是许多操作可以并行或同时执行。另外，可以重新布置操作的顺序。过程在其操作完成时终止，但是可以具有图中未包括的附加步骤。过程可以对应于方法、函数、过程、子例程、子程序等。当过程对应于函数时，它的终止对应于函数返回到调用函数或主函数。

此外，实施例可以由硬件、软件、脚本语言、固件、中间件、微代码、硬件描述语言和/或其任何组合来实现。当以软件、固件、中间件、脚本语言和/或微代码实现时，用于执行必要任务的程序代码或代码段可以存储在诸如存储介质的机器可读介质中。代码段或机器可执行指令可以表示过程、函数、子程序、程序、例程、子例程、模块、软件包、脚本、类或指令、数据结构和/或程序语句的任何组合。代码段可以通过传递和/或接收信息、数据、自变量、参数和/或存储器内容而耦合到另一代码段或硬件电路。信息、自变量、参数、数据等可以经由包括存储器共享、消息传递、票据传递、网络传输等的任何合适的手段来传递、转发或传输。

对于固件和/或软件实施方式，方法可以用执行本文描述的功能的模块(例如，程序、函数等)来实现。有形地体现指令的任何机器可读介质可以用于实现本文描述的方法。例如，软件代码可以存储在存储器中。存储器可以在处理器内或在处理器外部实现。如本文所使用的，术语“存储器”是指任何类型的长期、短期、易失性、非易失性或其他存储介质，并且不限于任何特定类型的存储器或任何特定数量的存储器或存储存储器的介质类型。

此外，如本文所公开的，术语“存储介质”、“存储装置”或“存储器”可以表示用于存储数据的一个或多个存储器，包括只读存储器(ROM)、随机存取存储器(RAM)、磁性RAM、磁芯存储器、磁盘存储介质、光存储介质、闪存设备和/或用于存储信息的其他机器可读介质。术语“机器可读介质”包括但不限于便携式或固定存储设备、光学存储设备、无线信道和/或能够存储包含或携带指令和/或数据的各种其他存储介质。

虽然上面已经结合特定装置和方法描述了本公开的原理，但是应当清楚地理解，该描述仅作为示例进行，而不是作为对本公开的范围的限制。

Claims

1.一种方法，包括：

获得在植物的组织样本中测量的基因集合的基因表达谱集合；

通过非线性算法学习基因表达谱的特征与表型之间的关系或相关性，将该基因表达谱集合输入到为预测表型的任务而构建的预测模型中作为输出数据；

使用预测模型，基于该基因表达谱集合的特征与表型之间的关系或相关性生成植物表型的预测；

通过可解释的人工智能系统分析由预测模型做出的决策以预测表型，其中，所述分析包括：(i)为表型预测中使用的特征生成特征重要性分数集合，以及(ii)基于与每个特征相关联的特征重要性分数对特征进行排名或以其他方式排序；

基于排名或以其他方式排序的特征，将表型的候选基因靶标集合识别为对预测具有最大贡献或影响；以及

基于所识别的候选基因靶标集合识别基因组区域集合，该基因组区域集合在被编辑时提供基因表达谱中的必要改变以实现预期的表型改变。

2.根据权利要求1所述的方法，其中，所述可解释的人工智能系统使用SHapley加法解释、深度提升、集成梯度、局部可解释模型不可知解释(LIME)、基于注意力的神经网络模型或逐层相关传播来分析由预测模型做出的决策。

3.根据权利要求1所述的方法，还包括：

其中，所述识别基因组区域集合包括将该候选基因靶标集合输入到为对该候选基因靶标集合的基因编辑建模的任务而构建的基因编辑模型中，并且基于建模的基因编辑，识别用于对该候选基因靶标集合内的一个或多个基因进行基因组编辑的最佳遗传靶标集合，从而最大化、最小化或以其他方式调节表型；以及

使用基因编辑模型，基于用于候选基因靶标集合内的一个或多个基因的基因组编辑的最佳遗传靶标，生成表型的理想基因表达谱。

4.根据权利要求3所述的方法，其中：

所述可解释的人工智能系统使用SHapley加法解释，其生成SHapley值集合作为表型预测中使用的特征的特征重要性分数；

Shapley值表示每个特征重要性以及方向的估计；以及

基因编辑模型通过直接从Shapley值确定调节的方向性来对基因编辑进行建模。

5.根据权利要求3所述的方法，其中：

所述预测模型是高斯过程模型；以及

基因编辑模型使用贝叶斯优化算法对基因编辑进行建模，该贝叶斯优化算法包括两个组件：(i)基础高斯过程函数的高斯过程模型，以及(ii)用于对各种数据点进行采样的采集函数。

6.根据权利要求3所述的方法，其中：

所述预测模型是深度神经网络；以及

基因编辑模型通过对深度神经网络执行对抗性攻击来对基因编辑进行建模，该对抗性攻击包括冻结深度神经网络的权重，以及在受约束输入的空间上进行优化以最大化或最小化表型。

7.根据权利要求3所述的方法，还包括：

将理想基因表达谱与植物的基因表达的天然存在的分布进行比较；

基于该比较确定用于上调或下调理想基因表达谱内的特定基因、基因亚组或每个基因的基因编辑推荐；以及

使用基因编辑系统，根据基因编辑推荐对植物的基因组进行遗传编辑或扰动。

8.一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品，包括被配置为使得一个或多个数据处理器执行动作的指令，所述动作包括：

9.根据权利要求8所述的计算机程序产品，其中，所述可解释的人工智能系统使用SHapley加法解释、深度提升、集成梯度、局部可解释模型不可知解释(LIME)、基于注意力的神经网络模型或逐层相关传播来分析由预测模型做出的决策。

10.根据权利要求8所述的计算机程序产品，其中，所述动作还包括：

11.根据权利要求10所述的计算机程序产品，其中：

Shapley值表示每个特征重要性以及方向的估计；以及

12.根据权利要求10所述的计算机程序产品，其中：

所述预测模型是高斯过程模型；以及

13.根据权利要求10所述的计算机程序产品，其中：

所述预测模型是深度神经网络；以及

14.根据权利要求10所述的计算机程序产品，其中，所述动作还包括：

15.一种系统，包括：

一个或多个数据处理器；以及

包含指令的非暂时性计算机可读存储介质，当在一个或多个数据处理器上执行时，所述指令使得一个或多个数据处理器执行动作，所述动作包括：

16.根据权利要求15所述的系统，其中，所述动作还包括：

其中，所述识别该基因组区域集合包括将该候选基因靶标集合输入到为对该候选基因靶标集合的基因编辑建模的任务而构建的基因编辑模型中，并且基于建模的基因编辑，识别用于对该候选基因靶标集合内的一个或多个基因进行基因组编辑的最佳遗传靶标集合，从而最大化、最小化或以其他方式调节表型；以及

17.根据权利要求16所述的系统，其中：

Shapley值表示每个特征重要性以及方向的估计；以及

18.根据权利要求16所述的系统，其中：

所述预测模型是高斯过程模型；以及

19.根据权利要求16所述的系统，其中：

所述预测模型是深度神经网络；以及

20.根据权利要求16所述的系统，其中，所述动作还包括：