CN113795885A

CN113795885A - 缩小参数以设计在小规模下的微生物的实验及板模型以改进对在更大规模下的性能的预测

Info

Publication number: CN113795885A
Application number: CN202080033832.7A
Authority: CN
Inventors: S·德·科克; P·埃涅尔特; R·汉森; T·豪克; C·汉弗莱斯; S·利德; Z·塞尔贝尔; E·谢尔曼; A·泰勒; T·特赖诺尔; K·泰纳
Original assignee: Zymergen Inc
Current assignee: Zymergen Inc
Priority date: 2019-05-08
Filing date: 2020-05-05
Publication date: 2021-12-14
Also published as: CA3134318A1; EP3966822A1; WO2020227299A1; US20220328128A1; JP2022531464A; EP3966822A4; KR20220006066A

Abstract

提供用于设计在第一规模下的生物体的实验以产生用于预测在第二更大规模下的所述生物体的性能的第一规模性能数据的系统、方法及计算机可读媒体。所述设计包含至少部分地基于第二规模条件对在所述第二规模下的生物体的性能参数的贡献来确定第一规模筛选条件。所述第一规模筛选条件包含无法在第一规模下复制的第二规模条件的一或多个代理。所述设计至少部分地基于在所述第二规模下的所述生物体的代谢的计算机建模来确定第一规模筛选参数。

Description

缩小参数以设计在小规模下的微生物的实验及板模型以改进对在更大规模下的性能的预测

相关申请案的交叉参考

本申请案主张2019年5月8日申请的第62/844,975号美国临时申请案的优先权的权益。本申请案相关于：2018年11月9日申请的第PCT/US18/60120号国际申请案(第WO2019/094787号公开案)(“传递函数(Transfer Function)申请案”)，其主张2017年11月9日申请的第62/583,961号美国临时申请案的优先权的权益；2017年4月26日申请的第PCT/US2017/029725号国际申请案(第US 2017/0316353号美国专利公开案)(“密码子(Codon)申请案”)，其主张2016年4月27日申请的第15/140,296号美国申请案的优先权的权益；第9,988,624号美国专利(“HTP专利(HTP patent)”)；及第PCT/US2018/057583号国际申请案(第WO/2019/084315号公开案)，其主张2017年10月26日申请的第62/577,615号美国申请案的优先权。所有前述内容的全文特此以引用的方式并入本文中。

技术领域

本公开大体上涉及微生物的高通量(throughput)基因组工程，且更特定来说涉及设计在第一(例如，板)规模下的微生物的实验以支持在第二更大规模下的生物体的性能的建模，以便实现在第一规模下的生物体的有效筛选。

背景技术

背景部分中所论述的主题不应仅仅因为其在背景部分中被提到而被假设为现有技术。类似地，背景部分中所提到或与背景部分的主题相关联的问题不应被假设为先前已在现有技术中认识到。背景部分中的主题仅仅表示不同方法，所述方法本身也可对应于所主张技术的实施方案。

微生物工程实现新颖化学品、先进材料及药品的产生。菌株设计公司代表本身或第三方可修饰先前所描述的DNA片段以通过改进例如产率、生产力、生长速率及滴度的输出性质来增强微生物宿主的代谢产生。

一种优化未被完全理解的系统(例如活细胞)的性能的方法是测试尽可能多的不同遗传修饰且凭经验确定哪些遗传修饰表现最好。由于在与工业生产相关的规模下进行测试修饰通常是昂贵且耗时的，因此大规模测试修饰的通量是非常低的。因此，本公开的受让人进行小规模、高通量筛选以从大量修饰当中快速地标识最好的性能候选者。然而，为了使这种方法成功，必须存在一种从较小规模性能预测较大规模性能的可靠方法。作为实例，规模范围从具有许多孔的小板(例如，每孔200μL)到具有较少孔的较大板，再到实验台规模(bench-scale)罐(例如，200ml到10升)，再到商业/工业大小罐(例如，100升到500,000升)。

其中此类方法已被广泛应用的技术领域是在制药行业中用于标识新的且有用的药物。可首先在测定中体外筛选数千个候选分子的活性，预期其作为体内活性的预测代理。应用统计方法来确定最好的表现者(参见例如马洛(Malo)等人的“高通量筛选数据分析中的统计实践(Statistical practice in high-throughput screening data analysis)”，《自然生物技术》24:167-175(2006))，接着将所述最好的表现者用于更昂贵、更大规模的实验中，所述实验可包含小鼠及人类的体内测试。

然而，当针对期望性质筛选数千个微生物时，要在板级的筛选中使用的合理有前景的性能参数及条件的有效确定对于实现在更大规模下的可靠预测变得关键。

德尔维涅2017概括学术提出的解决方案，那些解决方案的进展及对放大挑战的思考如下：“生物经济正处于从创新到商业化的过渡阶段。预期生物过程行业将越来越多地向市场提供大量、高质量且有成本竞争力水平的生物产品。这需要新的大规模生物过程的完美启动及运行过程的持续改进。发酵放大及操作可从三个领域的最新进展中受益：1.缩小模拟器的计算驱动设计，2.组学驱动的代谢工程，及3.群体异质性的感知及理解。这些领域的一体化需要一种与大数据及模拟现实框架联系起来的统一计算方法，如今其轮廓变得清晰可见”。F.德尔维涅等人的微生物生物过程的放大/缩小：对旧问题的现代解读(Scale-up/Scale-down of microbial bioprocesses:a modem light on an old issue)，《微生物生物技术》2017年6月；10(4):685-687。

吉诺玛蒂卡的通过生物工程解决方案驱动创新(Driving Innovation ThroughBioengineering Solutions)(日期未知)(“Genomatica”)描述设计化解放大到商业规模的风险的实验室规模的“缩小”实验。吉诺玛蒂卡描述开发商业规模发酵罐的预测模型，及将微生物的代谢与反应器设计联系起来，及在大规模条件下优化微生物及发酵过程。然而，吉诺玛蒂卡未教授在板规模下的高通量筛选或开发实验，且因此未认识到在开发板的筛选条件中的挑战。

发明内容

为了测试数千个菌株变体，受让人采用执行可预测在较大规模下的菌株变体性能的数千个小规模实验的工厂过程。板模型是实现迅速地测试数千个菌株变体的工厂过程的体现。开发板模型是缩小较大规模过程与优化较大规模的制造过程之间的微妙平衡。

本公开的实施例使用结构化且分析性的方法来分析大规模(例如，生产规模、实验台规模)发酵过程而缩小(及随后放大)生物过程，且从大规模直接缩小成96孔板的高通量筛选。根据本公开的实施例，这种方法是基于通过发酵过程的彻底特性化来理解关键性能指标(“KPI”)的关键驱动参数。本公开的实施例使用性能量度的分析及建模以及其与生物过程中的变化环境的相互作用来量化影响微生物的性能的各种因子的影响。

本公开的实施例实现具有>0.33的预期阳性预测值的96孔滴定板中的数千个菌株的筛选，其与具有实验台规模性能的板进行比较。选定的命中成功地向上传递到商业规模，这表明预测从微升规模到数百立方米商业规模的性能预测的成功。

本公开的实施例设计实验且开发物理板模型，其是用作传递函数的输入以对较大规模(例如，实验台规模罐)性能进行建模的实验条件及协议集。

本公开的实施例采用多目标优化(“MOO”)来减少分析时间且增加板模型开发的效率。根据本公开的实施例，MOO可使用响应面方法(“RSM”)来实施，且可采用度量、板罐偏差来快速地筛选实验条件参数(例如，培养基成分、接种量)及它们的值以优化板模型进行操作。本公开的实施例使用优化生物体的生理学量度(例如，pH、葡萄糖、生物质)且考虑具有作为罐中的产率及生产力的代理的板规模测定的需要的标准化可量化方法。此外，其支持参数内插，以更定量且更快地做决策。使用本公开的实施例减少个别贡献者的时间且标准化过程，同时创建跨多个生理及产品生产目标表现良好的板模型(缩小过程)。

本公开的实施例设计初步板模型及实验，目标是找到如接种量及板类型的过程参数、如温度及目标振动次数及培养基组分的培养条件等等的最优值，以用于操作中。所使用的核心方法是组合循序实验设计统计模型及优化函数以探索多个实验参数与一或多个响应之间的关系的分析框架。

本公开的实施例提供存储用于设计在第一规模下的生物体的实验以产生用于预测在更大的第二规模下的所述生物体的性能的第一规模性能数据的指令的系统、方法及计算机可读媒体。本公开的实施例：

·至少部分地基于第二(例如，实验台)规模条件对在所述第二规模下的生物体的第一菌株的性能参数的贡献来确定第一(例如，板)规模筛选条件，其中所述第一规模筛选条件包含无法在第一规模下复制的第二规模条件的一或多个代理；

·至少部分地基于在所述第二规模下的所述生物体的代谢的计算机建模来确定第一规模筛选参数；及

·设计用于在所述第一规模筛选条件下至少部分地基于所述第一规模筛选参数来实验性地筛选所述生物体的第二菌株(在实施例中，其可与所述第一菌株相同)的实验。

根据本公开的实施例，所述第一规模是处于包括孔的板的规模，其中每一孔具有在50微升到200微升的范围内的容积，且所述第二规模是处于实验台罐的规模，具有在200ml到10升的范围内的容积。

本公开的实施例产生所述第二菌株的第一规模性能的第一规模统计模型，且使用所述第一规模统计模型来预测在第三规模下的所述第二菌株的性能(例如，使用本文中所描述的传递函数)。根据本公开的实施例，所述第三规模大于所述第一及第二规模。替代地，所述第三规模可与所述第二规模相同。根据本公开的实施例，设计实验包含至少部分地基于所述第二菌株的所述经预测第三规模性能来筛选所述第二菌株。

根据本公开的实施例，确定第一规模筛选条件也可至少部分地基于从(例如，在大于所述第二规模的第三规模下的所述生物体的)发酵建模确定的环境条件。

根据本公开的实施例，确定第一规模筛选参数包括确定对关键性能指标(“KPI”)的贡献高于贡献阈值的第二规模性能参数。根据本公开的实施例，确定第一规模筛选参数包括基于第二规模性能参数改进KPI的性能的潜力来确定所述第二规模性能参数。

本公开的实施例确定在所述第一规模下共同优化所述第一规模筛选参数(及在一些实施例中，板罐偏差)的所述第一规模筛选条件的最优值(例如，使用多目标优化)，且设计实验包括设计用于响应于围绕所述最优筛选条件值的一系列筛选条件值而实验性地确定所述第二菌株的第一规模性能的实验。

本公开的实施例控制用于使用所述第一规模筛选条件及所述第一规模筛选参数来筛选在所述第一规模下的所述第二菌株的实验的性能。

附图说明

图1A是本公开的实施例的用于DNA序列的高通量(“HTP”)设计、构建、测试及分析的实验室信息管理系统(LIMS)的系统图。

图1B说明本公开的实施例的分布式系统。

图1C及图1D是LIMS的对应流程图。

图2A说明根据本公开的实施例的个别菌株的经测量生物反应器(罐，较大规模)值对比板(较小规模)值的比较。

图2B说明根据本公开的实施例的实例中的生物反应器(罐)的实际罐产率值与线性预测罐产率值的比较。

图3是等效于图2B的曲线图的曲线图，不同之处在于1型异常菌株N被移除。

图4是等效于图2B的曲线图的曲线图，不同之处在于四个1型异常值及一个2型异常值被移除。

图5描绘根据本公开的基于图4中的所有菌株是否具有某一遗传修饰来对它们应用校正的结果。

图6是根据本公开的实施例的在图5中所展示的模型的回归曲线图。

图7说明根据本公开的实施例的在未校正遗传因子的情况下的生产力模型。

图8说明根据本公开的实施例的在校正遗传因子之后的图7的生产力模型。

图9说明针对拥有与图8中相同的启动子交换的菌株的高通量生产力模型性能的改进(x轴)与低通量生物反应器(例如，罐)中的实际生产力的改进(y轴)。

图10说明根据本公开的实施例的传递函数开发工具的用户界面。

图11说明根据本公开的实施例的用户界面。

图12说明根据本公开的实施例的显示板罐相关性传递函数的用户界面。

图13说明根据本公开的实施例的基于传递函数来呈现最高预测性能的十个菌株的用户界面，其中由用户选择的异常值已从模型移除。

图14说明根据本公开的实施例的在用户选择的异常值已从模型移除之后的选定传递函数的图形表示。

图15说明根据本公开的实施例的使用户能够将经移除菌株的质量分数提交到数据库的界面。

图16说明根据本公开的实施例的云计算环境。

图17说明可用于执行程序代码以实施本公开的实施例的计算机系统的实例。

图18是由根据本公开的实施例执行的实验产生的板值对比罐值的图表。

图19是由根据本公开的实施例执行的实验产生的板值对比罐值的图表。

图20是由根据本公开的实施例执行的实验产生的板值对比罐值的图表。

图21是由根据本公开的实施例执行的实验产生的板值对比罐值的图表。

图22是由根据本公开的实施例执行的实验产生的板值对比罐值的图表。

图23是由根据本公开的实施例执行的实验产生的观察到的罐值对比经预测罐值的图表。

图24是由根据本公开的实施例执行的实验产生的观察到的罐值对比经预测罐值的图表。

图25是绘制由根据本公开的实施例执行的实验产生的第一罐值对比第二罐值的图表。

图26是由根据本公开的实施例执行的实验产生的观察到的罐值对比经预测罐值的图表。

图27绘制根据基于本公开的实施例的预言性实例的随时间估计的糖(Cs)、产物(Cp)及生物质(Cx)浓度。

图28是根据基于本公开的实施例的预言性实例的产物浓度对比发酵罐产物产率的图表。

图29是根据基于本公开的实施例的预言性实例的糖浓度对比发酵罐产物产率的图表。

图30是根据基于本公开的实施例的预言性实例的生物质浓度对比发酵罐产物产率的图表。

图31是根据基于本公开的实施例的预言性实例的板中产物产率对比发酵罐产物产率的图表。

图32A及32B说明根据本公开的实施例的用于设计在第一(板)规模下的生物体的实验以产生用于预测在更大(例如，实验台或商业)规模下的生物体的性能的第一规模性能数据的步骤。

图32C说明根据本公开的实施例的用于多目标优化的RSM工作流程。

图33绘制根据本公开的实施例的在生物过程的进程中在不同经过的发酵时间测量的经累积滴度的实例。

根据本公开的实施例。

图34说明根据本公开的实施例的展示如何对生物质进行建模的表面形状的实例。

图35A及35B描绘根据本公开的实施例的用于DNA组装、转化及菌株筛选的步骤。

图36A及36B提供根据本公开的实施例的高通量菌株工程的另一视图。

图37说明包括工作模块的本公开的实施例的自动化系统。

具体实施方式

本描述参考附图进行，其中展示各种实例实施例。然而，可使用许多不同实例实施例，且因此所述描述不应被解释为限于本文中所阐述的实例实施例。相反，提供这些实例实施例，使得本公开将是彻底且完整的。对实例性实施例的各种修改对于所属领域的技术人员来说将是显而易见的，且在不脱离本公开的精神及范围的情况下，本文中所定义的一般原理可应用于其它实施例及应用。因此，本公开并不意在限于所展示实施例，而是符合与本文中所公开的原理及特征一致的最宽范围。

如本文中所使用，应广义地理解术语“生物体”、“微生物(microorganism)”或“微生物(microbe)”。这些术语可互换地使用且包含但不限于两个原核结构域：细菌及古生菌，以及某些真核真菌及原生生物。

基因组工程的“高通量(HTP)”方法可涉及利用至少一件自动化设备(例如液体处置器或板处置器机器)来实行所述方法的至少一个步骤。

基因组自动化

本公开的方法的自动化实现同时从多个测试菌株变体高通量表型筛选及标识目标产物。数百或数千个突变菌株是以高通量方式构建。下文所描述的机器人及计算机系统是可通过其实行此高通量过程的结构机构。

图1A是用于DNA序列的高通量(“HTP”)设计、构建、测试及分析的本公开的实施例的实验室信息管理系统(LIMS)200的系统图。

图1B说明本公开的实施例的分布式系统2100。用户界面2102包含例如文本编辑器或图形用户界面(GUI)的客户端界面。用户界面2102可驻留在客户端计算装置2103(例如膝上型或台式计算机)处。客户端计算装置2103通过网络2106(例如因特网)耦合到一或多个服务器2108。

(若干)服务器2108本地或远程耦合到一或多个数据库2110，所述一或多个数据库2110可包含一或多个文库语料库，包含例如基因组数据、遗传修饰数据(例如，启动子等位基因(ladder))、过程条件数据、菌株环境数据及可表示在小规模及大规模两者下的微生物菌株性能且响应于遗传修饰的表型性能数据的数据。本文中的“微生物”包含细菌、真菌及酵母。

在实施例中，(若干)服务器2108包含至少一个处理器2107及存储指令的至少一个存储器109，所述指令在由(若干)处理器2107执行时执行本文中所公开的操作，包含产生预测函数，由此充当根据本公开的实施例的预测引擎。根据本公开的实施例，相同布置可充当PM引擎、分析设备214或LIMS系统的其它元件，或其它计算元件。替代地，这些计算元件的软件及相关联硬件可本地驻留在客户端2103处而不是在(若干)服务器2108处，或经分布在客户端2103与(若干)服务器2108两者之间。在实施例中，这些计算元件的全部或部分可作为图16中进一步描绘的基于云的服务运行。应注意，预测引擎及PM引擎可驻留在LIMS的分析设备214处。

(若干)数据库2110可包含公共数据库以及由用户或其他人产生的定制数据库，例如，包含经由由用户或第三方贡献者执行的发酵实验产生的分子的数据库。(若干)数据库2110相对于客户端2103可为本地的或远程的，或既本地又远程分布。

图1C及图1D是LIMS 200的对应流程图。在LIMS的实施例中，可一次对一个输入DNA序列进行许多改变，从而产生每一改变或改变集的单个输出序列。为了优化菌株(例如，制造以高产率有效地产生有机化合物的微生物)，LIMS一次产生许多此类DNA输出序列，使得它们可在同一时间框架内进行分析以确定哪些宿主细胞，及因此对输入序列的哪些修饰最好地达到期望性质。

在一些实施例中，所述系统实现设计多个核苷酸序列构建体(例如如启动子、密码子或基因的DNA构建体)，每一核苷酸序列构建体具有一或多个变化，且创建工作订单(即，“工厂订单”)以指示基因制造系统即工厂210构建呈携带构建体的微生物的形式的核苷酸序列构建体。可构建的微生物的实例包含但不限于例如细菌、真菌及酵母的宿主。根据所述系统，接着针对微生物测试它们的性质(例如，产率、滴度)。以反馈回路方式，分析结果以迭代地改进前几代的设计以实现更优的微生物性能。

尽管本文中主要在微生物基因组修饰的背景下描述设计、构建、测试及分析过程，但所属领域的技术人员将认识到，这个过程可用于任何类型的宿主细胞中的期望基因修饰及表达目标。

更详细地参考图1A到1D，输入界面1202(例如运行程序编辑器的计算机)接收用于设计一或多个DNA输出序列的程序/脚本的语句(参见302)。此基因组设计程序语言在本文中可被称为由本公开的受让人开发的“密码子”编程语言，且本文在以上密码子申请案参考文献中进行描述。本公开的实施例的强大特征是在同一程序内仅用几个程序语句就可开发用于非常大量的DNA序列(例如，微生物菌株、质粒)的设计的能力。

在此，所述编辑器使用户能够例如，通过图形或文本输入或经由菜单或表格，使用计算装置上的键盘及鼠标来输入及编辑程序。所属领域的技术人员将认识到，在不需要直接用户输入的情况下可采用其它输入界面202，例如，输入界面202可采用应用程序编程界面(API)，且从另一计算装置接收包括所述程序的文件中的语句。输入界面202可通过本地或远程连接与所述系统的其它元件进行通信。

如密码子申请案中所描述，解释器或编译器/执行单元204将程序语句评估为本公开的实施例的新颖DNA规范数据结构(304)。根据本公开的实施例，解释器204连同执行引擎207及下单引擎208一起将程序语句从逻辑规范转化成物理制造过程的规范以供工厂210使用。

工厂下单器208可使用遵循已知启发法及其它性质(例如，运行在常用设备上的最优熔化温度)的已知参数及已知算法的文库来确定由工厂210执行的那个工作流程过程将需要的中间部分。

所得工厂订单可包含规定步骤集以及那些步骤中的每一者针对将要构建的每一DNA序列的参数、输入及输出的组合。工厂订单可包含DNA部分列表，包含起始微生物基础菌株、引物列表、向导RNA序列或实现工作流程所必需的其它模板组分或试剂规范，连同用于DNA规范内的不同操作的一或多个制造工作流程规范。这些主要、中间及最终部分或菌株可经由工厂构建图来具体化；工作流程步骤是指具有各种角色的构建图元素。下单引擎208可指上文所论述的信息的文库206。根据本公开的实施例，这个信息用于在工厂210基于核苷酸序列合成的常规技术以及由用户或其他人开发的定制技术以物理(与计算机模拟相反)形式具体化设计活动操作。

例如，假设递归程序语句具有顶级循环函数且其输入是串接规范链。工厂下单器208可解释所述系列的输入，使得实验室中的人或机器人可根据常规技术或由用户开发的定制/改进技术执行PCR反应以扩增所述输入中的每一者且接着将它们组装成环状质粒。工厂订单可指定应为了进行组装而创建的PCR产物。工厂订单还可提供应为了执行PCR而购买的引物。

在另一实例中，假设程序语句指定顶级替换函数。工厂下单器208可将这个解释为细胞转化(用活细胞中的另一片段替换基因组的一个片段的过程)。此外，替换函数的输入可包含指示DNA的来源的参数(例如，从另一质粒中切出，从某个其它菌株中扩增)。

下单引擎208可通过本地或远程连接将工厂订单传达到工厂210。基于工厂订单，工厂210可从外部供应商及内部存储装置获取短DNA部分，且采用所属领域中已知的技术(例如吉布森(Gibson)组装协议或金门组装协议)来组装对应于输入设计的DNA序列(310)。工厂订单本身可指定在制造的开始、中间及最终阶段期间采用哪些技术。例如，许多实验室协议包含需要模板序列及两个引物序列的PCR扩增步骤。工厂210可部分或全部使用机器人自动化来实施。

根据本公开的实施例，工厂订单可指定在工厂210生产数百个或数千个DNA构建体，每一DNA构建体具有不同基因组成。DNA构建体通常被环化以形成质粒用于插入到基础菌株中。在工厂210，制备基础菌株来接收经组装质粒，接着插入所述经组装质粒。

使用测试设备212来测试在工厂210组装的所得DNA序列(312)。在测试期间，微生物菌株经受基于大小及测序方法的质量控制(QC)评定。接着可将通过QC的所得经修饰菌株从液体或菌落培养物传递到板上。在对生产条件进行建模的环境条件下，菌株生长且接着经测定以测试性能(例如，期望产物浓度)。同一测试过程可在烧瓶或罐中执行。

以反馈回路方式，可由分析设备214分析结果以确定哪些微生物展现期望表型性质(314)。在分析阶段期间，评估经修饰菌株培养物以确定它们的性能，即，它们对期望表型性质的表达，包含在工业规模下生产的能力。分析阶段尤其使用板的图像数据来测量作为菌落健康的指标的微生物菌落生长。分析设备214可包含计算机以执行本文中所描述的数个操作，包含将遗传变化与表型性能相关，且将所得基因型-表型相关数据保存在文库中，其可经存储在文库206中，以告知未来的微生物生产。

LIMS基于从先前工厂运行开发的相关性来迭代设计/构建/测试/分析循环。在后续循环期间，分析设备214可独自或与人类操作员一起使用相关性数据来微调遗传修饰以实现更好表型性能与更细粒度而选择最好的候选者作为基础菌株用于输入回到输入界面202中。以这种方式，本公开的实施例的实验室信息管理系统实施质量改进反馈回路。

所属领域的技术人员将认识到，本文中所描述的一些实施例可完全通过LIMS系统200的自动化方法，例如，通过分析设备214，或通过人类实施，或通过自动化及手动方法的组合来执行。当操作未完全自动化时，LIMS系统200的元件(例如分析设备214)可例如接收操作的人类表现的结果而非通过其自身的操作能力产生结果。如本文中别处所描述，LIMS系统200的组件(例如分析设备214)可全部或部分地由一或多个计算机系统来实施。在一些实施例中，特别是在操作通过自动化及手动方法的组合来执行的情况下，分析设备214可不仅包含计算机硬件、软件或固件(或其组合)，而且包含由人类操作员操作的设备，例如下表1中所列出的设备。

在一些实施例中，设计高通量筛选过程以预测生物反应器中的菌株的性能。如先前所描述，选择适合于生物体且反映生物反应器条件的培养条件。挑选个别菌落且将其传递到96孔板中并培育达合适时间量。随后将细胞传递到新的96孔板用作额外种子培养物或传递到生产培养物。培养物被培育达不同时间长度，其中可进行多个测量。这些可包含产物、生物质或预测生物反应器中的菌株的性能的其它特性的测量。高通量培养结果用于预测生物反应器性能。

在一些实施例中，基于罐的性能验证用于确认通过高通量筛选隔离的菌株的性能。发酵过程/条件可从LIMS系统的操作员的客户获得。针对例如生产力或产率的相关菌株性能特性，可使用实验台规模发酵反应器(例如，本公开的表1中所公开的反应器)来筛选候选菌株。

迭代菌株设计优化

参考图1A到1C，根据本公开的实施例，下单引擎208向工厂210下工厂订单以制造并入候选突变的微生物菌株。以反馈回路方式，可由分析设备214分析结果以确定哪些微生物展现期望表型性质(314)。在分析阶段期间，评估经修饰菌株培养物以确定它们的性能，即，它们对期望表型性质的表达，包含在工业规模下生产的能力。例如，分析阶段尤其使用板的图像数据来测量微生物菌落生长作为菌落健康的指标。分析设备214用于将遗传变化与表型性能相关，且将所得基因型-表型相关性数据保存在文库中，其可经存储在文库206中，以告知未来的微生物生产。

特定来说，可将由导致足够高的经测量性能的候选变化产生的基因型-表型相关性数据添加到数据训练集。以这种方式，以监督式机器学习方式将最好性能突变添加到预测菌株设计模型。

总之，参考图1C的流程图，迭代预测菌株设计工作流程可被描述如下：

·产生输入及输出变量的训练集，例如，作为输入的遗传变化及作为输出的性能特征(3302)。产生可由分析设备214基于先前遗传变化及并入那些遗传变化的微生物菌株的对应测量性能来执行。

·基于训练集来开发初始模型(例如，线性回归模型)(3304)。这可由分析设备214来执行。

·产生设计候选菌株(3306)

ο在一个实施例中，分析设备214可以变化组合的形式确定要对背景菌株进行的遗传变化的数目。为了表示这些变化，分析设备214可将表示那些变化组合的一或多个DNA规范表达提供到解释器204。(这些遗传变化或并入那些变化的微生物菌株可被称为“测试输入”。)解释器204解释一或多个DNA规范，且执行引擎207执行DNA规范以用表示那些变化的个别候选设计菌株的经解析输出填充DNA规范。

·基于所述模型，分析设备214预测每一候选设计菌株的预期性能(3308)。

·分析设备214选择具有最高预测性能的有限数目个候选设计，例如100个(3310)。ο分析设备214可通过例如过滤上位效应的顶层设计或将上位考虑到预测模型中来考虑例如上位的二阶效应。

·基于由下单引擎208产生的工厂订单来构建经过滤候选菌株(在工厂210)(3312)。

·分析设备214测量选定菌株的实际性能，基于它们的优越实际性能来选择有限数目个那些选定菌株(3314)，且将设计变化及它们的所得性能添加到预测模型(3316)。预测模型可采用线性回归。

·分析设备214接着迭代回到新设计候选菌株的产生(3306)，且继续迭代直到满足停止条件。停止条件可包括例如满足性能度量的至少一个微生物菌株的经测量性能，例如产率、生长速率或滴度。

在以上实例中，菌株设计的迭代优化可采用反馈及线性回归来实施机器学习。

其它一般HTP描述

图35A及35B描绘根据本公开的实施例的用于DNA组装、转化及菌株筛选的步骤。图35A描绘用于构建DNA片段、将DNA片段克隆到载体中、将载体转化成宿主菌株及移除选择标志的步骤。图35B描绘用于选定宿主菌株的高通量培养、筛选及评估的步骤。这个图还描绘在培养罐中培养、筛选及评估选定菌株的任选步骤。

图36A及36B提供根据本公开的实施例的高通量菌株工程的另一视图。所述流程图描绘用于构建DNA、从DNA构建菌株以及在板及罐中测试菌株的步骤。

HTP机器人系统

根据本公开的实施例，本公开的自动化HTP方法包括机器人系统。本文中所概述的系统通常涉及使用96孔或384孔微量滴定板，但所属领域的技术人员将明白，可使用任何数目个不同板或配置。另外，本文中所概述的任何或所有步骤可完全或部分自动化。

参考图37，本公开的实施例的自动化系统包括一或多个工作模块。例如，在一些实施例中，自动化机器人系统系统包含能够克隆、转化、培养、筛选及测序宿主生物体的DNA合成模块、载体克隆模块、菌株转化模块、筛选模块及测序模块。

如所属领域的技术人员将明白，自动化系统可包含各种各样的组件，包含但不限于：液体处置器；一或多个机械人臂；用于定位微板的板处置器；板密封器、板穿孔机、用于移除及替换用于非交叉污染板上的孔的盖子的自动化盖子处置器；用于样品分配的带有一次性吸头的一次性吸头组合件；用于样品分配的可清洗吸头组合件；96孔装载块；集成热循环仪；冷却式试剂架；微量滴定板移液管位置(任选地冷却式)；用于板及吸头的堆叠塔；磁珠处理站；过滤系统；板振动器；条形码读取器及施敷器；及计算机系统。

在一些实施例中，本公开的机器人系统包含实现高通量移液以执行基因打靶及重组应用的过程中的所有步骤的自动化液体及粒子处置。这包含液体及粒子操纵，例如抽吸、施配、混合、稀释、清洗、准确容积传递；取回及丢弃移液管吸头；及来自单次样品抽吸的多次输送的相同容积的重复移液。这些操纵是无交叉污染的液体、粒子、细胞及生物体传递。所述仪器执行微板样品到过滤器、膜及/或子板的自动复制，高密度传递，全板连续稀释及高容量操作。

在一些实施例中，本公开的定制自动化液体处置系统是TECAN机器(例如定制的TECAN Freedom Evo)。

在一些实施例中，本公开的自动化系统是与多孔板、深孔板、方孔板、试剂沟槽、试管、小型管、微量离心管、冷冻管、过滤器、微阵列芯片、光纤、珠、琼脂糖及丙烯酰胺凝胶的平台兼容，且其它固相基质或平台经容纳在可升级的模块化台上。在一些实施例中，本公开的自动化系统含有用于用于放置源及输出样品、试剂、样品及试剂稀释液、测定板、样品及试剂容器、移液管吸头及主动吸头清洗站的多位置工作表面的至少一个模块化台。

在一些实施例中，本公开的自动化系统包含高通量电穿孔系统。在一些实施例中，高通量电穿孔系统能够在96或384孔板中转化细胞。在一些实施例中，高通量电穿孔系统包含

高通量电穿孔系统、BTX^TM、Bio-

Gene Pulser MXcell^TM或其它多孔电穿孔系统。

在一些实施例中，集成热循环仪及/或热调节器用于稳定例如受控块或平台的热交换器的温度以提供从0℃到100℃的培育样品的准确温度控制。

在一些实施例中，本公开的自动化系统与具有单个或多个磁探针、亲和探针、复制器或移液管的可互换机头(单或多通道)兼容，能够用机器人操纵液体、粒子、细胞及多细胞生物体。多孔或多管磁力分离器及过滤站操纵呈单个或多个样品格式的液体、粒子、细胞及生物体。

在一些实施例中，本公开的自动化系统与相机视觉及/或光谱仪系统兼容。因此，在一些实施例中，本公开的自动化系统能够检测及记录正在进行的细胞培养物中的颜色及吸收变化。

在一些实施例中，本公开的自动化系统被设计为灵活的且适于多个硬件附件以允许所述系统实行多个应用程序。软件程序模块允许创建、修改及运行方法。所述系统的诊断模块允许设置、仪器对准及马达操作。定制的工具、实验室器具以及液体及粒子传递模式允许编程及执行不同应用程序。数据库允许方法及参数存储。机器人及计算机接口允许仪器之间的通信。

所属领域的技术人员将认识到能够实行本公开的HTP工程方法的各种机器人平台。下表1提供能够实行本公开的HTP工程步骤中的每一步骤的科学设备的非排他性列表，例如图36A到36B中所描述的那些列表。

表1与本公开的HTP工程方法兼容的科学设备的非排他性列表

传递函数

传递函数申请案，即第PCT/US18/60120号国际申请案提供一种用于基于较小规模、高通量微生物性能来可靠地预测在较大规模、低通量条件下的微生物的关键性能指标(例如，产率、生产力、滴度)的值的稳健方法。这对于代谢优化生物体以大规模生产化学目标尤其有用。实施例可采用经优化统计模型进行预测。

根据本公开的实施例，传递函数是用于基于在另一背景中的性能来预测一个背景中的性能的统计模型，其中主要目标是从在较小规模下的样品的性能预测在更大规模下的样品的性能。在实施例中，传递函数涉及小规模值与大规模值之间的简单的单因子线性回归，连同由发明人发现的优化。在其它实施例中，传递函数可采用多元回归。

为了构建这些回归模型，本公开的实施例使用输入模型来概括在高通量背景(例如，统计板模型)中的菌株的性能，且接着使用单独模型(例如，传递函数)来预测在较低通量背景中跨多次运行的菌株的性能。例如，板模型可用于对96孔板中的同一菌株的多个复制品的性能(例如，产率、生产力、活性)进行建模。根据本公开的实施例，例如可为分析设备的预测引擎或计算部分的经编程计算机产生输入模型，产生传递函数，将传递函数应用于输入模型输出以预测性能，或执行其任何组合。

可既在传递函数及统计板概括模型中，又在构建用于从较高通量背景中的性能预测在较低通量背景中的性能的更复杂非线性机器学习模型中，考虑以下优化考虑：

·考虑由于板及板上的位置(例如，行-列位置、边缘位置)两者所致的偏差，

·板特性，例如培养基类型/批次、振动器位置偏差，

·过程特性，如用于接种孔的甘油原料已被使用的次数，及在较低通量步骤及较高通量步骤两者使用哪种类型的机器(例如，培育器、发酵罐、测量设备)，

·样品特性(例如细胞谱系或已知遗传标志的存在/缺失)

下文呈现用于构建稳健且可靠的传递函数以基于较小规模高通量测量来准确地预测在较大规模下的关键性能指标的方法。

本公开首先呈现根据本公开的实施例的基本线性模型。本公开接着呈现根据本公开的实施例在算法上实施的优化。根据实施例，传递函数开发工具包含用于在数据呈可摄取格式之后实施进一步优化的基础架构。以下实例是基于在个别菌株的96孔板(较小规模、较高通量)中分别24及96小时的氨基酸滴度来预测氨基酸的生物反应器(较大规模、较低通量)生产力(g/L/h)及产率(wt％)的问题。

基本传递函数：板罐相关性函数

传递函数的最基本形式是形式y＝mx+b的单因子线性回归，其中x是在小规模、高通量筛选内中获得的值，y是在大规模、低通量筛选中获得的值，且m及b分别是拟合线的斜率及y截距。实施例还可采用多元回归以基于多个自变量x_i来预测因变量y。在两个规模下的x与y值之间的相关性可用作这种基本方法的有效性的量度；因此其可被称为“板罐相关性”。

甚至这种基本形式的传递函数也并入创造性优化。代替简单地使用菌株的平均性能来从高通量筛选获得菌株的单个值以与较低通量值相关，本公开的实施例采用校正板位置偏差以及其它因子的线性模型。其它实施例采用非线性模型，且考虑板模型的其它方面。

板罐相关性(即，传递)函数不仅预测尚未在较低通量、较大规模下测试的样品的性能。其还可用于评定物理板模型的有效性。物理板模型是被设计为使在小规模下高通量获得的值尽可能预测在大规模下获得的值的培养基及过程约束的集合。板罐相关性函数的相关性系数尤其指示板模型实现其目的上的适当程度。板模型可并入但不限于物理特征(其可用作板模型中的自变量)，例如：

·培养基配方及制备(例如培养基批次)

·稀释剂类型

·接种量

·实验室器具

·振动次数、温度及湿度

在本公开的实施例中，板罐相关性函数用于优化物理板模型。在实施例中，物理板模型模拟在罐规模下的微生物发酵过程—以经由板中的实施方案对罐性能进行物理建模。

板模型

根据本公开的实施例，可经由最小二乘均值(LS-Means)方法确定在高通量背景中(例如，在小规模、板环境中)的菌株的性能。LS-Means是通过其首先拟合线性回归，且接着所述拟合模型预测所有分类特征的笛卡尔集及所有数值特征的均值的性能的两步骤过程。所述模型的特征将物理板模型与统计板模型相关，且描述进行所述实验的条件，且包含上文所列出的优化(例如，板上的位置、板特性、过程特性、样品特性)。

第一步骤的模型形式是：

titer_i＝β_s[i]+∑_fβ_fx_f[i]

菌株效应(在这个例中是滴度)及接着所述模型中使用的每一额外特征存在推断的加性系数β_s。第一项β_s是由i索引的菌株复制品的效应(在此，滴度)。接着每一额外项β_f是指派给特征f(例如，板位置)的权重且x_f[i]是由i索引的菌株复制品的特征的值。

作为实例，一个此模型可能是：

titer_i＝β_s[i]+β_platePlate_i

在这个模型中，特征是在其上生长菌株的特定板。这个模型包含每一菌株及在特定实验中由i索引的每一板的系数β_plate。所述模型可使用脊回归以一定损失拟合以改进数值稳定性。

第二步骤再次取得因子的所有可能组合(例如，特定板及所有菌株在所述板上的位置)并使用统计板模型方程来对那些合成值进行预测以模拟在于每一场景中运行菌株的情况下将发生什么，且最后取得逐菌株场景的平均性能。这是与板性能(例如图2A中的x轴板性能值)相关联，且与罐性能的概括(例如图2A中的y轴罐性能值)相关的终点估计。

图2A说明根据本公开的实施例的相关性的实例。图2A说明个别菌株的经测量生物反应器(罐，较大规模)值对比板(较小规模)值的比较。数据集包含高通量测量(使用板模型来确定产率)，及用于生产氨基酸的相关联生物反应器测量(例如，产率)。每菌株的平均板滴度(并入经估计板偏差)在x轴上，且每菌株的平均生物反应器(例如，罐、发酵罐)产率(wt％)在y轴上。每一点(字母)对应于单个菌株。

出于预测的目的，可依据模型的经预测性能与实际性能的匹配程度来检查此类曲线图，其对于图中所展示的简单情况是具有经重新缩放x轴的回归曲线图。图2B说明生物反应器(罐)的实际产率值与简单线性预测产率值的比较。水平虚线是实际罐值的全局均值，且对角虚线表示拟合线的实际位置的95％置信区间。经预测P、RSq及RMSE在此是模型性能的主要度量，其中经预测P是拟合的P值，RSq是相关性的R²，且RMSE是预测的均方根误差。其中，RMSE对优化目的最有用，因为其是预测准确性的最直接量度。

优化

异常值

在检查以上曲线图时，一些菌株的行为与其余菌株的行为非常不同且在空间上隔离。这些异常值可被分成两种类型：表示性能(y轴)，例如产率的极值的1型异常值，及表示，否则被称为代表x轴上的极值的“高杠杆点”的2型异常值。1型异常值是远离拟合线的那些菌株；即，它们被不良地预测(图2B右下象限中标记为N的菌株是一个实例)。此类菌株影响模型的拟合且可能削弱对所有其它菌株的预测性，同时本身仍然被不良地预测。一种优化是移除此类菌株以改进模型的总预测能力。另一优化是将因子添加到传递函数模型或概括在较高通量水平下的菌株性能的模型(例如，并入板位置偏差或遗传因子的板模型)。

2型异常值是位于或接近于拟合线但仍然远离其它菌株的那些异常值(在图2B中在左下角标记为A的菌株是一个实例)。距离可以数种方式测量，包含：与其它菌株的质心的距离，或到最近的其它菌株的距离。2型异常值对简单线性模型施加过大影响。模型的目的是尽可能准确地预测剩余菌株的性能。因此，本公开的实施例通过移除2型异常值(符合一般统计实践)或替代地通过透过添加预测因子优化模型来优化2型异常值。

在通过移除异常值来优化的情况下，本公开的实施例提供至少两种方法来将菌株标记为要移除的异常值：

第一方法是基于菌株作为异常值重复出现及基于菌株的异常特性或其在较大规模下的性能具有有意义的基本原理以将其排除为代表菌株的大多数。例如，图2B中的A菌株是模型中的其它菌株的源祖，但在一定规模下在基因及性能方面与它们相距甚远。N菌株具有已知在板中提供良好结果但无法在更大规模下消耗足够葡萄糖的修饰。

第二异常值标记方法是将“杠杆度量”指派给每一菌株且如果由于菌株移除所致的度量变化超过预定义截止值(“杠杆阈值”)，那么将其视为异常值。例如，杠杆度量可表示模型中具有及没有菌株的RMSE百分比差，且所述截止值可为10％改进。在这种情况下，图3中描绘移除N菌株的结果。

图3是等效于图2B的曲线图的曲线图，不同之处在于1型异常菌株N被移除。移除N菌株将RMSE从2.43减小到2.09，或14％，其高于当前使用的10％截止值。因此，预测引擎将标识用于移除的异常值。

由于过度拟合的危险，在移除异常菌株(例如，将异常截止值设置得太低)时应小心谨慎，即，构建非常良好地预测菌株的小子集但用于更广泛群体上时不良的模型。一种防止这种情况的方式是使用通过模型中的候选菌株的数目或分率加权的截止值。例如，如果基本截止值是10％且模型可包含100个菌株，那么用于移除第一菌株的截止值可为0.1/0.99，用于移除第二菌株的截止值可为0.1/0.98，用于移除第三菌株的截止值可为0.1/0.97等。

在移除一个2型异常值及四个1型异常值之后，图3的拟合变为图4中所展示。图4是等效于图2B的曲线图的曲线图，不同之处在于四个1型异常值及一个2型异常值被移除。应注意，图4中的RSq及RMSE两者分别相对于图2B中的模型改进达近似6％及21％。

基因及其它因子

样品的基因或其它特性(包含过程方面，例如用于生长菌株的培养基的批号)也可对改进作为传递函数中的因子的预测能力有用，尤其是鉴于高通量板模型独自不太可能完全概括样品将在较大规模下经受的条件。特定来说，在代谢工程的情况下，不可能在5升或更大生物反应器中重现条件，例如在板中的200μL孔中的流体动力学、剪切应力以及氧气及营养素扩散的效应。基于例如培养基成分、培养基制备方法、经测量化合物及测量时序的因子来努力改进物理板模型具有耗时且昂贵的缺点，且可能使得难以将在新板模型下运行的样品与在旧板模型下运行的那些样品进行比较。因此，本公开的实施例标识且利用板模型的其它预测因子来改进预测。根据本公开的实施例，那些其它因子中的一些包含：

·考虑由于板上的菌株的位置所致的偏差

·板特性，如培养基类型/批次、振动器位置偏差

·过程特性，例如用于接种孔的甘油原料已被使用的次数，及在较低通量步骤及较高通量步骤两者使用哪种类型的机器

·样品特性(例如细胞谱系或已知遗传标志的存在/缺失)

本发明人已发现遗传因子对改进用于代谢工程菌株的传递函数—例如，并入有关导致基因调节差异的变化的信息特别有用。

图5描绘基于图4中的所有菌株是否具有某一遗传修饰(例如，特定基因中的起始密码子交换)来对它们应用校正的结果。作为实例，针对多元回归传递函数模型，考虑起始密码子交换的存在或缺失的调整/校正可采取将性能分量m_ix_i或性能分量m_jx_j分别添加到由传递函数预测的菌株的平均罐产率性能的形式。(应注意，权重m可取负值。)在实施例中，m_i可取单个值，且取决于所述修饰是否存在x分别是+1或-1。在其它实施例中，m_i可取单个值，且x是+1或0。

图5等效于图4，不同之处在于其包含针对aceE基因中的起始密码子交换的存在或缺失的校正因子。这个校正将RSq(R平方)从0.71增加到0.79且将RMSE从1.9减小到1.6(16％)。

图6是图5中所展示的模型的回归曲线图。回归曲线图(图6)展示本质上使用两个回归线，这取决于所述修饰是存在(上部线)还是缺失(下部线)。

图7说明在未对遗传因子进行校正的情况下的生产力模型。在生产力模型中，基因校正结果甚至更加突出。在不校正板模型无法概括的遗传变化(例如，启动子交换)的情况下，所述模型如图7中所展示。

包含对这种修饰的存在或缺失的校正产生图8中所展示的模型。图8说明在校正遗传因子(例如，特定启动子交换)之后的图7的生产力模型。启动子交换是启动子修饰，包含启动子的插入、删除或替换。

将这个因子包含在模型(例如，多元回归模型)中使RSq从0.45增加到0.73且将RMSE从0.53减小到0.37(30％)，这是预测能力的有力增加。实际上，针对拥有这种修饰(其中两个异常值被移除)的菌株检查板性能的改进(“hts_prod_difference”)对比生物反应器(罐)性能的改进(tank_prod_difference)且将它们拟合于线产生图9。

图9说明针对拥有与图8中相同的启动子交换的菌株的高通量生产力模型性能的改进(x轴)对比低通量生物反应器(例如，罐)中的实际生产力的改进(y轴)。

拟合线的方程是19+1.9*hts_prod_difference，意指可预期拥有这个变化的在板模型中与其亲代无法区分开的菌株在一定规模下比其亲代表现好近似20％，即板模型独自无法准确地预测的主要改进。甚至板模型独自预测的菌株在板级下将比亲代更差(如图9中的曲线图中的D及E)实际上在罐规模下比亲代好得多。将这个变化的因子包含在模型中准确地预测新菌株中的这些效应且避免将此类菌株作为假阴性丢失。

由于上位相互作用的结果，遗传因子的群组在预测中也可有用，其中两个或更多个修饰组合的效应与将单独从所述修饰的加性效应所预期的不同。有关上位效应的更详细解释，请参考2016年12月7日申请的第PCT/US16/65465号PCT申请案，其全文以引用的方式并入本文中。

另一因子是谱系。谱系与遗传因子类似，因为其是遗传性的，但谱系考虑与其它谱系中的其它菌株相比，一个菌株中存在的已知及未知遗传变化两者。本公开的实施例采用谱系作为一个因子来构建菌株祖先的有向非循环图，且测试最具代表性节点(即，最常用作进一步遗传修饰的目标或具有最大数目个后代的源祖菌株)作为预测因子的效用。

对传递函数输出的修改

使用传递函数输出的最简单方式是使用输出作为在一定规模下的性能的预测。另一方法是将亲代与子代菌株之间的传递预测的百分比变化应用于亲代的实际大规模性能(即，prediction＝parent_performance_at_scale+parent_performance_at_scale*(TF_output(daughter)-TF_output(parent))/TF_output(parent))，其中在parent_performance_at_scale是在一定规模下(即，在较大规模下)的亲代菌株的观察到的性能，TF_output(strain)是由于传递函数的应用所致的菌株“strain”的经预测性能，且子代菌株是如通过一或多个遗传修饰所修饰的亲代菌株的版本。这具有移除与在一定规模下亲代对子代性能的影响相关联的噪音，但前提是存在此影响；即，假设传递函数在预测子代性能时的误差将与在预测亲代时的误差具有近似相同的量值及符号。

其它统计模型

上文假设传递函数使用简单的线性及多重回归模型，但也可在本公开的实施例中采用更复杂的线性模型，例如脊回归或套索回归。另外，可在实施例中采用非线性模型(包含多项式(例如，二次)或逻辑拟合)或非线性机器学习模型(此K-最近邻或随机森林)。可使用更复杂的交叉验证方法来避免过度拟合。

算法实例

在实施例中，在算法中实施关于将哪些样品(菌株)包含或排除为异常值及包含哪些潜在因子以改进预测能力的决策以确保可重现性，探索尽可能多的改进可能性，且减少潜意识偏见的影响。可采用多种方法，且下文呈现一个此循环/迭代过程的实例，其中小规模、高通量环境可对应于板环境，且大规模、低通量环境可对应于罐环境。

1.从一组菌株开始，使用(若干)性能测量(例如，氨基酸滴度)作为用于开发预测模型(例如，线性回归)的(若干)唯一因子

a.这些是已知其实际板及罐性能数据的菌株。

2.标识其从传递函数模型的移除最能改进模型的RMSE的菌株(“异常值”)。

a.替代地，标识可能从模型移除具有最大预测误差的菌株(菌株的经预测性能对比经测量性能)。

3.如果移除菌株的RMSE改进大于预定义截止值，那么前进到步骤4；否则转到步骤10。

4.标识应用于异常值的潜在预测因子，所述预测因子不存在于模型中当前包含的所有其它菌株中(因为在所有菌株中等效的因子对总预测能力无用)，且尚未作为因子包含在模型中。任选地，所述算法可标识存在于至少一个其它菌株中的因子，同时仍然满足以上条件。

a.作为异常菌株的特性的因子可包含例如已知已进行的遗传变化、谱系(菌株祖先的历史)、表型特性、生长速率。

b.应注意，如果因子在仅一个菌株中，那么所述算法可调整模型以校正所述单个菌株，但通常修改模型以考虑单个菌株可能不是预期目标。而且，如果因子存在于所有其它菌株中，那么其没有预测价值。

c.应注意，实施例可采用机器学习模型，所述机器学习模型将自动地执行这个函数，但确定所述模型的因子可能降低所述机器学习模型的资源负担。

5.如果来自步骤4的列表是空的，那么从模型排除异常值且转到步骤2。

6.否则，将来自步骤4的因子临时应用于模型中。

a.如上所述，实施例可采用简单的线性回归传递函数，例如y＝m₁x₁+b，其中x₁是板上的菌株的性能，且m₁是应用于x₁的权重(斜率)。在实施例中，可通过添加加权因子(回归系数)以产生形式y＝m₁x₁+m₂x₂+...+m_Nx_N+b的多元回归模型来细化模型，其中x₁是板上的菌株的性能，另一x_i(i≠1)表示除性能x₁以外的因子，m₁是应用于x₁的权重，且m_i是应用于因子x_i的权重。在实施例中，x₁可表示板模型的输出。在实施例中，所有x_i可表示板模型的输出。

b.在实施例中，可一次添加一个因子，且调整权重，直到误差(或P值)减小达令人满意的量才添加下一因子。

7.如果因子未通过误差阈值改进模型的误差或如果它们具有高于P值阈值的P值，那么算法可移除因子(例如，多元回归方程中的x值)。例如，如果特定遗传因子(即，已知已在菌株中进行的遗传修饰)未通过误差阈值改进误差或如果它们具有高于P值阈值的P值，那么本公开的实施例可从回归模型(预测函数)移除那些因子。

8.根据本公开的实施例，如果任何剩余遗传因子是具有高方差膨胀因子(例如，>3，指示因子之间的共线性)的群组的部分，那么预测引擎可仅将具有最低P值的遗传因子保留在每一群组内。高方差膨胀指示因子之间的高度相关性。包含高度相关因子将不提供太多的预测价值且可能引起过度拟合。根据本公开的实施例，预测引擎可使用方差膨胀因子来测量因子之间的相关性，且从移除高度相关因子开始直到达到令人满意的方差膨胀因子。

9.如果此时已移除来自步骤4的所有遗传变化，那么从模型移除异常菌株，且返回到步骤2。

a.如果条件为真，那么所述算法已确定在不移除异常值的情况下无法令人满意地改进所述算法。

10.在迭代遍历步骤2到9或从步骤3跳到此处之后，移除不适用于任何剩余菌株或适用于所有剩余菌株的任何因子。任选地，移除仅适用于一个菌株的任何遗传因子。

以上算法的结果可为其中一些异常值被移除且模型被调整以考虑更多因子的改进模型。输出包含用于开发模型的菌株及模型中使用的因子，连同它们的权重。

根据本公开的实施例，预测引擎可比较多个预测函数的性能误差度量，且至少基于所述比较来对预测函数进行排名。参考以上算法，预测引擎可比较由不同迭代(例如，移除不同异常值，添加不同因子)创建的模型的预测性能。根据实施例，预测引擎可比较由不同技术，例如脊回归、多元回归、随机森林创建的模型的预测性能。

本公开的实施例测试传递函数的新版本且通过测量在大规模下的菌株的实际性能来监测其性能。新传递函数的预测可针对传递函数的其它版本进行回溯测试且关于历史数据进行性能比较。接着可关于新数据与其它版本并行前向测试所述传递函数。可随时间监测性能度量(例如RMSE)，使得如果性能开始下降，那么可快速地进行改进。(可使用类似过程来改进及监测板模型，且也可组合所述两个过程以包含关于改进努力应集中在所述传递函数上还是板模型上的决策点。)

在实施例中，如果所述传递函数未能准确地预测在生物反应器规模下的菌株性能，那么可对物理板培养模型进行物理调整。正如对数学模型的参数/权重的调整，可基于所关注表型来对物理板模型进行物理改变。可进行若干改变且对其进行评估以确定哪个(些)物理板模型产生最好的传递函数。改变的实例包含但不限于培养基成分、培养时间、经测量化合物及接种量。

实验实例

以下两个实例展示使用本公开的实施例来在不同生物体中产生不同的所关注产物。

实例1

当拟合用于基于较小规模(例如，板)来预测在较大规模(例如，罐)下的微生物的性能的统计模型时，本公开的实施例使用多个度量以及标准统计技术来拟合模型。在这些实验中，预测引擎每板使用多个板测量来导出预测函数，且板值是基于统计板模型，所述统计板模型本身基于原始、经测量物理板数据。这个实例1涵盖一个主要产物：由糖多孢菌属细菌产生的聚酮化合物。

在以下论述中，本公开的实施例利用标准的经调整R²、一组测试菌株的均方根误差(RMSE)及留一法交叉验证(“LOOCV”)度量。

RMSE：使用一组菌株，即训练菌株(标记为“train”)来拟合模型。接着预测引擎在板中筛选许多新菌株(不是用于训练模型的菌株)，且将那些菌株的子集提升到罐(即，选择具有将要在更大规模下的罐中产生的良好统计数据的那些菌株)。预测引擎计算这组测试菌株的

其中n是测试菌株的数目，且变量tank是在罐规模下的所关注性能度量(例如，产率、生产力)。

LOOCV：根据本公开的实施例，针对任何新模型，根据LOOCV，预测引擎迭代遍历所述一组训练菌株。在每一步骤，预测引擎从训练数据移除菌株，使用剩余训练数据来拟合模型，且计算作为测试菌株的经移除前一训练菌株的RMSE(参见RMSE的先前论述)。预测引擎将RMSE_i设置为其中第i菌株被移除的RMSE。预测引擎接着计算这组RMSE值的均值，因此

其中m是训练集中的菌株的总数。

图18是所关注主要度量的板值与罐值的图表。所述图展示合理的线性关系。如果预测引擎关于标记为train的微生物拟合简单线性模型tank＝b+m₁*plate_value₁，其中b＝-3.0137，m₁＝0.0096且plate_value₁是由统计板模型处理的以mg/L为单位的聚酮化合物值，那么经调整R^2是0.65，留一法CV是2.65，且测试集的RMSE是5.2152。

如果预测引擎代替地拟合线性回归模型tank＝b+m₁*plate_value₁+m₂*plate_value₁*plate_value₂，其中b＝0.7728，m₁＝0.0325，m₂＝0.0000646，且两个plate_value是针对由统计板模型处理的两种不同聚酮化合物(以mg/L为单位)，预测引擎提供更具预测性的传递函数，如图19中所展示。应注意，板值plate_value₁、plate_value₂等表示同一板上的测定，且可为板上的相同或不同测定，例如，所有所关注测定产物(例如，产率)，或代替地所关注产物及另一测定，例如生物质或葡萄糖消耗。根据本公开的实施例，板值或罐值可分别表示板或罐的给定值的平均量。

这个传递函数具有2.25的LOOCV、0.77的经调整R²，但最重要的是，测试集上的RMSE下降到4.36。

在获得更多数据且更新板及罐数据之后，所关注主要度量的板值对比罐值如图20中所展示。

简单线性模型tank＝b+m₁*plate_value₁，其中b＝2.735544，m₁＝0.009768，具有这些数据的混合结果。LOOCV是3.16且经调整R²是0.49。LOOCV更差且经调整R²比先前迭代差得多，但测试集上的RMSE显著地下降到2.8。

预测引擎使用以上形式的加权最小二乘模型来运行：tank＝b+m₁*plate_value₁+m₂*plate_value₁*plate_value₂，但对于相同的两种聚酮化合物(如之前以mg/L为单位)，回归系数m_i取决于在罐规模下的复制品的数目，其中b＝6.996，m1＝0.01876且m2＝0.000237。在此，由除LOOCV以外的所有度量获得改进模型，如图21中所展示。(板值由统计板模型提供。)这些统计数据是LOOCV＝3.14，经调整R^2＝0.79，且测试集上的RMSE＝2.99。作为将罐规模复制品的数目考虑到到权重m_i中的背景，通过求解y＝Xm+e(在此y是观察到的罐值的向量且X是板值的矩阵)，使用普通最小二乘法来确定权重向量。权重向量被计算为m＝(X^TX)^-1X^T*y。这个公式假设误差的方差(其是随机变量)均相同。然而，这个假设在实验中通常不成立，即罐中的复制品的数目极大地影响方差计算，且菌株通常没有相等方差，因此它们在这个公式中的误差也将不相等。允许误差不同，那么当我们拟合以上模型时，我们代替地得到m＝(X^TWX)^-1X^TWy，其中W是对角矩阵且对角条目是“权重”。权重被解释为w_i＝1/sigma_i ²，其中sigma_i ²是第i误差的方差。这实际上意指对小方差的观察给予更多权重(对拟合的影响也更大)，且对高方差的观察给予更少权重(影响)。根据本公开的实施例，我们取w_i＝罐复制品的数目，且那样具有更多观察的菌株在拟合中具有更大权重，因为在那些菌株的观察中预期更小的总误差。

在另一试验中，预测引擎产生另一预测(传递)函数，其中改变进行测定的时间且使用新训练菌株集。此函数尚不存在测试数据。对与上述相同的聚酮化合物使用先前加权最小二乘法，其中公式tank＝b+m₁*plate_value₂+m₂*plate_value₂*plate_value₃，其中b＝-4.482，m₁＝0.05247，m₂＝0.0001994，经调整R²跳到0.93，但LOOCV高达7.44，这表明存在一些高杠杆点。

这个模型的额外板值仍然使用加权最小二乘法但使用公式b+m₁*plate_value₂+m₂*plate_value₂*plate_value₃+m₃*plate_value₄来测试，其中b＝-1.810，m₁＝0.0563，m₂＝0.0001524，m₃＝0.5897，plate_value₂及plate_value₃是与上述相同的两种聚酮化合物的mg/L度量，且plate_value₄是以光密度(OD600)为单位测量的生物质。LOOCV下降到6.22，仍然高于之前，但远低于先前值且经调整R^²现在是0.95。当然，这个传递函数的真正测试是测试它对新菌株的预测能力。

实例2

这个第二实例反映实例1的一些方面，其中依次包含每板的额外板测量(例如，不同类型的测量，例如产率、生物质)以尝试拟合更精细的罐性能估计的一组传递函数被拟合。这个实例2涵盖一个主要产物：由棒状杆菌产生的氨基酸。另外，这个实例展示将传递函数应用于不同罐变量测量(在此被称为“tank_value₂”)的情况。

一个罐测量、多个板测量

模型1

根据本公开的实施例，在第一模型中，我们拟合假设tank_value₁～1+plate_value₁的简单模型。应注意“～”是指“根据预测模型，例如线性回归或多元回归的函数”。图22的底层曲线图展示板值(以统计板模型表示)对比观察到的罐值的值之间的关系。

如从所述曲线图可看出，当对关于板度量中的一者的罐值输出进行建模时，两者之间可能存在线性关系。

采取另一步骤，预测引擎进行LOOCV(留一法交叉验证)以通过对除一个以外的每个菌株进行训练来获得模型的性能，接着针对那一个值测试拟合。接着，LOOCV分数是在移除每一数据点时取得的所有测试度量的平均值。

如此做导致以下性能：

## RMSE MAE

##1 3.262872 2.532292

特定来说，对于RMSE，预测引擎计算RMSE对平均罐性能的比以了解相对于平均结果的误差量值：

##[1]5.416798

这个结果指示，相对于罐性能的平均值存在约5％的估计误差。

模型2

既然发明人已获得基线，他们将来自同一板的另一测量添加到模型以比较性能，从而导致形式tank_value₁～plate_value₁+plate_value₂的预测函数，其中统计数据如下：

## RMSE MAE

##1 3.376254 2.59808

在这种情况下，性能似乎略差，因为RMSE及MAE略高。参见图23。

模型3

最后，在这个过程的第三实例中，发明人添加又一因子，使得模型是tank_value₁～plate_value₁+plate_value₂+plate_value₃。

参考图24，这提供比第一模型略好的拟合，因为对于这个模型来说使用RMSE度量的LOOCV略低。

## RMSE MAE

##1 3.224997 2.51152

因此，相对百分比误差略低于原始模型。

##[1]5.353921

多个罐测量

如所提及，传递函数可被应用于预测同一罐的多个结果。例如，预测引擎拟合先前形式tank_value₁～plate_value₁的模型，但在另一试验中，预测引擎将另一模型拟合于不同输出(例如，产率而不是生产力)：tank_value₂～plate_value₁。图25绘制彼此对比的两个经测量罐值。

参考图26，预测引擎拟合形式tank_value₂～plate_value₁的模型，其中先验已知tank_value₂的观察到的测量比tank_value₁的测量可变性大得多，因此，一人将预期，先验地，这个模型的度量将不会像以上那些度量一样好。预测引擎拟合这个模型，从而导致以下RMSE及MAE：

## RMSE MAE

##1 0.6315165 0.501553

将RMSE与实际值进行比较提供误差量值的意义：

##[1]19.88434

如果期望，那么可如上文所描述那样重复迭代方法以基于模型的LOOCV性能来添加或移除特征。

考虑微生物生长特性的预测模型

本文中的章节“其它统计模型”是指多种预测模型。根据本公开的实施例，预测引擎考虑微生物生长特性。根据本公开的实施例，预测引擎将多个基于板的测量组合成用于传递函数中的几个微生物相关参数(例如，生物质产率、产物产率、生长速率、生物质比糖摄取率、生物质比生产力、容积糖摄取率、容积生产力)。

根据本公开的实施例，传递函数是基于在一或多个基于板的实验中进行的测量来预测生物反应器性能的数学方程。根据本公开的实施例，预测引擎将在板中进行的测量组合成数学方程，例如：

PBP＝a+b*PM1+c*PM2...n*PMn

其中：

PBP＝经预测生物反应器性能(例如，在本文中的其它实例中是y)，PMi＝第i板数据变量(例如，在本文的其它实例中是第一规模性能数据变量x_i)，其可为测量或测量的函数，例如测量的组合或测量的统计函数(例如，统计板模型)，且a、b、c、...n可被表示为m_i，如在本文中的其它实例中。

以上方程是线性方程。根据本公开的实施例，预测引擎还可采用以下形式的传递函数：

·二次方程(例如，PBP＝a+b*PM1^2+c*PM2^2)

·相互作用方程(例如，PBP＝a+b*PM1+c*PM2+d*PM1*PM2)

·不同方程的组合

根据本公开的实施例，预测引擎采用考虑微生物生长特性的传递函数。组合线性与二次、多项式或相互作用方程可导致拟合许多参数(例如，a、b、c、d、n)。特定来说，当仅存在用于校准模型的少数“等位基因菌株”(具有不同且已知的性能的一组不同菌株)时，这可能导致数据的过度拟合及不良预测值。

因此，基于微生物生长动力学，预测引擎可采用使用测量与参数之间的选定减法、除法、自然对数及乘法来将多个测量组合成几个微生物相关参数(例如，生物质产率、产物产率、生长速率、生物质比糖摄取率、生物质比生产力、容积糖摄取率、容积生产力)的数学框架。(这种方法在预言性实例中进一步论述。)

一般来说，本公开的实施例的预测引擎考虑两种类型的基于板的测量：

·起点及终点测量，其可用于评定转换产率

·中点测量，其可用于评定转换率及产率

微生物参数的起点及终点测量及计算

典型测量：

Cx-生物质浓度(例如，通过光密度(“OD”)测量)

主要培养的起点的生物质浓度可为：

·从测量种子培养中的终点的生物质，且校正传递容积及主要培养容积，即，主要培养起点的生物质浓度＝种子培养终点的生物质浓度*(种子到主要传递容积)/(主要起始容积)推导出。种子培养包含从冷冻条件恢复一组菌株的工作流程。“主要”培养包含测试菌株的性能的工作流程。

·从开发实验估计为常数(例如，当所有菌株均具有OD 0.1到0.15的起始生物质浓度，平均值可被视为代理)。培养结束时(在特定条件下生长微生物)的生物质浓度通常比开始时高得多，且开始时的生物质浓度可从数学上不计入一些方程(例如，如果测量生物质产率时，最终生物质浓度是初始浓度的十倍)。

Cp-产物浓度

应注意：可对所关注副产物执行相同的产物浓度测量及计算。

开始时的产物浓度可为：

·从测量种子培养结束时的产物，且校正传递容积及主要培养容积，即，主要培养开始时的产物浓度＝(种子结束时的产物浓度)*(传递容积)/(主要起始容积)推导出

·从开发实验估计为常数(例如，当所有菌株均具有0.1到0.15g/L的起始产物浓度时，平均值可被视为代理)。请注意，培养结束时的产物浓度通常比开始时高得多，且可在数学上不计入开始时的产物浓度。

Cs-糖浓度

开始时的糖浓度是来自培养基制备的已知参数。

培养结束时的糖浓度通常是零，但如果需要，那么可进行测量。

微生物相关参数的计算：

生物质产率(Ysx，克细胞/克糖)

即，生物质产率＝(结束时的生物质浓度-开始时的生物质浓度)/(开始时的糖浓度-结束时的糖浓度)

产物(或副产物)产率(Ysp，克产物/克糖)

产物(或副产物)产率＝(结束时的产物浓度-开始时的产物浓度)/(开始时的糖浓度-结束时的糖浓度)

微生物参数的中点测量及计算

典型测量：

时间，例如，t1及t2

应注意：t1可为主要培养的开始。有关如何在培养开始时估计Cx及Cp，请参见上文

Cx-生物质浓度(例如通过光密度测量)

根据本公开的实施例，如果在给定发酵液成分的情况下可能，那么测量t1或t2时的生物质浓度

Cp-产物浓度

根据本公开的实施例，测量t1及t2时的产物浓度

Cs-糖浓度

根据本公开的实施例，测量t1或t2时的糖浓度

开始时的糖浓度是来自培养基制备的已知参数

计算

生物质产率(Ysx，克细胞/克糖)

即，生物质产率＝(t2时的生物质浓度-t1时的生物质浓度)/(t1时的糖浓度-t2时的糖浓度)

产物收率(Ysp，克产物/克糖)

即，产物产率＝(t2时的产物浓度-t1时的产物浓度)/(t1时的糖浓度-t2时的糖浓度)

指数生长速率(mu，每小时)

即，mu＝ln(t2时的生物质浓度/t1时的生物质浓度)/(t2时间-t1时间)

基于指数增长：Cx(t2)＝Cx(t1)*exp(mu*(t2-t1))

生物质比糖摄取率(qs，克糖/克细胞/小时)

即，qs＝[ln(t2时的生物质浓度/t1时的生物质浓度)*(t1时的糖浓度-t2时的糖浓度)]/[(t2时的生物质浓度-t1时的生物质浓度)*(时间t2-时间t1)]

基于：

dCx/dt＝mu*Cx

dCx/dt＝qs*Ysx*Cx

qs＝mu/Ysx

Mu＝ln(Cx(t2)/Cx(t1))/(t2-t1)

Ysx＝(Cx(t2)-Cx(t1)/(Cs(t1)-Cs(t2)

生物质比生产力(qp，克产物/克细胞/小时)

qp＝[ln(t2时的生物质浓度/t1时的生物质浓度)*(t2时的产物浓度-t1时的产物浓度)]/[(t2时的生物质浓度-t1时的生物质浓度)*(时间t2-时间t1)]

基于：

qp＝qs*Ysp

qp＝[(mu/生物质产率)]*[(t2时的产物浓度-t1时的产物浓度)/(t1时的糖浓度-t2时的糖浓度)]

qp＝(ln(t2时的生物质浓度/t1时的生物质浓度)/(时间t2-时间t1)/[(t2时的生物质浓度-t1时的生物质浓度)/(t1时的糖浓度-t2时的糖浓度)])*[(t2时的产物浓度-t1时的产物浓度)/(t1时的糖浓度-t2时的糖浓度)]

qp＝ln(Cxt2/Cxt1)/(t2-t1)/Cxt2-Cxt1/Cst2-Cst1*Cpt2-Cpt1/Cst1-Cst2

移除Cs并简化为：

qp＝ln(Cxt2/Cxt1)/(t2-t1)/((Cxt2-Cxt1)*(Cpt2-Cpt1))

以下参数Rs及Rp是与以上微生物速率参数(qs及qp)区分开的过程速率参数。一个差异是微生物速率参数是每细胞度量，而过程参数是取决于细胞的数目的集体速率参数(例如，Rs＝qsCx)。

容积糖转换(Rs，mmol糖/升/小时)

Rs＝(t1时的糖浓度-t2时的糖浓度)/(t2时间-t1时间)

容积生产力(Rp，mmol产物/升/小时)

Rp＝(t2时的产物浓度-t1时的产物浓度)/(t2时间-t1时间)

预言性实例

以下是考虑微生物的指数生长行为的预言性实例。

使用以下动力学生长模型公式，针对具有多种糖摄取率、生物质产率及产物产率的微生物对葡萄糖消耗、生物质形成及产物形成进行建模：

生物质比糖摄取率(qs)，取决于糖浓度：qs＝qs,max*Cs/(Ks+Cs)

每时间间隔(dt)的糖消耗(dCs)，取决于生物质比糖摄取率及生物质浓度，及糖进给速率：

dCs/dt＝-qs*Cx+Fs

每时间间隔(dt)的生物质产生(dCx)，取决于生物质比糖摄取率、用于维持的糖异化、生物质浓度及生物质产率：

dCx/dt＝qs*Cx*Ysx,max

每时间间隔(dt)的产物形成(dCx)，取决于生物质比糖摄取率、用于维持的糖异化、生物质浓度及产物产率：

dCx/dt＝qs*Cx*Ysp

一些参数指派如下：

参数	默认值	单位	描述
				C<sub>x</sub>(0)	1	gX/L	起始生物质浓度
C<sub>s</sub>(0)	30	gS/L	起始糖浓度
				F<sub>s</sub>	0.5	gS/L/h	糖进给速率
q<sub>s,max</sub>	0.4-0.7	gS/gX/h	最大糖摄取率
				K<sub>s</sub>	0.5	gS/L	糖摄取率的亲和值
Y<sub>sx,max</sub>	0.05-0.15	gx/gs	最大生物质产率
				Y<sub>sp</sub>	0.525-0.675	gP/gS	产物产率

模型的输入参数是可变糖摄取率、可变生物质产率(Ysx)、可变产物产率(Ysp)及一些恒定参数。

下表A展示在假定场景A到G中使用的可变(最大)糖摄取率(qs)：

场景	糖摄取率qs(g糖/g细胞/h)
		A	0.4
B	0.45
		C	0.5
D	0.55
		E	0.6
F	0.65
		G	0.7

下表B展示在假定情景1到9中使用的可变生物质产率(Ysx)及可变产物产率(Ysp)(权衡值)。

场景	生物质产率Ysx(gX/gS)	产物产率Ysp(gP/gS)
			1	0.049286018	0.675
2	0.061607522	0.65625
			3	0.073929026	0.6375
4	0.086250531	0.61875
			5	0.098572035	0.6
6	0.11089354	0.58125
			7	0.123215044	0.5625
8	0.135536548	0.54375
			9	0.147858053	0.525

下表C展示用于所述实例的恒定参数：

图27绘制使用动力学生长模型随时间估计的糖(Cs)2702、产物(Cp)2704及生物质(Cx)2706浓度。实例参见表D，其中糖摄取率是0.5g糖/g细胞/h，生物质产率是0.1355g生物质/g糖，且产物产率是0.544g产物/g糖。

如下表D中所展示，在不同时间点针对不同场景A到G及1到9的组合使用动力学生长模型来模拟样品(包含低水平的噪声，0.3％)。有关在培养20小时之后的经建模糖、产物及生物质浓度，请参见下文。将所述值与发酵中的菌株的产物产率(Ysp-ferm)进行比较，所述产物产率被假设为与微生物的产物产率(Ysp)相同。

表D

接下来，计算以下项之间的相关性：

如图28中所展示，发酵罐产率(所关注关键性能指标(“KPI”))与在板中20小时之后的Cp(不良相关性)，从而导致：

Rsquare 0.16096

RSquare Adj 0.147205

均方根误差 0.044687

如图29中所展示，发酵罐产率(所关注KPI)与在板中20小时之后的Cs(不良相关性)，从而导致：

RSquare 0.325469

RSquare Adj 0.314411

均方根误差 0.040068

如图30中所展示，发酵罐产率(所关注KPI)与在板中20小时之后的Cx(不良相关性)，从而导致：

RSquare 0.678133

RSquare Adj 0.672857

均方根误差 0.027678

如上文所展示，根据这个预言性实例，当处理具有不同糖摄取率、生物质产率及产物产率的多种菌株且进行中期培养测量时，糖、产物及生物质的个别测量与发酵罐产率不太好地相关。

如图31中所展示，还计算发酵罐(例如，罐)产率(所关注KPI)的统计数据且基于在板中20小时之后的Cp及Cs两者的函数(例如，商)来计算在板中20小时之后的产物产率，从而导致良好相关性：

Ysp＝Cp/(前20小时内进给的总糖-Cs)

RSquare 0.982442

RSquare Adj 0.982154

均方根误差 0.006464

如上文所展示，通过(所形成产物除以所消耗糖)的商来估计产物产率，导致与发酵罐产率的好得多的相关性。这个微生物测量比是微生物性质的估计。微生物性质的其它实例包含：糖消耗率、生物质产率、产物产率(Ysp)、生长速率及细胞特定产物形成速率。

如上所述，预测函数可被表示为变量的加权总和：

PBP＝a+b*PM1+c*PM2...n*PMn

其中：

PBP＝经预测生物反应器性能(例如，在本文中的其它实例中是y)，PMi＝第i板数据变量(例如，在本文的其它实例中是第一规模性能数据变量x_i)，其可为测量或测量的函数，例如测量或测量的统计函数(例如，统计板模型)的组合，且a、b、c、...n可被表示为m_i，如在本文中的其它实例中。

根据本公开的实施例，紧接在上文的预言性实例的结果表明，代替直接使用例如Cp及Cs的测量作为板数据变量PMi，预测引擎可用从微生物测量导出的一或多个微生物性质，例如商或测量的其它组合置换PMi。

传递函数开发工具

传递函数开发工具提供一种用于构建给定实验的传递函数且用于记录从模型移除哪些菌株的可重现的稳健方法。具有用于传递函数的开发工具依赖于具有用于从较高通量性能预测较低通量性能的性能的统计模型的优化，且本身就是优化。此产物将所有优化打包成使科学家可直截了当地利用传递函数及所有其优化的一个套装。

根据本公开的实施例，原始板罐相关性传递函数被简化为在传递函数开发工具(下文所详述)中实践，连同例如遗传因子的异常值移除及包含的优化。在本公开的实施例中，传递函数开发工具可并入进一步优化，包含其它统计模型、对传递函数输出的修改及关于板模型的考虑。

在本公开的实施例中，传递函数开发工具取得特定程序、实验及所关注测量的高通量、较小规模性能数据，学习适当模型，且产生对下一规模工作的预测。图10到15展示所述工具的用户界面的实施例的一系列屏幕截图。

图10说明具有供用户输入项目名称、实验ID、选定板概括模型(此处，LS均值模型)及将要使用的传递函数模型(此处，线性回归板罐相关性模型)的框的用户界面。

应注意，图形用户界面的地址栏1050中的URL行。这允许用户在整个过程中跟踪他们的进度且确认他们具有他们想要实施的传递函数的正确信息。这个设置位于数据模型中的前端上且位于工作流基础架构中。

如图11中所说明，在用户输入他们的项目、实验及模型选择之后，他们可选择他们感兴趣的测量，例如，在这个实例中是氨基酸产率(由“化合物”表示)。

图12说明根据本公开的实施例的在其被开发用于预测在罐规模下的氨基酸性能之后的板罐相关性传递函数的用户界面。在这个实例中，所述传递函数是线性拟合线。这个图中的工具促进异常值评估。用户界面提供由菌株ID标识的菌株列表1202(“异常菌株ID”)，连同使用户能够选择从传递函数模型移除的菌株的复选框。

在图13中，用户界面基于传递函数来呈现具有最高预测性能的十个菌株，其中由用户选择的异常值已从模型移除。本公开的实施例包括基于它们的经预测性能来在基因制造系统中选择制造及制造菌株。此基因制造系统在密码子申请案，即2017年4月26日申请的第PCT/US2017/029725号国际申请案、第WO2017189784号国际公开案中进行描述，所述案主张2016年4月27日申请的第15/140,296号美国非临时申请案的优先权的权益，所有所述案的全文由此以引用的方式并入本文中。

参考图14，在用户选择的异常值已从模型移除之后，传递函数开发工具返回选定传递函数的图形表示，且(参考图15)提供将经移除菌株的质量分数提交到数据库的机制，因此使最终结果可重现且为用户提供跟踪与现存板模型无法一起良好地工作的菌株的机制。

板模型开发

根据本公开的实施例，分析设备214、预测引擎或LIMS系统内或外的另一计算机，无论是个别地还是以任何组合(本文中被称为“板模型引擎”或“PM引擎”)辅助设计在第一(板)规模下的生物体的实验以产生用于预测在更大规模下的生物体的性能的第一规模性能数据。

本公开的实施例将条件及性能参数从较大规模(例如，实验台规模、商业规模或两者)缩小到较小(例如，板)规模，使得经缩小参数可用于筛选在较小规模下的生物体。PM引擎可使用经缩小条件及参数来产生用于预测在更大规模下的生物体的性能的第一规模性能数据(传递函数)。PM引擎可使用经预测的较大规模性能作为筛选菌株中的因子，例如筛选出其经预测的较大规模性能不满足较大规模性能阈值的菌株。

图32A及32B说明用于设计在第一(板)规模下的生物体的实验以产生用于预测在更大(例如，实验台或商业)规模下的生物体的性能的第一规模性能数据的步骤。(应注意，所述步骤不一定按枚举顺序执行，例如，步骤3可在步骤2之前发生。)根据本发明的实施例，所述过程通常包含：

·存取实验性地确定的候选筛选条件(例如，以下步骤2的输出)，其中所述条件至少部分基于它们对在大于第一(例如，板)规模的第二(实验台)规模下的生物体(例如，大肠杆菌)的第一菌株的性能参数(候选筛选参数)的贡献；

·尤其使用生物体的代谢的计算机模拟(例如，在步骤3A中)、生物体(在例如实验台或商业规模下)的计算机发酵模型或两者，来确定候选第一(板)规模筛选参数，其中所述筛选参数对应于在第二(例如，实验台)规模下的生物体的期望性能；及

·设计用于在实验性地确定的筛选条件或它们的第一规模代理中的一或多者下实验性地确定生物体的第二菌株的第一规模性能，且至少部分基于所述筛选参数或它们的第一规模代理来筛选第二菌株的实验。在一些例子中，由于难以或不可能在板级下复制一些筛选条件或在板级下使用第二规模筛选参数，所以可分别采用那些条件或筛选参数的代理。应注意，第一及第二菌株可为同一(类型)生物体。

更详细地，根据本公开的实施例，实验设计者或PM引擎选择通常已知影响在第二规模下的所关注生物体的选定性能参数(例如，产物的生产)的候选条件。这些条件可包含不容易在板规模下物理复制的第二规模因子。

步骤0：作为实例，所述设计者可能想要指定以下项作为实验的初始参数(101、103)：大肠杆菌作为所关注生物体，从葡萄糖产生有机酸产物作为生物过程，及在生产(即，商业)规模下的产率作为关键性能指标(KPI)。还可定义商业过程条件，例如底物、发酵过程及将要使用的设备。这些定义可在项目开始时完成。

步骤1：在这个实例中，所述设计者可选择候选筛选条件作为其它参数(104、106)，例如：

·最大O2传递

·底物梯度(最小到最大葡萄糖浓度)

·最大纯度(Sheer)(应注意，纯度不可在板规模下复制)

·种子过程

·起始进料(葡萄糖)

·种子接种密度

·pH

步骤2：响应于步骤1中所定义的候选筛选条件的不同值，随时间实验性地确定在第二(例如，实验台)规模下的生物体的不同菌株的性能参数的值。根据候选筛选条件对性能参数(包含生物体活性及KPI)的贡献对候选筛选条件进行排名(108、110)。可通过改变一个候选筛选条件，同时保持其它条件恒定来确定对性能参数的贡献。更有效技术是使用所属领域中已知的因子实验设计及分析方法，其是由根据本公开的实施例的PM引擎来实施。基于实验响应，一人可确定候选筛选条件的值的优选范围作为导致可接受范围的对应性能参数(例如，在1g/L到100g/L的范围内的起始进料(葡萄糖))的那些范围。

例如，在实验台规模发酵罐中(例如，在200毫升与10升之间)，针对步骤1中被视为相关的候选筛选条件，以不同梯度运行一系列实验，且使用已知实验技术来确定不同条件对在第二规模下的性能参数所具有的影响。性能参数可与生物体本身(例如，活性、生长速率)及产物(例如，产率、生物质)相关。使用这个信息，将每一第二规模候选筛选条件对第二(例如，实验台)规模性能参数中的每一者的重要性进行排名。

作为另一实例，图33说明针对在相同条件下的三个不同菌株A、B及C在不同经过发酵时间(“EFT”)的生物过程的进程中测量的经累积滴度。所述发酵过程的这些方面提供对不同发酵阶段(例如，种子及主要)中的期望筛选条件的洞察。

步骤3A：使用生物体的代谢的计算机模拟模型，预测在第一(例如，板)规模下的生物体的不同菌株的性能参数的最大理论值(112)。这个步骤确定从所提供底物到期望产物的理论最大转换率，同时确定潜在副产物(例如，非期望有机酸)或可能阻止实现那些更高转换率的限制(例如，需要存在生物体生长及性能所必需的某些维生素或矿物质)。

代谢模型将基因与细胞内的不同反应途径的反应产物相关。本公开的实施例中采用的例如由软件包COBRApy提供的那些模型的模型被广泛用于原核生物及真核生物两者中的代谢网络的基因组规模建模。参见A.Ebrahim的COBRApy：Python的基于约束的重建及分析(COBRApy:COnstraints-Based Reconstruction and Analysis for Python)，《BMC系统生物学》，2013 7:74，其全文以引用的方式并入本文中。微生物中的代谢途径可由化学反应网络来表示，所述网络并入其进给所在的底物加上其生存、繁衍及生长所需的其它材料，例如氧气、矿物质及维生素。有关代谢建模的更多信息，请参见例如J·卡尔等人的全细胞计算模型从基因型预测表型(A Whole-Cell Computational Model,Predicts Phenotypefrom Genotype)，《细胞》，第50卷，第2期，第389到401页，2012年7月20日，其全文以引用的方式并入本文中。

生物过程被定义为将底物(例如，大肠杆菌的葡萄糖)连接到期望产物(所定义有机酸)的途径。底物转换成产物是通过比产率(如在单个细胞中)来测量。COBRAPy模型可预测那个转换的理论最大值，因此实现计算转换改进的余量。其还可为底物或副产物(例如，非期望有机酸)及实现期望反应可能需要的所需物质(例如，某些矿物质或维生素)提供潜在汇点。

所有这种数据告知板实验的筛选方向的选择，例如测量非期望有机酸的存在以查看候选菌株是否已被正确地编辑(如果选择阻挡那个途径以扩增期望有机酸途径)。

参考图32A的实例，大肠杆菌具有从葡萄糖到产物的已知代谢途径，一人可从所述代谢途径确定理论最大产物性能(例如，产率)。在所展示实例中，性能参数可能包含以下项：

·生长速率

·活性

·比生产力(在细胞级)

·YPX(产率产物/生物质)

·副产物产出率

这些性能参数在行业中已知影响KPI(例如，在这种情况下是产率(克产物/克底物))。副产物产出率表示非期望/负面属性，例如对生物体有毒的化学品或其它非期望副产物。一人将想要筛选出具有高得令人无法接受的副产物产出率或对产物具有低耐受性的菌株。

步骤3B：使用生物体(在例如第二规模下，或在大于实验台规模的商业规模下)的发酵的数学模型，确定发酵的环境条件(115)，例如生物质的典型量、预期底物进给速率、典型操作温度范围、达到发酵过程中的不同阶段所需的预期时间及不同阶段的预期氧气需求(113)。发酵模型在行业内是已知的，且可对在大量细胞彼此相互作用时发生的反应进行建模(例如，在实验台或商业生产规模下)。参见例如吉诺玛蒂卡的通过生物工程解决方案驱动创新(Driving Innovation Through Bioengineering Solutions)(日期未知)。环境条件可作为额外筛选条件输入到步骤5。

对于发酵建模，一人正在查看初始的已知商业条件及产率(参见步骤0)以定义针对操作范围可能合理地考虑什么。例如，如果产物对生物体的毒性超过特定滴度，那么筛选方向应有利于寻找耐受更高浓度产物的候选菌株。例如，如果在较高pH值下操作存在好处，那么一人可包含允许确定在较高pH值下更好地工作的候选菌株的筛选条件。所有这些任务均以改进KPI为最终目标。另外，极少向发酵过程提供纯的底物，且在此也很容易对实际浓度及影响产率的方式进行建模。

步骤4：如上所述，步骤2实验性地确定在第二(例如，实验台)规模下的不同菌株的性能参数的值。在步骤4中，PM引擎将实验性地确定的性能参数值与它们的理论最大值进行比较。所得差表示通过调整条件或修改它们的基因组而可能在菌株性能方面实现的潜在性能改进(“可用余量”)。基于行业已知中的在这些性能参数与KPI之间的这些差及关系，PM引擎对性能参数进行排名，其中最高排名属于具有最大可用余量的性能参数(114)。根据本公开的实施例，这个步骤(114)确定排名靠前的性能参数作为其排名超过排名阈值、其潜在性能改进超过性能阈值或两者的组合的那些性能参数(例如，具有至少10％的余量的排名前三的性能参数)。排名靠前的参数被标识为可能对KPI具有最大潜在影响的候选筛选参数(116)。在这个实例中，PM引擎已将YPX、生长速率及副产物输出率标识为候选筛选参数。

步骤5：确定初步筛选方向且设计初步板规模实验(118)。筛选方向是指在板规模下的实验中使用的筛选参数，例如在板中选择具有高产率的微生物，同时保持其它性能参数恒定。这个步骤确定初步物理板模型。所述板模型是被设计为使在小规模下以高通量(例如，在96孔板中)获得的值尽可能预测在大规模下获得的值的培养基及过程约束的集合。根据本公开的实施例，物理板模型指定所关注生物体、筛选参数、筛选参数值的范围及将要运行板规模实验的条件。

所述实验被设计为在排名靠前的筛选条件或它们的代理的范围内筛选在较小(例如，板)规模下的所关注生物体的菌株。根据本公开的实施例，筛选过程包括确定在每一候选菌株的较小规模下对排名靠前的条件的一系列条件值的响应(通过筛选参数，例如产率)以确定候选菌株在那些条件下是否有活性及是否满足性能阈值。在这个实例中，PM引擎将初始参数(103)、候选筛选条件110、环境条件115及候选筛选参数116组装在一起以初步地设计实验以针对产率及生长速率筛选大肠杆菌的菌株，同时在底物梯度、最大氧传递及最大纯度的排名靠前的条件下且在环境条件115下产生少量非期望副产物。因此，步骤5组装初步板模型。

步骤6：图32B及32C说明步骤6。根据本公开的实施例，PM引擎采用多目标优化(“MOO”)技术来确定对应于对影响KPI的多个目标的优化的经优化条件值。在这一点上，MOO算法(134)分别将表示来自步骤5的筛选条件及参数连同探索筛选条件(126)及参数(128)的范围的最终第二规模筛选参数，以及板级实验的初步板模型及初步设计作为输入。

根据本公开的实施例，MOO采用下文更详细地描述的响应面方法。最终第二规模筛选参数充当MOO算法的优化目标的基础。PM引擎使用MOO算法来计算可在板级或它们的代理(其在126中展示)下控制的步骤2筛选条件的最优值。即，MOO计算导致多个最终筛选参数目标内的最优值的条件。根据本公开的实施例，PM引擎包含物理板模型(136)中的最优条件值。

如上文所描述，在步骤2(或(例如，商业规模)环境条件115)中确定的一些第二规模条件不可能或难以在第一(例如，板)规模下复制。例如，最大氧传递及最大纯度(在126中列出)是无法在96孔板上复制的条件。因此，根据本公开的实施例，在步骤6中PM引擎从MOO的考虑移除那些条件。根据本公开的实施例，PM引擎用已知板规模代理置换其代理已知的那些经移除条件，如板的类型(例如，孔的几何形状及尺寸)作为最大O2传递的代理，及振动速度及次数作为罐内搅拌的代理。总之，物理板模型是在第二规模下的生物反应器的第一规模表示，且因而，并非所有条件均必须具有板规模代理，而是在第一规模(板)下的条件的集合充当第二规模的表示。PM引擎将代理条件连同可在板规模下控制的条件一起并入到物理板模型中。

类似地，从步骤5输出的筛选参数中的一或多者可能不可能或难以在第一(例如，板)规模下采用。因此，PM引擎可采用代理筛选参数。在这个实例中，产率(例如，每克糖的有机酸的克数)无法用于在板规模下进行筛选。因此，PM引擎可代替地采用产率的板级代理，例如产物的变化率及板罐偏差(128)。如所展示，PM引擎还可采用生物质作为生长速率的代理。

使用在较小(例如，板)规模下的代理作为在较大规模下的至少一些条件及性能参数的替代物在行业中是已知的。然而，发明人相信根据本公开的实施例的板罐偏差的使用是新颖的。

为了确定板罐偏差代理筛选参数，PM引擎知道作为参考的第二规模(例如，实验台罐)产率(130)。板罐偏差是由发明人开发的度量。其测量微生物在板中的产物性能(例如，板级滴度)与其在罐中的产物性能(例如，罐级产率及生产力)之间的差的绝对值。0的偏差指示板中与罐中的观察到的性能之间的完全一致。板罐偏差以单个度量捕获例如“这个菌株在板及罐两者中比其亲代表现好X％”的语句的准确性。例如，如果偏差是0，那么这个语句完全正确。随着偏差增加，我们观察到更大误差。由于我们使用性能差的绝对值，因此板罐偏差始终大于或等于0且因此优化目标是最小化。

不同于在板级下的经测量生物体性能对比罐中的经测量生物体性能之间的统计植物罐相关性R²，板罐偏差可使用自举法，这导致更好地估计板及罐值的分布且测量那些分布之间的关系。

其次，设计一般化到许多菌株的物理板模型是有利的。因此，建模/优化方法应使用我们所具有的每菌株信息。板罐相关性的R²是每板模型度量，而所有我们的其它目标是每菌株每板模型。因此，如果我们想要使用板罐相关性的R²作为优化目标，那么我们将必须概括对每板模型级的所有其它响应且响应面模型将拟合这些概括统计，从而失去临界菌株信息。因此，合意性及其它模型信息将不考虑每菌株变动，因此降低统计能力且可能导致不良一般化。通过使用板罐偏差，我们具有与我们的其它目标兼容的板罐测量且我们能够构建考虑菌株差异的模型及合意性函数。

根据本公开的实施例，板罐偏差的计算可取决于板滴度及罐产率。由于板滴度及罐产率在不同规模下，PM引擎无法简单地计算值的差。此外，PM引擎直接将单个罐值与特定板值进行比较，因为两种情况都存在比罐值更大的板值，且这些测定在时间上是分开的。虽然PM引擎可使用每一菌株的均值，但这隐藏可变性。因此，可如下计算板罐偏差：

1.标准化板及罐值(例如，减去均值并除以标准偏差)。

2.使用已知统计技术，自举每一菌株的板及罐样品来估计每一菌株的板值到罐值的分布。

3.计算板值与罐值之间的绝对差。

根据本公开的实施例，PM引擎还可计算板罐偏差的每菌株均值。

步骤7：根据本发明的实施例，PM引擎使用统计板模型作为传递函数的输入以预测在第二规模下的所关注菌株的性能。根据本公开的实施例，PM引擎基于第一规模物理模型来产生第一规模统计模型，如传递函数申请案中所描述。步骤6的MOO提供对应于最优筛选参数的最优筛选条件值。PM引擎使用这个数据来运行使用菌株的物理板模型参数来确定统计板模型的实验。PM引擎可采用统计板模型来产生板规模性能值作为传递函数的输入，如本文中别处所描述。传递函数接着预测在第二(例如，实验台)规模下的菌株的性能。

步骤8：根据本公开的实施例，PM引擎接着选择具有超过性能阈值的经预测第二规模性能的菌株。这些菌株可充当进一步实验室实验的基础菌株，其中基础菌株的基因组受到基因扰动。使用这些新的经扰动菌株，PM引擎可对所述经扰动菌株重复步骤2到8，直到实现期望的经预测第二规模性能或满足外部参数(例如，迭代的数目)。每一迭代中的经扰动菌株的最终物理板模型被认为是最优模型(136)。

使用响应面方法(RSM)的多目标优化

RSM是一种在复杂系统中优化参数的方法，其中参数的数目及那些参数的值非常大，从而使对所有可能组合的详尽测试难处理。RSM支持：

·有效参数探索：通过组合二次模型与优化，实现未在板模型实验中测试的参数值的效应的探索。

·支持循序实验设计：建模提供的信息使得容易使用来自一个实验的结果来更有效地设计下一实验以磨练“最优”板模型，但也可在平行实验的背景下使用(例如，一个在另一个完成之前起始)。图32C说明从框158、160及162到DoE 152的结果反馈。

·简单工作流程与良好统计支持：其是完善的(良好的科学及理论支持)且容易实施的工作流程，从而节省大量的计算时间。

·支持多目标优化：使用RSM进行多目标优化的本公开的方法实施例超出通过提供排名度量来找到多个帕累托最优值。在这种背景下，帕累托最优值是板模型参数集，使得不可能改变那些参数中的任一者以便使任何一个响应目标更好(根据优化目标)而不使至少一个其它目标变差。

·提供效应估计：使用支持二次模型的最优实验设计(“DoE”)允许本公开的实施例估计两个主要、相互作用及多项式效应。理解筛选条件对筛选性能参数的效应支持有效的循序实验设计。例如，如果参数效应很小，那么PM引擎可将其从进一步调查剔除。下文列出在本公开的实施例中使用的二次方程的形式的实例。

RSM是在板模型开发中标准化及改进信息/时间/金钱比的若干可能方法之一。可采用的其它方法是黑盒优化理念，如D.Golovin等人的谷歌维齐尔：黑盒优化服务，谷歌研究，KDD’17，第23届ACM SIGKDD知识发现与数据挖掘国际会议记录，第1487到1495页(2017年)。

合意性：多目标优化

一种用于RSM的方法通过使用合意性度量来支持多目标优化。合意性函数并入响应目标信息、那些目标的相对重要性及响应面模型以提供对实验参数值集进行排名的单个度量。更高的合意性意指实验参数导致更接近地命中目标的响应(参见下文)。

根据本公开的实施例，总体合意性是加权几何均值，

其中每一d_i是如下文所定义的单个筛选参数的单个合意性，且每一w_i是如由步骤5确定的对应筛选性能参数的重要性。有关重要性的实例参见表2。

根据本公开的实施例，存在用于以上公式中的d_i的三个可能合意性函数，即每一者用于期望最大化、期望最小化及期望目标值的筛选参数。这些合意性函数的参考文献是：Derringer,G.及Suich,R.(1980)的“若干回应变量的同时优化(SimultaneousOptimization of Several Response Variables)”，《质量技术杂志》12.4:214-219，其全文以引用的方式并入本文中。根据本公开的实施例，PM引擎采用JMP合意性函数及JMP剖析器来计算拟合模型的那些合意性。为了使用JMP，PM引擎提供筛选参数(亦称目标)的“重要性”权重w_i。作为参考，请参见

14剖析器(

14Profilers)，第14版，SAS研究有限公司2018，其全文以引用的方式并入本文中。

在步骤5中，PM引擎还提供用于筛选参数目标的低、中及高值(“三个水平”)，连同那些值的个别“合意”程度。这些个别合意性指定落在这些低、高与目标值之间的筛选参数值的合意性，及合意性函数在低与高值以外变为零的快速程度。下表2中提供实例值。

针对产物滴度的变化率，0是最小可接受值，这意指产物滴度的量不应随时间下降。针对设置为0.1的合意性，0变化率具有低合意性，且低于0的值具有0合意性。将中及高值两者的合意性均设置为0.9指示2与4之间的所有值均同样高度合意。类似地，针对生物质，6的生物质不如4或4与6之间的值那么合意，且按照JMP构建函数的方式，大于6的值应平滑地下降到合意性0。PM引擎产生表2中所展示的数据作为步骤5的部分。

RSM采用合意性来计算多目标最优值。如下表2中所展示，针对每一板级筛选参数(目标)，合意性指定目标范围、相对于目标范围的目标及被赋予每一目标范围的权重。

表2：合意性

PM引擎缩放权重以共计为1。在这个实例中，板罐偏差被视为是滴度的变化率的重要性的3/4。且是葡萄糖的变化率的重要性的1/2。

在本公开的实施例中已选择RSM作为分析MOO方法，实验被设计为支持那种方法，即，特定来说，支持每一响应的二次回归模型同时避免有偏差或混叠参数的D最优实验设计。在高层级下，使用D最优设计意指使用估计二次模型所需的尽可能最少的变量组合，其中条件是自变量且筛选参数是具有高统计能力的因变量。

RSM是工作流程且需要如图32C中所说明的若干步骤。根据实施例，第一步骤是152，其设计在第一规模下的实验。那个设计对于二次模型来说是d最优的，例如以下方程2(为了清楚起见省略且仅使用154中的筛选条件的子集的加权系数)：

生物质＝底物梯度+板类型+接种密度

+(基板梯度x板类型)

+(底物梯度x接种密度)

+(板类型x接种密度)+(底物梯度)²

+(接种密度)²

方程2

根据本公开的实施例，PM引擎接着引起机器人实验室设备进行在第一规模下设计的实验，确定所得性能参数，所述所得性能参数可被认为是MOO算法内的筛选参数(155)。RSM的下一步骤是拟合二次模型(156)，即，在如方程2中的模型的模型中找到加权系数。

这种方法允许对例如生物质的筛选参数跨比那些经测试变量多得多的变量受影响的方式进行建模及内插(158)。因此，避免广泛或详尽的实验。图34说明展示如何对生物质进行建模及针对分批进给方案的生物质响应内插值的表面形状。所述实例使用框154中的筛选条件。所述图展示两个筛选条件(因变量)、接种量及底物梯度。如所述图中所见，PM引擎可针对不一定在实验中测试的筛选条件的值推断筛选参数生物质的最优值。

根据本公开的实施例，使用二次模型来跨154中的范围内的值的全网格推断筛选参数的值，这允许在上文所描述的合意性函数中使用所有这些值，从而给出154中的网格中的所有筛选条件组合的总合意性度量(164)，同时仅实验性地测试d最优设计(152)中的那些合意性度量。

组合总体合意性与主要及相互作用效应(使用标准统计技术来从拟合模型获得这些效应)(160)及表面形状(158)展示如何在用于下一轮实验的数目及它们的范围两者方面缩窄筛选条件的数目。这个步骤是RSM的已知部分。

在实验中，RSM工作流程在仅三个实验内满足筛选参数目标(表2)。在一个实验中，大多数板条件不满足副产物及生物质要求两者。通过第三实验，大多数菌株在经预测第二规模性能与实际第二规模性能之间具有强R²相关性，以及高合意性。

选定的最终板模型是在最终实验中测试的所有模型中具有最高合意性的两个板模型之一。这些板模型中的条件是可重现的，因为这两个板模型在先前实验中也具有高合意性。作为步骤1到5的部分完成的实验意指我们使用具有合意性0.23且最终合意性是0.79的板模型起始这个实例RSM。

机器学习

本公开的实施例可应用机器学习(“ML”)技术来学习给定参数(特征)与观察到的结果(例如，关于分子或材料性质的实验数据)之间的关系。在这个框架中，实施例可使用标准ML模型(例如决策树)来确定特征重要性。一般来说，机器学习可被描述为性能准则(例如参数、技术或其它特征)在使用有限数目个经标记数据的实例执行信息任务(例如分类或回归)且接着对未知数据执行同一任务时的优化。在监督式机器学习(例如采用线性回归的方法)中，机器(例如，计算装置)例如通过标识模式、类别、统计关系或由训练数据展现的其它属性来学习。接着使用学习结果来预测新数据是否将展现相同模式、类别、统计关系或其它属性。

本公开的实施例可采用无监督式机器学习。替代地，一些实施例可采用使用少量经标记数据及大量未经标记数据的半监督式机器学习。实施例还可采用特征选择来选择最相关特征的子集以优化机器学习模型的性能。取决于选定机器学习方法的类型，替代线性回归或除线性回归以外，实施例可采用例如逻辑回归、神经网络、支持向量机(SVM)、决策树、隐马尔可夫模型、贝叶斯网络、克莱姆施密特、基于强化的学习、包含分级聚类的基于聚类的学习、遗传算法及所属领域中已知的任何其它合适学习机器。特定来说，实施例可采用逻辑回归来提供分类概率连同分类本身。参见例如舍瓦德的使用稀疏逻辑回归的基因选择的简单且有效的算法(A simple and efficient algorithm for gene selection usingsparse logistic regression)，《生物信息学》，第19卷，第17期，2003年，第2246到2253页；冷(Leng)等人的使用时间基因表达数据的函数数据分析的分类(Classification usingfunctional data analysis for temporal gene expression data)，《生物信息学》，第22卷，第1期，牛津大学出版社(2006)，第68到76页，其所有的全文以引用的方式并入本文中。

实施例可采用图形处理单元(GPU)或张量处理单元(TPU)加速架构，所述架构在执行机器学习任务中越来越流行，特别是以被称为深度神经网络(DNN)的形式。本公开的实施例可采用基于GPU的机器学习，例如在以下文献中所描述的机器学习：基于GPU的深度学习推断：性能及能力分析(GPU-Based Deep Learning Inference:A Performance and PowerAnalysis)，英伟达白皮书，2015年11月；Dahl等人的用于QSAR预测的多任务神经网络(Multi-task Neural Networks for QSAR Predictions)，多伦多大学计算机科学系，2014年6月(arXiv:1406.1231[stat.ML])，其所有的全文以引用的方式并入本文中。适用于本公开的实施例的机器学习技术还可在以下以及其它参考文献中找到：里布里科特等人的遗传学及基因组学中的机器学习应用(Machine learning applications in genetics andgenomics)，《遗传学自然评论》，第16卷，2015年6月；卡什布等人的生物信息学中的大数据分析：机器学习观点(Big Data Analytics in Bioinformatics:A Machine LearningPerspective)，《Latex类文件学报》，第13卷，第9期，2014年9月；普隆巴莫等人的生物信息学中的机器学习(Machine Learning in Bioinformatics)，《生物信息学技术》，第5章，第117到153页，施普林格柏林海德堡2005，其所有的全文以引用的方式并入本文中。

计算环境

图16说明根据本公开的实施例的云计算环境。在本公开的实施例中，可在云计算系统1002中针对本文中所公开的预测引擎、PM引擎、分析设备214或其它计算机操作实施软件1010，以使多个用户能够根据本公开的实施例产生及应用传递函数、开发物理及统计板模型、控制自动化实验室实验及执行其它计算机实施操作。客户端计算机1006(例如图17中所说明的那些客户端计算机)经由网络1008(例如因特网)存取所述系统。所述系统可采用使用图17中所说明的类型的一或多个处理器的一或多个计算系统。云计算系统本身包含网络接口1012以经由网络1008将软件1010对接到客户端计算机1006。网络接口1012可包含应用程序编程界面(API)以使客户端计算机1006处的客户端应用程序能够存取系统软件1010。

软件即服务(SaaS)软件模块1014将系统软件1010作为服务提供给客户端计算机1006。云管理模块10110管理客户端计算机1006对系统1010的存取。云管理模块1016可启用采用多租户应用程序、虚拟化或所属领域中已知的其它架构来服务于多个用户的云架构。

图17说明根据本公开的实施例的可用于执行存储在非暂时性计算机可读媒体(例如，存储器)中的程序代码的计算机系统1100的实例。所述计算机系统包含可用于取决于应用程序与人类用户及/或其它计算机系统交互的输入/输出子系统1102。I/O子系统1102可包含例如键盘、鼠标、图形用户界面、触摸屏或用于输入的其它界面，及例如LED或其它平板显示器，或用于输出的其它界面，包含应用程序编程界面(API)。本公开的实施例的其它元件(例如预测引擎)可使用如计算机系统1100的计算机系统来实施。

程序代码可经存储在例如辅助存储器1110或主要存储器1108或两者中的持久存储装置的非暂时性媒体中。主要存储器1108可包含例如随机存取存储器(RAM)的易失性存储器或例如只读存储器(ROM)的非易失性存储器，以及用于更快存取指令及数据的不同级别的高速缓存存储器。辅助存储器可包含持久存储装置，例如固态驱动器、硬盘驱动器或光盘。一或多个处理器1104从一或多个非暂时性媒体读取程序代码且执行所述代码以使计算机系统能够完成由本文中的实施例执行的方法。所属领域的技术人员将理解，(若干)处理器可摄取源代码，且将源代码解释或编译成在(若干)处理器1104的硬件门级可理解的机器代码。(若干)处理器1104可包含用于处置计算密集型任务的图形处理单元(GPU)。

(若干)处理器1104可经由一或多个通信接口1107(例如网络接口卡、WiFi收发器等)与外部网络进行通信。总线1105通信地耦合I/O子系统1102、(若干)处理器1104、外围装置1106、通信接口1107、存储器1108及持久存储装置1110。本公开的实施例不限于这个代表性架构。替代实施例可采用不同布置及类型的组件，例如用于输入-输出组件及存储器子系统的单独总线。

所属领域的技术人员将理解，本公开的实施例的一些或所有元件及它们的伴随操作，可全部或部分地由一或多个计算机系统来实施，包含如计算机系统1100的处理器及存储器系统的一或多个处理器及一或多个存储器系统。特定来说，LIMS系统、预测引擎、PM引擎、分析设备214及本文中所描述的任何其它自动化系统或装置的元件可为计算机实施的。例如，一些元件及功能性可本地实施且其它元件及功能性可通过不同服务器在网络上以分布式方式，例如以客户端-服务器方式实施。特定来说，服务器端操作可以软件即服务(SaaS)方式用于多个客户端，如图16中所展示。

所属领域的技术人员将认识到，在一些实施例中，本文中所描述的一些操作可通过人类实施或通过自动化及手动方法的组合来执行。当操作未完全自动化时，LIMS系统、预测引擎、PM引擎、分析设备214的适当组件可例如接收操作的人类表现的结果而非通过其自身的操作能力产生结果。

尽管本公开可能未明确地公开本文中所描述的一些实施例或特征可与本文中所描述的其它实施例或特征组合，但本公开应被解读为描述将可由所属领域的一般技术人员实践的任何此类组合。除非本文中另有指示，否则术语“包含”应意指“包含但不限于”，且术语“或”应以“及/或”的方式意指非排他性“或”。

所属领域的技术人员将认识到，在一些实施例中，本文中所描述的一些操作可通过人类实施或通过自动化及手动方法的组合来执行。当操作未完全自动化时，本发明的实施例的适当组件可例如接收操作的人类表现的结果而非通过其自身的操作能力产生结果。

本文中所引用的所有参考文献、文章、公开案、专利、专利公开案及专利申请案的全文出于所有目的而以引用的方式并入本文中。然而，本文中所引用的任何参考文献、文章、公开案、专利、专利公开案及专利申请案的提及并非且不应被视为承认或以任何形式暗示它们构成有效的现有技术或世界上任何国家的公知常识的部分，或者它们是公开关键事项。

在随附权利要求书中，引述“从权利要求x开始的前述权利要求中任一权利要求”的权利要求n应指从权利要求x开始且以紧接在前的权利要求(权利要求n-1)结束的权利要求中任一权利要求。例如，引述“从权利要求28开始的前述权利要求中任一权利要求所述的系统”的权利要求35是指权利要求28到34中任一权利要求所述的系统。

本公开的选定实施例

以下每一实施例对应于本公开的一或多个实施例。

以下相依性被理解为重提同一组内的实施例。

方法实施例

组1

1.一种设计在第一规模下的生物体的实验以产生用于预测在更大的第二规模下的所述生物体的性能的第一规模性能数据的计算机实施方法，所述方法包括：

a.至少部分地基于第二规模条件对在所述第二规模下的生物体的第一菌株的性能参数的贡献来确定第一规模筛选条件，其中所述第一规模筛选条件包含无法在第一规模下复制的第二规模条件的一或多个代理；

b.至少部分地基于在所述第二规模下的所述生物体的代谢的计算机建模来确定第一规模筛选参数；及

c.设计用于在所述第一规模筛选条件下至少部分地基于所述第一规模筛选参数来实验性地筛选所述生物体的第二菌株的实验。

2.根据实施例1所述的方法，其进一步包括产生所述第二菌株的第一规模性能的第一规模统计模型，且使用所述第一规模统计模型来预测在第三规模下的所述第二菌株的性能。

3.根据实施例2所述的方法，其中所述第三规模与所述第二规模是相同的。

4.根据实施例2或3中任一实施例所述的方法，其中设计实验包含至少部分地基于所述第二菌株的所述经预测第三规模性能来筛选所述第二菌株。

5.根据前述实施例中任一实施例所述的方法，其中确定第一规模筛选条件进一步至少部分地基于从发酵建模确定的环境条件。

6.根据前述实施例中任一实施例所述的方法，其中确定第一规模筛选条件进一步至少部分地基于从在大于所述第二规模的第三规模下的所述生物体的发酵建模确定的环境条件。

7.根据前述实施例中任一实施例所述的方法，其中所述第一规模是处于板的规模，且所述第二规模是处于实验台罐的规模。

8.根据前述实施例中任一实施例所述的方法，其中所述第一规模是处于包括孔的板的规模，其中每一孔具有在50到200微升的范围内的容积，且所述第二规模是处于实验台罐的规模，具有在200ml到10升的范围内的容积。

9.根据前述实施例中任一实施例所述的方法，其中确定第一规模筛选参数包括确定对关键性能指标(“KPI”)的贡献高于贡献阈值的第二规模性能参数。

10.根据前述实施例中任一实施例所述的方法，其中确定第一规模筛选参数包括基于第二规模性能参数改进KPI的性能的潜力来确定所述第二规模性能参数。

11.根据前述实施例中任一实施例所述的方法，其进一步包括确定在所述第一规模下共同优化所述第一规模筛选参数的所述第一规模筛选条件的最优值，其中设计实验包括设计用于响应于围绕所述最优筛选条件值的一系列筛选条件值而实验性地确定所述第二菌株的第一规模性能的实验。

12.根据前述实施例中任一实施例所述的方法，其进一步包括确定在所述第二规模下共同优化所述第一规模筛选参数及板罐偏差的所述第一规模筛选条件的最优值，其中设计实验包括设计用于响应于围绕所述最优条件值的一系列筛选条件值而实验性地确定所述第二菌株的第一规模性能的实验。

13.根据前述实施例中任一实施例所述的方法，其进一步包括控制实验的执行以使用所述第一规模筛选条件及所述第一规模筛选参数来筛选在所述第一规模下的所述第二菌株。

14.根据前述实施例中任一实施例所述的方法，其中所述第一菌株与所述第二菌株是相同的。

系统实施例

组1

1.一种用于设计在第一规模下的生物体的实验以产生用于预测在更大的第二规模下的所述生物体的性能的第一规模性能数据的系统，所述系统包括：

一或多个处理器；及

一或多个存储器，其存储指令，所述指令在被所述一或多个处理器中的至少一者执行时引起所述系统：

2.根据实施例1所述的系统，其中所述一或多个存储器存储进一步指令，所述进一步指令在被执行时产生所述第二菌株的第一规模性能的第一规模统计模型，且使用所述第一规模统计模型来预测在第三规模下的所述第二菌株的性能。

3.根据实施例2所述的系统，其中所述第三规模与所述第二规模是相同的。

4.根据实施例2或3中任一实施例所述的系统，其中设计实验包含至少部分地基于所述第二菌株的所述经预测第三规模性能来筛选所述第二菌株。

5.根据前述实施例中任一实施例所述的系统，其中确定第一规模筛选条件进一步至少部分地基于从发酵建模确定的环境条件。

6.根据前述实施例中任一实施例所述的系统，其中确定第一规模筛选条件进一步至少部分地基于从在大于所述第二规模的第三规模下的所述生物体的发酵建模确定的环境条件。

7.根据前述实施例中任一实施例所述的系统，其中所述第一规模是处于板的规模，且所述第二规模是处于实验台罐的规模。

8.根据前述实施例中任一实施例所述的系统，其中所述第一规模是处于包括孔的板的规模，其中每一孔具有在50到200微升的范围内的容积，且所述第二规模是处于实验台罐的规模，具有在200ml到10升的范围内的容积。

9.根据前述实施例中任一实施例所述的系统，其中确定第一规模筛选参数包括确定对关键性能指标(“KPI”)的贡献高于贡献阈值的第二规模性能参数。

10.根据前述实施例中任一实施例所述的系统，其中确定第一规模筛选参数包括基于第二规模性能参数改进KPI的性能的潜力来确定所述第二规模性能参数。

11.根据前述实施例中任一实施例所述的系统，其中所述一或多个存储器存储进一步指令，所述进一步指令在被执行时确定在所述第一规模下共同优化所述第一规模筛选参数的所述第一规模筛选条件的最优值，其中设计实验包括设计用于响应于围绕所述最优筛选条件值的一系列筛选条件值而实验性地确定所述第二菌株的第一规模性能的实验。

12.根据前述实施例中任一实施例所述的系统，其中所述一或多个存储器存储进一步指令，所述进一步指令在被执行时确定在所述第二规模下共同优化所述第一规模筛选参数及板罐偏差的所述第一规模筛选条件的最优值，其中设计实验包括设计用于响应于围绕所述最优条件值的一系列筛选条件值而实验性地确定所述第二菌株的第一规模性能的实验。

13.根据前述实施例中任一实施例所述的系统，其中所述一或多个存储器存储进一步指令，所述进一步指令在被执行时控制实验的执行以使用所述第一规模筛选条件及所述第一规模筛选参数来筛选在所述第一规模下的所述第二菌株。

14.根据前述实施例中任一实施例所述的系统，其中所述第一菌株与所述第二菌株是相同的。

计算机可读媒体实施例

组1

1.一或多种存储用于设计在第一规模下的生物体的实验以产生用于预测在更大的第二规模下的所述生物体的性能的第一规模性能数据的指令的非暂时性计算机可读媒体，其中所述指令在被一或多个计算装置执行时引起所述一或多个计算装置中的至少一者：

2.根据实施例1所述的计算机可读媒体，其中所述计算机可读媒体存储进一步指令，所述进一步指令在被执行时产生所述第二菌株的第一规模性能的第一规模统计模型，且使用所述第一规模统计模型来预测在第三规模下的所述第二菌株的性能。

3.根据实施例2所述的计算机可读媒体，其中所述第三规模与所述第二规模是相同的。

4.根据实施例2或3中任一实施例所述的计算机可读媒体，其中设计实验包含至少部分地基于所述第二菌株的所述经预测第三规模性能来筛选所述第二菌株。

5.根据前述实施例中任一实施例所述的计算机可读媒体，其中确定第一规模筛选条件进一步至少部分地基于从发酵建模确定的环境条件。

6.根据前述实施例中任一实施例所述的计算机可读媒体，其中确定第一规模筛选条件进一步至少部分地基于从在大于所述第二规模的第三规模下的所述生物体的发酵建模确定的环境条件。

7.根据前述实施例中任一实施例所述的计算机可读媒体，其中所述第一规模是处于板的规模，且所述第二规模是处于实验台罐的规模。

8.根据前述实施例中任一实施例所述的计算机可读媒体，其中所述第一规模是处于包括孔的板的规模，其中每一孔具有在50到200微升的范围内的容积，且所述第二规模是处于实验台罐的规模，具有在200ml到10升的范围内的容积。

9.根据前述实施例中任一实施例所述的计算机可读媒体，其中确定第一规模筛选参数包括确定对关键性能指标(“KPI”)的贡献高于贡献阈值的第二规模性能参数。

10.根据前述实施例中任一实施例所述的计算机可读媒体，其中确定第一规模筛选参数包括基于第二规模性能参数改进KPI的性能的潜力来确定所述第二规模性能参数。

11.根据前述实施例中任一实施例所述的计算机可读媒体，其中所述计算机可读媒体存储进一步指令，所述进一步指令在被执行时确定在所述第一规模下共同优化所述第一规模筛选参数的所述第一规模筛选条件的最优值，其中设计实验包括设计用于响应于围绕所述最优筛选条件值的一系列筛选条件值而实验性地确定所述第二菌株的第一规模性能的实验。

12.根据前述实施例中任一实施例所述的计算机可读媒体，其中所述计算机可读媒体存储进一步指令，所述进一步指令在被执行时确定在所述第二规模下共同优化所述第一规模筛选参数及板罐偏差的所述第一规模筛选条件的最优值，其中设计实验包括设计用于响应于围绕所述最优条件值的一系列筛选条件值而实验性地确定所述第二菌株的第一规模性能的实验。

13.根据前述实施例中任一实施例所述的计算机可读媒体，其中所述计算机可读媒体存储进一步指令，所述进一步指令在被执行时控制实验的执行以使用所述第一规模筛选条件及所述第一规模筛选参数来筛选在所述第一规模下的所述第二菌株。

14.根据前述实施例中任一实施例所述的计算机可读媒体，其中所述第一菌株与所述第二菌株是相同的。

Claims

2.根据权利要求1所述的方法，其进一步包括产生所述第二菌株的第一规模性能的第一规模统计模型，且使用所述第一规模统计模型来预测在第三规模下的所述第二菌株的性能。

3.根据权利要求2所述的方法，其中所述第三规模与所述第二规模是相同的。

4.根据权利要求2或权利要求3所述的方法，其中设计实验包含至少部分地基于所述第二菌株的所述经预测第三规模性能来筛选所述第二菌株。

5.根据前述权利要求中任一权利要求所述的方法，其中确定第一规模筛选条件进一步至少部分地基于从发酵建模确定的环境条件。

6.根据前述权利要求中任一权利要求所述的方法，其中确定第一规模筛选条件进一步至少部分地基于从在大于所述第二规模的第三规模下的所述生物体的发酵建模确定的环境条件。

7.根据前述权利要求中任一权利要求所述的方法，其中所述第一规模是处于板的规模，且所述第二规模是处于实验台罐的规模。

8.根据前述权利要求中任一权利要求所述的方法，其中所述第一规模是处于包括孔的板的规模，其中每一孔具有在50到200微升的范围内的容积，且所述第二规模是处于实验台罐的规模，具有在200ml到10升的范围内的容积。

9.根据前述权利要求中任一权利要求所述的方法，其中确定第一规模筛选参数包括确定对关键性能指标(“KPI”)的贡献高于贡献阈值的第二规模性能参数。

10.根据前述权利要求中任一权利要求所述的方法，其中确定第一规模筛选参数包括基于第二规模性能参数改进KPI的性能的潜力来确定所述第二规模性能参数。

11.根据前述权利要求中任一权利要求所述的方法，其进一步包括确定在所述第一规模下共同优化所述第一规模筛选参数的所述第一规模筛选条件的最优值，其中设计实验包括设计用于响应于围绕所述最优筛选条件值的一系列筛选条件值而实验性地确定所述第二菌株的第一规模性能的实验。

12.根据前述权利要求中任一权利要求所述的方法，其进一步包括确定在所述第二规模下共同优化所述第一规模筛选参数及板罐偏差的所述第一规模筛选条件的最优值，其中设计实验包括设计用于响应于围绕所述最优条件值的一系列筛选条件值而实验性地确定所述第二菌株的第一规模性能的实验。

13.根据前述权利要求中任一权利要求所述的方法，其进一步包括控制实验的执行以使用所述第一规模筛选条件及所述第一规模筛选参数来筛选在所述第一规模下的所述第二菌株。

14.根据前述权利要求中任一权利要求所述的方法，其中所述第一菌株与所述第二菌株是相同的。

15.一种用于设计在第一规模下的生物体的实验以产生用于预测在更大的第二规模下的所述生物体的性能的第一规模性能数据的系统，所述系统包括：

一或多个存储器，其存储指令；及

一或多个处理器，其可操作地耦合到所述一或多个存储器，以执行所述指令以引起所述系统：

16.根据权利要求15所述的系统，其中所述一或多个存储器存储进一步指令，所述进一步指令在被执行时引起所述系统产生所述第二菌株的第一规模性能的第一规模统计模型，且使用所述第一规模统计模型来预测在第三规模下的所述第二菌株的性能。

17.根据权利要求16所述的系统，其中所述第三规模与所述第二规模是相同的。

18.根据权利要求16或权利要求17所述的系统，其中设计实验包含至少部分地基于所述第二菌株的所述经预测第三规模性能来筛选所述第二菌株。

19.根据从权利要求15开始的前述权利要求中任一权利要求所述的系统，其中确定第一规模筛选条件进一步至少部分地基于从发酵建模确定的环境条件。

20.根据从权利要求15开始的前述权利要求中任一权利要求所述的系统，其中确定第一规模筛选条件进一步至少部分地基于从在大于所述第二规模的第三规模下的所述生物体的发酵建模确定的环境条件。

21.根据从权利要求15开始的前述权利要求中任一权利要求所述的系统，其中所述第一规模是处于板的规模，且所述第二规模是处于实验台罐的规模。

22.根据从权利要求15开始的前述权利要求中任一权利要求所述的系统，其中所述第一规模是处于包括孔的板的规模，其中每一孔具有在50到200微升的范围内的容积，且所述第二规模是处于实验台罐的规模，具有在200ml到10升的范围内的容积。

23.根据从权利要求15开始的前述权利要求中任一权利要求所述的系统，其中确定第一规模筛选参数包括确定对关键性能指标(“KPI”)的贡献高于贡献阈值的第二规模性能参数。

24.根据从权利要求15开始的前述权利要求中任一权利要求所述的系统，其中确定第一规模筛选参数包括基于第二规模性能参数改进KPI的性能的潜力来确定所述第二规模性能参数。

25.根据从权利要求15开始的前述权利要求中任一权利要求所述的系统，其中所述一或多个存储器存储进一步指令，所述进一步指令在被执行时引起所述系统确定在所述第一规模下共同优化所述第一规模筛选参数的所述第一规模筛选条件的最优值，其中设计实验包括设计用于响应于围绕所述最优筛选条件值的一系列筛选条件值而实验性地确定所述第二菌株的第一规模性能的实验。

26.根据从权利要求15开始的前述权利要求中任一权利要求所述的系统，其中所述一或多个存储器存储进一步指令，所述进一步指令在被执行时引起所述系统确定在所述第二规模下共同优化所述第一规模筛选参数及板罐偏差的所述第一规模筛选条件的最优值，其中设计实验包括设计用于响应于围绕所述最优条件值的一系列筛选条件值而实验性地确定所述第二菌株的第一规模性能的实验。

27.根据从权利要求15开始的前述权利要求中任一权利要求所述的系统，其中所述一或多个存储器存储进一步指令，所述进一步指令在被执行时引起所述系统控制实验的执行以使用所述第一规模筛选条件及所述第一规模筛选参数来筛选在所述第一规模下的所述第二菌株。

28.根据从权利要求15开始的前述权利要求中任一权利要求所述的系统，其中所述第一菌株与所述第二菌株是相同的。

29.一或多种存储用于设计在第一规模下的生物体的实验以产生用于预测在更大的第二规模下的所述生物体的性能的第一规模性能数据的指令的非暂时性计算机可读媒体，其中所述指令在被一或多个计算装置执行时引起所述一或多个计算装置中的至少一者：

30.根据权利要求29所述的计算机可读媒体，其中所述计算机可读媒体存储进一步指令，所述进一步指令在被执行时引起所述一或多个计算装置中的至少一者产生所述第二菌株的第一规模性能的第一规模统计模型，且使用所述第一规模统计模型来预测在第三规模下的所述第二菌株的性能。

31.根据权利要求29或权利要求30所述的计算机可读媒体，其中所述第三规模与所述第二规模是相同的。

32.根据从权利要求29开始的前述权利要求中任一权利要求所述的计算机可读媒体，其中设计实验包含至少部分地基于所述第二菌株的所述经预测第三规模性能来筛选所述第二菌株。

33.根据从权利要求29开始的前述权利要求中任一权利要求所述的计算机可读媒体，其中确定第一规模筛选条件进一步至少部分地基于从发酵建模确定的环境条件。

34.根据从权利要求29开始的前述权利要求中任一权利要求所述的计算机可读媒体，其中确定第一规模筛选条件进一步至少部分地基于从在大于所述第二规模的第三规模下的所述生物体的发酵建模确定的环境条件。

35.根据从权利要求29开始的前述权利要求中任一权利要求所述的计算机可读媒体，其中所述第一规模是处于板的规模，且所述第二规模是处于实验台罐的规模。

36.根据从权利要求29开始的前述权利要求中任一权利要求所述的计算机可读媒体，其中所述第一规模是处于包括孔的板的规模，其中每一孔具有在50到200微升的范围内的容积，且所述第二规模是处于实验台罐的规模，具有在200ml到10升的范围内的容积。

37.根据从权利要求29开始的前述权利要求中任一权利要求所述的计算机可读媒体，其中确定第一规模筛选参数包括确定对关键性能指标(“KPI”)的贡献高于贡献阈值的第二规模性能参数。

38.根据从权利要求29开始的前述权利要求中任一权利要求所述的计算机可读媒体，其中确定第一规模筛选参数包括基于第二规模性能参数改进KPI的性能的潜力来确定所述第二规模性能参数。

39.根据从权利要求29开始的前述权利要求中任一权利要求所述的计算机可读媒体，其中所述计算机可读媒体存储进一步指令，所述进一步指令在被执行时引起所述一或多个计算装置中的至少一者确定在所述第一规模下共同优化所述第一规模筛选参数的所述第一规模筛选条件的最优值，其中设计实验包括设计用于响应于围绕所述最优筛选条件值的一系列筛选条件值而实验性地确定所述第二菌株的第一规模性能的实验。

40.根据从权利要求29开始的前述权利要求中任一权利要求所述的计算机可读媒体，其中所述计算机可读媒体存储进一步指令，所述进一步指令在被执行时引起所述一或多个计算装置中的至少一者确定在所述第二规模下共同优化所述第一规模筛选参数及板罐偏差的所述第一规模筛选条件的最优值，其中设计实验包括设计用于响应于围绕所述最优条件值的一系列筛选条件值而实验性地确定所述第二菌株的第一规模性能的实验。

41.根据从权利要求29开始的前述权利要求中任一权利要求所述的计算机可读媒体，其中所述计算机可读媒体存储进一步指令，所述进一步指令在被执行时引起所述一或多个计算装置中的至少一者控制实验的执行以使用所述第一规模筛选条件及所述第一规模筛选参数来筛选在所述第一规模下的所述第二菌株。

42.根据从权利要求29开始的前述权利要求中任一权利要求所述的计算机可读媒体，其中所述第一菌株与所述第二菌株是相同的。