CN111886330A - 基于在较小规模条件下的性能优化在较大规模条件下的有机体性能 - Google Patents

基于在较小规模条件下的性能优化在较大规模条件下的有机体性能 Download PDF

Info

Publication number
CN111886330A
CN111886330A CN201880072540.7A CN201880072540A CN111886330A CN 111886330 A CN111886330 A CN 111886330A CN 201880072540 A CN201880072540 A CN 201880072540A CN 111886330 A CN111886330 A CN 111886330A
Authority
CN
China
Prior art keywords
scale
prediction function
performance data
organism
performance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880072540.7A
Other languages
English (en)
Inventor
S·德·科克
P·埃涅尔特
R·汉森
T·豪克
Z·塞尔贝尔
A·泰勒
T·特赖诺尔
K·泰纳
S·利德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zymergen Inc
Original Assignee
Zymergen Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zymergen Inc filed Critical Zymergen Inc
Publication of CN111886330A publication Critical patent/CN111886330A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M41/00Means for regulation, monitoring, measurement or control, e.g. flow regulation
    • C12M41/48Automatic or computerized control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Sustainable Development (AREA)
  • Genetics & Genomics (AREA)
  • Biochemistry (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Microbiology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)

Abstract

本发明提供用于基于在第一规模下的测量来改进在第二规模下有机体关于感兴趣表型的性能的系统、方法及存储可执行指令的计算机可读媒体。存取至少部分地基于在第一规模下观测的第一有机体的第一性能的第一规模性能数据及至少部分地基于在大于所述第一规模的第二规模下观测的第二有机体的第二性能的第二规模性能数据。至少部分地基于所述第二规模性能数据与所述第一规模性能数据的关系来生成预测函数。所述预测函数可适用于在所述第一规模下观测的测试有机体关于所述感兴趣表型的性能数据以在所述第二规模下生成所述测试有机体的第二规模预测性能数据。

Description

基于在较小规模条件下的性能优化在较大规模条件下的有机 体性能
相关申请案的交叉参考
本申请案主张2017年11月9日申请的第62/583,961号美国临时申请案的优先权权益,所述申请案的全部内容由此以引用方式并入本文中。
技术领域
本发明大体上涉及代谢及基因组工程领域,且更特定来说,涉及用于在大规模环境中产生化学靶点的有机体的代谢优化领域。
背景技术
背景技术章节中所论述的标的物不应仅仅由于在背景技术章节中被提到而被认为是现有技术。类似地,背景技术章节中所提到或与背景技术章节的标的物相关联的问题不应被认为先前在现有技术中已认识到。背景技术章节中的标的物仅仅表示不同方法,其本身也可对应于所主张技术的实施方案。
用于优化例如活细胞的未完全理解系统的性能的最好方法通常是测试尽可能多的不同修改并凭经验确定哪个性能最好。由于测试与工业生产相关的一定规模的修改通常是昂贵且费时的,因此测试一定规模的修改的处理量非常低。因此,小规模、高处理量的筛选方法用于针对性能从大量修改快速地识别最佳候选者。然而,为了使这种方法成功,必须存在一种从较小规模性能预测较大规模性能的可靠手段。作为实例,规模的范围从具有许多孔的小平板(例如,每个孔200μL)到具有较少孔的较大平板,到台架规模的罐(例如,5升或更多升),到工业尺寸的罐(例如,100升到500,000升)。
出于识别新的且有用的药物的目的,其中已广泛地应用此类方法的技术领域是制药工业。可首先在预期为体内活性的预测代理的测定中针对活性体外筛选成千上万个候选分子。应用统计方法来确定表现最佳者(参见例如马洛(Malo)等人的“高处理量筛选数据分析中的统计实践(Statistical practice in high-throughput screening dataanalysis),《自然生物技术》(Nat Biotechnol)24:167-175(2006)”),去接着用于更昂贵、更大规模的实验中,所述实验可包含在小鼠及人体中进行体内测试。
然而,这些方法朝向二进制判断(例如,有效或无效)调整,而非对性能进行排名以用于关于较低处理量实验的未来决策。此外,这些方法假设绝大多数经测试样本将具有相同值且将不会受到关注。在其中优化细胞的遗传途径以在一定规模下产生特定感兴趣产物的代谢工程领域中,这些假设不成立。特定来说,在迭代地将改进添加到多个菌株谱系时,经测量值可能千差万别,且可能存在比可以较低处理量大规模合理筛选多得多的看似为改进的样本,且因而,清晰的性能排名是必需的。换句话说,确定哪些样本较好是不够的;重要的是知道在下一规模级下哪些样本最好及优选地好多少。
发明内容
在常规预测性建模中,通常从训练数据集移除统计离群值以减小模型的预测误差。然而,发明人已认识到,在基因组工程领域中,实现用于从较小规模条件预测在较大规模条件下的性能的最优模型可能不必丢弃此类离群值。代替地,可将进一步特征添加到模型以减轻移除离群值的需要。
本发明提供一种稳健方法,其用于基于较小规模、高处理量测量可靠地预测在较大规模、低处理量条件下的关键性能指标(例如,产率、生产力、滴度)的值,尤其是在用于大量产生化学靶点的有机体的代谢优化技术领域中。本发明的实施例可采用经优化统计模型来进行预测。此外,本发明提供一种传递函数开发工具,其以可再现方式产生模型,记录决策且提供用于获取经预测值并使用经预测值工作的快速又简便的机制。
在本发明的上下文中,传递函数是用于基于一个背景中的性能来预测另一背景中的性能的统计模型,其中主要目标是从较小规模下的样本的性能预测较大规模下的样本的性能。在实施例中,传递函数采用考虑小规模值及大规模值的单因子线性回归以及发明人发现的优化。在其它实施例中,传递函数可采用多元回归。
为了建立这些回归模型,本发明的一些实施例使用模型来汇总菌株在高处理量背景(例如,平板模型)中的性能,且接着使用单独模型(例如,传递函数)来预测菌株在较低处理量背景中跨多次运行的性能。
在实施例中,特定来说在将线性模型用于传递函数的实施例中,发现从考虑移除一些菌株会改进所述模型的预测能力,且这个迭代过程是其自身的优化。在实施例中,使用上文所列出的样本特性的方法提供一种用于迭代地识别特性(例如存在的遗传修饰、谱系等)的机制,所述特性作为一个因子包含在预测高处理量性能中允许甚至更多的预测能力改进,同时还允许否则可能被移除的菌株保持在所述模型中。此类技术减轻计算经预测性能时的处理负担。
本发明的实施例提供用于基于在第一规模下的测量来改进在第二规模下有机体关于感兴趣表型的性能的系统、方法及存储可执行指令的计算机可读媒体。本发明的实施例(a)存取表示在第一规模下观测的一或多个第一有机体的第一性能的第一规模性能数据及表示在大于所述第一规模的第二规模下观测的一或多个第二有机体的第二性能的第二规模性能数据;及(b)至少部分基于所述第二规模性能数据与所述第一规模性能数据的关系来生成预测函数。根据本发明的实施例,所述预测函数适用于在所述第一规模下观测的一或多个测试有机体关于所述感兴趣表型的性能数据以生成在所述第二规模下的所述一或多个测试有机体的第二规模预测性能数据。本发明的实施例进一步包括至少部分基于所述第二规模预测性能来制造所述一或多个测试有机体中的至少一者。
根据本发明的实施例,所述第一规模是平板规模且所述第二规模是罐规模。所述一或多个第二有机体可为所述一或多个第一有机体的子组。所述表型可包含化合物的产生。所述有机体可为微生物菌株。
根据本发明的实施例,使用第一规模统计模型来生成所述一或多个第一有机体的所述第一规模性能数据。所述第一规模统计模型可表示在所述第一规模下的有机体特征。所述有机体特征可包括过程条件、培养基条件或遗传因子。所述有机体特征可与有机体位置相关。根据本发明的实施例,所述预测函数至少部分基于一或多个第一规模性能变量的加权和,其中所述第一规模性能变量中的至少一者基于有机体性能的两个或两个以上测量的组合。(应理解,在对仅一个变量求和时,“一或多个变量的和”仅是变量本身。)根据本发明的实施例,所述组合至少部分基于产物浓度与糖消耗的比率。
根据本发明的实施例,生成所述预测函数可包括从考虑移除一或多个离群有机体的所述第一规模性能数据及所述第二规模性能数据。根据本发明的实施例,生成所述预测函数可包括并入一或多个因子(例如,遗传因子)以减小所述预测函数的误差(例如,杠杆指标)。
本发明的实施例可通过来自一组因子的一或多个因子来修改所述预测函数;及在生成所述预测函数时从考虑排除第一候选离群有机体(即,排除所述第一候选离群有机体的经观测性能数据),如果在生成所述预测函数时包含所述第一候选离群有机体,那么所述第一候选离群有机体会导致所述经修改预测函数具有未能满足杠杆条件的杠杆指标。根据本发明的实施例,“杠杆”通常可指菌株对预测模型的输出(例如,经预测性能)的影响量,包含对所述模型的预测能力的误差的作用。根据本发明的实施例,如果所述经修改预测函数有关第一候选离群有机体的所述杠杆指标满足所述杠杆条件,那么此类实施例可使用所述经修改预测函数作为所述预测函数。
根据本发明的实施例,所述第一候选离群有机体是如果在生成所述预测函数时从考虑排除那么导致所述经修改预测函数的所述杠杆指标的最大改进的有机体。本发明的实施例(a)将如果在生成所述预测函数时从考虑排除并且也排除所述第一候选离群有机体那么导致所述预测函数的所述杠杆指标的最大改进的有机体识别为第二候选离群有机体;(b)通过来自一组因子的一或多个因子来修改所述预测函数以生成第二经修改预测函数;及(c)在生成所述预测函数时从考虑排除所述第二候选离群有机体,如果在生成所述预测函数时包含所述第二候选离群有机体,那么所述第二候选离群有机体会导致所述第二经修改预测函数具有未能满足杠杆条件的杠杆指标。
根据本发明的实施例,在所述第一规模性能数据及所述第二规模性能数据中表示第一候选离群有机体,所述一或多个测试有机体包括所述第一候选离群有机体,且所述第二规模预测性能数据表示在所述第二规模下的所述第一候选离群有机体的经预测性能。
根据本发明的实施例,修改所述预测函数包括分别将所述一或多个因子并入到所述预测函数中或从所述预测函数移除所述一或多个因子。根据本发明的实施例,生成所述预测函数包括使用所述第一规模性能数据及所述第二规模性能数据来训练机器学习模型。根据本发明的实施例,生成所述预测函数包括在通过所述一或多个因子来修改所述预测函数的过程中应用机器学习。
本发明的实施例比较多个预测函数的性能误差指标及至少基于所述比较对所述预测函数进行排名。
根据本发明的实施例,所述一或多个第一有机体的所述第一规模性能数据表示第一规模统计模型的输出,且此类实施例比较在所述第二规模下的所述一或多个第一有机体的经预测性能与所述第二规模性能数据及至少部分基于所述比较来调整所述第一规模统计模型的参数。
本发明的实施例提供一种在第二规模下具有感兴趣表型的改进性能的有机体,其中所述有机体使用本文中所揭示的方法中的任何者来识别。
本发明的实施例提供一种传递函数开发工具,所述传递函数开发工具提供用户接口以供用户基于在小于第二规模的第一规模下观测的数据对在所述第二规模下的有机体的预测模型的开发进行控制。根据实施例,所述工具还应用所述预测函数来预测在所述第二规模下的有机体性能。
本发明的实施例存取预测函数,其中所述预测函数至少部分基于第二规模性能数据与第一规模性能数据的关系,且可包含如本文中所描述的优化,例如离群值移除及因子(例如遗传因子)并入。所述第一规模性能数据表示在第一规模下观测的一或多个第一有机体的第一性能,且所述第二规模性能数据表示在大于所述第一规模的第二规模下观测的一或多个第二有机体的第二性能。此类实施例将所述预测函数应用于在所述第一规模下的一或多个测试有机体以生成在所述第二规模下的所述一或多个测试有机体的第二规模预测性能数据。
附图说明
图1说明用于实施本发明的实施例的客户端-服务器计算机系统。
图2A说明根据本发明的实施例的个别菌株的经测量生物反应器(罐,较大规模)值与平板(较小规模)值的比较。
图2B说明根据本发明的实施例的实例中的生物反应器(罐)的实际罐产率值与线性预测罐产率值的比较。
图3是与图2B等效的图表,除移除类型1离群菌株N之外。
图4是与图2B等效的图表,除移除四个类型1离群值及一个类型2离群值之外。
图5描绘根据本发明的实施例的基于图4中的所有菌株是否具有某个遗传修饰而将校正应用于所述菌株的结果。
图6是根据本发明的实施例的图5中所展示的模型的回归图表。
图7说明根据本发明的实施例的在不校正遗传因子的情况下的生产力模型。
图8说明根据本发明的实施例的在校正遗传因子之后的图7的生产力模型。
图9说明针对怀有与图8中相同的启动子交换的菌株的高处理量生产力模型性能的改进(x轴)对低处理量生物反应器(例如,罐)中的实际生产力的改进(y轴)。
图10说明根据本发明的实施例的传递函数开发工具的用户接口。
图11说明根据本发明的实施例的用户接口。
图12说明根据本发明的实施例的显示平板-罐相关传递函数的用户接口。
图13说明根据本发明的实施例的基于其中已从模型移除用户选择的离群值的传递函数呈现具有最高预测性能的十个菌株的用户接口。
图14说明根据本发明的实施例的在已从模型移除用户选择的离群值之后的选定传递函数的图示。
图15说明根据本发明的实施例的使用户能够将经移除菌株的质量分数提交给数据库的接口。
图16说明根据本发明的实施例的云计算环境。
图17说明可用于执行程序代码以实施本发明的实施例的计算机系统的实例。
图18是从根据本发明的实施例执行的实验得出的平板值对罐值的曲线图。
图19是从根据本发明的实施例执行的实验得出的平板值对罐值的曲线图。
图20是从根据本发明的实施例执行的实验得出的平板值对罐值的曲线图。
图21是从根据本发明的实施例执行的实验得出的平板值对罐值的曲线图。
图22是从根据本发明的实施例执行的实验得出的平板值对罐值的曲线图。
图23是从根据本发明的实施例执行的实验得出的经观测罐值对经预测罐值的曲线图。
图24是从根据本发明的实施例执行的实验得出的经观测罐值对经预测罐值的曲线图。
图25是绘制从根据本发明的实施例执行的实验得出的第一罐值对第二罐值的曲线图。
图26是从根据本发明的实施例执行的实验得出的经观测罐值对经预测罐值的曲线图。
图27绘制根据基于本发明的实施例的预言性实例的随时间估计的糖(Cs)、产物(Cp)及生物量(Cx)浓度。
图28是根据基于本发明的实施例的预言性实例的产物浓度对发酵器产物产率的曲线图。
图29是根据基于本发明的实施例的预言性实例的糖浓度对发酵器产物产率的曲线图。
图30是根据基于本发明的实施例的预言性实例的生物量浓度对发酵器产物产率的曲线图。
图31是根据基于本发明的实施例的预言性实例的平板中产物产率对发酵器产物产率的曲线图。
具体实施方式
参考附图进行本描述,在附图中展示各种实例实施例。然而,可使用许多不同实例实施例,且因此所述描述不应被解释为限于本文中所阐述的实例实施例。而是,提供这些实例实施例使得本发明将是彻底且完整的。对实例性实施例的各种修改对于所属领域技术人员将是显而易见的,且在不脱离本发明的精神及范围的情况下,本文中所定义的一般原理可应用于其它实施例及应用。因此,本发明并非意在限于所展示实施例,而是被赋予与本文中所揭示的原理及特征一致的最广范围。
图1说明本发明的实施例的分布式系统100。用户接口102包含例如文本编辑器或图形用户接口(GUI)的客户端侧接口。用户接口102可驻留在客户端侧计算装置103处,例如膝上型计算机或台式计算机。客户端计算装置103通过例如因特网的网络106耦合到一或多个服务器108。
(若干)服务器108本地地或远程地耦合到一或多个数据库110,所述数据库可包含一或多个库全集,其包含可表示在小规模及大规模两者下且响应于遗传修饰的微生物菌株性能的数据,例如基因组数据、遗传修饰数据(例如,启动子阶梯)、过程条件数据、菌株环境数据及表型性能数据。本文中的“微生物”包含细菌、真菌及酵母。
在实施例中,(若干)服务器108包含至少一个处理器107及存储指令的至少一个存储器109,所述指令在由(若干)处理器107执行时生成预测函数,由此充当根据本发明的实施例的预测引擎。替代地,用于预测引擎的软件及相关联硬件可本地地驻留在客户端103上而非(若干)服务器108处,或分布在客户端103与(若干)服务器108两者之间。在实施例中,预测引擎的全部或部分可作为基于云的服务运行,如图16中进一步描绘。
(若干)数据库110可包含公共数据库,以及由用户或其他人生成的自定义数据库,例如包含经由由用户或第三方贡献者执行的发酵实验生成的分子的数据库。(若干)数据库110相对于客户端103可为本地的或远程的或既本地地又远程地分布。
本发明提供一种稳健方法,其用于基于较小规模、高处理量测量可靠地预测在较大规模、低处理量条件下的微生物的关键性能指标(例如,产率、生产力、滴度)的值,尤其是在用于大量产生化学靶点的有机体的代谢优化技术领域中。实施例可采用经优化统计模型来进行预测。此外,本发明提供一种传递函数开发工具,其以可再现方式产生模型,记录决策且提供用于获取经预测值并使用经预测值工作的快速又简便的机制。
在本发明中,传递函数是用于基于一个背景中的性能来预测另一背景中的性能的统计模型,其中主要目标是从在较小规模下的样本的性能预测在较大规模下的样本的性能。在实施例中,传递函数涉及小规模值与大规模值之间的简单、单因子线性回归以及发明人发现的优化。在其它实施例中,传递函数可采用多元回归。
为了建立这些回归模型,本发明的实施例使用输入模型来汇总菌株在高处理量背景(例如,平板模型)中的性能,且接着使用单独模型(例如,传递函数)来预测菌株在较低处理量背景中跨多次运行的性能。平板模型可例如用于对96孔平板中相同菌株的多个复制品的性能(例如,产率、生产力、生存力)进行建模。根据本发明的实施例,预测引擎生成输入模型,生成传递函数,将传递函数应用于输入模型输出以预测性能或执行其任何组合。
在传递函数及汇总模型两者中,且在建立用于从较高处理量背景中的性能预测较低处理量背景中的性能的更复杂、非线性机器学习模型时,可考虑以下优化考虑:
·考虑由于平板及平板上位置两者(例如,行-列位置、边缘位置)所致的偏差,
·平板特性,例如培养基类型/批次、振动筛位置偏差,
·过程特性,如同用于接种孔的甘油原料已使用的次数,及在较低处理量步骤及较高处理量步骤两者中使用哪些类型的机器(例如,培养器、发酵器、测量设备),
·样本特性(例如细胞谱系或已知遗传标记物的存在/缺失)
下文呈现用于建立稳健且可靠的传递函数以基于较小规模的高处理量测量来准确地预测在较大规模下的关键性能指标的方法,连同记录一些决策且使过程可再现又快速的传递函数开发工具。
本发明首先呈现根据本发明的实施例的基本线性模型。接着,本发明呈现根据本发明的实施例以算法实施的优化。根据实施例,传递函数开发工具包含用于在数据呈可摄入格式之后实施进一步优化的基础架构。以下实例基于根据在用于个别菌株的96孔平板中(较小规模、较高处理量)分别达24及96小时的氨基酸的滴度来预测氨基酸的生物反应器(较大规模、较低处理量)生产力(g/L/h)及产率(wt%)的问题。
基本传递函数:平板-罐相关性
传递函数的最基本形式是形式y=mx+b的单因子线性回归,其中x是在小规模、高处理量筛选中获得的值,y是在大规模、低处理量筛选中获得的值,且m及b分别是拟合线的斜率及y截距。实施例还可采用多元回归以基于多个自变量xi来预测因变量y。在两个规模下的单个x值与y值之间的相关性可用作这种基本方法的有效程度的衡量;因此其可被称为“平板-罐相关性”。
甚至这种基本形式的传递函数也并入创造性优化。本发明的实施例采用校正平板位置偏差以及其它因子的线性模型,而非简单地使用菌株的平均性能来从高处理量筛选获得菌株的单个值以与较低处理量值相关。其它实施例采用非线性模型,且考虑平板模型的其它方面。
平板-罐相关(即,传递)函数不仅预测尚未在较低处理量、较大规模下测试的样本的性能。其也可用于评估平板模型的有效性。平板模型是经设计以使在小规模、高处理量下获得的值尽可能地预测在大规模下获得的值的培养基及过程约束的集合。平板-罐相关函数的相关系数除其它事物外,还指示平板模型实现其目的的程度。平板模型可并入但不限于物理特征(其可在平板模型中用作自变量),例如:
·培养基配制及制备(例如培养基批次)
·稀释剂类型
·接种量
·实验室器具
·振动时间、温度及湿度
在本发明的实施例中,平板-罐相关函数用于优化平板模型。在实施例中,平板模型模拟在罐规模下的微生物发酵过程—以经由在平板中实施来物理地对罐性能进行建模。
平板模型
根据本发明的实施例,可经由最小平方均值(LS-Means)方法确定在高处理量背景中(例如,在小规模、平板环境中)的菌株的性能。LS-Means是两步骤过程,通过所述过程首先拟合线性回归,且接着那个拟合模型预测在所有分类特征的笛卡尔集及所有数值特征的均值内的性能。所述模型的特征将物理平板模型与统计平板模型相关,且描述进行那个实验的条件,且包含上文所列出的优化(例如,平板上位置、平板特性、过程特性、样本特性)。
第一步骤的模型形式是:
titeri=βs[i]fβf xf[i]
针对菌株的效应(在这个实例中是滴度)存在推断的加法系数βs,且接着在模型中使用每一额外特征。第一项βs是由i指出的菌株复制品的效应(在此,滴度)。接着,每一额外项βf是指派给特征f(例如,平板位置)的权重且xf[i]是由i指出的菌株复制品的特征值。
作为实例,一个此类模型可为:
titeri=βs[i]+βplate platei
在这个模型中,特征是菌株在其上生长的特定平板。这个模型包含在特定实验中由i指出的每一菌株及每一平板的系数βplate。可使用具有惩罚的岭回归来拟合模型以改进数值稳定性。
第二步骤再次采用因子的所有可能组合(例如,针对所有菌株的特定平板及平板上位置)且使用平板模型方程式来对那些综合值进行预测以模拟在每一场景中运行菌株的情况下会发生的情况,且最后取得按菌株计的场景平均性能。这是与平板性能(例如,图2A中的x轴平板性能值)相关联的最终点估计值且其与罐性能的汇总(例如,图2A中的y轴罐性能值)相关。
图2A中展示根据本发明的实施例的相关性的实例。图2A说明个别菌株的经测量生物反应器(罐,较大规模)值与平板(较小规模)值的比较。数据集包含高处理量测量(使用平板模型来确定产率),及用于产生氨基酸的相关联生物反应器测量(例如,产率)。每个菌株的平均平板滴度(并入经估计平板偏差)在x轴上,且每个菌株的平均生物反应器(例如,罐、发酵器)产率(wt%)在y轴上。每一点(字母)对应单个菌株。
出于预测的目的,可根据模型的经预测性能与实际性能的匹配程度检查此类图表,针对图中所展示的简单情况,所述图表是具有经重新缩放x轴的回归图表。图2B说明生物反应器(罐)的实际产率值与简单线性预测产率值的比较。水平虚线是实际罐值的全局均值,且对角虚线表示拟合线的实际位置的95%置信区间。在此,经预测P、RSq及RMSE是模型性能的主要指标,其中经预测P是拟合的P值,RSq是相关性的R2,且RMSE是预测的均方根误差。在这些指标中,RMSE对优化目的最有用,因为其是预测准确性的最直接测度。
优化
离群值
在检查以上图表时,一些菌株的行为与其余菌株非常不同且在空间上是孤立的。这些离群值可分为两种类型:类型1离群值,其表示性能极端值(y轴)(例如,产率);及类型2离群值,其表示、另称为代表x轴上的极端值的“高杠杆点”。类型1离群值是远离拟合线的菌株;即,其是不良的预测(图2B的右下象限中标记为N的菌株是一个实例)。此类菌株影响模型的拟合且可能削弱所有其它菌株的预测性,而自身仍为不良的预测。一种优化是移除此类菌株以改进模型的总体预测能力。另一优化是将因子添加到传递函数模型或到汇总在高处理量水平下的菌株性能的模型(例如,并入平板位置偏差或遗传因子的平板模型)。
类型2离群值是在拟合线上或接近拟合线但仍远离其它菌株的菌株(图2B的左下角中标记为A的菌株是一个实例)。距离可以数种方式测量,包含:距其它菌株的质心的距离;或到最近的其它菌株的距离。类型2离群值对简单线性模型施加过大影响。所述模型的目的是尽可能准确地预测剩余菌株的性能。因此,本发明的实施例通过移除类型2离群值(符合一般统计实践)或替代地通过凭借添加预测因子来优化模型而关于类型2离群值进行优化。
在通过移除离群值进行优化的情况下,本发明的实施例提供用以将菌株标记为待移除的离群值的至少两种方法:
第一方法是基于菌株作为离群值反复出现及具有有意义的基本原理,所述有意义的基本原理基于菌株的不寻常特性或其在较大规模下由于无法表示大部分菌株而将其排除的性能。例如,图2B中的A菌株是模型中的其它菌株的祖先,但在一定规模下在遗传及性能上与其它菌株相距甚远。N菌株具有已知在平板中给出良好结果但无法在较大规模下消耗足够葡萄糖的修饰。
第二离群值标记方法是将“杠杆指标”指派给每一菌株且在由于移除菌株所致的指标变化超过预定义截止值(“杠杆阈值”)的情况下将所述菌株视为离群值。例如,杠杆指标可表示在模型中具有菌株的情况下与没有菌株的情况下RMSE的百分比差异,且截止值可为10%改进。在这种情况下,图3中描绘移除N菌株的结果。
图3是与图2B的图表等效的图表,除移除类型1离群菌株N之外。移除N菌株会将RMSE从2.43降低到2.09,或降低14%,其比当前使用的10%的截止值高。因此,预测引擎会识别离群值以进行移除。
由于过拟合的危险,应小心地移除离群菌株(例如,将离群值截止值设置得太低),即,建立可很好预测小菌株子组但当用于更广泛群体时表现不佳的模型。一种防止这种情况的方式是使用由模型中的候选菌株的数目或分数加权的截止值。例如,如果基本截止值是10%且模型中可包含100个菌株,那么移除第一菌株的截止值可为0.1/0.99,移除第二菌株的截止值可为0.1/0.98,移除第三菌株的截止值可为0.1/0.97等。
在移除一个类型2离群值及四个类型1离群值之后,图3的拟合变为如图4中所展示那样。图4是与图2B等效的图,除移除四个类型1离群值及一个类型2离群值之外。应注意,相对于图2B中的模型,图4中的RSq及RMSE两者分别改进达近似6%及21%。
遗传及其它因子
样本的遗传或其它特性(包含过程方面,例如用于生长菌株的培养基的批号)也可对改进作为传递函数中作为因子的预测能力有用,尤其是鉴于高处理量平板模型不可能独自完全概括样本将在大规模下经受的条件。特定来说,在代谢工程的情况下,不可能再现5升或更大生物反应器中的条件,例如平板中的200μL孔中的流体动力学、剪切应力以及氧气及营养物扩散的效应。基于例如培养基组合物、培养基制备方法、经测量化合物及测量时序的因子来改进物理平板模型的工作具有以下缺点:既耗时又昂贵,且可能使比较在新平板模型下运行的样本与在旧平板模型下运行的样本变得困难。因此,本发明的实施例识别且使用平板模型的其它预测因子来改进预测。根据本发明的实施例,一些那些其它因子包含:
·考虑由于菌株在平板上的位置所致的偏差
·平板特性,如同培养基类型/批次,shaker_location偏差
·过程特性,例如用于接种孔的甘油原料已使用的次数及在较低处理量步骤及较高处理量步骤两者中使用哪种类型的机器
·样本特性(例如细胞谱系或已知遗传标记物的存在/缺失)
特定来说,发明人发现遗传因子可用于改进代谢工程菌株的传递函数—例如,并入关于导致基因调节差异的变化的信息。
图5描绘基于图4中的所有菌株是否具有某个遗传修饰(例如,特定基因中的起始密码子交换)将校正应用于所述菌株的结果。作为实例,针对多元回归传递函数模型,考虑起始密码子交换的存在或缺失的调整/校正可采取分别将性能分量mixi或性能分量mjxj添加到由传递函数预测的菌株的平均罐产率性能的形式(应注意,权重m可采取负值)。在实施例中,mi可取单个值,且x取决于修饰是否存在而分别为+1或-1。在其它实施例中,mi可取单个值,且x是+1或0。
图5与图4等效,除其包含aceE基因中起始密码子交换的存在或缺失的校正因子之外。这个校正将RSq从0.71增加到0.79且将RMSE从1.9降低到1.6(16%)。
图6是图5中所展示的模型的回归图表。所述回归图表(图6)展示取决于修饰是存在(上线)还是缺失(下线)而本质上使用两个回归线。
图7说明在不校正遗传因子的情况下的生产力模型。校正遗传学的结果在生产力模型中甚至更惊人。在不校正平板模型未能概括的遗传变化(例如,启动子交换)的情况下,模型如图7中所展示那样。
包含对这个修饰的存在或缺少的校正产生图8中所展示的模型。图8说明在校正遗传因子(例如,特定启动子交换)之后的图7的生产力模型。启动子交换是启动子修饰,包含插入、删除或替换启动子。
在模型(例如,多元回归模型)中包含这个因子会将RSq从0.45增加到0.73且将RMSE从0.53减小到0.37(30%),这是预测能力的有效增加。事实上,检查针对怀有这个修饰的菌株的平板性能的改进(“hts_prod_difference”)对生物反应器(罐)性能的改进(tank_prod_difference)(其中移除两个离群值)且将其拟合到线会产生图9。
图9说明针对怀有与图8中相同的启动子交换的菌株的高处理量生产力模型性能的改进(x轴)对低处理量生物反应器(例如,罐)中的实际生产力的改进(y轴)。
拟合线的方程式是19+1.9*hts_prod_difference,这意味着可预期在平板模型中怀有与其亲代无法区分的这个变化的菌株在一定规模下比其亲代好近似20%,这是平板模型无法独自准确地预测重大改进。即使平板模型独自预测为在平板水平下将比亲代差(如同图9的图表中的D及E)的菌株事实上在罐规模下也要远好于亲代。在模型中包含这个变化的因子会准确地预测新菌株中的这些效应且避免作为假阴性失去此类菌株。
由于上位相互作用,遗传因子的群组也可用于预测,其中两个或两个以上修饰的组合效应与从孤立修饰的加法效所预期的不同。针对上位效应的更详细解释,请参考2016年12月7日申请的第PCT/US16/65465号PCT申请案,其全部内容以引用方式并入本文中。
另一因子是谱系。谱系与遗传因子的类似之处在于其是遗传性的,但谱系考虑相比于其它谱系中的其它菌株存在于菌株中的已知遗传变化及未知遗传变化两者。本发明的实施例采用谱系作为建立菌株祖先的有向无环图的因子,且测试最具连接性的节点(即,最频繁地用作进一步遗传修饰的靶点或具有最大数目个后代的祖先菌株)以将其用作预测因子。
对传递函数输出的修改
使用传递函数输出的最简单方式是使用输出作为在一定规模下的性能的预测。另一方法是将亲代菌株与子代菌株之间的传递预测的百分比变化应用于亲代的实际大规模性能(即,prediction=parent_performance_at_scale+parent_performance_at_scale*(TF_output(daughter)-TF_output(parent))/TF_output(parent)),其中parent_performance_at_scale是在一定规模(即,较大规模)下观测的亲代菌株的性能,TF_output(strain)是由于应用传递函数所致的菌株的“菌株”的经预测性能,且子代菌株是如通过一或多个遗传修饰来修饰的亲代菌株的变体。这具有移除与在一定规模下亲代对子代的性能的影响相关联的噪音的益处,但假设存在此影响;即,假设在预测子代的性能时传递函数的误差与在预测亲代时的误差的量值及符号近似相同。
其它统计模型
上文假设传递函数使用简单线性回归模型及多元回归模型,但在本发明的实施例中也可采用更复杂的线性模型,例如岭回归或套索回归。另外,在实施例中可采用包含多项式(例如,二次)或逻辑拟合的非线性模型,或例如K最近邻或随机森林的非线性机器学习模型。可使用更复杂的交叉验证方法来避免过拟合。
算法实例
在实施例中,在算法中实施关于包含哪些样本(菌株)或将哪些样本(菌株)作为离群值排除及包含哪些潜在因子以改进预测能力的决策以确保可再现性,探索尽可能多的改进可能性且减小潜意识偏见的影响。可采用多种方法,且下文呈现一个此类循环/迭代过程的实例,其中小规模、高处理量环境可对应于平板环境,且大规模、低处理量环境可对应于罐环境。
1.从一组菌株开始,使用(若干)性能测量(例如,氨基酸滴度)作为开发预测模型(例如,线性回归)的(若干)唯一因子。
a.这些菌株是已知其实际平板数据及罐性能数据的菌株。
2.识别将其从传递函数模型移除会最大地改进模型的RMSE的菌株(“离群值”)。
a.替代地,识别对于从所述模型的潜在移除具有最大预测误差的菌株(菌株的经预测性能对经测量性能)。
3.如果移除菌株带来的RMSE改进大于预定义截止值,那么前进到步骤4;否则转到步骤10。
4.识别适用于离群值的潜在预测因子,所述潜在预测因子不存在于模型中当前包含的所有其它菌株中(因为在所有菌株中等效的因子对总体预测能力无用),且尚未作为因子包含在模型中。任选地,算法可识别存在于至少一个其它菌株中的因子,同时仍满足以上条件。
a.作为离群菌株的特性的因子可包含例如已知已进行的遗传变化、谱系(菌株祖先的历史)、表型特性、生长率。
b.应注意,如果因子影响在仅一个菌株中,那么算法可调整模型以校正那个单个菌株,但通常修改模型以考虑单个菌株可能不是预期目标。而且,如果因子在所有其它菌株中,那么其不具有预测值。
c.应注意,实施例可采用将自动地执行这个函数的机器学习模型,但识别模型的因子可减小机器学习模型的资源负担。
5.如果来自步骤4的列表为空,那么从模型排除离群值且转到步骤2。
6.否则,临时在模型中应用来自步骤4的因子。
a.如上所述,实施例可采用简单线性回归传递函数,例如y=m1x1+b,其中x1是平板上菌株的性能,且m1是应用于x1的权重(斜率)。在实施例中,可通过添加加权因子(回归系数)以生成形式y=m1x1+m2x2+…+mNxN+b的多元回归模型来细化模型,其中x1是平板上菌株的性能,其它xi(i≠1)表示除性能x1以外的因子,m1是应用于x1的权重,且mi是应用于因子xi的权重。在实施例中,x1可表示平板模型的输出。在实施例中,所有xi可表示平板模型的输出。
b.在实施例中,可一次添加一个因子,且调整权重,直到误差(或P值)减小达令人满意的量为止,然后添加下一因子。
7.如果因子未改进模型的误差达误差阈值或如果其具有高于P值阈值的P值,那么算法可移除所述因子(例如,多元回归方程式中的x值)。例如,本发明的实施例可从回归模型(预测函数)移除特定遗传因子(即,已知已在菌株中进行的遗传修饰),前提是那些因子未改进误差达误差阈值或其具有高于P值阈值的P值。
8.根据本发明的实施例,如果任何剩余遗传因子是具有高方差膨胀因子(例如,>3,指示因子之间的共线性)的群组的部分,那么预测引擎可仅保持在每一群组内具有最低P值的遗传因子。高方差膨胀指示因子之间的高度相关性。包含高度相关因子将无法提供太多预测值且可能引起过拟合。根据本发明的实施例,预测引擎可使用方差膨胀因子来测量因子之间的相关性,且从移除高度相关因子开始直到达到令人满意的方差膨胀因子为止。
9.如果此时已移除来自步骤4的所有遗传变化,那么从模型移除离群菌株,且返回到步骤2。
a.如果条件为真,那么算法已确定在不移除离群值的情况下无法令人满意地改进算法。
10.在迭代通过步骤2到9或从步骤3跳到此处之后,移除不适用于任何剩余菌株或适用于所有剩余菌株的任何因子。任选地,移除仅适用于一个菌株的任何遗传因子。
以上算法的结果可为经改进模型,其中移除一些离群值且调整所述模型以考虑更多因子。输出包含用于开发模型的菌株及模型中使用的因子连同其权重。
根据本发明的实施例,预测引擎可比较多个预测函数的性能误差指标,且至少基于所述比较来对所述预测函数进行排名。参考以上算法,预测引擎可比较通过不同迭代(例如,经移除的不同离群值、经添加的不同因子)创建的模型的预测性能。根据实施例,预测引擎可比较通过不同技术(例如,岭回归、多元回归、随机森林)创建的模型的预测性能。
本发明的实施例测试传递函数的新版本且通过在大规模下测量菌株的实际性能来监测其性能。新传递函数的预测可比对传递函数的其它版本进行回测且关于历史数据进行性能比较。接着,可关于新数据与其它版本并行地对传递函数进行前向测试。可随时间监测性能指标(例如RMSE),使得如果性能开始下降,那么可快速地进行改进。(可使用类似过程来改进及监测平板模型,且还可组合所述两个过程以包含关于改进努力是应集中在传递函数还是平板模型上的决策点。)
在实施例中,如果传递函数未能在生物反应器规模下准确地预测菌株性能,那么可对物理平板培育模型进行物理调整。如同对数学模型的参数/权重的调整,可基于感兴趣表型对物理平板模型进行物理改变。可进行并评估若干改变以确定哪个(些)物理平板模型产生最好的传递函数。变化的实例包含但不限于培养基组合物、培育时间、经测量化合物及接种量。
实验实例
以下两个实例展示使用本发明的实施例来在不同有机体中产生不同的感兴趣产物。
实例1
在拟合用于基于较小规模(例如,平板)预测在较大规模(例如,罐)下微生物的性能的统计模型时,本发明的实施例使用多个指标以及标准统计技术用于拟合所述模型。在这些实验中,预测引擎每个平板使用多个平板测量来导出预测函数,且平板值是基于统计平板模型,而统计平板模型自身基于原始、经测量物理平板数据。这个实例1涵盖一个主产物,即,由糖多孢菌属细菌产生的聚酮化合物。
在以下论述中,本发明的实施例使用标准调整的R2、一组测试菌株的均方根误差(RMSE)及留一交叉验证(“LOOCV”)指标。
RMSE:使用一组菌株,即,训练菌株(标记为“训练”)来拟合模型。接着,预测引擎在平板中筛选许多新菌株(而非用于训练模型的菌株),且将那些菌株的子组提升到罐(即,选择具有将在较大规模的罐中生成的良好统计数据的菌株)。预测引擎针对这组测试菌株计算
Figure BDA0002482952280000161
其中n是测试菌株数,且变量tank是在罐规模下的感兴趣性能指标(例如,产率、生产力)。
LOOCV:根据本发明的实施例,针对任何新模型,根据LOOCV,预测引擎迭代通过所述组训练菌株。在每一步骤中,预测引擎从训练数据移除菌株,使用剩余训练数据来拟合模型,且计算作为测试菌株的经移除、先前训练菌株的RMSE(参见RMSE的前文论述)。预测引擎将RMSEi设置为RMSE,其中移除第i菌株。接着,预测引擎计算这组RMSE值的均值,因此
Figure BDA0002482952280000162
其中m是训练集中的菌株总数。
图18是针对主要感兴趣指标的平板值对罐值的曲线图。所述图展示合理线性关系。如果预测引擎在标记为train的微生物上拟合简单线性模型tank=b+m1*plate_value1,其中b=-3.0137,m1=0.0096且plate_value1是由统计平板模型处理的以mg/L为单位的聚酮化合物值,那么经调整R^2是0.65,留一CV是2.65,且测试集的RMSE是5.2152。
如果预测引擎代替地拟合线性回归模型tank=b+m1*plate_value1+m2*plate_value1*plate_value2,其中b=0.7728,m1=0.0325,m2=0.0000646,且两个plate_value是针对由统计平板模型处理的两个不同聚酮化合物(以mg/L为单位),那么预测引擎提供预测性高得多的传递函数,如图19中所展示。应注意,平板值plate_value1、plate_value2等表示同一平板上的测定,且可为在平板上的相同或不同测定(例如,所有感兴趣产物测定(例如,产率)),或代替地感兴趣产物及另一测定物(例如生物量或葡萄糖消耗)。根据本发明的实施例,平板值或罐值可分别表示平板或罐的给定值的平均量。
这个传递函数具有2.25的LOOCV、0.77的经调整R2,但最重要的是,测试集上的RMSE降到4.36。
在获取更多数据且更新平板及罐数据之后,主要感兴趣指标的平板值对罐值如图20中所展示那样。
简单线性模型tank=b+m1*plate_value1,其中b=2.735544,m1=0.009768,具有这些数据的混合结果。LOOCV是3.16且经调整R2是0.49。LOOCV较差且经调整R2比先前迭代差很多,但测试集上的RMSE大幅下降到2.8。
预测引擎使用以上形式的加权最小平方模型运行:tank=b+m1*plate_value1+m2*plate_value1*plate_value2,但回归系数mi取决于在罐规模下的复制品数目,其中在相同的两个聚酮化合物的情况下(如前述以mg/L为单位),b=6.996,m1=0.01876且m2=0.000237。在此,通过除LOOCV之外的所有指标来获得改进模型,如图21中所展示。(平板值由统计平板模型提供。)这些统计是LOOCV=3.14,经调整R^2=0.79,且测试集上的RMSE=2.99。作为将罐规模复制品数目纳入到权重mi中的背景,权重向量是通过求解y=Xm+e(在此y是经观测罐值的向量且X是平板值的矩阵)使用普通最小平方来确定。权重向量经计算为m=(XTX)-1XT*y。这个公式假设误差的方差(其是随机变量)均相同。然而,这个假设通常在实验中不成立—罐中的复制品数目极大地影响方差计算,且菌株通常不具有相等方差,因此其在这个公式中的误差也将不相等。如果允许误差不同,那么在我们拟合以上模型时,我们代替地得到m=(XTWX)-1XTWy,其中W是对角矩阵且对角条目是“权重”。权重被解释为wi=1/sigmai 2,其中sigmai 2是第i误差的方差。这实际上意味着,对具有小方差的观测赋予较大权重(也对拟合产生较大影响),且对具有高方差的观测赋予较小权重(影响)。根据本发明的实施例,我们取wi=罐复制品数目,且以那种方式,具有较多观测的菌株在拟合中具有较大权重,因为预期在那些菌株的观测中总体误差较小。
在另一试验中,预测引擎产生另一预测(传递)功能,其中进行测定的时间发生变化且使用一组新训练菌株。这个函数尚不存在测试数据。针对与上述相同的聚酮化合物,使用先前加权最小平方法(其中公式是tank=b+m1*plate_value2+m2*plate_value2*plate_value3,其中b=-4.482,m1=0.05247,m2=0.0001994,经调整R2跳到0.93,但LOOCV高达7.44),这表明存在一些高杠杆点。
这个模型的额外平板值仍使用加权最小平方但使用公式b+m1*plate_value2+m2*plate_value2*plate_value3+m3*plate_value4(其中b=-1.810,m1=0.0563,m2=0.0001524,m3=0.5897,plate_value2及plate_value3是与上述相同的两个聚酮化合物的mg/L指标,且plate_value4是以光密度(OD600)测量的生物量)来测试。LOOCV降到6.22,仍高于以前,但远低于先前值且因此经调整R^2现在是0.95。当然,这个传递函数的真实测试是测试其对新菌株的预测能力。
实例2
这个第二实例反映实例1的一些方面,其中拟合连续地包含每个平板的额外平板测量(例如,不同类型的测量,例如产率、生物量)的传递函数集以尝试拟合罐性能的更精细估计。这个实例2涵盖一个主产物,即,由棒杆菌产生的氨基酸。另外,这个实例展示将传递函数应用于不同罐变量测量(在此称为“tank_value2”)的情况。
一个罐测量,多个平板测量
模型1
在第一模型中,根据本发明的实施例,我们拟合假设tank_value1~1+plate_value1的简单模型。应注意,“~”是指“根据预测模型的函数,例如线性回归或多元回归”。图22的基础图表展示平板值的值(以统计平板模型表示)与经观测罐值的值之间的关系。
如从所述图表可见,在关于平板指标中的一者对罐值输出进行建模时,两者之间可能存在线性关系。
进行另一步骤,预测引擎进行LOOCV(留一交叉验证)以通过训练除1之外的每个菌株来获取模型的性能,接着测试与那个值的拟合。接着,LOOCV分数是在移除每一数据点时采用的所有测试指标的平均值。
如此做导致以下性能:
##RMSE MAE
##1 3.262872 2.532292
特定来说,对于RMSE,预测引擎计算RMSE与平均罐性能的比率以得到相对于平均结果的误差量值:
##[1]5.416798
这个结果指示相对于罐性能的平均值存在约5%的估计误差。
模型2
既然发明人已获得基线,其将来自同一平板的另一测量添加到所述模型以比较性能,从而导致以下形式的预测函数:tank_value1~plate_value1+plate_value2,其具有以下统计:
##RMSE MAE
##1 3.376254 2.59808
在这种情况下,性能似乎略差,因为RMSE及MAE有点高。参见图23。
模型3
最后,在这个过程的第三实例中,发明人添加又一因子,使得所述模型是tank_value1~plate_value1+plate_value2+plate_value3
参见图24,这提供略好于第一模型的拟合,因为使用RMSE指标的LOOCV对于这个模型来说略低。
##RMSE MAE
##1 3.224997 2.51152
因此,相对百分比误差略低于原始模型。
##[1]5.353921
多罐测量
如所述,传递函数可应用于预测同一罐的多个结果。例如,预测引擎拟合形式tank_value1~plate_value1的先前模型,但在另一试验中,预测引擎将另一模型拟合到不同输出(例如,产率而非生产力):tank_value2~plate_value1。图25绘制两个经测量罐值相互之间的关系。
参考图26,预测引擎拟合形式tank_value2~plate_value1的模型,其中已知tank_value2的经观测测量先验地比tank_value1的经观测测量易变得多。因此,我们会先验地预期这个模型的指标将不如以上指标。预测引擎拟合这个模型,从而导致如下RMSE及MAE:
##RMSE MAE
##1 0.6315165 0.501553
将RMSE与实际值进行比较得到误差的量值:
##[1]19.88434
如果需要,那么可如上文所描述那样重复迭代方法以基于所述模型的LOOCV性能添加或移除特征。
考虑微生物生长特性的预测模型
本文中的章节“其它统计模型”是指多种预测模型。根据本发明的实施例,预测引擎考虑微生物生长特性。根据本发明的实施例,预测引擎将多个基于平板的测量组合成一些微生物相关参数(例如,生物量产率、产物产率、生长率、生物量特异糖摄入率、生物量特异生产力、量糖摄入率、量生产力)中以用于传递函数中。
根据本发明的实施例,传递函数是基于在一或多个基于平板的实验中进行的测量来预测生物反应器性能的数学方程式。根据本发明的实施例,预测引擎将平板中进行的测量组合成数学方程式,例如:
PBP=a+b*PM1+c*PM2…n*PMn
其中:
PBP=经预测生物反应器性能(例如,本文中的其它实例中是y),
PMi=第i平板数据变量(例如,本文中的其它实例中是第一规模性能数据变量xi),其可为测量或测量函数,例如测量组合或测量统计函数(例如,统计平板模型),且
如在本文中的其它实例中,a、b、c、···n可表示为mi
以上方程式是线性方程式。根据本发明的实施例,预测引擎还可采用以下形式的传递函数:
·二次方程式(例如,PBP=a+b*PM1^2+c*PM2^2)
·相互作用方程式(例如,PBP=a+b*PM1+c*PM2+d*PM1*PM2)
·不同方程式的组合
根据本发明的实施例,预测引擎采用考虑微生物生长特性的传递函数。组合线性方程式与二次、多项式或相互作用方程式可导致待拟合的许多参数(例如,a、b、c、d、n)。特定来说,在仅存在很少“阶梯菌株”(具有不同且已知的性能的相异菌株组)用于校准模型时,这可能导致数据过拟合及不良预测值。
因此,基于微生物生长动力学,预测引擎可采用数学框架,所述数学框架使用测量与参数之间的选定减法、除法、自然对数及乘法将多个测量组合成一些微生物相关参数(例如,生物量产率、产物产率、生长率、生物量特异糖摄入率、生物量特异生产力、量糖摄入率、量生产力)。(进一步关于预言性实例论述这种方法。)
通常,本发明的实施例的预测引擎考虑两种类型的基于平板的测量:
·起点及终点测量,其可用于评估转化产率
·中点测量,其可用于评估转化率及产率
起点及终点测量以及微生物参数计算
典型测量:
Cx-生物量浓度(例如,通过光密度(“OD”)测量)
主培养起点时的生物量浓度可为:
·从测量种菌培养终点时的生物量且校正传递量及主培养量推导,即,主培养起点时的生物量浓度=种菌培养终点时的生物量浓度*(种菌的主传递量)/(主起始量)。种菌培养包含从冷冻条件恢复一组菌株的工作流程。“主”培养包含测试菌株性能的工作流程。
·从开发实验估计为常数(例如,在所有菌株具有OD 0.1到0.15的起始生物量浓度时,平均值可取为代理)。培养结束时(在特定条件下生长微生物)的生物量浓度通常远高于开始时,且可在数学上从一些方程式中忽略掉开始时的生物量浓度(例如,如果测量生物量产率时最终生物量浓度比初始浓度高十倍以上)。
Cp-产物浓度
应注意:可对感兴趣副产物执行相同的产物浓度测量及计算。
开始时的产物浓度可为:
·从种菌培养结束时测量产物且校正传递量及主培养量推导,即,主培养开始时的产物浓度=(种菌结束时的产物浓度)*(传递量)/(主起始量)
·从开发实验估计为常数(例如,在所有菌株具有0.1g/L到0.15g/L的起始产物浓度时,平均值可取为代理)。请注意,培养结束时的产物浓度通常远高于开始时,且可从数学上忽略掉开始时的产物浓度。
Cs-糖浓度
开始时的糖浓度是来自培养基制备的已知参数。
培养结束时的糖浓度通常是零,但可根据需要进行测量。
微生物相关参数的计算:
生物量产率(Ysx,每克糖的细胞克数)
Figure BDA0002482952280000211
即,生物量产率=(结束时的生物量浓度–开始时的生物量浓度)/(开始时的糖浓度–结束时的糖浓度)
产物(或副产物)产率(Ysp,每克糖的产物克数)
Figure BDA0002482952280000212
产物(或副产物)产率=(结束时的产物浓度–开始时的产物浓度)/(开始时的糖浓度–结束时的糖浓度)
中点测量及微生物参数计算
典型测量:
时间,例如t1及t2
应注意:t1可为主培养的起点。了解上文如何在培养开始时估计Cx及Cp
Cx-生物量浓度(例如,通过光密度测量)
根据本发明的实施例,如果在给定发酵液组合物的情况下可能的话,测量t1或t2时的生物量浓度。
Cp-产物浓度
根据本发明的实施例,测量t1及t2时的产物浓度
Cs-糖浓度
根据本发明的实施例,测量t1或t2时的糖浓度
开始时的糖浓度是来自培养基制备的已知参数
计算
生物量产率(Ysx,每克糖的细胞克数)
Figure BDA0002482952280000221
即,生物量产率=(t2时的生物量浓度–t1时的生物量浓度)/(t1时的糖浓度–t2时的糖浓度)
产物产率(Ysp,每克糖的产物克数)
Figure BDA0002482952280000222
即,产物产率=(t2时的产物浓度–t1时的产物浓度)/(t1时的糖浓度–t2时的糖浓度)
指数生长率(mu,每小时)
Figure BDA0002482952280000223
即,mu=ln(t2时的生物量浓度/t1时的生物量浓度)/(t2的时间–t1的时间)
基于指数生长:Cx(t2)=Cx(t1)*exp(mu*(t2-t1))
生物量特异糖摄入率(qs,每克细胞每小时的糖克数)
Figure BDA0002482952280000224
即,qs=[ln(t2时的生物量浓度/t1时的生物量浓度)*(t1时的糖浓度–t2时的糖浓度)]/[(t2时的生物量浓度–t1时的生物量浓度)*(时间t2–时间t1)]
基于:
dCx/dt=mu*Cx
dCx/dt=qs*Ysx*Cx
qs=mu/Ysx
Mu=ln(Cx(t2)/Cx(t1))/(t2-t1)
Ysx=(Cx(t2)-Cx(t1)/(Cs(t1)-Cs(t2)
生物量特异生产力(qp,每克细胞每小时的产物克数)
Figure BDA0002482952280000231
qp=[ln(t2时的生物量浓度/t1时的生物量浓度)*(t2时的产物浓度–t1时的产物浓度)]/[(t2时的生物量浓度–t1时的生物量浓度)*(时间t2–时间t1)]
基于:
qp=qs*Ysp
qp=[(mu/生物量产率)]*[(t2时的产物浓度–t1时的产物浓度)/(t1时的糖浓度–t2时的糖浓度)]
qp=(ln(t2时的生物量浓度/t1时的生物量浓度)/(t2的时间–t1的时间)/[(t2时的生物量浓度–t1时的生物量浓度)/(t1时的糖浓度–t2时的糖浓度)])*[(t2时的产物浓度–t1时的产物浓度)/(t1时的糖浓度–t2时的糖浓度)]
qp=ln(Cxt2/Cxt1)/(t2-t1)/Cxt2-Cxt1/Cst2-Cst1*Cpt2-Cpt1/Cst1-Cst2
移除Cs且简化为:
qp=ln(Cxt2/Cxt1)/(t2-t1)/((Cxt2-Cxt1)*(Cpt2-Cpt1))
以下参数Rs及Rp是与以上微生物率参数(qs及qp)不同的过程速率参数。一个差异是微生物率参数是每细胞指标,而过程参数是取决于细胞数的集体率参数(例如,Rs=qsCx)。
量糖转化(Rs,每升每小时的糖毫摩尔数)
Figure BDA0002482952280000232
Rs=(t1时的糖浓度–t2时的糖浓度)/(t2时的时间–t1时的时间)
量生产力(Rp,每升每小时的产物毫摩尔数)
Figure BDA0002482952280000233
Rp=(t2时的产物浓度–t1时的产物浓度)/(t2时的时间–t1时的时间)
预言性实例
以下是考虑微生物的指数生长行为的预言性实例。
使用以下动力学生长模型公式,针对具有多种糖摄入率、生物量产率及产物产率的微生物对葡萄糖消耗、生物量形成及产物形成进行建模:
生物量特异糖摄入率(qs),其取决于糖浓度:
qs=qs,max*Cs/(Ks+Cs)
每个时间间隔(dt)的糖消耗(dCs),其取决于生物量特异糖摄入率及生物量浓度以及糖进给率:
dCx/dt=-qs*Cx*+Fs
每个时间间隔(dt)的生物量产生(dCx),其取决于生物量特异糖摄入率、糖异化维持、生物量浓度及生物量产率:
dCx/dt=qs*Cx*Ysx,max
每个时间间隔(dt)的产物形成(dCx),其取决于生物量特异糖摄入率、糖异化维持、生物量浓度及产物产率:
dCx/dt=qs*Cx*Ysp
一些参数如下指派:
Figure BDA0002482952280000241
所述模型的输入参数是可变糖摄入率、可变生物量产率(Ysx)、可变产物产率(Ysp)及一些常值参数。
下表A展示在假设场景A到G中使用的可变(最大)糖摄入率(qs):
场景 糖摄入率qs(g糖/g细胞/h)
A 0.4
B 0.45
C 0.5
D 0.55
E 0.6
F 0.65
G 0.7
下表B展示在假设场景1到9中使用的可变生物量产率(Ysx)及可变产物产率(Ysp)(权衡值)。
场景 生物量产率Ysx(gX/gS) 产物产率Ysp(gP/gS)
1 0.049286018 0.675
2 0.061607522 0.65625
3 0.073929026 0.6375
4 0.086250531 0.61875
5 0.098572035 0.6
6 0.11089354 0.58125
7 0.123215044 0.5625
8 0.135536548 0.54375
9 0.147858053 0.525
下表C展示用于所述实例的常值参数:
参数 单位
初始细胞浓度Cx0 1 G细胞/L
初始糖浓度Cs0 30 G糖/L
糖进给率 0.5 G糖/L/h
糖摄入亲和力常值 0.5 G糖/L
图27绘制使用动力学生长模型随时间估计的糖(Cs)2702、产物(Cp)2704及生物量(Cx)2706的浓度。参见表D的实例,其中糖摄入率是0.5g糖/g细胞/h,生物量产率是0.1355g生物量/g糖且产物产率是0.544g产物/g糖。
如下表D中所展示,针对不同场景A到G及1到9的组合,在不同时间点使用动力学生长模型模拟样本(包含低噪声水平,0.3%)。培养20小时之后的经建模糖、产物及生物量浓度参见下文。比较所述值与发酵中的菌株的产物产率(Ysp-ferm),假设所述产率产物与微生物的产物产率(Ysp)相同。
表D
Figure BDA0002482952280000251
Figure BDA0002482952280000261
Figure BDA0002482952280000271
接着,计算以下者之间的相关性:
如图28中所展示,平板中20小时之后的发酵器产率(感兴趣关键性能指标(“KPI”))及Cp(不良相关性),导致:
RSquare 0.16096
RSquare Adj 0.147205
均方根误差 0.044687
如图29中所展示,平板中20小时之后的发酵器产率(感兴趣KPI)及Cs(不良相关性),导致:
RSquare 0.325469
RSquare Adj 0.314411
均方根误差 0.040068
如图30中所展示,平板中20小时之后的发酵器产率(感兴趣KPI)及Cx(不良相关性),导致:
RSquare 0.678133
RSquare Adj 0.672857
均方根误差 0.027678
如上文所展示,当处理具有不同糖摄入率、生物量产率及产物产率的多种菌株且进行中培养测量时,根据这个预言性实例的糖、产物及生物量的个别测量与发酵器产率并非密切相关。
如图31中所展示,还基于平板中20小时之后的Cp及Cs两者的函数(例如,商),针对发酵器(例如,罐)产率(感兴趣KPI)及平板中20小时之后产物产率的计算来计算统计,从而导致良好相关性:
Ysp=Cp/(前20小时的总体糖进给–Cs)
RSquare 0.982442
RSquare Adj 0.982154
均方根误差 0.006464
如上文所展示,通过(形成的产物除以消耗的糖)的商估计产物产率,导致与发酵器产率的好得多的相关性。微生物测量的这个比率是微生物性质的估计。微生物性质的其它实例包含:糖消耗率、生物量产率、产物产率(Ysp)、生长率及细胞特异产物形成率。
如上所述,预测函数可表示为变量的加权和:
PBP=a+b*PM1+c*PM2…n*PMn
其中:
PBP=经预测生物反应器性能(例如,本文中的其它实例中是y),
PMi=第i平板数据变量(例如,本文中的其它实例中是第一规模性能数据变量xi),其可为测量或测量函数,例如测量组合或测量统计函数(例如,统计平板模型),且
如在本文中的其它实例中,a、b、c、···n可表示为mi
上一预言性实例的结果表明,预测引擎可根据本发明的实施例用从例如商或其它测量组合的微生物测量导出的一或多个微生物性质替换PMi,而非使用例如Cp及Cs的测量直接作为平板数据变量PMi。
传递函数开发工具
传递函数开发工具提供一种用于为给定实验建立传递函数且记录从模型移除哪些菌株的可再现、稳健方法。具有用于传递函数的开发工具依赖于具有用于从较高处理量性能预测较低处理量性能的性能的统计模型的优化,且其本身是优化。此产物将所有优化包裹到一个封包中,这使科学家直截了当地使用传递函数及所有其优化。
根据本发明的实施例,原始平板-罐相关传递函数连同例如遗传因子的离群值移除及包含的优化一起简化以在传递函数开发工具(下文详述)中实践。在本发明的实施例中,传递函数开发工具可并入进一步优化,包含其它统计模型、对传递函数输出的修改及关于平板模型的考虑。
在本发明的实施例中,传递函数开发工具采用特定程序、实验及感兴趣测量的高处理量、较小规模性能数据,学习适当模型,且产生下一规模的工作的预测。图10到15展示所述工具的用户接口的实施例的一系列屏幕截图。
图10说明用户接口,所述用户接口具有用于项目名称、实验ID、选定平板汇总模型(在此,LS均值模型)及待使用的传递函数模型(在此,线性回归平板-罐相关模型)的用户输入框。
注意图形用户接口的地址栏1050中的URL行。这允许用户跟踪其在整个过程中的进度且确认其具有其想要实施的传递函数的正确信息。这个设置在数据模型前端且在工作流程基础架构中。
如图11中所说明,在用户输入其项目、实验及模型选择之后,用户可选择其感兴趣的测量,例如这个实例中的氨基酸产率(由“化合物”表示)。
图12根据本发明的实施例的在已开发平板-罐相关传递函数以预测在罐规模下的氨基酸性能之后的平板-罐相关传递函数的用户接口。在这个实例中,传递函数是线性拟合线。这个图中的工具促进离群值估算。用户接口提供由菌株ID识别的菌株列表1202(“异常菌株ID”)连同使用户能够选择待从传递函数模型移除的菌株的复选框。
在图13中,用户接口基于其中用户选择已从模型移除的离群值的传递函数呈现具有最高预测性能的十个菌株。本发明的实施例包括选择以进行制造及基于其预测性能在基因制造系统中制造菌株。在2017年4月26日申请的第PCT/US2017/029725号国际申请案、第WO2017189784号国际公开案中描述此基因制造系统,所述公开案主张2016年4月27日申请的第15/140,296号美国非临时申请案的优先权权益,所述两个申请案的全部内容由此以引用方式并入本文中。
参考图14,传递函数开发工具在已从模型移除用户选择的离群值之后传回选定传递函数的图示,且(参考图15)提供一种用于将经移除菌株的质量分数提交给数据库的机制,从而使最终结果可再现且为用户提供一种用于跟踪不太适合现有平板模型的菌株的机制。
机器学习
本发明的实施例可应用机器学习(“ML”)技术来学习在不同规模下的微生物性能之间的关系,从而考虑例如遗传因子的特征。在这个框架中,实施例可使用标准ML模型,例如决策树,来确定特征重要性。一些特征可能是相关的或冗余的,这可能导致不明确的模型拟合及特征检验。为了解决这个问题,可经由主成分分析对输入特征执行降维。替代地,可执行特征修整。
通常,机器学习可被描述为在使用有限数目个标记数据的实例来执行信息任务(例如分类或回归)且接着对未知数据执行相同任务时优化性能标准(例如,参数、技术或其它特征)。在例如采用线性回归的方法的监督式机器学习中,机器(例如,计算装置)例如通过识别由训练数据展现的模式、类别、统计关系或其它属性来学习。接着使用学习结果来预测新数据是否将展现相同模式、类别、统计关系或其它属性。
在训练数据可用时,本发明的实施例可采用其它监督式机器学习技术。在缺少训练数据的情况下,实施例可采用非监督式机器学习。替代地,实施例可采用使用少量标记数据及大量未标记数据的半监督式机器学习。实施例还可采用特征选择来选择最相关特征的子集以优化机器学习模型的性能。取决于选定机器学习方法的类型,作为线性回归的替代或补充,实施例可采用例如逻辑回归、神经网络、支持向量机(SVM)、决策树、隐马尔可夫模型、贝叶斯网络、格拉姆施密特(Gram Schmidt)、基于增强的学习、包含分级聚类的基于集群的学习、遗传算法及所属领域中已知的任何其它合适学习机。特定来说,实施例可采用逻辑回归来提供分类概率连同分类本身。参见例如《生物信息学》(Bioinformatics)2003年第19卷第17期第2246到2253页舍维德(Shevade)的《使用稀疏逻辑回归进行基因选择的简单且有效的算法》(A simple and efficient algorithm for gene selection usingsparse logistic regression),牛津大学出版社(2006)的《生物信息学》第22卷第1期第68到76页伦(Leng)等人的《使用时序基因表达数据的函数型数据分析进行分类》(Classification using functional data analysis for temporal gene expressiondata),所有所述文献的全部内容以引用方式并入本文中。
实施例可采用在执行机器学习任务方面越来越流行的图形处理单元(GPU)加速架构,特定来说呈称为深度神经网络(DNN)的形式。本发明的实施例可采用基于GPU的机器学习,例如在基于GPU的深度学习推断中所描述的机器学习:2015年11月《英伟达白皮书》(NVidia Whitepaper)达尔(Dahl)等人的《性能及功率分析》(A Performance and PowerAnalysis);2014年6月多伦多大学计算机科学系的《用于QSAR预测的多任务神经网络》(Multi-task Neural Networks for QSAR Predictions)(arXiv:1406.1231[stat.ML]),所有所述文献的全部内容以引用方式并入本文中。除其它参考外,适用于本发明的实施例的机器学习技术还可在2015年6月《自然评论:遗传学》(Nature Reviews:Genetics)第16卷利布瑞期特(Libbrecht)等人的《遗传学及基因组学中的机器学习应用》(Machinelearning applications in genetics and genomics);2014年9月《Latex类文件杂志Journal of Latex Class Files》第13卷第9期迦叶波(Kashyap)等人的《生物信息学中的大数据分析:机器学习观点》(Big Data Analytics in Bioinformatics:A MachineLearning Perspective);2005年柏林海德尔堡斯普林格(Springer Berlin Heidelberg),《生物信息学技术》(Bioinformatics Technologies)第5章第117到153页普拉姆巴莫特(Prompramote)等人的《生物信息学中的机器学习》(Machine Learning inBioinformatics)中找到,所有所述文献的全部内容以引用方式并入本文中。
计算环境
图16说明根据本发明的实施例的云计算环境。在本发明的实施例中,预测引擎软件1010可在云计算系统1002中实施,以使多个用户能够生成及应用根据本发明的实施例的传递函数。例如图17中所说明的客户端计算机的客户端计算机1006经由例如因特网的网络1008存取所述系统。所述系统可采用使用图17中所说明的类型的一或多个处理器的一或多个计算系统。云计算系统本身包含网络接口1012以经由网络1008将软件1010与客户端计算机1006介接。接口1012可包含应用程序编程接口(API)以使客户端计算机1006处的客户端应用程序能够存取系统软件1010。特定来说,客户端计算机1006可通过API存取预测引擎。
软件即服务(SaaS)软件模块1014将系统软件1010作为服务提供给客户端计算机1006。云管理模块10110管理客户端计算机1006对系统1010的存取。云管理模块1016可使采用多租户应用程序、虚拟化或所属领域已知的其它架构的云架构能够为多个用户服务。
图17说明根据本发明的实施例的可用于执行存储在非暂时性计算机可读媒体(例如,存储器)中的程序代码的计算机系统1100的实例。所述计算机系统包含输入/输出子系统1102,所述输入/输出子系统可用来取决于应用程序与人类用户及/或其它计算机系统介绍接。I/O子系统1102可包含例如键盘、鼠标、图形用户接口、触摸屏或其它输入接口,及例如LED或其它平面屏幕显示器或其它输出接口,包含应用程序接口(API)。本发明的实施例的其它元件,例如预测引擎可使用如同计算机系统1100的计算机系统来实施。
程序代码可经存储在非暂时性媒体中,例如辅存储器1110或主存储器1108或两者中的永久性存储装置中。主存储器1108可包含例如随机存取存储器(RAM)的易失性存储器或例如只读存储器(ROM)的非易失性存储器,以及用于更快地存取指令及数据的不同级别的高速缓冲存储器。辅存储器可包含例如固态驱动器、硬盘驱动器或光盘的永久性存储装置。一或多个处理器1104从一或多个非暂时性媒体读取程序代码且执行所述代码以使计算机系统能够实现由本文中的实施例执行的方法。所属领域技术人员将理解,(若干)处理器可摄入源代码,且将源代码解译或编译为在(若干)处理器1104的硬件门级可理解的机器代码。(若干)处理器1104处理器可包含用于处置计算密集型任务的图形处理单元(GPU)。
(若干)处理器1104可经由一或多个通信接口1107与外部网络进行通信,例如网络接口卡、WiFi收发器等。总线1105通信地耦合I/O子系统1102、(若干)处理器1104、外围装置1106、通信接口1107、存储器1108及永久性存储装置1110。本发明的实施例不限于这个代表性架构。替代实施例可采用不同布置及类型的组件,例如用于输入-输出组件及存储器子系统的单独总线。
所属领域技术人员将理解,本发明的实施例的一些或所有元件及其伴随操作可由包含一或多个处理器及一或多个存储器的一或多个计算机系统(如同计算机系统1100的处理器及存储器)完全或部分地实施。特定来说,预测引擎的元件及本文中所描述的任何其它自动化系统或装置可由计算机实施。一些元件及功能可本地地实施且其它元件及功能可通过不同服务器在网络上以分布式方式实施,举例来说例如以客户端-服务器方式。特定来说,服务器端操作可以软件即服务(SaaS)方式用于多个客户端,如图16中所展示。
所属领域技术人员将认识到,在一些实施例中,本文中所描述的一些操作可通过人为实施或通过自动手段及手动手段的组合来执行。在操作并非完全自动化时,预测引擎的适当组件可例如接收操作的人为执行结果,而非通过自身操作能力生成结果。
以引用方式并入
本文中所列出的所有参考文献、文章、公开案、专利、专利公开案及专利申请案的全部内容出于所有目的以引用方式并入本文中。然而,本文中所列出的任何参考文献、文章、公开案、专利、专利公开案及专利申请案的提及并非且不应被视为其构成有效现有技术或形成世界上任何国家/地区的公知常识的部分或其揭示实质内容的承认或任何形式的暗示。
尽管本发明可能未明确地揭示本文中所描述的一些实施例或特征可与本文中所描述的其它实施例或特征组合,但本发明应被解读为描述所属领域一般技术人员将可实践的任何此类组合。除非本文中另有指示,否则本发明中“或”的使用应被理解为意味非排他性或即,“及/或”。
在所附权利要求书中,引述“从权利要求x开始的前述权利要求中任一权利要求”的权利要求n应参考从权利要求x开始且以前一权利要求(权利要求n-1)结束的任一权利要求。例如,引述“根据从权利要求28开始的前述权利要求中任一权利要求所述的系统”的权利要求35参考根据权利要求28到34中任一权利要求所述的系统。

Claims (137)

1.一种计算机实施方法,其用于基于在第一规模下的测量来改进在第二规模下有机体关于感兴趣表型的性能,所述方法包括:
a.存取至少部分基于在第一规模下观测的一或多个第一有机体的第一性能的第一规模性能数据及至少部分基于在大于所述第一规模的第二规模下观测的一或多个第二有机体的第二性能的第二规模性能数据,其中所述第一规模性能数据至少部分基于第一规模统计模型;及
b.至少部分基于所述第二规模性能数据与所述第一规模性能数据的关系来生成预测函数,其中所述预测函数适用于在所述第一规模下观测的一或多个测试有机体关于所述感兴趣表型的性能数据以生成在所述第二规模下的所述一或多个测试有机体的第二规模预测性能数据。
2.根据权利要求1所述的方法,其中所述预测函数至少部分基于一或多个第一规模性能变量的加权和,其中所述第一规模性能变量中的至少一者基于有机体性能的两个或两个以上测量的组合。
3.根据前述权利要求中任一权利要求所述的方法,其中所述第一规模统计模型表示在所述第一规模下的有机体特征。
4.根据前述权利要求中任一权利要求所述的方法,其中所述有机体特征包括过程条件、培养基条件或遗传因子。
5.根据前述权利要求中任一权利要求所述的方法,其中至少一个有机体特征与有机体位置相关。
6.根据前述权利要求中任一权利要求所述的方法,其中生成所述预测函数进一步包括从考虑移除一或多个离群有机体的所述第一规模性能数据及所述第二规模性能数据。
7.根据前述权利要求中任一权利要求所述的方法,其中生成所述预测函数进一步包括并入一或多个因子以减小所述预测函数的误差。
8.根据前述权利要求中任一权利要求所述的方法,其中生成所述预测函数进一步包括调整至少一个遗传因子。
9.根据前述权利要求中任一权利要求所述的方法,其进一步包括:
a.通过来自一组因子的一或多个因子来修改所述预测函数;及
b.在生成所述预测函数时从考虑排除第一候选离群有机体,如果在生成所述预测函数时包含所述第一候选离群有机体,那么所述第一候选离群有机体会导致所述经修改预测函数具有未能满足杠杆条件的杠杆指标。
10.根据前述权利要求中任一权利要求所述的方法,其进一步包括:
a.通过来自一组因子的一或多个因子来修改所述预测函数;及
b.如果所述经修改预测函数关于第一候选离群有机体的杠杆指标满足杠杆条件,那么使用所述经修改预测函数作为所述预测函数。
11.根据前述权利要求中任一权利要求所述的方法,其中所述第一候选离群有机体是如果在生成所述预测函数时被排除那么导致所述经修改预测函数的所述杠杆指标的最大改进的有机体。
12.根据前述权利要求中任一权利要求所述的方法,其进一步包括:
i.将如果在生成所述预测函数时从考虑排除并排除所述第一候选离群有机体那么导致所述预测函数的所述杠杆指标的最大改进的第二有机体识别为第二候选离群有机体;
ii.通过来自一组因子的一或多个因子来修改所述预测函数以生成第二经修改预测函数;及
iii.在生成所述预测函数时从考虑排除所述第二候选离群有机体,如果在生成所述预测函数时包含所述第二候选离群有机体,那么所述第二候选离群有机体会导致所述第二经修改预测函数具有未能满足杠杆条件的杠杆指标。
13.根据前述权利要求中任一权利要求所述的方法,其中在所述第一规模性能数据及所述第二规模性能数据中表示第一候选离群有机体,所述一或多个测试有机体包括所述第一候选离群有机体,且所述第二规模预测性能数据表示在所述第二规模下的所述第一候选离群有机体的经预测性能。
14.根据前述权利要求中任一权利要求所述的方法,其中修改所述预测函数包括分别将所述一或多个因子并入到所述预测函数中或分别从所述预测函数移除所述一或多个因子。
15.根据前述权利要求中任一权利要求所述的方法,其中所述一或多个因子包括遗传因子。
16.根据前述权利要求中任一权利要求所述的方法,其中生成所述预测函数包括使用所述第一规模性能数据及所述第二规模性能数据来训练机器学习模型。
17.根据前述权利要求中任一权利要求所述的方法,其中生成所述预测函数包括在通过所述一或多个因子来修改所述预测函数的过程中应用机器学习。
18.根据前述权利要求中任一权利要求所述的方法,其进一步包括:
a.比较多个预测函数的性能误差指标;及
b.至少基于所述比较对所述预测函数进行排名。
19.根据前述权利要求中任一权利要求所述的方法,其中所述一或多个第一有机体的所述第一规模性能数据表示第一规模统计模型的输出,所述方法进一步包括:
a.比较在所述第二规模下的所述一或多个第一有机体的经预测性能与所述第二规模性能数据;及
b.至少部分基于所述比较来调整所述第一规模统计模型的参数。
20.根据前述权利要求中任一权利要求所述的方法,其中所述第一规模是平板规模且所述第二规模是罐规模。
21.根据前述权利要求中任一权利要求所述的方法,其中所述一或多个第二有机体是所述一或多个第一有机体的子组。
22.根据前述权利要求中任一权利要求所述的方法,其中所述表型包含化合物的产生。
23.根据前述权利要求中任一权利要求所述的方法,其中所述有机体是微生物菌株。
24.根据前述权利要求中任一权利要求所述的方法,其进一步包括将所述预测函数应用于在所述第一规模下观测的所述一或多个测试有机体关于感兴趣表型的性能数据以生成在所述第二规模下的所述一或多个测试有机体的所述第二规模预测性能数据。
25.根据前述权利要求中任一权利要求所述的方法,其进一步包括至少部分基于所述第二规模预测性能来制造所述一或多个测试有机体中的至少一者。
26.根据前述权利要求中任一权利要求所述的方法,其中所述组合至少部分基于产物浓度与糖消耗的比率。
27.一种在所述第二规模下的测试有机体,其使用根据前述权利要求中任一权利要求所述的方法来识别。
28.一种系统,其用于基于在第一规模下的测量来改进在第二规模下有机体关于感兴趣表型的性能,所述系统包括:
一或多个处理器;及
一或多个存储器,其存储指令,所述指令在由所述一或多个处理器中的至少一者执行时致使所述系统进行以下步骤:
a.存取至少部分基于在第一规模下观测的一或多个第一有机体的第一性能的第一规模性能数据及至少部分基于在大于所述第一规模的第二规模下观测的一或多个第二有机体的第二性能的第二规模性能数据,其中所述第一规模性能数据至少部分基于第一规模统计模型;及
b.至少部分基于所述第二规模性能数据与所述第一规模性能数据的关系来生成预测函数,其中所述预测函数适用于在所述第一规模下观测的一或多个测试有机体关于所述感兴趣表型的性能数据以生成在所述第二规模下的所述一或多个测试有机体的第二规模预测性能数据。
29.根据权利要求28所述的系统,其中所述预测函数至少部分基于一或多个第一规模性能变量的加权和,其中所述第一规模性能变量中的至少一者基于有机体性能的两个或两个以上测量的组合。
30.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中所述第一规模统计模型表示在所述第一规模下的有机体特征。
31.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中所述有机体特征包括过程条件、培养基条件或遗传因子。
32.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中至少一个有机体特征与有机体位置相关。
33.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中生成所述预测函数进一步包括从考虑移除一或多个离群有机体的所述第一规模性能数据及所述第二规模性能数据。
34.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中生成所述预测函数进一步包括并入一或多个因子以减小所述预测函数的误差。
35.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中生成所述预测函数进一步包括调整至少一个遗传因子。
36.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中所述一或多个存储器存储进一步指令以进行以下步骤:
c.通过来自一组因子的一或多个因子来修改所述预测函数;及
d.在生成所述预测函数时从考虑排除第一候选离群有机体,如果在生成所述预测函数时包含所述第一候选离群有机体,那么所述第一候选离群有机体会导致所述经修改预测函数具有未能满足杠杆条件的杠杆指标。
37.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中所述一或多个存储器存储进一步指令以进行以下步骤:
e.通过来自一组因子的一或多个因子来修改所述预测函数;及
f.如果所述经修改预测函数关于第一候选离群有机体的杠杆指标满足杠杆条件,那么使用所述经修改预测函数作为所述预测函数。
38.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中所述第一候选离群有机体是如果在生成所述预测函数时被排除那么导致所述经修改预测函数的所述杠杆指标的最大改进的有机体。
39.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中所述一或多个存储器存储进一步指令以进行以下步骤:
i.将如果在生成所述预测函数时从考虑排除且排除所述第一候选离群有机体那么导致所述预测函数的所述杠杆指标的最大改进的第二有机体识别为第二候选离群有机体;
ii.通过来自一组因子的一或多个因子来修改所述预测函数以生成第二经修改预测函数;及
iii.在生成所述预测函数时从考虑排除所述第二候选离群有机体,如果在生成所述预测函数时包含所述第二候选离群有机体,那么所述第二候选离群有机体会导致所述第二经修改预测函数具有未能满足杠杆条件的杠杆指标。
40.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中在所述第一规模性能数据及所述第二规模性能数据中表示第一候选离群有机体,所述一或多个测试有机体包括所述第一候选离群有机体,且所述第二规模预测性能数据表示在所述第二规模下的所述第一候选离群有机体的经预测性能。
41.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中修改所述预测函数包括分别将所述一或多个因子并入到所述预测函数中或分别从所述预测函数移除所述一或多个因子。
42.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中所述一或多个因子包括遗传因子。
43.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中生成所述预测函数包括使用所述第一规模性能数据及所述第二规模性能数据来训练机器学习模型。
44.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中生成所述预测函数包括在通过所述一或多个因子来修改所述预测函数的过程中应用机器学习。
45.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中所述一或多个存储器存储进一步指令以进行以下步骤:
g.比较多个预测函数的性能误差指标;及
h.至少基于所述比较对所述预测函数进行排名。
46.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中所述一或多个第一有机体的所述第一规模性能数据表示第一规模统计模型的输出,其中所述一或多个存储器存储进一步指令以进行以下步骤:
i.比较在所述第二规模下的所述一或多个第一有机体的经预测性能与所述第二规模性能数据;及
j.至少部分基于所述比较来调整所述第一规模统计模型的参数。
47.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中所述第一规模是平板规模且所述第二规模是罐规模。
48.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中所述一或多个第二有机体是所述一或多个第一有机体的子组。
49.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中所述表型包含化合物的产生。
50.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中所述有机体是微生物菌株。
51.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中所述一或多个存储器存储进一步指令以将所述预测函数应用于在所述第一规模下观测的所述一或多个测试有机体关于感兴趣表型的性能数据以生成在所述第二规模下的所述一或多个测试有机体的所述第二规模预测性能数据。
52.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中所述一或多个存储器存储进一步指令以至少部分基于所述第二规模预测性能来制造所述一或多个测试有机体中的至少一者。
53.根据从权利要求28开始的前述权利要求中任一权利要求所述的系统,其中所述组合至少部分基于产物浓度与糖消耗的比率。
54.一或多种非暂时性计算机可读媒体,其存储指令以基于在第一规模下的测量来改进在第二规模下有机体关于感兴趣表型的性能,其中所述指令在由一或多个计算装置执行时致使所述一或多个计算装置中的至少一者进行以下步骤:
a.存取至少部分基于在第一规模下观测的一或多个第一有机体的第一性能的第一规模性能数据及至少部分基于在大于所述第一规模的第二规模下观测的一或多个第二有机体的第二性能的第二规模性能数据,其中所述第一规模性能数据至少部分基于第一规模统计模型;及
b.至少部分基于所述第二规模性能数据与所述第一规模性能数据的关系来生成预测函数,其中所述预测函数适用于在所述第一规模下观测的一或多个测试有机体关于所述感兴趣表型的性能数据以生成在所述第二规模下的所述一或多个测试有机体的第二规模预测性能数据。
55.根据权利要求54所述的一或多种非暂时性计算机可读媒体,其中所述预测函数至少部分基于一或多个第一规模性能变量的加权和,且所述第一规模性能变量中的至少一者基于有机体性能的两个或两个以上测量的组合。
56.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中所述第一规模统计模型表示在所述第一规模下的有机体特征。
57.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中所述有机体特征包括过程条件、培养基条件或遗传因子。
58.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中至少一个有机体特征与有机体位置相关。
59.根据权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中生成所述预测函数进一步包括从考虑移除一或多个离群有机体的所述第一规模性能数据及所述第二规模性能数据。
60.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中生成所述预测函数进一步包括并入一或多个因子以减小所述预测函数的误差。
61.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中生成所述预测函数进一步包括调整至少一个遗传因子。
62.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其存储进一步指令以进行以下步骤:
a.通过来自一组因子的一或多个因子来修改所述预测函数;及
b.在生成所述预测函数时从考虑排除第一候选离群有机体,如果在生成所述预测函数时包含所述第一候选离群有机体,那么所述第一候选离群有机体会导致所述经修改预测函数具有未能满足杠杆条件的杠杆指标。
63.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其存储进一步指令以进行以下步骤:
a.通过来自一组因子的一或多个因子来修改所述预测函数;及
b.如果所述经修改预测函数关于第一候选离群有机体的杠杆指标满足杠杆条件,那么使用所述经修改预测函数作为所述预测函数。
64.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中所述第一候选离群有机体是如果在生成所述预测函数时被排除那么导致所述经修改预测函数的所述杠杆指标的最大改进的有机体。
65.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其存储进一步指令以进行以下步骤:
i.将如果在生成所述预测函数时从考虑排除且排除所述第一候选离群有机体那么导致所述预测函数的所述杠杆指标的最大改进的第二有机体识别为第二候选离群有机体;
ii.通过来自一组因子的一或多个因子来修改所述预测函数以生成第二经修改预测函数;及
iii.在生成所述预测函数时从考虑排除所述第二候选离群有机体,如果在生成所述预测函数时包含所述第二候选离群有机体,那么所述第二候选离群有机体会导致所述第二经修改预测函数具有未能满足杠杆条件的杠杆指标。
66.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中在所述第一规模性能数据及所述第二规模性能数据中表示第一候选离群有机体,所述一或多个测试有机体包括所述第一候选离群有机体,且所述第二规模预测性能数据表示在所述第二规模下的所述第一候选离群有机体的经预测性能。
67.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中修改所述预测函数包括分别将所述一或多个因子并入到所述预测函数中或分别从所述预测函数移除所述一或多个因子。
68.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中所述一或多个因子包括遗传因子。
69.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中生成所述预测函数包括使用所述第一规模性能数据及所述第二规模性能数据来训练机器学习模型。
70.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中生成所述预测函数包括在通过所述一或多个因子来修改所述预测函数的过程中应用机器学习。
71.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其存储进一步指令以进行以下步骤:
a.比较多个预测函数的性能误差指标;及
b.至少基于所述比较对所述预测函数进行排名。
72.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中所述一或多个第一有机体的所述第一规模性能数据表示第一规模统计模型的输出,所述一或多种非暂时性计算机可读媒体存储进一步指令以进行以下步骤:
a.比较在所述第二规模下的所述一或多个第一有机体的经预测性能与所述第二规模性能数据;及
b.至少部分基于所述比较来调整所述第一规模统计模型的参数。
73.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中所述第一规模是平板规模且所述第二规模是罐规模。
74.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中所述一或多个第二有机体是所述一或多个第一有机体的子组。
75.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中所述表型包含化合物的产生。
76.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中所述有机体是微生物菌株。
77.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其存储进一步指令以将所述预测函数应用于在所述第一规模下观测的所述一或多个测试有机体关于感兴趣表型的性能数据以生成在所述第二规模下的所述一或多个测试有机体的所述第二规模预测性能数据。
78.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其存储进一步指令以至少部分基于所述第二规模预测性能来制造所述一或多个测试有机体中的至少一者。
79.根据从权利要求54开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中所述组合至少部分基于产物浓度与糖消耗的比率。
80.一种用于基于在小于第二规模的第一规模下观测的有机体的性能来改进在所述第二规模下有机体关于感兴趣表型的性能的计算机实施方法,所述方法包括:
a.存取预测函数,其中所述预测函数至少部分基于第二规模性能数据与第一规模性能数据的关系,所述第一规模性能数据至少部分基于第一规模统计模型及在第一规模下观测的一或多个第一有机体的第一性能,且所述第二规模性能数据至少部分基于在大于所述第一规模的第二规模下观测的一或多个第二有机体的第二性能;及
b.将所述预测函数应用于在所述第一规模下的一或多个测试有机体以生成在所述第二规模下的所述一或多个测试有机体的第二规模预测性能数据。
81.根据权利要求80所述的方法,其中所述预测函数至少部分基于一或多个第一规模性能变量的加权和,且所述第一规模性能变量中的至少一者基于有机体性能的两个或两个以上测量的组合。
82.根据从权利要求80开始的前述权利要求中任一权利要求所述的方法,其中所述组合至少部分基于产物浓度与糖消耗的比率。
83.根据从权利要求80开始的前述权利要求中任一权利要求所述的方法,其中所述预测函数排除一或多个离群有机体的所述第一规模性能数据及所述第二规模性能数据的影响。
84.根据从权利要求80开始的前述权利要求中任一权利要求所述的方法,其中所述预测函数并入一或多个遗传因子以减小所述预测函数的误差。
85.根据从权利要求80开始的前述权利要求中任一权利要求所述的方法,其中所述预测函数排除第一候选离群有机体的影响,如果在生成所述预测函数时包含所述第一候选离群有机体,那么所述第一候选离群有机体会导致经修改预测函数具有未能满足杠杆条件的杠杆指标,其中所述经修改预测函数将通过一或多个因子进行的修改并入到所述预测函数中。
86.根据从权利要求80开始的前述权利要求中任一权利要求所述的方法,其中通过使用所述第一规模性能数据及所述第二规模性能数据训练机器学习模型来生成所述预测函数。
87.根据从权利要求80开始的前述权利要求中任一权利要求所述的方法,其中所述第一规模是平板规模且所述第二规模是罐规模。
88.根据从权利要求80开始的前述权利要求中任一权利要求所述的方法,其中所述一或多个第二有机体是所述一或多个第一有机体的子组。
89.根据从权利要求80开始的前述权利要求中任一权利要求所述的方法,其中所述表型包含化合物的产生。
90.根据从权利要求80开始的前述权利要求中任一权利要求所述的方法,其中所述有机体是微生物菌株。
91.根据从权利要求80开始的前述权利要求中任一权利要求所述的方法,其进一步包括至少部分基于所述第二规模预测性能来制造所述一或多个测试有机体中的至少一者。
92.一种用于基于在小于第二规模的第一规模下观测的有机体的性能来改进在所述第二规模下有机体关于感兴趣表型的性能的系统,所述系统包括:
一或多个处理器;及
一或多个存储器,其存储指令,所述指令在由所述一或多个处理器中的至少一者执行时致使所述系统进行以下步骤:
a.存取预测函数,其中所述预测函数至少部分基于第二规模性能数据与第一规模性能数据的关系,所述第一规模性能数据至少部分基于第一规模统计模型及在第一规模下观测的一或多个第一有机体的第一性能,且所述第二规模性能数据表示在大于所述第一规模的第二规模下观测的一或多个第二有机体的第二性能;及
b.将所述预测函数应用于在所述第一规模下的一或多个测试有机体以生成在所述第二规模下的所述一或多个测试有机体的第二规模预测性能数据。
93.根据权利要求92所述的系统,其中所述预测函数至少部分基于一或多个第一规模性能变量的加权和,且所述第一规模性能变量中的至少一者基于有机体性能的两个或两个以上测量的组合。
94.根据从权利要求92开始的前述权利要求中任一权利要求所述的系统,其中所述组合至少部分基于产物浓度与糖消耗的比率。
95.根据从权利要求92开始的前述权利要求中任一权利要求所述的系统,其中所述预测函数排除一或多个离群有机体的所述第一规模性能数据及所述第二规模性能数据的影响。
96.根据从权利要求92开始的前述权利要求中任一权利要求所述的系统,其中所述预测函数并入一或多个遗传因子以减小所述预测函数的误差。
97.根据从权利要求92开始的前述权利要求中任一权利要求所述的系统,其中所述预测函数排除第一候选离群有机体的影响,如果在生成所述预测函数时包含所述第一候选离群有机体,那么所述第一候选离群有机体会导致经修改预测函数具有未能满足杠杆条件的杠杆指标,其中所述经修改预测函数将通过一或多个因子进行的修改并入到所述预测函数中。
98.根据从权利要求92开始的前述权利要求中任一权利要求所述的系统,其中通过使用所述第一规模性能数据及所述第二规模性能数据训练机器学习模型来生成所述预测函数。
99.根据从权利要求92开始的前述权利要求中任一权利要求所述的系统,其中所述第一规模是平板规模且所述第二规模是罐规模。
100.根据从权利要求92开始的前述权利要求中任一权利要求所述的系统,其中所述一或多个第二有机体是所述一或多个第一有机体的子组。
101.根据从权利要求92开始的前述权利要求中任一权利要求所述的系统,其中所述表型包含化合物的产生。
102.根据从权利要求92开始的前述权利要求中任一权利要求所述的系统,其中所述有机体是微生物菌株。
103.根据从权利要求92开始的前述权利要求中任一权利要求所述的系统,其中所述一或多个存储器存储进一步指令以至少部分基于所述第二规模预测性能来制造所述一或多个测试有机体中的至少一者。
104.一或多种非暂时性计算机可读媒体,其存储指令以基于在小于第二规模的第一规模下观测的有机体的性能来改进在所述第二规模下有机体关于感兴趣表型的性能,其中所述指令在由一或多个计算装置执行时致使所述一或多个计算装置中的至少一者进行以下步骤:
a.存取预测函数,其中所述预测函数至少部分基于第二规模性能数据与第一规模性能数据的关系,所述第一规模性能数据至少部分基于第一规模统计模型及在第一规模下观测的一或多个第一有机体的第一性能,且所述第二规模性能数据表示在大于所述第一规模的第二规模下观测的一或多个第二有机体的第二性能;及
b.将所述预测函数应用于在所述第一规模下的一或多个测试有机体以生成在所述第二规模下的所述一或多个测试有机体的第二规模预测性能数据。
105.根据权利要求104所述的一或多种非暂时性计算机可读媒体,其中所述预测函数至少部分基于一或多个第一规模性能变量的加权和,且所述第一规模性能变量中的至少一者基于有机体性能的两个或两个以上测量的组合。
106.根据从权利要求104开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中所述组合至少部分基于产物浓度与糖消耗的比率。
107.根据从权利要求104开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中所述预测函数排除一或多个离群有机体的所述第一规模性能数据及所述第二规模性能数据的影响。
108.根据从权利要求104开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中所述预测函数并入一或多个遗传因子以减小所述预测函数的误差。
109.根据从权利要求104开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中所述预测函数排除第一候选离群有机体的影响,如果在生成所述预测函数时包含所述第一候选离群有机体,那么所述第一候选离群有机体会导致经修改预测函数具有未能满足杠杆条件的杠杆指标,其中所述经修改预测函数将通过一或多个因子进行的修改并入到所述预测函数中。
110.根据从权利要求104开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中通过使用所述第一规模性能数据及所述第二规模性能数据训练机器学习模型来生成所述预测函数。
111.根据从权利要求104开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中所述第一规模是平板规模且所述第二规模是罐规模。
112.根据从权利要求104开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中所述一或多个第二有机体是所述一或多个第一有机体的子组。
113.根据从权利要求104开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中所述感兴趣表型包含化合物的产生。
114.根据从权利要求104开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中所述有机体是微生物菌株。
115.根据从权利要求104开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其存储进一步指令以至少部分基于所述第二规模预测性能来制造所述一或多个测试有机体中的至少一者。
116.一种用于基于在小于第二规模的第一规模下观测的性能来改进在所述第二规模下有机体关于感兴趣表型的性能的计算机实施方法,所述方法包括:
a.接收第一用户输入,所述第一用户输入表示选择代表在所述第一规模下的有机体特征的第一规模统计模型;
b.接收第二用户输入,所述第二用户输入表示选择预测函数;
c.接收第三用户输入,所述第三用户输入表示为所述感兴趣表型选择性能数据的类型;及
d.为图形显示提供预测函数,所述预测函数用于基于将所述预测函数应用于在所述第一规模下观测的一或多个测试有机体的性能数据来为在所述第二规模下的一或多个测试有机体提供所述选定类型的第二规模预测性能数据。
117.根据权利要求116所述的方法,其进一步包括为图形显示提供在所述第二规模下的一或多个测试有机体的所述第二规模预测性能数据。
118.根据从权利要求116开始的前述权利要求中任一权利要求所述的方法,其中使用所述第一规模统计模型来生成所述第一规模性能数据。
119.根据从权利要求116开始的前述权利要求中任一权利要求所述的方法,其进一步包括接收表示在生成所述预测函数时从考虑移除的一或多个离群有机体的用户选择的用户输入。
120.根据从权利要求116开始的前述权利要求中任一权利要求所述的方法,其进一步包括接收表示在生成所述预测函数时使用的一或多个因子的用户选择的用户输入。
121.根据从权利要求116开始的前述权利要求中任一权利要求所述的方法,其中所述一或多个因子包含一或多个遗传因子。
122.根据从权利要求116开始的前述权利要求中任一权利要求所述的方法,其进一步包括产生所述一或多个测试有机体中的至少一者。
123.一种在所述第二规模下的测试有机体,其使用根据从权利要求116开始的前述权利要求中任一权利要求所述的方法来识别。
124.一种用于基于在小于第二规模的第一规模下观测的性能来改进在所述第二规模下有机体关于感兴趣表型的性能的系统,所述系统包括:
一或多个处理器;及
一或多个存储器,其存储指令,所述指令在由所述一或多个处理器中的至少一者执行时致使所述系统进行以下步骤:
a.接收第一用户输入,所述第一用户输入表示选择代表在所述第一规模下的有机体特征的第一规模统计模型;
b.接收第二用户输入,所述第二用户输入表示选择预测函数;
c.接收第三用户输入,所述第三用户输入表示为所述感兴趣表型选择性能数据的类型;及
d.为图形显示提供预测函数,所述预测函数用于基于将所述预测函数应用于在所述第一规模下观测的一或多个测试有机体的性能数据来为在所述第二规模下的一或多个测试有机体提供所述选定类型的第二规模预测性能数据。
125.根据权利要求124所述的系统,其中所述一或多个存储器存储进一步指令以为图形显示提供在所述第二规模下的一或多个测试有机体的所述第二规模预测性能数据。
126.根据从权利要求124开始的前述权利要求中任一权利要求所述的系统,其中使用所述第一规模统计模型来生成所述第一规模性能数据。
127.根据从权利要求124开始的前述权利要求中任一权利要求所述的系统,其中所述一或多个存储器存储进一步指令以接收表示在生成所述预测函数时从考虑移除的一或多个离群有机体的用户选择的用户输入。
128.根据从权利要求124开始的前述权利要求中任一权利要求所述的系统,其中所述一或多个存储器存储进一步指令以接收表示在生成所述预测函数时使用的一或多个因子的用户选择的用户输入。
129.根据从权利要求124开始的前述权利要求中任一权利要求所述的系统,其中所述一或多个因子包含一或多个遗传因子。
130.根据从权利要求124开始的前述权利要求中任一权利要求所述的系统,其中所述一或多个存储器存储进一步指令以产生所述一或多个测试有机体中的至少一者。
131.一或多种非暂时性计算机可读媒体,其存储指令以基于在小于第二规模的第一规模下观测的性能来改进在所述第二规模下有机体关于感兴趣表型的性能,其中所述指令在由一或多个计算装置执行时致使所述一或多个计算装置中的至少一者进行以下步骤:
a.接收第一用户输入,所述第一用户输入表示选择代表在所述第一规模下的有机体特征的第一规模统计模型;
b.接收第二用户输入,所述第二用户输入表示选择预测函数;
c.接收第三用户输入,所述第三用户输入表示为所述感兴趣表型选择性能数据的类型;及
d.为图形显示提供预测函数,所述预测函数用于基于将所述预测函数应用于在所述第一规模下观测的一或多个测试有机体的性能数据来为在所述第二规模下的一或多个测试有机体提供所述选定类型的第二规模预测性能数据。
132.根据权利要求131所述的一或多种非暂时性计算机可读媒体,其存储进一步指令以为图形显示提供在所述第二规模下的一或多个测试有机体的所述第二规模预测性能数据。
133.根据从权利要求131开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中使用所述第一规模统计模型来生成所述第一规模性能数据。
134.根据从权利要求131开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其存储进一步指令以接收表示在生成所述预测函数时从考虑移除的一或多个离群有机体的用户选择的用户输入。
135.根据从权利要求131开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其存储进一步指令以接收表示在生成所述预测函数时使用的一或多个因子的用户选择的用户输入。
136.根据从权利要求131开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其中所述一或多个因子包含一或多个遗传因子。
137.根据从权利要求131开始的前述权利要求中任一权利要求所述的一或多种非暂时性计算机可读媒体,其存储进一步指令以产生所述一或多个测试有机体中的至少一者。
CN201880072540.7A 2017-11-09 2018-11-09 基于在较小规模条件下的性能优化在较大规模条件下的有机体性能 Pending CN111886330A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762583961P 2017-11-09 2017-11-09
US62/583,961 2017-11-09
PCT/US2018/060120 WO2019094787A1 (en) 2017-11-09 2018-11-09 Optimization of organisms for performance in larger-scale conditions based on performance in smaller-scale conditions

Publications (1)

Publication Number Publication Date
CN111886330A true CN111886330A (zh) 2020-11-03

Family

ID=64557150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880072540.7A Pending CN111886330A (zh) 2017-11-09 2018-11-09 基于在较小规模条件下的性能优化在较大规模条件下的有机体性能

Country Status (7)

Country Link
US (1) US20200357486A1 (zh)
EP (1) EP3707234A1 (zh)
JP (1) JP2021502084A (zh)
KR (1) KR20200084341A (zh)
CN (1) CN111886330A (zh)
CA (1) CA3079750A1 (zh)
WO (1) WO2019094787A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11669063B2 (en) * 2018-11-28 2023-06-06 ExxonMobil Technology and Engineering Company Surrogate model for a chemical production process
KR20220006066A (ko) * 2019-05-08 2022-01-14 지머젠 인코포레이티드 대규모의 성능 예측을 개선하기 위해 소규모 미생물에 대한 실험 및 플레이트 모델을 디자인하기 위한 매개변수 축소
EP3831924A1 (en) * 2019-12-03 2021-06-09 Sartorius Stedim Data Analytics AB Adapting control of a cell culture in a production scale vessel with regard to a starting medium
EP4105312A1 (en) * 2021-06-17 2022-12-21 Bühler AG Method and system for the identification of optimized treatment conditions
CN117233274B (zh) * 2023-08-29 2024-03-15 江苏光质检测科技有限公司 一种土壤中半挥发性有机物含量检测校正方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003023687A2 (en) * 2001-09-12 2003-03-20 Aegis Analytical Corporation An advanced method for profile analysis of continuous data
CN101370926A (zh) * 2006-01-28 2009-02-18 Abb研究有限公司 一种在线预测发酵装置未来性能的方法
US20170159045A1 (en) * 2015-12-07 2017-06-08 Zymergen, Inc. Microbial strain improvement by a htp genomic engineering platform
CN106843172A (zh) * 2016-12-29 2017-06-13 中国矿业大学 基于jy‑kpls的复杂工业过程在线质量预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11151497B2 (en) 2016-04-27 2021-10-19 Zymergen Inc. Microbial strain design system and methods for improved large-scale production of engineered nucleotide sequences

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003023687A2 (en) * 2001-09-12 2003-03-20 Aegis Analytical Corporation An advanced method for profile analysis of continuous data
CN101370926A (zh) * 2006-01-28 2009-02-18 Abb研究有限公司 一种在线预测发酵装置未来性能的方法
US20170159045A1 (en) * 2015-12-07 2017-06-08 Zymergen, Inc. Microbial strain improvement by a htp genomic engineering platform
CN106843172A (zh) * 2016-12-29 2017-06-13 中国矿业大学 基于jy‑kpls的复杂工业过程在线质量预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALIME OZLEM KIRDAR等: "Application of Multivariate Analysis toward Biotech Processes: Case Study of a Cell-Culture Unit Operation", 《BIOTECHNOL PROG》 *
FRANK KENSY等: "Scale-up from microtiter plate to laboratory fermenter: evaluation by online monitoring techniques of growth and protein expression in Escherichia coli and Hansenula polymorpha fermentations", 《MICROB CELL FACT》 *

Also Published As

Publication number Publication date
JP2021502084A (ja) 2021-01-28
KR20200084341A (ko) 2020-07-10
WO2019094787A1 (en) 2019-05-16
US20200357486A1 (en) 2020-11-12
EP3707234A1 (en) 2020-09-16
CA3079750A1 (en) 2019-05-16

Similar Documents

Publication Publication Date Title
CN111886330A (zh) 基于在较小规模条件下的性能优化在较大规模条件下的有机体性能
Williams et al. How evolution modifies the variability of range expansion
Sverchkov et al. A review of active learning approaches to experimental design for uncovering biological networks
Oates et al. Network inference and biological dynamics
Chou et al. Recent developments in parameter estimation and structure identification of biochemical and genomic systems
Wilkinson Stochastic modelling for quantitative description of heterogeneous biological systems
Helleckes et al. Machine learning in bioprocess development: from promise to practice
US20220328128A1 (en) Downscaling parameters to design experiments and plate models for micro-organisms at small scale to improve prediction of performance at larger scale
Gibbs et al. High-performance single-cell gene regulatory network inference at scale: the Inferelator 3.0
Tsuda et al. Evolution of gene regulatory networks by fluctuating selection and intrinsic constraints
Žitnik et al. Gene prioritization by compressive data fusion and chaining
Patra et al. Recent advances in machine learning applications in metabolic engineering
US20200058376A1 (en) Bioreachable prediction tool for predicting properties of bioreachable molecules and related materials
Wytock et al. Predicting growth rate from gene expression
US20210225455A1 (en) Bioreachable prediction tool with biological sequence selection
Nadimi-Shahraki et al. MMKE: Multi-trial vector-based monkey king evolution algorithm and its applications for engineering optimization problems
Nikolados et al. Accuracy and data efficiency in deep learning models of protein expression
Sabzevari et al. Strain design optimization using reinforcement learning
Mo et al. Domain-adaptive neural networks improve supervised machine learning based on simulated population genetic data
Park et al. Data‐driven prediction models for forecasting multistep ahead profiles of mammalian cell culture toward bioprocess digital twins
JP2021505130A (ja) 外れ値検出に教師なしパラメータ学習を使用して産生のための生物を識別すること
Milias-Argeitis et al. Elucidation of genetic interactions in the yeast GATA-factor network using Bayesian model selection
WO2023178118A1 (en) Directed evolution of molecules by iterative experimentation and machine learning
US20200168291A1 (en) Prioritization of genetic modifications to increase throughput of phenotypic optimization
Li Application of machine learning in systems biology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40032584

Country of ref document: HK