CN110914912A - 对基因修饰进行优先级排序以增加表型优化的吞吐量 - Google Patents

对基因修饰进行优先级排序以增加表型优化的吞吐量 Download PDF

Info

Publication number
CN110914912A
CN110914912A CN201880037754.0A CN201880037754A CN110914912A CN 110914912 A CN110914912 A CN 110914912A CN 201880037754 A CN201880037754 A CN 201880037754A CN 110914912 A CN110914912 A CN 110914912A
Authority
CN
China
Prior art keywords
genes
activity
carried out
phenotypic
modification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880037754.0A
Other languages
English (en)
Inventor
A·乔杜里
P·埃涅尔特
M·弗拉斯曼
A·希勒
K·托恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zymergen Inc
Original Assignee
Zymergen Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zymergen Inc filed Critical Zymergen Inc
Publication of CN110914912A publication Critical patent/CN110914912A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Library & Information Science (AREA)
  • Biochemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Computational Linguistics (AREA)

Abstract

本发明提供用于确定将应用于至少一种微生物菌株内的基因以改善表型性能的修饰的系统、方法及计算机可读媒体。本发明教示:至少部分地基于对至少一种微生物菌株中的第一组基因进行的第一基因修饰而存取第一表型性能数据;至少部分地基于所述第一表型性能数据及所述第一基因修饰与第二基因修饰共有的至少一个修饰特征而预测所述第二基因修饰的第二表型性能;及至少部分地基于所述第二表型性能而对待应用于第二组基因的所述第二基因修饰进行优先级排序。

Description

对基因修饰进行优先级排序以增加表型优化的吞吐量
相关申请案的交叉参考
本申请案主张2017年6月6日提出申请的第62/516,053号美国临时申请案的优先权,所述临时申请案以全文引用的方式并入本文中。
技术领域
本发明一般来说涉及代谢与基因组工程的领域,且更特定来说涉及对微生物菌株进行高吞吐量(“HTP”)基因修饰以产生所关注产物的领域。
背景技术
在背景技术部分中讨论的主题不应仅仅由于其是在背景技术部分中提到而被认为是现有技术。类似地,在背景技术部分中提到或与背景技术部分的主题相关联的问题不应被认为是在现有技术中先前已经认识到。背景技术部分中的主题仅表示不同的方法,其本身也可对应于所要求保护的技术的实施方案。
从基因方面优化有机体以展现所要表型是众所周知的问题。代谢工程师面临的两个主要子问题是:(1)在可对有机体进行的所有可能的修饰中,哪些修饰应尝试使所要化合物的输出最大化;及(2)一旦决定了一组修饰,应以何种次序执行所述修饰以使进展速率最大化?
按惯例,定为修饰的目标的基因是被判断为“在途中”的那些基因,即,已知为所关注分子的生物合成途径的一部分、或分支到所关注分子的生物合成途径或从所关注分子的生物合成途径分支的代谢酶基因(科斯林,JD.(Keasling,JD.)“通过代谢工程制造分子(Manufacturing molecules through metabolic engineering)”,科学,2010)。已知可使此类基因的发现自动化的方法,例如通量平衡分析(“FBA”)(塞格雷(Segre)等人,“自然及扰乱的代谢网络中的最优性分析”,PNAS,2002)。虽然,对以此方式识别的基因进行修饰通常明显改善菌株性能,但即使是最简单的微生物,也仍然缺乏对其的了解。申请人已经发现,对不直接参与此类途径的其它基因进行修饰可对菌株性能产生显著改善,这表明需要研究基因组中的其它基因。然而,修饰基因组(甚至是细菌的相对较小的基因组)中的每一基因仍然是一项昂贵且费时的工作。期望加速识别目标基因的过程以及将对那些目标基因进行的修饰,所述修饰对于优化所关注分子的产生是有用的。
发明内容
本发明的实施例通过对待修饰的基因进行优先级排序且对那些基因进行所述修饰而克服常规技术的缺陷。
本发明的一些实施例的基本方法是将基因组的基因分成优先级,称为“壳”,且然后在那些壳上按顺序实施计划的修饰。在实施例中,可通过利用与代谢网络、基因本体论有关的现有数据集或考虑到对另一有机体中或与另一目标产物或两者的对应基因进行修饰的性能的算法来设计壳。还可对要执行的修改的确切性质进行优先级排序;举例来说,改变为较弱的启动子往往比较强的启动子提供更少的改善,根据发明人进行的实验,较强的启动子比中等强度的启动子提供更少的改善。在一些实例中,在弱启动子中进行交换可能会下调干扰所要所关注产物的产生的化合物的产生。随着优化工作的进行,可以收集有关哪些类别的修改提供最佳性能改善的数据,然后可以“在线”动态迭代方式反馈所述数据,以对下一轮修饰进行优先级排序。此些数据集还可应用于对基因修饰的类型(例如启动子或SNP修饰)进行优先级排序,以优化新的表型及/或有机体。
对于要修饰的基因进行目标优先级排序的壳隐喻是基于以下假设,即仅少数几个主要基因负责宿主细胞性能(例如,单个生物分子的产生)的大部分特定方面。这些主要基因位于壳的核心,其次是第二层的次级效应基因,第三层的第三级效应,依此类推。举例来说,在一个实施例中,壳的核可包括编码直接参与选定的代谢途径(例如柠檬酸产生)的生物合成酶的基因。位于第二壳上的基因可能包括编码生物合成途径中负责产物转移或反馈信令的其它酶的基因。在此说明性隐喻下的第三层次基因可能包括负责调节生物合成途径表达或调控宿主细胞内一般碳通量的调控基因。
本发明的实施例提供用于开发用于将修饰应用于至少一个微生物菌株内的基因以改善表型性能的优先级排序的系统、方法及计算机可读媒体。本发明的实施例提供计算机实施的方法以及用于实施所述方法的系统及非暂时性计算机可读媒体。根据实施例,所述方法包括至少部分地基于对至少一种微生物菌株中的第一组基因进行的第一基因修饰而存取第一表型性能数据;至少部分地基于第一表型性能数据及第一基因修饰与第二基因修饰共有的至少一个修饰特征而预测第二基因修饰的第二预测表型性能;及至少部分地基于第二表型性能而对待应用于第二组基因的第二基因修饰进行优先级排序。至少部分地基于优先级排序,可将第二基因修饰应用于至少一种微生物菌株内的基因。修饰特征是被认为在预测建模(例如,机器学习)中可能有用的参数。修饰特征可表达为种类特征(例如,类型)、连续特征(例如,数字)或序数特征(例如,离散群组,例如更好或更差)。
根据本发明的实施例,基因修饰及至少一个修饰特征可涉及要修饰的基因或要对那些基因进行的修饰的类型。举例来说,至少一个修饰特征可包含类别,包含本体类别,例如与GO分类有关的类别,或与修饰类型有关的类别,例如启动子交换(例如,启动子修饰,包含启动子的插入、缺失或替换),或SNP(单核苷酸多态性)交换(例如,单个碱基对修饰,包含单个碱基对的插入、缺失或替换),如2016年12月30日提出申请的同在申请中的第15/396230号美国专利申请案、第US20170159045号美国公开案中所描述,所述文献以全文引用的方式并入本文中。
修饰特征可与启动子的强度(例如弱,强或中等强度)有关。发明人的实验展示其中与弱或强启动子相比,中等强度启动子通过微生物菌株产生性能(例如,产量、生产率)改善的可能性更大的实例。因此,本发明的实施例可将中等强度的启动子比强的或弱的启动子更重地加权到预测表型性能中。本发明的实施例可对弱启动子加权的程度不如对强启动子及中等强度启动子加权的程度那么重。
一般来说,实施例可将已知的有益效应比较小的效应更重地加权到预测表型性能中。相反,实施例可将较低的权重分配给预测表型性能中的已知负面或不那么有益的效应,而不是较有益的效应。作为另一实例,在实施例中,预测第二基因修饰的第二表型性能至少部分基于包含对菌株中的至少两个基因的一或多种类型的修饰(例如,启动子交换、SNP交换)的至少一个修饰特征。以此方式,所述方法考虑了由对同一菌株进行两个或更多个基因修饰的表型效应引起的上位效应。在此些实施例中,预测可将产生正性上位效应的一或多种类型的修饰更重地加权到预测表型性能中。
在实施例中,至少一个修饰特征包含基因本体分类内的不同抽象级别。在实施例中,至少一个修饰特征包含基于代谢网络的分类。在实施例中,第二组基因不包含第一组基因内的任何基因。在实施例中,第二组基因内的基因各自是多个类别的成员,并且可从适用于给定基因所属的每一类别的预测的组合中产生所述基因的复合性能预测。在实施例中,第二组基因内的基因共享至少一个共同类别中的成员,并且如果共同类别是每一基因所属的唯一类别,那么此些基因全被分配相同的预测性能。在实施例中,第二组基因内的基因可各自仅是单个类别的成员。在实施例中,第一组及第二组中的基因可彼此共享类别成员,并且此些基因可各自属于多个类别。
在实施例中,至少一个修饰特征包含来自第一分类系统的第一本体类别及来自第二分类系统的第二本体类别。举例来说,如果基因是来自不同分类系统的多个类别的成员(例如,GO、KEGG、基因或基因-产物序列相似性、蛋白质域),并且已经观察到或预测到那些类别将产生性能改善,那么根据本发明的实施例,所述方法可有利地加权所述基因作为修饰候选者的预测表型性能(借此增加其被分配高优先级的机会)。
在实施例中,至少一个修饰特征包含由至少一种微生物菌株产生的产物的特性。举例来说,产物的特性可能与相同的代谢途径或本体类别有关。如果第一组或来自第一组的基因与性能改善相关联,那么来自沿着相同的代谢途径或在相同本体类别内的第二组的基因可能也将引起性能改善。因此,根据本发明的实施例,所述方法可有利地加权所述基因作为修饰候选者的预测表型性能(借此增加其被分配高优先级的机会)。
替代地,如果将多个菌株-产物组合用作表型性能数据的修饰特征,那么可使用产物的特性来加权与输入的菌株-产物组合有关的数据和目标菌株-产物组合的相关性。与目标产物共享更多特性的输入更有可能产生有用的预测。在实施例中,那些产物特性可包含从与第一产物密切相关的代谢途径(按照含量或到最近共同前体的距离)产生的组成原子数、结构、原子含量等。
在实施例中,预测第二表型性能可采用来自第一组基因的基因作为机器学习预测模型中的训练集来预测第二基因修饰的第二表型性能。
在实施例中,预测第二表型性能包括至少部分地基于第一所观察表型性能数据而预测第二基因修饰的每类别富集概率并且至少部分地基于预测每类别富集概率的排名而对第二预测基因修饰进行优先级排序。如果针对类别的预测富集超过阈值富集,那么本发明的实施例可对用于在类别内进行测试的至少一个候选基因进行优先级排序。
申请人进一步令人惊讶地发现,个别基因的性能可能取决于情境,即,对基因进行修饰以改善菌株性能的能力可以取决于菌株的基因组成包含先前引入的修饰)。举例来说,虽然最初可以预测特定的基因修饰对菌株性能没有、几乎没有或甚至没有负面影响,但是在不同的基因背景中引入相同的修饰可以产生不同的且甚至相反的效应。因此,在本发明的实施例中,所述方法可包括基于从将第二基因修饰中的一或多个基因修饰迭代地应用于第二组基因内的基因观察到的表型性能数据而迭代地更新将应用于第二基因组内的基因的子集的第二基因修饰的子集的优先级排序。此迭代更新可包括至少部分地基于将第二基因修饰中的一或多个基因修饰应用于第二组基因内的基因而获得经更新表型性能数据,至少部分地基于经更新第一表型性能数据而预测第二基因修饰的子集的经更新第二表型性能,及至少部分地基于经更新第二表型性能而对待应用于第二组基因的子集的第二基因修饰的子集进行优先级排序。注意,根据本发明的实施例,将第二基因修饰中的一或多个基因修饰应用于第二组基因内的基因有效地将那些经修饰的基因从第二组基因内移动到第一组基因,现在可以获得所述基因的性能数据。
在实施例中,至少一个修饰特征涉及微生物菌株的特征。此些特征可包含系统发育或分类学特征,包含基因组序列相似性、域(古生菌、细菌或真核生物)、革兰氏阳性或阴性(对于细菌)、属、物种等等;生态及生理特征,包含自然环境的特征(例如,pH、温度、盐度,压力)、代谢特征(例如,优选的生长基质,可能的生长基质、废物)等等;或其它特征。举例来说,如果对第一菌株中的一组基因的修饰提供了性能改善,那么很可能对相似的第二菌株中的相似的一组基因进行相似的修饰也会引起性能改善。此处“相似的一组基因”可定义为例如属于相同基因本体类别、属于具有相同产物、序列相似性、表达谱或调控相似性等等的代谢途径的基因。“相似”菌株可由系统相似性、基因谱系相似性;菌株是原核还是真核生物、消耗相似的原料、产生相似的代谢物或在其它修饰特征方面相似来表征。因此,根据本发明的实施例,所述方法可有利地加权第二菌株中所述相似组内的基因作为通过相同或相似修饰进行修饰的候选者的预测表型性能。
在实施例中,第二组基因驻存在与第一组基因驻存在其中的至少一种微生物菌株不同的至少一种微生物菌株内。在那些实施例及其它实施例中,第一表型性能数据可涉及由至少一种微生物菌株产生的第一产物的一或多个特性,且第二预测表型性能可涉及与第一产物不同且由同一菌株或共享共同特征的另一菌株产生的第二产物的一或多个特性。在实施例中,第二产物可与第一产物共享共同特征,例如从密切相关的代谢途径(按照含量或到最近共同前体的距离)产生的组成原子数、结构、原子含量等等。
附图说明
图1图解说明用于实施本发明的实施例的客户端-服务器计算机系统。
图2图解说明根据本发明的实施例的修饰的分率,针对跨越不同启动子强度表示目标产物的生产率及产量的表型,所述修饰的改善水平超过噪声阈值。
图3图解说明按文库目标(多样化或合并)汇总的图2的修饰。
图4图解说明根据本发明的实施例的来自图2的数据子集,所述子集经设计以使跨越不同启动子级别的频率偏差均匀。
图5图解说明根据本发明的实施例的修饰的分率,其改善水平高于根据熟练技术人员或算法(FBA)的选择按文库目标汇总的目标产物的生产率及产量的表型的噪声阈值。
图6图解说明来自基因本体论的子图的实例,其展示基因类别经富集以改善产量。
图7图解说明表2的富集的GO精简版中的基因分解。
图8图解说明根据本发明的实施例的富集的GO精简版中的基因子集分解,其经由启动子交换的修饰证明为改善所要表型。
图9是图解说明用于对应用于至少一种微生物菌株内的基因的修饰进行优先级排序以改善表型性能的方法的流程图。
图10图解说明根据本发明的实施例的云计算环境。
图11图解说明可用于执行用以实施本发明的实施例的程序代码的计算机系统的实例。
图12是图12A到12L的表的布局的图,图12A到12L一起形成图解说明在特定微生物宿主有机体中特定氨基酸的产生所涉及的属性的表。
具体实施方式
参考附图做出本发明描述,在附图中展示各种实例实施例。然而,可使用许多不同实例实施例,且因此不应将所述描述视为限于本文中所陈述的实例实施例。而是,提供这些实例实施例使得本发明将为透彻且完整的。所属领域的技术人员将易于明了对示范性实施例的各种修饰,且在本文中所定义的通用原理可在不背离本发明的精神及范围的情况下应用于其它实施例及应用。因此,本发明不打算限制于所展示的实施例,但欲与符合本文中所揭示的原理及特征的最宽广范围相一致。
图1图解说明本发明的实施例的分布式系统100。用户接口102包含客户端侧接口,例如文本编辑器或图形用户接口(GUI)。用户接口102可驻存于客户端侧计算装置103(例如膝上型或桌上型计算机)处。客户端侧计算装置103通过网络106(例如因特网)耦合到一或多个服务器108。
服务器108在本地或远程地耦合到一或多个数据库110,一或多个数据库110可包含一或多个文库全集,所述文库全集包含例如基因组数据、基因修饰数据(例如,启动子阶梯)及可响应于基因修饰而表示微生物菌株性能的表型性能数据等数据。
在实施例中,服务器108包含至少一个处理器107及存储指令的至少一个存储器109,所述指令在由处理器107执行时预测基因修饰的表型性能且对基因的基因修饰应用进行优先级排序,借此充当根据本发明的实施例的“优先级排序引擎”。替代地,用于优先级排序引擎的软件及相关联的硬件可在本地驻存于客户端103处而非服务器108处,或分布于客户端103及服务器108两者之间。在实施例中,优先级排序引擎的全部或部分可运行为图10中进一步描绘的基于云的服务。
数据库110可包含公共数据库以及由用户或其它人产生的定制数据库,例如,包含经由用户或第三方贡献者执行的合成生物学实验产生的分子的数据库。数据库110相对于客户端103可为本地的或远程的,或者既在本地又远程地分布。
对所要分子调节通量及产量的概念上最简单的方式是通过改变相关基因启动子的强度来改变影响所述通量的基因产物的量。这可通过构建启动子阶梯来系统地完成,所述启动子阶梯是可应用于任何基因并且具有从弱到强的强度范围的启动子集合。理想地,放置在阶梯中的启动子已展展示跨越多个基因组基因座引起高度可变的表达,但唯一的要求是其以某种方式扰乱基因表达。
启动子阶梯在于2016年12月7日提出申请的序列号为PCT/US16/65464、WO2017/100376的国际申请案中有进一步描述,所述申请案以全文引用的方式并入。在实施例中,通过以下方式创建启动子阶梯:识别与所关注目标基因相关联的自然、天然或野生型启动子,及然后使至少一个启动子突变以衍生出多个经突变启动子序列。测试这些经突变启动子中的每一者对目标基因表达的影响。在一些实施例中,测试经编辑启动子在多种条件下的表达活性,使得每一启动子变体的活性被记录/表征/注释并存储在数据库中。随后将所得的经编辑启动子变体组织成基于其表达的强度排列的“阶梯”(例如,其中具有高表达的变体在顶部附近,且经减弱表达在底部附近,因此导致术语“阶梯”)。
将天然启动子改变为来自阶梯的启动子中的一者的过程称为“启动子交换”。实验数据指示,中等及强启动子交换比弱启动子交换更可能产生所要表型的改善,如图2中所展示。
图2图解说明修饰(此处,启动子交换)的分率,针对跨越不同启动子强度(1是最弱的,且8是最强的)表示目标产物的生产率及产量的表型,所述修饰的改善水平高于噪声阈值。注意,尝试进行修饰的次数跨越启动子是不均匀的;按从强度1到8的次序,总计数为532、22、422、61、68、415、108及3274。
参考启动子,有几种定义“弱”、“中等”及“强”的方式。在此处的实施例中,这些定义在八启动子阶梯的上下文内得到最佳理解,所述八启动子阶梯设计为覆盖细胞中从低到高的大多数可行表达水平。
为了评估阶梯中启动子的活性,设计了一组基于质粒的荧光报告基因构建体。在一个实例实验中,将阶梯中的每一启动子克隆到eyfp的前面,eyfp是在穿梭载体pK18rep中编码黄色荧光蛋白的基因。将这些质粒转化到谷氨酸棒杆菌NRRL B-11474中,并通过光谱法测量YFP蛋白的积累来评价启动子活性。
通过电穿孔将纯化的报告基因构建体质粒转化到谷氨酸棒杆菌NRRL B-11474中(海恩斯(Haynes)等人,普通微生物学杂志,1990)。在加25μg/mL卡那霉素的BHI琼脂上选择转化体。针对每一转化,挑选多个单菌落并将其接种到96中孔块中的个别孔中,所述96中孔块含有300μL BHI培养基加25μg/mL卡那霉素。通过在30℃以1,000rpm摇动培养48小时使细胞生长到饱和。在培养之后,将培养物以3,500rpm离心5分钟,并通过抽吸除去培养基。通过重悬于300μL PBS中将细胞洗涤一次,并以3,500rpm离心5分钟,后续接着抽吸出上清液且最后重悬于300μL PBS中。将此混合物的20μL等分试样转移到含有180μL PBS的96孔全面积黑色透明底部试验板。使用SpectraMax M5微孔板读数器测量在600nm处细胞的光密度,且使用TECAN M1000微孔板引导仪通过在514nm处激发并在527nm处测量发射来测量荧光。针对每一孔,通过将荧光除以光密度来计算归一化荧光活性。亲本质粒pK18rep充当负控制。在报告基因构建体之间且在生物重复之间比较归一化荧光活性。启动子活性的数值总结呈现于下表1中。
Figure BDA0002306067530000081
表1:在启动子控制下表达黄色荧光蛋白的重组谷氨酸棒杆菌
启动子级别1到3被认为是“弱”的,启动子级别4到6被认为是“中等”的,且启动子级别7及8被认为是“强”的。绝对地,此处弱启动子是具有平均活性小于6,000的那些启动子;中等启动子具有至少为6,000且不超过60,000的平均活性;且强启动子具有超过60,000的平均活性。鉴于此类单位对物种及装置两者均为特定的,因此相对单位具有更广泛的适用性。表1的“相对表达”栏中使用的一种标准是阶梯中最弱的启动子的标准,假定最弱的启动子在例如此处所执行的那些试验的试验中具有小于500的平均活性。弱启动子是相对表达介于从最弱启动子级别的至少1倍到不超过60倍的范围内的那些启动子;中等启动子是相对表达介于从最弱启动子级别的超过60倍到不超过600倍的范围内的那些启动子;且强启动子是相对表达是最弱启动子级别的超过600倍的那些启动子。相对于其中发生表达的细胞特性的表达水平可跨越不同情境来广泛地应用。例如,具有中等强度的启动子可被定义为具有细胞内的平均蛋白表达水平的至少20%且不超过200%,或者比细胞内的平均蛋白表达水平低至少100倍且不超过10倍,其中弱启动子及强启动子分别是表达水平低于及高于这些范围的那些启动子。替代地且更一般来说,“中等”启动子可为比所使用的最弱的启动子强并且比所使用的最强的启动子弱的任何启动子。
在此实例及其它实例中考虑的度量是改善的候选者的分率或“命中率”,其是在一或多个所关注表型中其经测量改善水平高于噪声阈值的修饰的分率。在相对于小的高吞吐量规模下的性能有一定规模地(即,大于小规模)预测性能时,可基于噪声(例如,均方根误差)来设定所述阈值,并且一旦确认还表示可认为是表型的实质性改善的事物的最小阈值。在实施例中,对于生产率模型,这些截止值比未修饰的亲本基因组高10%,且对于产量模型,这些截止值比亲本高3%。
通常通过两个目标中的一者完成向新菌株背景中添加修饰:多样化(搜索)或合并(应用)。基因背景菌株可为野生型菌株,或者是相对于野生型菌株含有一或多个突变的经突变的工程菌株。多样化是在单个菌株背景中尝试尽可能多的不同修饰的过程,而合并是基于所关注表型(在此实施例中为生产率及产量)中的表型性能而将在多样化过程期间识别的潜在有用的修饰应用于一或多个所关注菌株背景且不必应用于我们能够应用到的所有菌株背景的过程。单独考虑这两种情形是有用的,因为导致性能增加高于表型的噪声阈值(即,命中率)的修饰的较高或较低分率的含义针对两种情形是不同的。合并中采用的修饰是多样化中表现最佳的修饰的子集。多样化中的高命中率意味着在给定的文库中相对容易找到改善,而合并中的高命中率意味着在给定的文库中改善始终是有价值的。换句话说,在多样化期间,将优先级赋予在一个菌株背景中尝试尽可能多的不同修饰,以便识别在许多不同背景中可能有用的修饰。在命中多样化方面命中率高的类别意味着,在所使用的背景下,相对容易发现改善性能的基因修饰。在于多样化期间识别出潜在有用的修饰之后,合并涉及在多个所关注背景中尝试这些修饰。这些修饰中的一些可能无法证明在其它背景中具有一致的用途,并且将不会像命中一样规律地出现。因此,在合并期间命中率高的那些修饰或修饰类别是在许多不同的菌株背景中反复命中的那些修饰。
如本文中所使用,术语“文库”是指根据本发明的基因修饰的集合。在一些实施例中,本发明的文库可表现为:i)数据库或其它计算机文件中的序列信息的集合,ii)编码一系列基因元素的基因构建体的集合,或iii)包括所述基因元素的细胞菌株。在一些实施例中,本发明的文库可指个别元素的集合(例如,用于PRO交换文库的启动子的集合,或用于SNP交换文库的SNP的集合)。在其它实施例中,本发明的文库可指基因元素的组合,例如启动子::基因的组合。在一些实施例中,本发明的文库可包括与将文库的每一成员应用于宿主有机体中的影响相关联的元数据。举例来说,本文中所使用的文库可包含启动子::基因序列组合的集合以及那些组合对特定物种中的一或多个表型的所得影响,从而改善在未来启动子交换中使用所述组合的未来预测值。
通过多样化及合并而分解图2,得到图3。图3是对图2的修饰,按文库目标(多样化或合并)而汇总。合并中采用的修饰是多样化中表现最佳的修饰的子集。
一般来说,合并是文库的值的最佳量度,因为合并的成功源自跨越多个背景的基因修饰的重复的一致的效用。在图3中,启动子强度之间的差异在合并方面比多样化方面要小,但弱启动子的表现仍然最差。
当数据仅限于经受中等强度启动子交换的基因座或已经经受阶梯中的一半以上(即,至少五个)启动子的基因座时,特别证明了中等强度启动子交换产生的命中率高于强启动子的证据,如图4中所展示。图4图解说明来自图2的数据子集,这些子集经设计以使跨越不同启动子级别的频率偏差均匀。
因此,数据表明中等强度启动子交换比强启动子通常更有用,强启动子比弱启动子更有用。本技术领域中的常规做法通常是使表达最大化或最小化,但是此类极端方法可能证明给细胞造成过多的负担,特别是在调节基本细胞功能方面。
除启动子交换之外,许多其它修饰是可能的。可插入外源基因或使用外源基因来替代天然基因,可采用单核苷酸多态性(包含起始密码子修饰,例如从ATG到TTG),且还可应用经由UV、转座子或其它突变剂进行的随机突变。
对整个基因组中的基因目标进行优先级排序
除了应当进行何种类型的修饰的性质之外,在本发明的实施例中还解决了应当将修饰应用于哪些基因座的问题。按惯例,代谢工程师将精力集中在代谢途径基因上。这些基因明显重要,且将基因组组织成壳的方法是从这些基因开始,即“壳1”。要定义这些基因,可检查收集到的目标的生物合成知识,以创建壳1中的基因的列表。
在实施例中,可采用例如通量平衡分析(“FBA”)等优化驱动的算法方法来识别将对使有机体的代谢通量转向目标产物具有最大影响的基因。在此方法中,使用有机体的基因组规模代谢模型(此处,通过基因催化反应连接的细胞代谢物的有向图)来对比使产物的产量最大化的菌株的代谢表型与使细胞生长最大化的另一表型(例如,基础代谢)的比较。所述对比揭示了应被修饰的基因的子集(例如,从其表达水平上调或下调),以将基础代谢更改为产物最大化的菌株。执行分析的正式步骤包含:
·制定线性规划(LP)优化问题,以在代谢稳定状态(即指数生长阶段,其中存在中间代谢物的净零积累率)的假设下计算(替代地)目标化学物的最大生产通量(以下称生产表型)或最大细胞生长速率(以下称天然表型)。LP问题的结构如下所展示。
最大化
vj vtarget product或vcellular growth
经受:
Figure BDA0002306067530000111
针对所有代谢物i(稳定状态假设)
LBj≤vj≤UBj,针对所有反应j∈J(对反应通量的限制)
其中Sij是含有参与反应j的代谢物i的化学计量系数的基因组规模代谢模型的拓扑的矩阵表示。基于允许反应可逆或限制在一个特定方向上的热力学可行性施加反应通量的下限LBj及上限UBj。在解决LP问题时,第二步骤可保存产物通量的最大值
Figure BDA0002306067530000112
及细胞生长的最大值
Figure BDA0002306067530000113
·在第二步骤中,通过解决一系列LP问题,针对生产表型及天然表型两者识别出每一反应j的最大及最小可行通量界线。施加了先前问题的所有约束以及额外约束,所述额外约束分别将目标产物及细胞生长的最小通量限制在最优值
Figure BDA0002306067530000114
及最优值
Figure BDA0002306067530000115
LP问题的结构如下所展示。
最大化/最小化
vj vj,针对每一反应j∈J
经受:
Figure BDA0002306067530000121
针对所有代谢物i
LBj≤vj≤UBj,针对所有反应j∈J
Figure BDA0002306067530000122
Figure BDA0002306067530000123
在解决两种表型中的每一者的LP问题时,可行通量范围集
Figure BDA0002306067530000124
Figure BDA0002306067530000125
被保存。
·将每一反应的可行范围进行对比会揭示哪一反应子集的通量需要上调或下调以将天然表型转化为生产表型。另外,所述比较还提供了对通量中所需的上调/下调水平的定量估计。基因反应图传达了反应级分类信息以识别基因级操纵。
对于在给定的微生物菌株(例如,谷氨酸棒杆菌)中优化所要氨基酸产物产量及生产率的情形,通过这两种方法确定的基因修饰的性能的比较在图5中给出。
图5图解说明修饰的分率,其改善水平高于根据熟练技术人员或算法(FBA)的选择按文库目标汇总的目标产物的生产率及产量的表型的噪声阈值。合并中采用的修饰是实验期间获得的多样化中表现最佳的修饰的子集。
算法建议多样化过程中更多潜在有用的改变,但是合并中有价值的改变的速率类似。另一观察结果是,算法在识别改善产量或产量及生产率两者的改变方面显然表现得更好。
为了充分利用有机体生产所要产物的能力,应考虑对其所有基因进行修饰。然而,技术限制仍然使得例如将启动子交换应用于细菌基因组中的每一基因为困难的。因此,本发明的实施例对超出用于测试的已知途中酶以外的基因进行分类及优先级排序。当涉及目标基因时,本发明的实施例确定如何对基因进行优先级排序以进行修饰。优先级排序的一个目标是使朝向所关注菌株的所要性能改善的进展速率最大化。
根据本发明的实施例,将基因优先级排序到壳中的另一方法是经由基因本体论(GO)。基因本体分类提供了表示基因产物性质的经定义条目的受控词汇。这些涵盖了三个域:细胞组分,细胞的部分或其细胞外环境;分子功能,基因产物在分子级别上的元素活性,例如结合或催化;及生物过程,具有经定义开始及结束的操作或分子事件集,与集成的活的单位(细胞、组织、器官及有机体)的功能有关。
GO分类系统被构造为有向无环图,其中每一条目已经定义了与相同域中的一或多个其它条目的关系及有时与其它域的关系。GO词汇被设计为物种未知的,并且包含适用于原核生物及真核生物以及单细胞及多细胞有机体的条目。(参见http:// geneontology.org/page/ontology-documentation,其以全文引用的方式并入本文中)。
基因本体论定义了与基因功能有关的概念的全域(GO条目)以及这些功能如何彼此相关(“关系”)。随着生物知识的积累,对其进行了修订及扩展。GO描述关于三个方面的功能:分子功能(通过基因产物执行的分子级别活性),细胞组分(相对于基因产物在其中执行功能的细胞结构的位置),及生物过程(较大的过程,或通过多个分子活性完成的“生物程序”)。
对本体论的正在进行的修订由在生物学及计算知识表示两者均具有丰富经验的高级本体论编辑团队来管理。在基因本体论联盟本体论团队与请求本体论更新的科学家之间合作进行所述更新。大多数请求来自做出GO注释的科学家(这些请求中每一请求通常仅影响几个条目),以及生物学特定领域的领域专家(这些请求通常修订本体论的包括许多条目及关系的整个“分支”)。
在GO注释的实例中,基因产物“细胞色素c”可由分子功能条目“氧化还原酶活性”,生物过程条目“氧化磷酸化”以及细胞组分条目“线粒体基质”及“线粒体内膜”来描述。
本体论
分子功能
可通过单个大分子机器的作用通常经由与其它分子实体的直接物理相互作用来执行的分子过程。在此意义上,功能表示基因产物(或复合物)执行的作用或活性。从两个截然不同但相关的角度描述这些作用:(1)生化活性,及(2)在较大的系统/过程中充当组件。
细胞组分
这些条目描述相对于细胞区室及结构的位置,所述位置在大分子机器执行分子功能时被所述大分子机器占据。存在生物学家描述基因产物的位置的两种方式:(1)相对于细胞结构(例如,质膜的细胞质侧)或区室(例如,线粒体),以及(2)其等是部分的稳定的大分子复合物(例如,核糖体)。与GO的其它方面不同,细胞组分概念不是指过程,而是指细胞解剖结构。
生物过程
生物过程表示对有机体进行基因编程以实现的特定目标。生物过程通常通过其结果或结束状态来描述,例如,细胞分裂的生物过程导致从单个亲本细胞产生两个子细胞(分裂的细胞)。生物过程是通过由特定基因产物(或大分子复合物)通常以高度调控的方式并以特定时间顺序执行的一组特定分子功能通常来完成。
图6图解说明来自基因本体论的子图的实例,其中基因类别602、604及606经富集以改善产量。在此分组中,基因集与本体论中的特定条目(以及所有祖先条目)相关联。所有条目(上面表示每一命名空间的根条目除外)与另一条目具有子类关系。
以下是取自OBO格式文件的GO条目的实例。
id:G0:0016049
名称:细胞生长
命名空间:biological_process
定义:“其中通过与已经存在的物质类似的物质的积聚及生物合成生产,细胞大小随着时间不可逆地增大的过程。”[GOC:ai]
子集:goslim_generic
子集:goslim_plant
子集:gosubset_prok
同义词:“细胞扩展”相关[]
同义词:“细胞生长”确切[]
同义词:“细胞的生长”确切[]
is_a:G0:0009987!细胞过程
is_a:GO:0040007!生长
关系:part_of G0:0008361!细胞大小的调控
http://geneontology.org/page/ontology-structure
可使用GO精简版来将基因本体论“向上滚动”到各种抽象及汇总级别,GO精简版是GO条目的子集,其给出了基因分类的更综合的概述(参见http://geneontology.org/page/ go-slim-and-subset-guide)。在此情形下,“向上滚动”GO条目意味着从根据特定GO条目对基因进行分类开始,且从所述更特定条目“向上”移动图以将那些基因分类于更综合的GO条目下,所述特定条目是所述更综合的GO条目的子集。“向上滚动”过程可从此处继续,从综合的GO条目移动到并入此条目的甚至更综合的GO条目。此过程继续进行,直到达到含在小得多的综合GO条目列表内的一或多个GO条目为止。以此方式,将每一特定GO条目转换为含在GO精简版本体论文件内的GO条目的有限列表内的更综合的GO条目。GO精简版的使用最有可能用于将基因组按优先级排序放入壳中。
在算法上定义GO SLIM映射可包含例如将所有GO条目向上滚动三个级别或进行迭代向上滚动直到就总GO条目数或每给定GO条目分配的基因数来说达到“最佳点”为止等方法。本发明的实施例可在算法上定义“最佳点”方法,使得GO条目被逐步向上滚动,直到所有GO精简版的集区达到定义的大小或者独特GO条目的集区已经减少了特定量为止。这些方法具有易于扩展到许多其它情形的优点。
Figure BDA0002306067530000151
表2
表2展示了基于实验在给定微生物菌株中所要氨基酸产量及生产率富集的GO精简版条目。对于每一GO条目,将导致产量或生产率改善到预设阈值以上的基因数目与期望可能偶然看到的数目进行比较。此表用于组合的合并及多样化,并由多样化实验主导。
一旦决定了基因分类方案,下一步便是根据分类解释实验效果的结构;即,确定哪些子类对于改善目标表型、指导后续修饰轮次或类似地应用于另一目标和/或有机体最有用。可采用统计或机器学习方法来识别这些子类。
在统计方法中,在本发明的实施例中可采用基因集富集分析(“GSEA”)。(参见GSEA;苏布兰马尼安A.(Subramanian A.)等人,“基因集富集分析:一种用于解释全基因组表达谱的基于知识的方法(Gene set enrichment analysis:A knowledge-basedapproach for interpreting genome-wide expression profiles)”,PNAS,2005,以全文引用的方式并入本文中。)GSEA试图识别本体论内在候选基因集中过度表示的基因类别的子集。此分析通常提供两种类型的输出:富集得分ES指示富集程度,且p值指示结果的重要性。可采用统计方法来纠正多假设测试。
虽然人类基因组计划的完成为研究人员提供了大量的新信息,但这也给他们留下了如何解释及分析不可置信的量的所得数据的问题。为了寻找与疾病相关联的基因,研究人员利用DNA微阵列,所述DNA微阵列测量不同细胞中基因表达的量。研究人员对数千种不同的基因执行了这些微阵列,并比较了两种不同细胞种类(例如,正常细胞与癌细胞的对比)的结果。然而,此比较方法不够灵敏,无法检测个别基因表达之间的细微差异,因为疾病通常涉及整个基因群组。多个基因与单个生物途径相联系,且因此导致基因表型表达差异的是基因集内表达的累加改变。基因集富集分析关注基因群组中表达的改变,且通过这样做,此方法解决了单个基因表达中无法检测到的小的改变的问题。
基因集富集分析使用先验基因集,所述先验基因集由于它们参与相同的生物途径或通过在染色体上的近端位置(所有这些均可充当修饰特征)而被分组在一起。在本发明的实施例中,这些预定义集的数据库可在分子标记数据库(MSigDB)处找到。在GSEA中,可执行DNA微阵列或现在的RNA-Seq(全转录组鸟枪测序)并在两个细胞种类之间进行比较,但是重点不是集中在长列表中的个别基因上,而是集中在基因集上。研究人员分析了所述集中大多数基因是否落在所述列表的极端:列表的顶部及底部对应于两种细胞类型之间最大的表达差异。如果基因集落在顶部(过度表达)或底部(表达不足),那么认为与表型差异有关。
举例来说,可在健康基因型和疾病基因型之间的比较中采用全基因组关联研究,以试图发现疾病基因组中过度表示并且可能与所述状况相关联的SNP。在GSEA之前,全基因组SNP关联研究的准确性受到大量误肯定的严重限制。GSEA-SNP方法基于以下理论:导致疾病的SNP往往被分组于全部参与同一生物途径的基因集中。GSEA的此应用不仅有助于发现与疾病相关联的SNP,而且有助于说明疾病的对应途径及机制。
替代地,本发明的实施例可应用机器学习(“ML”)技术来学习本体论的给定类别(特征)与观察到的结果之间的关系。在此框架中,实施例可使用标准的ML模型(例如,决策树)来确定特征的重要性。由于本体类别的分层性质,特征经常是相关的或冗余的,这可能导致模棱两可的模型拟合及特征检验。为了解决此问题,可经由主成分分析对输入特征执行降维。替代地,可基于从子到亲本本体类别获得的信息来执行特征修整。
一般来说,机器学习可被描述为使用有限数目的标记数据实例来优化信息任务(例如分类或回归)的执行中的性能标准(例如,参数、技术或其它特征)且然后对未知数据执行相同的任务。在例如采用线性回归的方法等监督式机器学习中,机器(例如,计算装置)例如通过识别训练数据所展现出的模式、种类、统计关系或其它属性来学习。然后将学习结果用于预测新数据是否将展现相同的模式、种类、统计关系或其它属性。
当训练数据可用时,本发明的实施例可采用其它监督式机器学习技术。在没有训练数据的情况下,实施例可采用无监督式机器学习。替代地,实施例可使用少量的标记数据及大量的未标记数据来采用半监督式机器学习。实施例还可采用特征选择来选择最相关特征的子集以优化机器学习模型的性能。取决于选择的机器学习方法的类型,作为线性回归的替代或补充,实施例可采用例如逻辑回归、神经网络、支持向量机(SVM)、决策树、隐马尔可夫模型、贝叶斯网络、格拉姆施密特、基于增强的学习、包含分层聚类的基于聚类的学习、基因算法以及本领域已知的任何其它适合的学习机。特定来说,实施例可采用逻辑回归来提供分类的概率(例如,将基因分类到不同的官能团中)以及分类本身。参见,例如,史维德(Shevade),一种使用稀疏逻辑回归的基因选择的简单而有效的算法(A simple andefficient algorithm for gene selection using sparse logistic regression)(生物信息学,第19卷,第17 2003期,第2246页到第2253页);伦格(Leng)等人,使用针对时间基因表达数据的功能数据分析进行分类(Classification using functional data analysisfor temporal gene expression data)(生物信息学,第22卷,第1期,牛津大学出版社(2006),第68页到第76页),其全部以全文引用的方式并入本文中。
实施例可采用图形处理单元(GPU)加速的架构,所述架构在特别是以已知为深度神经网络(DNN)的形式执行机器学习任务中已经越来越流行。本发明的实施例可采用基于GPU的机器学习,例如在基于GPU的深度学习推断:性能及功率分析(GPU-Based DeepLearning Inference:A Performance and Power Analysis)(恩威迪亚(NVidia)白皮书,2015年11月,达尔(Dahl)等人)、用于QSAR预测的多任务神经网络(Multi-task NeuralNetworks for QSAR Predictions)(多伦多大学计算机科学系,2014年6月(arXiv:1406.1231[stat.ML]))中所描述的基于GPU的机器学习,所有所述文献以全文引用的方式并入本文中。适用于本发明的实施例的机器学习技术还可在利伯布莱切特(Libbrecht)等人的基因学及基因组学中的机器学习应用(Machine learning applications ingenetics and genomics)(自然评论:基因学,第16卷,2015年6月)、卡什亚普(Kashyap)等人的生物信息学中的大数据分析:机器学习角度(Big Data Analytics inBioinformatics:A Machine Learning Perspective)(Latex类文件期刊,第13卷,第9期,2014年9月(arXiv:1506.05101))、普隆巴莫(Prompramote)等人的生物信息学中的机器学习(Machine Learning in Bioinformatics)(生物信息学技术第5章,第117页到第153页,施普林格柏林海德堡(Springer Berlin Heidelberg),2005),所有所述文献以全文引用的方式并入本文中。
用于菌株优化的GSEA-学习新的本体类别
在实施例中,可在菌株优化问题的上下文中使用GSEA,以基于一组历史数据来学习新颖的本体类别,并使用那些经学习的类别来预测可能改善性能的新的候选改变。GSEA可用于确定目标基因,且其还可与其它信息(例如最优启动子强度级别的知识)组合以选择要执行的修饰。
本发明的实施例对未测试的基因做出预测。例如,当前的菌株优化项目利用人类专家将基因组按优先级排序为四个壳,所述壳由26、81、415及2107个基因组成。当前前三个壳已完成,且最后一个(第四)壳的大约一半已完成。最后一个壳表示其余的约80%的基因组,所述其余的约80%的基因组对人类专家来说不明显对于优化目标产量及生产率表型是重要的。然而,本发明的受让人通过最后一个壳的迄今为止的进展产生了许多有用的表型改善,且因此较佳地对这些基因进行优先级排序即为优先级。此处的“进展”是指实际上已对其应用修饰的壳4基因的分率。图7给出了来自表2的富集的GO精简版与人类定义的壳的对应关系。
图7通过与所关注菌株基因组中所有基因的人类按优先级排序的壳的对应关系图解说明说明了表2的富集的GO精简版中的基因分解。
在一种方法下,本发明的实施例通过集中于在最后一个壳中高度表示的那些GO精简版来对最后一个壳进行优先级排序。来自图7的实例包含“DNA结合”、“DNA代谢过程”及“对应激的响应”。因此,本发明的实施例在对其它GO精简版中的基因执行基因修饰之前,优先将基因修饰应用于那些GO精简版内的基因。
本发明的实施例还可考虑有用的修饰先前来自何处。举例来说,图8展示了哪些人为设计的壳包含了对应于图8中所展示的GO精简版的迄今为止被判断为“命中”的修饰(高于噪声的候选表型改善)。
图8与示范性所关注菌株基因组中所有基因的人类按优先级排序的壳的对应关系图解说明富集的GO精简版中的基因子集的分解,所述基因子集经由启动子交换进行的修饰已经证明改善所要表型。
本发明的实施例认为已经产生壳4中的有用改善的那些GO精简版可能继续产生有用的改善。来自图8的实例包含“DNA代谢过程”及“对应激的响应”。这两个GO精简版表示91个基因,其中46个先前是修饰的目标;其余45个基因因此可被视为下一阶段的高优先级目标。
本发明的实施例采用机器学习方法来回顾性地评估上述方法的效用。实例过程是:
·将历史数据分为训练集及测试集
·使用训练数据集(例如,使用GSEA)计算每类别富集概率。
·预测训练集中不存在的所有基因类别实例(即,测试数据集)的富集概率。
·将关于测试数据集的经预测的每类别富集概率与所观察的每类别富集概率进行比较。
·根据需要调整任何超参数,例如,ML算法中的决策树参数。
在线学习
考虑到上述情况,本发明的实施例可最初按以下降序对分类为壳的作为进行修饰的候选者的基因进行优先级排序:
1.被FBA或另一代谢模型或者其组合(包含代谢图及人类专家咨询的文献)识别为目标的基因
2.在似乎适用的先前的全基因组代谢优化项目努力中被识别为有用的GO精简版(例如,DNA代谢、基因调控、应激响应),以及被人类专家判断为很重要的任何GO精简版
3.其它基因
在初始壳已完成并且在最后一个壳中已取得一些进展之后,本发明的实施例可迭代地执行自动化GSEA或其它分析,并对其余的最终壳基因进行重新优先级排序。在实施例中,优先级排序引擎可依赖于实验结果来强制预测算法中某些特征的加权。举例来说,可按照以下从最重到最轻的加权的次序,将权重分配给以下基因集:
1.富集的GO精简版中的来自最终壳基因当中的先前产生了有用的改善的基因
2.富集的GO的精简版中的在最终壳中良好表示的基因
3.富集的GO精简版中的其它基因
4.其它基因
在实施例中,可首先尝试中等强度的启动子交换,后续接着强启动子,其中弱启动子接收最低的优先级。还应注意,在一基因属于多个类别的情形中,由于类别重叠或由于采用多个分类系统,可基于与每一基因所属的类别中的每一者有关的预测性能的组合为每一基因分配经加权预测性能。对预测性能进行加权会对应地影响对应的优先级排序。在最简单的情形中,可使用每一基因的平均基于类别的预测性能。另一实例将是根据每一相关类别的大小或已知效用加权的平均基于类别的预测性能。
随着新的基因修饰集被预测、应用及测试,可收集关于哪些类别的修饰最有用的数据,然后可“在线”方式反馈这些数据,以对下一轮修饰进行优先级排序。以更多的算法条目,可经由汤普森(Thompson)采样迭代地更新GSEA模型,以有效地学习最相关(即,命中富集)的本体类别,如下文所描述。此技术基于过去的每类别的成功(例如,性能改善命中)来调整类别的比例采样。
·假定类别Gi的本体O以及本体类别与基因之间的映射。假定每循环菌株构建能力N(例如,每循环构建的菌株数)
·初始化
o j=0。此处j是主要的while循环计数器。
o jmax要执行的最大运行次数。
o基于来自实验数据、例如FBA或其它代谢模型等其它技术或者上文关于初始优先级排序所讨论的其它技术的现有知识,现有本体类别预期富集率Pj(Ci),其中j是迭代且i是识别本体类别的索引。
o菌株性能目标ygoal=0,及当前亲本菌株性能yjk=0,作为基线,k表示第j轮构建的第k个菌株。
·同时max(yjk)<ygoal或j<jmax
o从本体类别Ci中随机采样与Pj(Ci)成比例的N个基因gk。即,从本体类别执行汤普森采样。可在有或没有替换的情况下执行采样。所属领域的技术人员可认识到,可替代地采用其它学习策略,例如知识梯度策略。
o以在先前步骤中识别的基因gk为目标应用基因干扰技术中的一者,例如启动子交换。这产生新的菌株sjk
o测量新菌株的表型性能:Vjk=f(sjk)
o使用GSEA或上文所描述的其它技术,基于新的测量结果确定经更新本体类别富集率Pj+1(Ci)。
o递增j=j+1
根据实施例,参考图9,优先级排序引擎至少部分地基于对至少一种微生物菌株中的第一组基因进行的第一基因修饰而存取第一表型性能数据(902);至少部分地基于第一表型性能数据及第一基因修饰与第二基因修饰共有的至少一个修饰特征而预测第二基因修饰的第二预测表型性能(904);及至少部分地基于第二表型性能而对待应用于第二组基因的第二基因修饰进行优先级排序(906)。至少部分地基于优先级排序,可将第二基因修饰应用于至少一种微生物菌株内的基因。修饰特征是被认为在预测建模(例如,机器学习)中可能有用的参数。修饰特征可表达为种类特征(例如,类型)、连续特征(例如,数字)或序数特征(例如,离散群组,例如更好或更差)。
优先级排序引擎可基于从将第二基因修饰中的一或多个基因修饰迭代地应用于第二组基因内的基因观察到的表型性能数据而迭代地更新将应用于第二基因组内的基因的子集的第二基因修饰的子集的优先级排序。
在实施例中,优先级排序引擎可至少部分地基于将第二基因修饰中的一或多个基因修饰应用于第二组基因内的基因而获得经更新的第一所观察表型性能数据(908),且至少部分地基于经更新第一表型性能数据而预测第二基因修饰的子集的经更新第二表型性能(904)。然后,优先级排序引擎可至少部分地基于经更新第二表型性能而更新将应用于第二组基因内的基因的子集第二基因修饰的子集的优先级排序(906)。注意,根据本发明的实施例,将第二基因修饰中的一或多个基因修饰应用于第二组基因内的基因会有效地将那些经修饰基因从第二组基因内移动到现在可获得其性能数据的第一组基因。根据本发明的实施例,本文中所描述的实施例的任何组合可用于使用经优先的基因修饰来产生微生物菌株。根据本发明的实施例,产生微生物菌株以包括应用于第一基因组中的基因的第一基因修饰。根据实施例,此微生物菌株可进一步包括第二基因修饰,所述第二基因修饰被优先于高于阈值优先级排序并且被应用于第二组基因中的至少一个基因,其中相比于响应于优先级排序基于经预测第二表型性能,响应于优先级排序基于经预测的经更新第二表型性能,所应用的基因修饰被优先的程度更高。
根据本发明的实施例,基因修饰及至少一个修饰特征可涉及要修饰的基因或要对那些基因进行的修饰的类型。举例来说,至少一个修饰特征可包含类别,包含本体类别,例如与GO分类有关的类别,或修饰类型,例如启动子交换(例如,启动子修饰,包含启动子的插入、缺失或替换),或SNP(单核苷酸多态性)交换(例如,单个碱基对修饰,包含单个碱基对的插入、缺失或替换)。
修饰特征可与启动子的强度(例如弱,强或中等强度)有关。发明人的实验展示其中与弱或强启动子相比,中等强度启动子通过微生物菌株产生性能(例如,产量、生产率)改善的可能性更大的实例。因此,优先级排序引擎可将中等强度的启动子比强的或弱的启动子更重地加权到预测表型性能中。在本发明的实施例中,优先级排序引擎可对弱启动子加权的程度不如对强启动子及中等强度启动子加权的程度那么重。
一般来说,优先级排序引擎可将已知的有益效应比较小的效应更重地加权到预测表型性能中。相反,在实施例中,优先级排序引擎可将较低的权重分配给预测表型性能中的已知负面或不那么有益的效应,而不是较有益的效应。作为另一实例,在实施例中,预测第二基因修饰的第二表型性能至少部分基于包含对菌株中的至少两个基因的一或多种类型的修饰(例如,启动子交换、SNP交换)的至少一个修饰特征。以此方式,所述方法考虑了由对同一菌株进行两个或更多个基因修饰的表型效应引起的上位效应。在此些实施例中,预测可将产生正性上位效应的一或多种类型的修饰更重地加权到预测表型性能中。
在实施例中,至少一个修饰特征包含基因本体分类内的不同抽象级别。在实施例中,至少一个修饰特征包含基于代谢网络的分类。在实施例中,第二组基因不包含第一组基因内的任何基因。在实施例中,第二组基因内的基因各自是多个类别的成员,并且可从适用于给定基因所属的每一类别的预测的组合中产生所述基因的复合性能预测。在实施例中,第二组基因内的基因共享至少一个共同类别中的成员,并且如果共同类别是每一基因所属的唯一类别,那么此些基因全被分配相同的预测性能。在实施例中,第二组基因内的基因可各自仅是单个类别的成员。在实施例中,第一组及第二组中的基因可彼此共享类别成员,并且此些基因可各自属于多个类别。
在实施例中,至少一个修饰特征包含来自第一分类系统的第一本体类别及来自第二分类系统的第二本体类别。举例来说,如果基因是来自不同分类系统的多个类别的成员(例如,GO、KEGG、基因或基因-产物序列相似性、蛋白质域),并且已经观察到或预测到那些类别将产生性能改善,那么根据本发明的实施例,优先级排序引擎可有利地加权所述基因作为修饰候选者的预测表型性能(借此增加其被分配高优先级的机会)。
在实施例中,至少一个修饰特征包含由至少一种微生物菌株产生的产物的特性。举例来说,产物的特性可能与相同的代谢途径或本体类别有关。如果第一组或来自第一组的基因与性能改善相关联,那么来自沿着相同的代谢途径或在相同本体类别内的第二组的基因可能也将引起性能改善。因此,根据本发明的实施例,优先级排序引擎可有利地加权所述基因作为修饰候选者的预测表型性能(借此增加其被分配高优先级的机会)。
替代地,如果将多个菌株-产物组合用作表型性能数据的修饰特征,那么可使用产物的特性来加权与输入的菌株-产物组合有关的数据和目标菌株-产物组合的相关性。与目标产物共享更多特性的输入更有可能产生有用的预测。在实施例中,那些产物特性可包含从与第一产物密切相关的代谢途径(按照含量或到最近共同前体的距离)产生的组成原子数、结构、原子含量等。
在实施例中,优先级排序引擎可采用机器学习,所述机器学习使用来自第一组基因的基因作为机器学习预测模型中的训练集来预测第二基因修饰的第二表型性能。
在实施例中,优先级排序引擎可通过至少部分地基于第一所观察表型性能数据而预测第二基因修饰的每类别富集概率并且通过至少部分地基于预测每类别富集概率的排名而对第二预测基因修饰进行优先级排序来预测第二表型性能。在本发明的实施例中,如果针对类别的预测富集超过阈值富集,那么优先级排序引擎可对用于在类别内进行测试的至少一个候选基因进行优先级排序。
在实施例中,至少一个修饰特征涉及微生物菌株的特征。此些特征可包含系统发育或分类学特征,包含基因组序列相似性、域(古生菌、细菌或真核生物)、革兰氏阳性或阴性(对于细菌)、属、物种等等;生态及生理特征,包含自然环境的特征(例如,pH、温度、盐度,压力)、代谢特征(例如,优选的生长基质,可能的生长基质、废物)等等;或其它特征。举例来说,如果对第一菌株中的一组基因的修饰提供了性能改善,那么很可能对相似的第二菌株中的相似的一组基因进行相似的修饰也会引起性能改善。此处“相似的一组基因”可定义为例如属于相同基因本体类别、属于具有相同产物、序列相似性、表达谱或调控相似性等等的代谢途径的基因。“相似”菌株可由系统相似性、基因谱系相似性;菌株是原核还是真核生物、消耗相似的原料、产生相似的代谢物或在其它修饰特征方面相似来表征。因此,根据本发明的实施例,所述方法可有利地加权第二菌株中所述相似组内的基因作为通过相同或相似修饰进行修饰的候选者的预测表型性能。
在实施例中,第二组基因驻存在与第一组基因驻存在其中的至少一种微生物菌株不同的至少一种微生物菌株内。在那些实施例及其它实施例中,第一表型性能数据可涉及由至少一种微生物菌株产生的第一产物的一或多个特性,且第二预测表型性能可涉及与第一产物不同且由同一菌株或共享共同特征的另一菌株产生的第二产物的一或多个特性。在实施例中,第二产物可与第一产物共享共同特征,例如从密切相关的代谢途径(按照含量或到最近共同前体的距离)产生的组成原子数、结构、原子含量等等。
图12是用作图12A到12L的表段的布局的指南的图。图12A到12L一起形成实验数据表,其图解说明在特定微生物宿主有机体中特定氨基酸的产生所涉及的属性。(通过参考图12A到12L中的每一者中的行号及列号,也可在没有图12的指导的情况下将表拼凑在一起。)跨越任何行的列标题(在括号中识别)读取,可以看到在标准命名法下(也由基因座id(B)识别),根据M.池田(M.Ikeda)等人在谷氨酸棒杆菌基因组:特征及对生物技术过程的影响(The Corynebacterium glutamicum genome:features and impacts onbiotechnological processes)(应用微生物技术,2003年8月;62(2-3):99-109.Epub2003,5月13日,所述文献以全文引用的方式并入本文中)中所提及的ngcl命名法,改变(A)(由改变识别符识别)影响宿主基因(C)、改变类型(D)(例如,缺失、启动子交换(“proswp”)、起始密码子交换(“scswp”)、替换(“gene_repl”))(大多数是启动子交换)、壳号(E)及壳子类(F)(例如,在途中、转运、其它、TCA、转录,PTS)。壳3及4通常偏离生物合成途径。壳子类“其它”通常对应于意外的偏离途径的结果,所述结果可能为进一步探索所关注,因为所述改变与所关注产物之间不存在已知的生物学关系。下文解释其它壳子类(其中一些在图12A到L的表中陈述):
在途中:在到产物的生物合成途径中
转运:离子通道、转运蛋白及其它负责分子进出细胞的蛋白质
转录:转录因子及其它转录调控因子
TCA:三羧酸循环,也称为柠檬酸循环
PTS:磷酸转移酶系统,负责将糖引入细菌中
对于特定改变(A),所述表展示了以克/升/小时为单位的生产率(G)的改变及以葡萄糖克数/所关注产物克数x 100为单位的产量(H)(重量百分比)的改变。
启动子(I)识别替换受改变(A)影响的基因的天然启动子的启动子。替换启动子(I)的表中的识别符是指替换启动子所来源于的基因。如果指示“天然”,那么不进行替换。
蛋白质名称(J)识别由被修饰的基因(例如,因启动子改变而增加的酶)制成的蛋白质。注意,生成的蛋白质通常不是所关注产物,而是受改变影响的有机体生成的蛋白质。
列K列示与受改变影响的基因相关联的“GO条目”。如本文中其它地方所论述,与壳3及4相关联的GO条目作为潜在修饰的高优先级目标为进一步探索所特别关注。
来自图12A到L的表中的壳4GO条目的列表如下:
从头开始的CTP生物合成过程,
3-异丙基苹果酸脱水酶活性,
4铁,
4硫簇结合,
ATP结合,
DNA结合,
DNA拓扑异构酶活性,
DNA I型拓扑异构酶活性,
DNA拓扑改变,
以DNA为模板,
L-天冬氨酸:2-氧戊二酸酯氨基转移酶活性,
L-苯丙氨酸:2-氧戊二酸酯氨基转移酶活性,
NADH脱氢酶活性,
UMP激酶活性,
乙酰乳酸合酶活性,
腺苷酸环化酶活性,
醇脱氢酶(NAD)活性,
氨基酸结合,
芳香族化合物生物合成过程,
生物合成过程,
支链氨基酸生物合成过程,
cAMP生物合成过程,
催化活性,
细胞氨基酸生物合成过程,
细胞组分组织或生物发生,
细胞大分子生物合成过程,
细胞氮化合物生物合成过程,
细胞过程,
染色体组织,
密码子特异性的,
环状核苷酸生物合成过程,
杂环生物合成过程,
细胞内信号转导,
离子转运,
铁-硫簇结合,
异构酶活性,
激酶活性,
亮氨酸生物合成过程,
裂解酶活性,
代谢过程,
金属离子结合,
核苷酸结合,
核苷酸磷酸化,
有机酸生物合成过程,
氧化还原过程,
氧化还原酶活性,
磷-氧裂解酶活性,
磷酸化,
钾离子转运,
蛋白水解,
含嘌呤的化合物代谢过程,
磷酸吡哆醛结合,
嘧啶核苷酸生物合成过程,
含嘧啶的化合物代谢过程,
细胞生物合成过程调控,
转录调控,
序列特异性DNA结合,
丝氨酸型内肽酶活性,
信号转导蛋白活性,
信号转导,
小分子代谢过程,
转氨酶活性,
转录,
转录因子活性,
转移酶活性,
翻译,
翻译释放因子活性,
翻译终止,
转运,
尿苷酸激酶活性,
DNA代谢过程,
生物合成过程,
细胞氨基酸代谢过程,
代谢过程,
含核碱基的化合物代谢过程,
翻译,
转运。
图10图解说明根据本发明的实施例的云计算环境。在本发明的实施例中,可在云计算系统1002中实施优先级排序引擎软件1010以使得多个用户能够根据本发明的实施例对基因修饰进行优先级排序。客户端计算机1006(例如图7中所图解说明的那些)经由网络1008(例如因特网)访问系统。所述系统可采用使用图7中所图解说明的类型的一或多个处理器的一或多个计算系统。云计算系统本身包含用于经由网络1008使软件1010与客户端计算机10010介接的的网络接口1012。网络接口1012可包含应用程序编程接口(API)以使得客户端计算机1006处的客户端应用程序能够访问系统软件1010。特定来说,通过API,客户端计算机1006可访问优先级排序引擎。
软件即服务(SaaS)软件模块1014作为对客户端计算机1006的服务而提供系统软件1010。云管理模块10110管理客户端计算机1006对系统1010的访问。云管理模块1016可实现采用多租户应用、虚拟化或本技术领域中已知的其它架构的云架构以服务于多个用户。
图11图解说明根据本发明的实施例可用于执行存储于非暂时性计算机可读媒体(例如,存储器)中的程序代码的计算机系统1100的实例。计算机系统包含可用于取决于应用而与人类用户及/或其它计算机系统介接的输入/输出子系统1102。I/O子系统1102可包含例如键盘、鼠标、图形用户接口、触摸屏或用于输入(及,例如,LED或其它平面屏幕显示器)的其它接口或用于输出的其它接口(包含应用程序接口(API))。本发明的实施例的其它元件(例如优先级排序引擎)可与类似于计算机系统1100的计算机系统一起实施。
程序代码可存储于非暂时性媒体(例如辅助存储器1110或主要存储器1108或者两者中的永久性存储装置)中。主要存储器1108可包含易失性存储器(例如随机存取存储器(RAM))或非易失性存储器(例如只读存储器(ROM))以及用于快速地存取指令及数据的不同层级的高速缓冲存储器。辅助存储器可包含永久性存储装置,例如固态驱动器、硬盘驱动器或光盘。一或多个处理器1104从一或多个非暂时性媒体读取程序代码且执行所述代码以使得计算机系统能够完成由本文中的实施例执行的方法。所属领域的技术人员将理解,处理器可引入源代码,且将源代码解译或编译为可在处理器1104的硬件门层级处理解的机器代码。处理器1104可包含用于处置计算密集型任务的图形处理单元(GPU)。
处理器1104可经由一或多个通信接口1107(例如网络接口卡、WiFi收发器等)与外部网络进行通信。总线1105通信地耦合I/O子系统1102、处理器1104、外围装置1106、通信接口1107、存储器1108及永久存储装置1110。本发明的实施例不限于此代表性架构。替代实施例可采用不同布置及不同类型的组件,例如,用于输入-输出组件及存储器子系统的单独总线。
所属领域的技术人员将理解,本发明的实施例的元件中的一些或所有元件及其伴随操作可完全或部分地由一或多个计算机系统实施,所述计算机系统包含类似于计算机系统1100的那些处理器及存储器系统的一或多个处理器及一或多个存储器系统。特定来说,优先级排序引擎及本文中所描述的任何其它自动系统或装置的元件可为计算机实施的。一些元件及功能性可在本地实施,且其它元件及功能性可经由网络通过不同服务器以分布式方式(例如,以客户端-服务器方式)实施。特定来说,可使服务器侧操作对多个客户端以软件即服务(SaaS)方式可用,如图10中所展示。
所属领域的技术人员将认识到,在一些实施例中,本文中所描述的操作中的一些可通过人类实施而执行或通过自动手段与人工手段的组合而执行。当操作未完全自动化时,优先级排序引擎的适当组件可例如接收人类对操作的执行的结果而非通过其自身的操作能力产生结果。
以引用方式并入
本文引用的所有参考文献、文章、出版物、专利、专利出版物及专利申请案出于所有目的以全文引用的方式并入本文中。特定来说,本申请案通过引用方式并入于2015年12月7日提出申请的第62/264,232号美国临时申请案、于2016年4月27日提出申请的第15/140,296号美国非临时申请案及于2016年7月29日提出申请的第62/368,786号美国临时申请案,所述申请案中的每一者特此以全文引用的方式并入。
然而,本文中引用的任何参考文献、文章、出版物、专利、专利出版物及专利申请案的提及不被视为且不应被视为对其构成世界上任何国家的有效的现有技术或形成常见的普通知识的一部分或者其揭露本质事物的承认或任何形式的暗示。
实施例
1.一种用于确定将应用于至少一种微生物菌株内的基因以改善表型性能的修饰的计算机实施的方法,所述方法包括:
至少部分地基于对至少一种微生物菌株中的第一组基因进行的第一基因修饰而存取第一表型性能数据;
使用计算装置至少部分地基于所述第一表型性能数据及所述第一基因修饰与第二基因修饰共有的至少一个修饰特征而预测所述第二基因修饰的第二表型性能;及
使用计算装置至少部分地基于所述第二表型性能而对待应用于第二组基因的所述第二基因修饰进行优先级排序,
其中,至少部分地基于所述优先级排序,可将所述第二基因修饰的至少一子集应用于至少一种微生物菌株内的基因。
2.根据实施例1所述的方法,其中所述至少一个修饰特征包含本体类别。
3.根据实施例1或2中任一实施例所述的方法,其中所述至少一个修饰特征包含基因修饰类型。
4.根据实施例3所述的方法,其中所述修饰类型包含启动子交换。
5.根据实施例3或4所述的方法,其中所述修饰类型包含启动子交换的启动子强度。
6.根据实施例1到5中任一实施例所述的方法,其中所述预测将中等强度启动子比将强启动子或弱启动子更重地加权。
7.根据实施例1到5中任一实施例所述的方法,其中所述预测将弱启动子不如将强启动子及中等强度启动子那么重地加权。
8.根据实施例3到5中任一实施例所述的方法,其中所述修饰类型是SNP交换。
9.根据实施例1到8中任一实施例所述的方法,其中所述至少一个修饰特征包含对所述至少一种菌株中的至少两个基因的一或多个类型的修饰。
10.根据实施例1到9中任一实施例所述的方法,其中所述预测将产生正性上位效应的所述一或多个类型的修饰更重地加权。
11.根据实施例1到10中任一实施例所述的方法,其中所述第二组基因不包含所述第一组基因内的任何基因。
12.根据实施例1到11中任一实施例所述的方法,其中所述第二组基因内的基因子集内的基因各自为多个类别的成员,且预测第二表型性能包括基于每一基因所属的所述类别中的每一者的经预测表型性能的组合而预测复合第二表型性能。
13.根据实施例1到12中任一实施例所述的方法,其中所述第二组基因内的基因在至少一个共同类别中共享成员,且预测包括在共同类别为所述共同类别内的所有基因所属的唯一类别的情况下将所述相同第二表型性能分配到此些基因。
14.根据实施例1到13中任一实施例所述的方法,其中所述第二组基因内的基因各自为唯一单个类别的成员。
15.根据实施例1到14中任一实施例所述的方法,其中至少一个修饰特征包含来自第一分类系统的第一本体类别及来自第二分类系统的第二本体类别。
16.根据实施例1到15中任一实施例所述的方法,其中所述至少一个修饰特征包含由至少一种微生物菌株合成的产物的特性。
17.根据实施例1到16中任一实施例所述的方法,其中预测第二表型性能采用来自所述第一组基因的基因作为机器学习预测模型中的训练集。
18.根据实施例1到17中任一实施例所述的方法,其中
预测第二表型性能包括至少部分地基于所述第一表型性能数据而预测所述第二基因修饰的每类别富集概率;且
对所述第二基因修饰进行优先级排序是至少部分地基于所述经预测每类别富集概率的排名。
19.根据实施例1到18中任一实施例所述的方法,其进一步包括:
至少部分地基于将所述第二基因修饰中的一或多个基因修饰应用于所述第二组基因内的基因而获得经更新第一表型性能数据;及
至少部分地基于所述经更新第一表型性能数据而预测所述第二基因修饰的子集的经更新第二表型性能;及
至少部分地基于所述经更新第二表型性能而对待应用于所述第二组基因的子集的所述第二基因修饰的所述子集进行优先级排序。
20.根据实施例1到19中任一实施例所述的方法,其包括基于从将所述第二基因修饰中的一或多个基因修饰迭代地应用于所述第二组基因内的基因获得的表型性能数据而迭代地更新待应用于所述第二组基因内的基因子集的所述第二基因修饰的修饰子集的优先级排序。
21.根据实施例1到20中任一实施例所述的方法,其中所述至少一个修饰特征包含基因本体分类内的不同抽象级别。
22.根据实施例1到21中任一实施例所述的方法,其中所述至少一个修饰特征包含基于代谢网络的分类。
23.根据实施例1到22中任一实施例所述的方法,其中所述至少一个修饰特征与至少一种微生物菌株特性相关。
24.根据实施例1到23中任一实施例所述的方法,其中所述第二组基因驻存于与所述第一组基因驻存于其中的所述至少一种微生物菌株不同的至少一种微生物菌株内。
25.根据实施例1到24中任一实施例所述的方法,其中所述第一表型性能数据与由所述第一组基因驻存于其中的所述至少一种微生物菌株产生的第一产物的至少一个特性相关,且所述第二表型性能与不同于所述第一产物的第二产物的至少一个特性相关。
26.根据实施例25所述的方法,其中所述第二产物是由与所述第一组基因驻存于其中的所述至少一种微生物菌株不同的至少一种微生物菌株产生。
27.一种微生物菌株,其包括根据实施例1到26中任一实施例按优先级排序的一或多个第二基因修饰。
28.一种微生物菌株,其包括应用于实施例1到27中任一实施例的所述第一组基因中的基因的第一基因修饰。
29.根据实施例1到28中任一实施例所述的微生物菌株,其进一步包括经优先级排序为高于阈值优先级排序且应用于所述第二组基因中的至少一个基因的第二基因修饰。
30.根据实施例29所述的微生物菌株,其中相比于响应于所述优先级排序是基于所述经预测第二表型性能,响应于所述优先级排序是基于所述经预测的经更新第二表型性能而将所述经应用基因修饰按优先级排序为更高。
31.根据实施例1到30中任一实施例所述的方法,其中所述至少一个修饰特征表示以下本体类别中的至少一者:
从头开始的CTP生物合成过程,
3-异丙基苹果酸脱水酶活性,
4离子,
4硫簇结合,
ATP结合,
DNA结合,
DNA拓扑异构酶活性,
DNA I型拓扑异构酶活性,
DNA拓扑改变,
以DNA为模板,
L-天冬氨酸:2-氧戊二酸酯氨基转移酶活性,
L-苯丙氨酸:2-氧戊二酸酯氨基转移酶活性,
NADH脱氢酶活性,
UMP激酶活性,
乙酰乳酸合酶活性,
腺苷酸环化酶活性,
醇脱氢酶(NAD)活性,
氨基酸结合,
芳香族化合物生物合成过程,
生物合成过程,
支链氨基酸生物合成过程,
cAMP生物合成过程,
催化活性,
细胞氨基酸生物合成过程,
细胞组分组织或生物发生,
细胞大分子生物合成过程,
细胞氮化合物生物合成过程,
细胞过程,
染色体组织,
密码子特异性的,
环状核苷酸生物合成过程,
杂环生物合成过程,
细胞内信号转导,
离子转运,
铁-硫族结合,
异构酶活性,
激酶活性,
亮氨酸生物合成过程,
裂解酶活性,
代谢过程,
金属离子结合,
核苷酸结合,
核苷酸磷酸化,
有机酸生物合成过程,
氧化还原过程,
氧化还原酶活性,
磷-氧裂解酶活性,
磷酸化,
钾离子转运,
蛋白水解,
含嘌呤的化合物代谢过程,
磷酸吡哆醛结合,
嘧啶核苷酸生物合成过程,
含嘧啶的化合物代谢过程,
细胞生物合成过程调控,
转录调控,
序列特异性DNA结合,
丝氨酸型内肽酶活性,
信号转导蛋白活性,
信号转导,
小分子代谢过程,
转氨酶活性,
转录,
转录因子活性,
转移酶活性,
翻译,
翻译释放因子活性,
翻译终止,
转运,
尿苷酸激酶活性,
DNA代谢过程,
生物合成过程,
细胞氨基酸代谢过程,
代谢过程,
含核碱基的化合物代谢过程,
翻译,或
转运。

Claims (31)

1.一种用于确定将应用于至少一种微生物菌株内的基因以改善表型性能的修饰的计算机实施的方法,所述方法包括:
至少部分地基于对至少一种微生物菌株中的第一组基因进行的第一基因修饰而存取第一表型性能数据;
使用计算装置至少部分地基于所述第一表型性能数据及所述第一基因修饰与第二基因修饰共有的至少一个修饰特征而预测所述第二基因修饰的第二表型性能;及
使用计算装置至少部分地基于所述第二表型性能而对待应用于第二组基因的所述第二基因修饰进行优先级排序,
其中,至少部分地基于所述优先级排序,可将所述第二基因修饰的至少一子集应用于至少一种微生物菌株内的基因。
2.根据权利要求1所述的方法,其中所述至少一个修饰特征包含本体类别。
3.根据权利要求1或2中任一权利要求所述的方法,其中所述至少一个修饰特征包含基因修饰类型。
4.根据权利要求3所述的方法,其中所述修饰类型包含启动子交换。
5.根据权利要求3所述的方法,其中所述修饰类型包含启动子交换的启动子强度。
6.根据权利要求5所述的方法,其中所述预测将中等强度启动子比将强启动子或弱启动子更重地加权。
7.根据权利要求5所述的方法,其中所述预测将弱启动子不如将强启动子及中等强度启动子那么重地加权。
8.根据权利要求3所述的方法,其中所述修饰类型是SNP交换。
9.根据权利要求1或2中任一权利要求所述的方法,其中所述至少一个修饰特征包含对所述至少一种菌株中的至少两个基因的一或多个类型的修饰。
10.根据权利要求9所述的方法,其中所述预测将产生正性上位效应的所述一或多个类型的修饰更重地加权。
11.根据权利要求1或2中任一权利要求所述的方法,其中所述第二组基因不包含所述第一组基因内的任何基因。
12.根据权利要求2所述的方法,其中所述第二组基因内的基因子集内的基因各自为多个类别的成员,且预测第二表型性能包括基于每一基因所属的所述类别中的每一者的经预测表型性能的组合而预测复合第二表型性能。
13.根据权利要求2或12中任一权利要求所述的方法,其中所述第二组基因内的基因在至少一个共同类别中共享成员,且预测包括在共同类别为所述共同类别内的所有基因所属的唯一类别的情况下将所述相同第二表型性能分配到此些基因。
14.根据权利要求2所述的方法,其中所述第二组基因内的基因各自为唯一单个类别的成员。
15.根据权利要求2所述的方法,其中至少一个修饰特征包含来自第一分类系统的第一本体类别及来自第二分类系统的第二本体类别。
16.根据权利要求1所述的方法,其中所述至少一个修饰特征包含由至少一种微生物菌株合成的产物的特性。
17.根据权利要求1所述的方法,其中预测第二表型性能采用来自所述第一组基因的基因作为机器学习预测模型中的训练集。
18.根据权利要求1或2中任一权利要求所述的方法,其中
预测第二表型性能包括至少部分地基于所述第一表型性能数据而预测所述第二基因修饰的每类别富集概率;且
对所述第二基因修饰进行优先级排序是至少部分地基于所述经预测每类别富集概率的排名。
19.根据权利要求1所述的方法,其进一步包括:
至少部分地基于将所述第二基因修饰中的一或多个基因修饰应用于所述第二组基因内的基因而获得经更新第一表型性能数据;及
至少部分地基于所述经更新第一表型性能数据而预测所述第二基因修饰的子集的经更新第二表型性能;及
至少部分地基于所述经更新第二表型性能而对待应用于所述第二组基因的子集的所述第二基因修饰的所述子集进行优先级排序。
20.根据权利要求1所述的方法,其包括基于从将所述第二基因修饰中的一或多个基因修饰迭代地应用于所述第二组基因内的基因获得的表型性能数据而迭代地更新待应用于所述第二组基因内的基因子集的所述第二基因修饰的修饰子集的优先级排序。
21.根据权利要求2所述的方法,其中所述至少一个修饰特征包含基因本体分类内的不同抽象级别。
22.根据权利要求2所述的方法,其中所述至少一个修饰特征包含基于代谢网络的分类。
23.根据权利要求1所述的方法,其中所述至少一个修饰特征与至少一种微生物菌株特性相关。
24.根据权利要求1所述的方法,其中所述第二组基因驻存于与所述第一组基因驻存于其中的所述至少一种微生物菌株不同的至少一种微生物菌株内。
25.根据权利要求24所述的方法,其中所述第一表型性能数据与由所述第一组基因驻存于其中的所述至少一种微生物菌株产生的第一产物的至少一个特性相关,且所述第二表型性能与不同于所述第一产物的第二产物的至少一个特性相关。
26.根据权利要求25所述的方法,其中所述第二产物是由与所述第一组基因驻存于其中的所述至少一种微生物菌株不同的至少一种微生物菌株产生。
27.一种微生物菌株,其包括通过根据权利要求1到26中任一权利要求所述的方法按优先级排序的一或多个第二基因修饰。
28.一种微生物菌株,其包括应用于权利要求19所述的所述第一组基因中的基因的第一基因修饰。
29.根据权利要求28所述的微生物菌株,其进一步包括经优先级排序为高于阈值优先级排序且应用于所述第二组基因中的至少一个基因的第二基因修饰。
30.根据权利要求29所述的微生物菌株,其中相比于响应于所述优先级排序是基于所述经预测第二表型性能,响应于所述优先级排序是基于所述经预测的经更新第二表型性能而将所述经应用基因修饰按优先级排序为更高。
31.根据权利要求1所述的方法,其中所述至少一个修饰特征表示以下本体类别中的至少一者:
从头开始的CTP生物合成过程,
3-异丙基苹果酸脱水酶活性,
4铁,
4硫簇结合,
ATP结合,
DNA结合,
DNA拓扑异构酶活性,
DNA I型拓扑异构酶活性,
DNA拓扑改变,
以DNA为模板,
L-天冬氨酸:2-氧戊二酸酯氨基转移酶活性,
L-苯丙氨酸:2-氧戊二酸酯氨基转移酶活性,
NADH脱氢酶活性,
UMP激酶活性,
乙酰乳酸合酶活性,
腺苷酸环化酶活性,
醇脱氢酶(NAD)活性,
氨基酸结合,
芳香族化合物生物合成过程,
生物合成过程,
支链氨基酸生物合成过程,
cAMP生物合成过程,
催化活性,
细胞氨基酸生物合成过程,
细胞组分组织或生物发生,
细胞大分子生物合成过程,
细胞氮化合物生物合成过程,
细胞过程,
染色体组织,
密码子特异性的,
环状核苷酸生物合成过程,
杂环生物合成过程,
细胞内信号转导,
离子转运,
铁-硫簇结合,
异构酶活性,
激酶活性,
亮氨酸生物合成过程,
裂解酶活性,
代谢过程,
金属离子结合,
核苷酸结合,
核苷酸磷酸化,
有机酸生物合成过程,
氧化还原过程,
氧化还原酶活性,
磷-氧裂解酶活性,
磷酸化,
钾离子转运,
蛋白水解,
含嘌呤的化合物代谢过程,
磷酸吡哆醛结合,
嘧啶核苷酸生物合成过程,
含嘧啶的化合物代谢过程,
细胞生物合成过程调控,
转录调控,
序列特异性DNA结合,
丝氨酸型内肽酶活性,
信号转导蛋白活性,
信号转导,
小分子代谢过程,
转氨酶活性,
转录,
转录因子活性,
转移酶活性,
翻译,
翻译释放因子活性,
翻译终止,
转运,
尿苷酸激酶活性,
DNA代谢过程,
生物合成过程,
细胞氨基酸代谢过程,
代谢过程,
含核碱基的化合物代谢过程,
翻译,或
转运。
CN201880037754.0A 2017-06-06 2018-06-05 对基因修饰进行优先级排序以增加表型优化的吞吐量 Pending CN110914912A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762516053P 2017-06-06 2017-06-06
US62/516,053 2017-06-06
PCT/US2018/036096 WO2018226717A1 (en) 2017-06-06 2018-06-05 Prioritization of genetic modifications to increase throughput of phenotypic optimization

Publications (1)

Publication Number Publication Date
CN110914912A true CN110914912A (zh) 2020-03-24

Family

ID=62749209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880037754.0A Pending CN110914912A (zh) 2017-06-06 2018-06-05 对基因修饰进行优先级排序以增加表型优化的吞吐量

Country Status (7)

Country Link
US (1) US20200168291A1 (zh)
EP (1) EP3635592A1 (zh)
JP (1) JP2020527770A (zh)
KR (1) KR20200015916A (zh)
CN (1) CN110914912A (zh)
CA (1) CA3064053A1 (zh)
WO (1) WO2018226717A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113270144A (zh) * 2021-06-23 2021-08-17 北京易奇科技有限公司 一种基于表型的基因优先级排序方法和电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020146215A1 (en) * 2019-01-07 2020-07-16 Zymergen Inc. Prioritizing potential nodes for editing or potential edits to a node for strain engineering

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002029032A2 (en) * 2000-09-30 2002-04-11 Diversa Corporation Whole cell engineering by mutagenizing a substantial portion of a starting genome, combining mutations, and optionally repeating
US20030228565A1 (en) * 2000-04-26 2003-12-11 Cytokinetics, Inc. Method and apparatus for predictive cellular bioinformatics
WO2004033471A2 (en) * 2002-10-04 2004-04-22 Genencor International, Inc. Glucose transport mutants for production of biomaterial
US20070031843A1 (en) * 2004-04-02 2007-02-08 Rosetta Genomics Bioinformatically detectable group of novel regulatory bacterial and bacterial associated oligonucleotides and uses thereof
US20110289042A1 (en) * 2005-06-29 2011-11-24 Board Of Trustees Of Michagn State University Integrative Framework for Three-Stage Integrative Pathway Search
CN103298828A (zh) * 2010-08-04 2013-09-11 拜耳知识产权有限责任公司 犹他游动放线菌的基因组学
US20130324426A1 (en) * 2012-05-31 2013-12-05 Elena E. Brevnova Method to improve protein production
CN104126011A (zh) * 2011-11-30 2014-10-29 帝斯曼知识产权资产有限公司 由乙酸和甘油生产乙醇的工程化酵母菌株
US20150368639A1 (en) * 2011-04-14 2015-12-24 Ryan T. Gill Compositions, methods and uses for multiplex protein sequence activity relationship mapping

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7826975B2 (en) * 2002-07-10 2010-11-02 The Penn State Research Foundation Method for redesign of microbial production systems
US9580719B2 (en) * 2007-04-27 2017-02-28 Pfenex, Inc. Method for rapidly screening microbial hosts to identify certain strains with improved yield and/or quality in the expression of heterologous proteins
US9394571B2 (en) * 2007-04-27 2016-07-19 Pfenex Inc. Method for rapidly screening microbial hosts to identify certain strains with improved yield and/or quality in the expression of heterologous proteins
US20080090736A1 (en) * 2007-07-27 2008-04-17 Quantum Intelligence, Inc. Using knowledge pattern search and learning for selecting microorganisms
US8709766B2 (en) * 2011-10-17 2014-04-29 Colorado School Of Mines Use of endogenous promoters in genetic engineering of Nannochloropsis gaditana
US11208649B2 (en) * 2015-12-07 2021-12-28 Zymergen Inc. HTP genomic engineering platform
WO2017100376A2 (en) 2015-12-07 2017-06-15 Zymergen, Inc. Promoters from corynebacterium glutamicum
US9988624B2 (en) 2015-12-07 2018-06-05 Zymergen Inc. Microbial strain improvement by a HTP genomic engineering platform
GB2554334A (en) * 2016-05-17 2018-04-04 Tap Biosystems Phc Ltd Automated bioprocess development
EP3610398A4 (en) * 2017-03-30 2021-02-24 Monsanto Technology LLC SYSTEMS AND METHODS FOR USE IN IDENTIFYING MULTIPLE GENOMIC EDITIONS AND FOR PREDICTING THE AGGREGATED EFFECTS OF IDENTIFIED GENOMIC EDITIONS

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030228565A1 (en) * 2000-04-26 2003-12-11 Cytokinetics, Inc. Method and apparatus for predictive cellular bioinformatics
WO2002029032A2 (en) * 2000-09-30 2002-04-11 Diversa Corporation Whole cell engineering by mutagenizing a substantial portion of a starting genome, combining mutations, and optionally repeating
WO2004033471A2 (en) * 2002-10-04 2004-04-22 Genencor International, Inc. Glucose transport mutants for production of biomaterial
US20070031843A1 (en) * 2004-04-02 2007-02-08 Rosetta Genomics Bioinformatically detectable group of novel regulatory bacterial and bacterial associated oligonucleotides and uses thereof
US20110289042A1 (en) * 2005-06-29 2011-11-24 Board Of Trustees Of Michagn State University Integrative Framework for Three-Stage Integrative Pathway Search
CN103298828A (zh) * 2010-08-04 2013-09-11 拜耳知识产权有限责任公司 犹他游动放线菌的基因组学
US20150368639A1 (en) * 2011-04-14 2015-12-24 Ryan T. Gill Compositions, methods and uses for multiplex protein sequence activity relationship mapping
CN104126011A (zh) * 2011-11-30 2014-10-29 帝斯曼知识产权资产有限公司 由乙酸和甘油生产乙醇的工程化酵母菌株
US20130324426A1 (en) * 2012-05-31 2013-12-05 Elena E. Brevnova Method to improve protein production

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GANG WU ET AL.: "《Metabolic Burden :Cornerstones in Synthetic Biology and Metabolic Engineering Applications》" *
MARKUS W. COVERT ET AL.: "《Metabolic modeling of microbial strains in silico》" *
王璇: "《组蛋白修饰与microRNA对人类基因表达的共调控作用》" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113270144A (zh) * 2021-06-23 2021-08-17 北京易奇科技有限公司 一种基于表型的基因优先级排序方法和电子设备

Also Published As

Publication number Publication date
JP2020527770A (ja) 2020-09-10
CA3064053A1 (en) 2018-12-13
WO2018226717A1 (en) 2018-12-13
US20200168291A1 (en) 2020-05-28
KR20200015916A (ko) 2020-02-13
EP3635592A1 (en) 2020-04-15

Similar Documents

Publication Publication Date Title
Kim et al. Machine learning applications in systems metabolic engineering
Stephanopoulos et al. Exploiting biological complexity for strain improvement through systems biology
Medema et al. Computational tools for the synthetic design of biochemical pathways
Mignone et al. Exploiting transfer learning for the reconstruction of the human gene regulatory network
Toubiana et al. Network analysis: tackling complex data to study plant metabolism
Costanza et al. Robust design of microbial strains
Boghigian et al. Utilizing elementary mode analysis, pathway thermodynamics, and a genetic algorithm for metabolic flux determination and optimal metabolic network design
US11574703B2 (en) Method, apparatus, and computer-readable medium for efficiently optimizing a phenotype with a combination of a generative and a predictive model
Kim et al. Microbial forensics: predicting phenotypic characteristics and environmental conditions from large-scale gene expression profiles
Curran et al. Using flux balance analysis to guide microbial metabolic engineering
US20210225455A1 (en) Bioreachable prediction tool with biological sequence selection
US20200058376A1 (en) Bioreachable prediction tool for predicting properties of bioreachable molecules and related materials
WO2021217138A1 (en) Method for efficiently optimizing a phenotype with a combination of a generative and a predictive model
Mienda Genome-scale metabolic models as platforms for strain design and biological discovery
Goshisht Machine learning and deep learning in synthetic biology: Key architectures, applications, and challenges
Daud et al. A non-dominated sorting Differential Search Algorithm Flux Balance Analysis (ndsDSAFBA) for in silico multiobjective optimization in identifying reactions knockout
CN110914912A (zh) 对基因修饰进行优先级排序以增加表型优化的吞吐量
Zhang et al. Refining transcriptional regulatory networks using network evolutionary models and gene histories
Yu et al. Systematic analysis and accurate identification of DNA N4-methylcytosine sites by deep learning
Patiyal et al. Sigma70Pred: a highly accurate method for predicting sigma70 promoter in Escherichia coli K-12 strains
Cheng et al. Machine learning for metabolic pathway optimization: A review
Kim et al. BeReTa: a systematic method for identifying target transcriptional regulators to enhance microbial production of chemicals
Bai et al. Advances and applications of machine learning and intelligent optimization algorithms in genome-scale metabolic network models
Erickson et al. Constrictor: constraint modification provides insight into design of biochemical networks
Huang et al. A survey of statistical models for reverse engineering gene regulatory networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025107

Country of ref document: HK

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200324