CN111223527B - 利用htp基因组工程平台对微生物菌株的改良 - Google Patents

利用htp基因组工程平台对微生物菌株的改良 Download PDF

Info

Publication number
CN111223527B
CN111223527B CN202010117635.5A CN202010117635A CN111223527B CN 111223527 B CN111223527 B CN 111223527B CN 202010117635 A CN202010117635 A CN 202010117635A CN 111223527 B CN111223527 B CN 111223527B
Authority
CN
China
Prior art keywords
strain
subset
microbial strains
strains
genetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010117635.5A
Other languages
English (en)
Other versions
CN111223527A (zh
Inventor
Z·塞尔贝尔
E·J·迪安
S·曼彻斯特
K·戈拉
M·弗拉斯曼
E·谢尔曼
A·金博尔
S·希捷卡
B·弗勒旺
T·特赖诺尔
K·S·布鲁诺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zymergen Inc
Original Assignee
Zymergen Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US15/140,296 external-priority patent/US11151497B2/en
Application filed by Zymergen Inc filed Critical Zymergen Inc
Publication of CN111223527A publication Critical patent/CN111223527A/zh
Application granted granted Critical
Publication of CN111223527B publication Critical patent/CN111223527B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1079Screening libraries by altering the phenotype or phenotypic trait of the host
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1058Directional evolution of libraries, e.g. evolution of libraries is achieved by mutagenesis and screening or selection of mixed population of organisms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration

Abstract

本发明涉及利用HTP基因组工程平台对微生物菌株的改良。本发明提供一种用计算机驱动且整合分子生物学、自动化和先进机器学习方案的HTP微生物基因组工程平台。所述整合平台使用一套HTP分子工具集创建HTP基因设计文库,所述基因设计文库尤其利用科学见解和迭代模式识别得到。本文所述的HTP基因组工程平台是微生物菌株宿主不可知的且因此能够跨越分类群建构。另外,所揭示的平台能够建构成调节或改良所关注的任何微生物宿主参数。

Description

利用HTP基因组工程平台对微生物菌株的改良
本申请是申请日为2016年12月7日、申请号为201680037112.1、发明名称为“利用HTP基因组工程平台对微生物菌株的改良”的发明专利申请的分案申请。
相关申请的交叉引用
本申请要求2015年12月7日所提交的美国临时申请第62/264,232号、2016年4月27日所提交的美国非临时申请第15/140,296号和2016年7月29日所提交的美国临时申请第62/368,786号的优先权,所述美国临时申请,包括所有描述、参考文献、诸图和权利要求书,各自以全文引用的方式并入本文中以用于所有目的。
技术领域
本发明涉及高通量(HTP)微生物基因组工程。所公开的HTP基因组工程平台由计算机驱动且整合了分子生物学、自动化和先进机器学习方案。这个整合平台使用了一套HTP分子工具集创建HTP基因设计文库,所述基因设计文库尤其利用科学见解和迭代模式识别得到。
关于序列表的表述
与本申请相关的序列表是按文本格式提供以代替纸质副本,且以引用的方式并入本说明书中。含有序列表的文本文件的名称是ZYMR_001_01WO_SeqList_ST25.txt。所述文本文件是≈5KB,创建于2016年12月7日,且以电子方式通过EFS网提交。
背景技术
人类利用微生物细胞生物合成路径产生所关注的产物的能力已有一千年,所述产物的最古老实例包括乙醇、醋、奶酪和酵母乳。这些产物在当今仍然存在巨大的需求并且还伴随着微生物所能产生的产物谱系的不断增大。基因工程技术的出现使得科学家能够设计出多种生物体内的新颖生物合成路径且对其进行编程,从而产生广泛范围的工业、医疗和消费产品。的确,微生物细胞培养物现在用于产生小分子、抗生素、疫苗、杀虫剂、酶、燃料和工业化学品范围内的产物。
鉴于现代工业微生物产生的产物多种多样,因此工程师们承受着提高所指定微生物能够产生目标产物的速度和效率的巨大压力是不令人惊讶的。
已经使用多种方法,通过“改良”所涉及的微生物来改善基于生物学的工业过程的经济性。举例来说,许多医药和化学工业依赖于微生物菌株改良程序,其中使微生物培养物的亲代菌株通过暴露于化学品或UV辐射而连续发生突变且随后根据性能增强(如生产率、产量和效价)进行筛选。广泛地重复这种突变诱发过程直到菌株展现产物性能的适当增强为止。接着使用后续“改良”菌株进行商业生产。
如上文所提及,通过突变诱发来鉴别改良的工业微生物菌株耗时且效率低。所述过程就其本质来说是偶然的且依赖于一次意外的在产物输出上具有所期望结果的突变。
传统的微生物菌株改良程序不仅效率低,而且所述过程还会提高工业菌株的有害突变诱发负荷程度。经历这些类型的程序的工业菌株中的突变积累会变得明显且可能导致性能改良速率出现最终的停滞。
因此,所属领域中对工程改造工业微生物的新方法存在着巨大的需求,所述新方法不受扰于传统菌株改良程序所固有的前述缺点并且大大加快了发现和合并有益突变的过程。
另外,急需一种借以“修复”工业菌株的方法,所述工业菌株已利用微生物菌株改良领域中当前所用的过时有害方法开发出。
发明内容
本发明提供了一种高通量(HTP)微生物基因组工程平台,其不存在与传统微生物菌株改良程序相关的多种问题。
另外,本文教示的HTP平台能够修复工业微生物,所述工业微生物通过数十年的基于随机突变诱发的菌株改良程序已经积累了非有益突变。
所公开的HTP基因组工程平台由计算机驱动且整合了分子生物学、自动化和先进机器学习方案。这个整合平台使用了一套HTP分子工具集创建HTP基因设计文库,所述基因设计文库尤其利用科学见解和迭代模式识别得到。
所教示的HTP基因设计文库通过提供用于在微生物中测试的特定基因组变异文库来充当基因组工程改造过程的驱动器。利用特定文库或文库组合加以工程改造的微生物是根据所得结果(例如所关注产物的产生),按照HTP方式高效筛选。利用HTP基因设计文库界定用于在微生物中测试的特定基因组变异且接着随后筛选具有所述变异的宿主微生物基因组的这种方法是按高效的迭代方式实施。在一些方面中,基因组工程活动的迭代循环数或“轮数”可以是至少1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100或更多个迭代/循环/轮数。
因此,在一些方面中,本发明教示了执行至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、125、150、175、200、225、250、275、300、325、350、375、400、425、450、475、500、525、550、575、600、625、650、675、700、725、750、775、800、825、850、875、900、925、950、975、1000或更多“轮”HTP基因工程(例如多轮SNP交换、PRO交换、STOP交换或其组合)的方法。
在一些实施例中,本发明教示了一种线性方法,其中每一轮后续HTP基因工程是基于前一轮基因工程中所鉴别的基因变异。在其它实施例中,本发明教示了一种非线性方法,其中每一轮后续HTP基因工程是基于任何前一轮基因工程(包括此前进行的分析,和单独的HTP基因工程学分支)中所鉴别的基因变异。
这些迭代循环的数据成就了大规模数据分析和模式识别,从而被整合平台利用以知悉后续多轮HTP基因设计文库建构。因此,所教示平台中使用的HTP基因设计文库是高度动态工具,其受益于大规模数据模式识别算法且通过每轮迭代微生物工程改造而变得信息更丰富。
在一些实施例中,本发明的基因设计文库包含至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、125、150、175、200、225、250、275、300、325、350、375、400、425、450、475、500、525、550、575、600、625、650、675、700、725、750、775、800、825、850、875、900、925、950、975、1000或更多个个别基因变化(例如PRO交换文库中存在至少X数目个启动子:基因组合)。
在一些实施例中,本发明提供了描述对微生物菌株应用HTP菌株改良方法的说明性实例和文字。在一些实施例中,本发明的菌株改良方法适用于任何宿主细胞。
在一些实施例中,本发明教示了一种使微生物进化以获得所期望表型的高通量(HTP)基因组工程学方法,包含:a)扰动具有相同微生物菌株背景的初始多种微生物的基因组,借此创建包含具有独特基因变异的个别微生物菌株的初始HTP基因设计微生物菌株文库;b)根据所期望的表型来筛选和选择初始HTP基因设计微生物菌株文库中的个别微生物菌株;c)提供各自包含基因变异独特组合的后续多种微生物,所述基因变异选自前述步骤所筛选的至少两种个别微生物菌株中所存在的基因变异,借此创建后续HTP基因设计微生物菌株文库;d)根据所期望的表型来筛选和选择后续HTP基因设计微生物菌株文库中的个别微生物菌株;e)按线性或非线性方式重复步骤c)-d)一或多次,直到微生物已获得所期望的表型为止,其中每次后续迭代创建了新的HTP基因设计微生物菌株文库,所述文库包含具有独特基因变异的个别微生物菌株,所述独特基因变异是选自前一HTP基因设计微生物菌株文库中的至少两种个别微生物菌株的基因变异的组合。
在一些实施例中,本发明教示了初始HTP基因设计微生物菌株文库是选自由以下组成的群组的至少一种:启动子交换微生物菌株文库、SNP交换微生物菌株文库、起始/终止密码子微生物菌株文库、优化序列微生物菌株文库、终止子交换微生物菌株文库,或其任何组合。
在一些实施例中,本发明教示了制备各自包含基因变异独特组合的后续多种微生物的方法,其中组合的基因变异各自来源于初始HTP基因设计微生物菌株文库或前一步骤的HTP基因设计微生物菌株文库。
在一些实施例中,后续多种微生物中的基因变异组合将包含初始HTP基因设计微生物菌株文库或前一步骤的HTP基因设计微生物菌株文库中的基因变异的所有可能组合的子集。
在一些实施例中,本发明教示了后续HTP基因设计微生物菌株文库是初始HTP基因设计微生物菌株文库或前一步骤的HTP基因设计微生物菌株文库中的基因变异所衍生的完整组合微生物菌株文库。
举例来说,如果先前HTP基因设计微生物菌株文库仅具有基因变异A、B、C和D,那么所述变异的部分组合可以包括包含三种微生物的后续HTP基因设计微生物菌株文库,所述三种微生物各自包含独特的基因变异组合AB、AC或AD(展现突变的顺序不重要)。前一步骤的HTP基因设计文库中的基因变异所衍生的完整组合微生物菌株文库包括六种各自包含独特的基因变异组合AB、AC、AD、BC、BD或CD的微生物。
在一些实施例中,本发明的方法教示了利用至少一种选自由以下组成的群组的方法扰动基因组:随机突变诱发、靶向序列插入、靶向序列缺失、靶向序列置换,或其任何组合。
在本发明方法的一些实施例中,初始多种微生物包含来源于工业生产株微生物的独特基因变异。
在本发明方法的一些实施例中,初始多种微生物包含表示为S1Gen1的工业生产株微生物和其衍生的表示为SnGenn的任何数目个微生物后代。
在一些实施例中,本发明教示了一种产生SNP交换微生物菌株文库的方法,包含以下步骤:a)提供参考微生物菌株和第二微生物菌株,其中第二微生物菌株包含选自单核苷酸多态性、DNA插入和DNA缺失的多个已鉴别基因变异,这些已鉴别基因变异不存在于参考微生物菌株中;b)扰动参考微生物菌株或第二微生物菌株的基因组,借此创建包含多种个别微生物菌株的初始SNP交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特基因变异,其中所述独特基因变异中的每一种对应于选自参考微生物菌株与第二微生物菌株之间的多种已鉴别基因变异的单一基因变异。
在SNP交换文库的一些实施例中,扰动参考微生物菌株的基因组以添加第二微生物菌株中所发现的已鉴别单核苷酸多态性、DNA插入或DNA缺失中的一或多种。
在本发明的SNP交换文库方法的一些实施例中,扰动第二微生物菌株的基因组以去除参考微生物菌株中未发现的已鉴别单核苷酸多态性、DNA插入或DNA缺失中的一或多种。
在一些实施例中,SNP交换文库中的基因变异将包含参考微生物菌株与第二微生物菌株之间的所有已鉴别基因变异的子集。
在一些实施例中,SNP交换文库的基因变异将包含参考微生物菌株与第二微生物菌株之间经鉴别的所有已鉴别基因变异。
在一些实施例中,本发明教示了一种修复和改良工业微生物菌株的表型性能的方法,包含以下步骤:a)提供亲代谱系的微生物菌株和其衍生的工业微生物菌株,其中工业微生物菌株包含选自单核苷酸多态性、DNA插入和DNA缺失的多种已鉴别基因变异,这些已鉴别基因变异不存在于亲代谱系微生物菌株中;b)扰动亲代谱系微生物菌株或工业微生物菌株的基因组,借此创建包含多种个别微生物菌株的初始SNP交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特的基因变异,其中所述独特基因变异中的每一种对应于选自亲代谱系微生物菌株与工业微生物菌株之间的多种已鉴别基因变异的单一基因变异;c)根据相对于参考微生物菌株的表型性能改良来筛选和选择初始SNP交换微生物菌株文库中的个别微生物菌株,借此鉴别出赋予所述微生物菌株表型性能改良的独特基因变异;d)提供各自包含基因变异独特组合的后续多种微生物,所述基因变异选自前一步骤所筛选的至少两种个别微生物菌株中所存在的基因变异,借此创建后续SNP交换微生物菌株文库;e)根据相对于参考微生物菌株的表型性能改良来筛选和选择后续SNP交换微生物菌株文库中的个别微生物菌株,借此鉴别出赋予所述微生物菌株额外表型性能改良的基因变异独特组合;和f)按线性或非线性方式重复步骤d)-e)一或多次,直到微生物菌株的表型性能相较于工业微生物菌株的表型性能展现所期望的改良水平为止,其中每次后续迭代创建了新的SNP交换微生物菌株文库,所述文库包含具有独特基因变异的个别微生物菌株,所述独特基因变异是选自前一SNP交换微生物菌株文库的至少两种个别微生物菌株的基因变异组合。
在一些实施例中,本发明教示了修复和改良工业微生物菌株的表型性能的方法,其中扰动亲代谱系微生物菌株的基因组以添加工业微生物菌株中所发现的已鉴别单核苷酸多态性、DNA插入或DNA缺失中的一或多种。
在一些实施例中,本发明教示了修复和改良工业微生物菌株的表型性能的方法,其中扰动工业微生物菌株的基因组以去除亲代谱系微生物菌株中未发现的已鉴别单核苷酸多态性、DNA插入或DNA缺失中的一或多种。
在一些实施例中,本发明教示了一种产生启动子交换微生物菌株文库的方法,所述方法包含以下步骤:a)提供内源于基本微生物菌株的多种靶基因,和启动子梯,其中所述启动子梯包含在基本微生物菌株中展现不同表达谱的多种启动子;b)对基本微生物菌株的基因组进行工程改造,借此创建包含多种个别微生物菌株的初始启动子交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特的基因变异,其中所述独特基因变异中的每一种包含可操作地连接到基本微生物菌株内源性靶基因之一的来自启动子梯的启动子之一。
在一些实施例中,本发明教示了一种进行基因组工程改造以使微生物进化从而获得所期望表型的启动子交换方法,所述方法包含以下步骤:a)提供内源于基本微生物菌株的多种靶基因,和启动子梯,其中所述启动子梯包含在基本微生物菌株中展现不同表达谱的多种启动子;b)对基本微生物菌株的基因组进行工程改造,借此创建包含多种个别微生物菌株的初始启动子交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特的基因变异,其中所述独特基因变异中的每一种包含可操作地连接到基本微生物菌株内源性靶基因之一的来自启动子梯的启动子之一;c)根据所期望的表型来筛选和选择初始启动子交换微生物菌株文库中的个别微生物菌株;d)提供各自包含基因变异独特组合的后续多种微生物,所述基因变异选自前一步骤所筛选的至少两种个别微生物菌株中所存在的基因变异,借此创建后续启动子交换微生物菌株文库;e)根据所期望的表型来筛选和选择后续启动子交换微生物菌株文库中的个别微生物菌株;f)按线性或非线性方式重复步骤d)-e)一或多次,直到微生物获得所期望的表型为止,其中每次后续迭代创建了新的启动子交换微生物菌株文库,所述文库包含具有独特基因变异的个别微生物菌株,所述独特基因变异是选自前一启动子交换微生物菌株文库中的至少两种个别微生物菌株的基因变异组合。
在一些实施例中,本发明教示了一种产生终止子交换微生物菌株文库的方法,所述方法包含以下步骤:a)提供内源于基本微生物菌株的多种靶基因,和终止子梯,其中所述终止子梯包含在基本微生物菌株中展现不同表达谱的多种终止子;b)对基本微生物菌株的基因组进行工程改造,借此创建包含多种个别微生物菌株的初始终止子交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特的基因变异,其中所述独特基因变异中的每一种包含基本微生物菌株内源性靶基因之一,所述靶基因之一可操作地连接到来自终止子梯的一或多种终止子。
在一些实施例中,本发明教示了一种进行基因组工程改造以使微生物进化从而获得所期望表型的终止子交换方法,所述方法包含以下步骤:a)提供内源于基本微生物菌株的多种靶基因,和终止子梯,其中所述终止子梯包含在基本微生物菌株中展现不同表达谱的多种终止子;b)对基本微生物菌株的基因组进行工程改造,借此创建包含多种个别微生物菌株的初始终止子交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特的基因变异,其中所述独特基因变异中的每一种包含基本微生物菌株内源性靶基因之一,所述靶基因之一可操作地连接到来自终止子梯的一或多种终止子;c)根据所期望的表型来筛选和选择初始终止子交换微生物菌株文库中的个别微生物菌株;d)提供各自包含基因变异独特组合的后续多种微生物,所述基因变异选自前一步骤所筛选的至少两种个别微生物菌株中所存在的基因变异,借此创建后续终止子交换微生物菌株文库;e)根据所期望的表型来筛选和选择后续终止子交换微生物菌株文库中的个别微生物菌株;f)按线性或非线性方式重复步骤d)-e)一或多次,直到微生物获得所期望的表型为止,其中每次后续迭代创建了新的终止子交换微生物菌株文库,所述文库包含具有独特基因变异的个别微生物菌株,所述独特基因变异是选自前一终止子交换微生物菌株文库中的至少两种个别微生物菌株的基因变异组合。
在一些实施例中,本发明教示了以迭代方式如下改良候选微生物菌株的设计:(a)访问用训练集填充的预测模型,所述训练集包含(1)代表了相对于一或多种背景微生物菌株的基因变化的输入以及(2)相应性能度量;(b)将测试输入应用于代表基因变化的预测模型,所述测试输入对应于并入那些基因变化的候选微生物菌株;(c)至少部分地基于预测模型来预测候选微生物菌株的表型性能;(d)至少部分地基于其预测性能来选择候选微生物菌株的第一子集;(e)获得候选微生物菌株的第一子集的实测表型性能;(f)至少部分地基于其实测表型性能来实现候选微生物菌株的第二子集的选择;(g)向预测模型的训练集中添加(1)对应于候选微生物菌株的所选第二子集的输入以及(2)候选微生物菌株的所选第二子集的相应实测性能;以及(h)重复(b)-(g)直到至少一种候选微生物菌株的实测表型性能满足性能度量标准为止。在一些情况下,在测试输入首次应用于预测模型期间,测试输入所代表的基因变化包含相对于一或多种背景微生物菌株的基因变化;且在测试输入的后续应用期间,测试输入所代表的基因变化包含相对于候选微生物菌株的此前所选第二子集内的候选微生物菌株的基因变化。
在一些实施例中,第一子集的选择可以基于上位效应。这可以如下实现:在第一子集的首次选择期间:测定一或多种背景微生物菌株的性能度量之间的差异程度,所述性能度量响应于代表相对于一或多种背景微生物菌株的基因变化的多种相应输入的应用;以及至少部分地基于一或多种背景微生物菌株的性能度量的差异程度来选择至少两种候选微生物菌株纳入第一子集,所述性能度量响应于并入所述至少两种候选微生物菌株中的基因变化的应用。
在一些实施例中,本发明教示了在候选微生物菌株的迭代改良中应用上位效应,所述方法包含:获得代表实测性能的数据,所述实测性能响应于至少一种背景微生物菌株所产生的相应基因变化;至少部分地基于至少两种基因变化的相应响应性性能度量之间的差异程度来实现至少两种基因变化的选择,其中差异程度是指所述至少两种基因变化通过不同生物学路径影响其相应响应性性能度量的程度;以及设计出相对于背景微生物菌株的基因变化,包括所选基因变化。在一些情况下,供设计至少两种所选基因变化用的背景微生物菌株与所得数据代表实测响应性性能的至少一种背景微生物菌株相同。
在一些实施例中,本发明教示了仅利用单一类型的微生物基因文库进行的HTP菌株改良方法。举例来说,在一些实施例中,本发明教示了仅利用SNP交换文库进行的HTP菌株改良方法。在其它实施例中,本发明教示了仅利用PRO交换文库进行的HTP菌株改良方法。在一些实施例中,本发明教示了仅利用STOP交换文库进行的HTP菌株改良方法。在一些实施例中,本发明教示了仅利用起始/终止密码子交换文库进行的HTP菌株改良方法。
在其它实施例中,本发明教示了利用两种或更多种类型的微生物基因文库进行的HTP菌株改良方法。举例来说,在一些实施例中,本发明教示了将SNP交换与PRO交换文库组合的HTP菌株改良方法。在一些实施例中,本发明教示了将SNP交换与STOP交换文库组合的HTP菌株改良方法。在一些实施例中,本发明教示了将PRO交换与STOP交换文库组合的HTP菌株改良方法。
在其它实施例中,本发明教示了利用多种类型的微生物基因文库进行的HTP菌株改良方法。在一些实施例中,将微生物基因文库组合以产生组合突变(例如应用于一或多种基因的启动子/终止子组合梯)。在又其它实施例中,可以将本发明的HTP菌株改良方法与一或多种传统的菌株改良方法组合。
在一些实施例中,本发明的HTP菌株改良方法产生改良的宿主细胞。即,本发明教示了改良一或多种宿主细胞特性的方法。在一些实施例中,改良的宿主细胞特性选自由以下组成的群组:由宿主细胞产生的所关注产物的体积生产率、比生产率、产量或力价。在一些实施例中,改良的宿主细胞特性是体积生产率。在一些实施例中,改良的宿主细胞特性是比生产率。在一些实施例中,改良的宿主细胞特性是产量。
在一些实施例中,本发明的HTP菌株改良方法所产生的宿主细胞在至少一种宿主细胞特性上相对于未经历HTP菌株改良方法的对照宿主细胞展现1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、100%、150%、200%、250%、300%或更大的改良(例如所关注生物分子的产量或生产率提高X%,涵盖其间的任何范围和子范围)。在一些实施例中,本发明的HTP菌株改良方法选自由以下组成的群组:SNP交换、PRO交换、STOP交换以及其组合。
因此,在一些实施例中,本发明的SNP交换方法所产生的宿主细胞在至少一种宿主细胞特性上相对于未经历SNP交换方法的对照宿主细胞展现1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、100%、150%、200%、250%、300%或更大的改良(例如所关注生物分子的产量或生产率提高X%,涵盖其间的任何范围和子范围)。
因此,在一些实施例中,本发明的PRO交换方法所产生的宿主细胞在至少一种宿主细胞特性上相对于未经历PRO交换方法的对照宿主细胞展现1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、100%、150%、200%、250%、300%或更大的改良(例如所关注生物分子的产量或生产率提高X%,涵盖其间的任何范围和子范围)。
附图说明
图1描绘了用于增加多样性池中的变异的本发明DNA重组方法。DNA区段(如来自相关物种的基因组区域)可以通过物理或酶/化学方式切割。使所切的DNA区域解链且允许其再粘接,以便重叠的基因区域引发聚合酶延伸反应。执行后续的解链/延伸反应,直到产物再组装成嵌合DNA为止,所述嵌合DNA包含来自一或多种起始序列的元件。
图2概述了用于产生新宿主生物体的本发明方法,所述新宿主生物体具有所选的序列修饰(例如交换的100个SNP)。简单来说,所述方法包含(1)设计出所期望的DNA插入序列且通过在组装反应中合并一或多个合成寡核苷酸来产生所述DNA插入序列;(2)将DNA插入序列克隆到转化质体中;(3)将完成的质体转移到所期望的生产菌株中,其在生产菌株中整合到宿主菌株基因组中;以及(4)选择标记和其它非所需DNA元件连接成环离开宿主菌株。每个DNA组装步骤可以涉及额外的品质控制(QC)步骤,如将质体克隆到大肠杆菌细菌中用于扩增和测序。
图3描绘了本发明的转化质体的组装和其在宿主生物体中的整合。插入DNA是通过在组装反应中合并一或多个合成寡核苷酸来产生。含有所期望序列的DNA插入序列侧接与基因组的目标区域同源的DNA区域。这些同源区域促进了基因组整合,且一经整合,则形成直接重复区域,所述直接重复区域是为了在后续步骤中使载体骨架DNA环出而设计。所组装的质体含有插入DNA且任选地含有一或多个选择标记。
图4描绘了使DNA的选定区域从宿主菌株中环出的程序。所插入DNA和宿主基因组的直接重复区域可以在重组事件中“环出”。选择标记反向选择的细胞含有直接重复区域所侧接的环DNA的缺失。
图5描绘了本发明的菌株改良方法的一个实施例。测试含有基因修饰(基因设计)的宿主菌株序列在不同菌株背景下的菌株性能改良(菌株建构)。分析(选中鉴定分析)展现有益突变的菌株且将数据存储于文库中用于进一步分析(例如SNP交换文库、PRO交换文库以及其组合等等)。本发明的选择规则基于来自一或多个文库的元件组合在额外迭代分析中的预测结果来产生新宿主菌株序列的建议。
图6描绘了本发明的一个实施例中的DNA组装、转化和菌株筛选步骤。图6A描绘了建构DNA片段、将所述DNA片段克隆到载体中、使所述载体在宿主菌株中转化以及通过反向选择来使选择序列环出的步骤。图6B描绘了用于高通量培养、筛选和评估所选宿主菌株的步骤。此图还描绘了在培养槽中培养、筛选和评估所选菌株的任选步骤。
图7描绘了本发明的自动化系统的一个实施例。本发明教示了自动化机器人系统的使用,所述机器人系统具有能够对宿主生物体进行克隆、转化、培养、筛选和/或测序的各种模块。
图8描绘了本发明的宿主菌株改良程序的一个实施例的概述。
图9是包含约3.2百万个碱基对的谷氨酸棒状杆菌(Corynebacteriumglutamicum)的基因组的图示。
图10描绘了本发明的转化实验的结果。将0.5kb到5.0kb范围内的DNA插入序列对准插入谷氨酸棒状杆菌基因组的不同区域(显示为相对位置1-24)中。浅颜色表示成功整合,而较深颜色表示插入失败。
图11描绘了第二轮HTP工程PRO交换程序的结果。根据本发明的方法分析首轮PRO交换期间所鉴别的最佳启动子::基因组合,以鉴别可能会对宿主性能展现叠加或组合有益效应的所述突变的组合。第二轮PRO交换突变体因此包含各种启动子::基因突变的成对组合。根据所选生物分子在宿主细胞中的产量的差异对所得第二轮突变体进行筛选。已预测可展现有益效应的突变组合对用圆加强显示。
图12描绘了一项实验的结果,所述实验测试了在大肠杆菌中转化的质体成功地进行了质体组装。选取四个菌落足以使含有1和2kb插入序列的质体达成13%失败率。较大插入可能需要额外的菌落筛选才能得到一致结果。
图13描绘了一项实验的结果,所述实验测试了插入载体在谷氨酸棒状杆菌中成功地转化。2和5kb的DNA插入序列尺寸展现了高转化率和低组装失败率。
图14描绘了谷氨酸棒状杆菌中的环出选择的结果。所转化细菌的蔗糖抗性指示sacB选择标记的环出。DNA插入序列尺寸似乎不影响环出效率。
图15是利用相关度所计算的相似度矩阵。所述矩阵图示了SNP变异体之间的功能相似度。功能相似度低的SNP的合并预期具有改良菌株性能的较高可能性,而较高功能相似度的SNP的合并则相反。
图16A-B描绘了上位定位实验的结果。功能相似度低的SNP与PRO交换的组合使得菌株性能改良。图16A描绘了根据所有SNP/PRO交换的功能相似度聚类的树状图。图16B描绘了如根据产物产量度量的所合并SNP的宿主菌株性能。较大的聚类距离与宿主菌株的合并性能的改良相关。
图17A-B描绘了多样性池中的菌株变异体之间的SNP差异。图17A描绘了这项实验的菌株之间的关系。菌株A是野生型宿主菌株。菌株B是经工程改造的中间菌株。菌株C是工业生产菌株。图17B是鉴别每种菌株的独特和共有SNP的数目的图。
图18描绘了根据本发明方法的首轮SNP交换实验。(1)将来自C的所有SNP个别地且/或组合地克隆到基本A菌株中(A“向上波动”到C)。(2)来自C的所有SNP个别地且/或组合地从商业菌株C中去除(C“向下波动”到A)。(3)将来自B的所有SNP个别地且/或组合地克隆到基本A菌株中(A向上波动到B)。(4)来自B的所有SNP个别地且/或组合地从商业菌株B中去除(B向下波动到A)。(5)将C独有的所有SNP个别地且/或组合地克隆到商业B菌株中(B向上波动到C)。(6)将C独有的所有SNP个别地且/或组合地从商业菌株C中去除(C向下波动到B)。
图19说明了启动子交换方法中所用的实例基因目标。
图20说明了针对已鉴别基因目标用于执行启动子交换方法的示例性启动子文库。PRO交换(即启动子交换)方法中所用的启动子是P1-P8,其序列和身份可见于表1中。
图21说明了启动子交换基因结果取决于所靶向的特定基因。
图22描绘了示例性HTP启动子交换数据,其展示了明显影响赖氨酸产量性能的修饰。X轴表示启动子交换基因设计微生物菌株文库内的不同菌株,且Y轴包括每种菌株的相对赖氨酸产量值。图上的每个字母表示PRO交换靶基因。每个数据点表示重复实验。数据证明如本文所述的适于HTP应用的分子工具(即PRO交换)能够高效地产生和优化微生物菌株生产所关注化合物或分子的性能。在这种情况下,所关注的化合物是赖氨酸;然而,能够利用所教示的PRO交换分子工具优化和/或增加所关注的任何化合物的产量。所属领域的技术人员会了解如何选择编码所期望化合物产量的靶基因且接着使用所教示的PRO交换程序。所属领域的技术人员容易了解,本文所教示的举例说明赖氨酸产量增加的证明数据以及本申请中所呈现的详细公开内容使得PRO交换分子工具在HTP基因组工程学中能够成为广泛适用的进步。
图23说明了相对菌株性能在考虑中的输入数据中的分布。相对性能为零表示经工程改造的菌株与盘内基本菌株的性能同样好。本文所述的方法经设计可鉴别性能可能明显高于零的菌株。
图24说明了线性回归系数值,其描绘了与并入所描绘菌株中的每个基因变化相关的相对菌株性能的平均变化(增加或降低)。
图25说明了前100种预测菌株设计的变化组成。x轴列举了潜在基因变化池(dss突变是SNP交换,且Pcg突变是PRO交换),且y轴表示秩排序。黑色细胞表示候选设计中存在特定变化,而白色细胞表示那种变化不存在。在这个特定实例中,所有前100种设计都含有变化pcg3121_pgi、pcg1860_pyc、dss_339和pcg0007_39_lysa。另外,所述最佳候选设计含有变化dss_034、dss_009。
图26描绘了本发明的一个实施例的DNA组装和转化步骤。流程图描绘了建构DNA片段、将所述DNA片段克隆到载体中、使所述载体在宿主菌株中转化以及通过反向选择来使选择序列环出的步骤。
图27描绘了用于高通量培养、筛选和评估所选宿主菌株的步骤。此图还描绘了在培养槽中培养、筛选和评估所选菌株的任选步骤。
图28描绘了说明性启动子的表达谱,其根据本发明的启动子梯展现了调控表达的范围。启动子A表达在细菌培养物的停滞期达到峰值,而启动子B和C分别在指数期和稳定期达到峰值。
图29描绘了说明性启动子的表达谱,其根据本发明的启动子梯展现了调控表达的范围。启动子A表达在添加所选底物后立即达到峰值,但随着底物浓度降低而快速返回到不可检测的水平。启动子B表达在添加所选底物后立即达到峰值且缓慢降回到不可检测的水平且底物出现相应的减少。启动子C表达在所选底物添加后达到峰值,且在整个培养期间保持高度表达,即使在底物已消耗之后。
图30描绘了说明性启动子的表达谱,其根据本发明的启动子梯展现了组成性表达水平的范围。启动子A展现了最低表达,继之分别为启动子B和C的表达水平增加。
图31图示了用于改良菌株的本发明LIMS系统的一个实施例。
图32图示了本发明LIMS系统的实施例的云计算实施方案。
图33描绘了本发明的迭代预测菌株设计工作流程实施例。
图34图示了根据本发明实施例的计算机系统的实施例。
图35描绘了根据本发明的一个实施例的与DNA组装相关的工作流程。这个流程分成4个阶段:部件产生、质体组装、质体QC,和质体制备用于转化。在部件产生期间,从寡核苷酸测序供应商订购实验室信息管理系统(Laboratory Information Management System,LIMS)所设计的寡核苷酸,且用于在宿主生物体中通过PCR扩增目标序列。对这些PCR部件进行清洁以去除污染物且利用片段分析、通过片段尺寸观察值与理论值的比较进行的计算机模拟品质控制和DNA量化来评估成功性。使所述部件连同组装载体一起在酵母中转化且通过同源重组组装成质体。从酵母中分离出所组装的质体且在大肠杆菌中转化用于后续组装品质控制和扩增。在质体组装品质控制期间,分离出每种质体的若干个复制品,使用滚环扩增(RCA)进行扩增,且利用酶消化和片段分析来评估正确组装。对在QC流程期间所鉴别的正确组装的质体进行命中挑选以产生永久性储备液且对质体DNA进行萃取且量化,随后在目标宿主生物体中转化。
图36描绘了实验的结果,其用终止子T1-T8在两种培养基中在两个时间点的效应表征。条件A和C代表了BHI培养基的两个时间点,而B和D点代表了HTP测试培养基的两个时间点。
图37描绘了一项实验的结果,其对传统菌株改良方法(如UV突变诱发)的有效性与本发明的HTP工程改造方法进行了比较。绝大部分的UV突变未使宿主细胞性能产生明显的增强。相比之下,本发明的PRO交换方法产生了高比例的突变体,所述突变体使宿主细胞性能展现1.2到2倍的增强。
图38描绘了第一轮HTP工程SNP交换程序的结果。鉴别出186种个别SNP突变且个别地克隆到基本菌株中。根据所选生物分子在宿主细胞中的产量的差异来筛选所得突变体。
图39描绘了第二轮HTP工程SNP交换程序的结果。将第一轮SNP交换程序所得的176种个别SNP突变个别地克隆到第二轮宿主细胞菌株中,所述第二轮宿主细胞菌株含有在第一轮SNP程序期间所鉴别的有益SNP。所得突变体因此代表了两个突变组合对的影响。图示为宿主细胞的所选生物分子产量(Y轴)和生产率(X轴)的差异的筛选结果。
图40描绘了槽发酵验证实验的结果。第二轮HTP SNP交换所得的最佳突变对在发酵槽中培养。图示为宿主细胞的所选生物分子(即赖氨酸)产量和生产率的结果。可以看出,在一轮基因组工程改造中,本发明人使用PRO交换程序确定特定PRO交换突变体(zwf)相较于基本菌株展现所选生物分子的产量增加(即,对基本菌株与基本菌株+zwf进行比较)。接着,本发明人进行另一轮基因组工程改造,其中使用SNP交换程序测定可能影响生物分子产量的有益SNP突变(当与所述PRO交换突变体组合时)。PRO交换程序与SNP交换程序的组合产生的突变体的产量甚至高于此前的单独PRO交换突变体(即,对基本菌株+zwf+SNP121与此前论述的基本菌株+zwf进行比较)。此图说明了产量的显著改良可以通过将本公开的PRO交换与SNP交换程序组合来实现。在各方面中,将PRO交换基因组工程改造活动与SNP交换基因组工程改造活动组合可以使所关注生物分子/产物的产量和/或生产率相对于基本菌株提高1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、40%、45%、50%或更大。
图41描绘了第一轮HTP工程PRO交换程序的结果。根据本发明的方法,将相信与宿主性能相关的所选基因与启动子梯组合,以产生第一轮PRO交换文库。根据所选生物分子(即赖氨酸)在宿主细胞中的产量的差异来筛选所得突变体。
图42是流程图,其根据本发明的实施例说明在选择用于设计微生物菌株的突变时考虑上位效应。
图43A-B描绘了根据本发明的方法进行黑曲霉转化和验证的结果。图43A是含有黑曲霉转化体的96孔培养盘的图像。转化培养物包含aygA中的突变,其使得细胞呈现较浅的黄色而非黑色(转化孔用白色圆圈表示)。图43B描绘了所转化黑曲霉突变体的下一代测序结果。X轴表示目标DNA与未转化亲代菌株的序列一致性。Y轴表示目标DNA与预期突变的序列一致性。靠近曲线图右下方的数据点展现与亲代菌株较高的相似度,以及与预期转化序列较低的相似度。靠近图表左上方的数据点展现与预期转化序列较高的相似度以及与亲代菌株较低的一致性。中部的数据点可能代表具有多个核的异核体。
图44A-B说明了黑曲霉SNP交换实施方案。图44A说明了针对SNP交换的每个SNP的基因编辑设计。所述图进一步说明了共转化,其中将pyrG基因引入aygA野生型基因的基因座中。图44B是用于筛选黑曲霉转化体的96孔培养盘的两个图像。浅黄色菌落代表了其中aygA基因已成功断裂的转化体。
图45描绘了品质控制(QC)图,其基于下一代测序结果鉴别成功的黑曲霉突变型转化体(顶盒)。选自培养盘的黄色菌落中总共29.2%展现预期的SNP基因变化。
图46描绘了所转化黑曲霉突变体的下一代测序结果。X轴表示目标DNA与未转化亲代菌株的序列一致性。Y轴表示目标DNA与预期突变的序列一致性。靠近曲线图右下方的数据点展现与亲代菌株较高的相似度,以及与预期转化序列较低的相似度。靠近图表左上方的数据点展现与预期转化序列较高的相似度以及与亲代菌株较低的一致性。中部的数据点可能代表具有多个核的异核体。
图47是本发明的产量模型的训练数据的预测性能相对于实测性能的点阵图。下方模型是核岭回归模型(具有4阶多项式内核)。利用1864个独特基因构筑体和相关表型性能对模型进行训练。所拟合模型具有0.52的r2值。
图48描绘了利用本发明的预测算法所产生的候选设计的基因组成。提交这些候选设计用于HTP建构和分析。在此,候选设计定义为亲代菌株id与所引入突变的组合。
图49是利用本发明的预测算法所产生且根据本发明的HTP建构方法所建构的候选设计的预测性能相对于实测性能的点阵图。这个图证明了所述模型可以在可接受的精确度内预测候选菌株性能。
图50是盒须图,其描绘了候选菌株相对于亲代菌株的产量变化百分比。在y轴上,0.01的值对应于1%。这个图证明了利用计算机模型(浅灰色)所设计的菌株相对于其相应的亲代菌株实现了可测量的改良。另外,所述图证明了这些模型基本菌株改良在量值上与人类专家所设计菌株实现的改良类似。
图51说明了利用计算机模型(深灰色)和由人类专家(浅灰色)设计的菌株的产量性能分布。计算机设计的菌株展现较紧密的分布和较高的中值增加。
图52是盒须图,其描绘了利用计算机(浅灰色)或由人类专家(深灰色)产生的候选菌株的绝对产量。将亲代菌株的结果汇总。
具体实施方式
定义
尽管相信所属领域的技术人员充分理解以下术语,但仍阐述以下定义以促进对本发明标的物的解释。
术语“一(a/an)”是指所述实体中的一或多个,即可以指多个提及物。因而,术语“一(a或an)”、“一或多个”和“至少一个”在本文中可互换地使用。另外,通过不定冠词“一(a或an)”提及“元件”不排除存在超过一个元件的可能性,除非上下文明确要求存在一个且唯一一个元件。
如本文所用,术语“细胞生物体”、“微生物体”或“微生物”应该在宽广的意义上理解。这些术语可互换地使用并且包括(但不限于)两种原核生物结构域:细菌和古细菌,以及某些真核生物真菌和原生生物。在一些实施例中,本发明提及本发明所存在的清单/表格和图式中的“微生物”或“细胞生物体”或“微生物”。这种表征不仅可以指所述表格和图式的已鉴别类属,而且指已鉴别的类种,以及所述表格或图式中的各种新颖和最新鉴别或设计的任何生物体株系。对于这些术语在本说明书的其它部分(如实例)中的叙述来说,相同表征保持成立。
术语“原核生物”在所属领域内已认知且指不含核或其它细胞器的细胞。原核生物通常按照两种结构域之一归类:细菌和古细菌。古细菌和细菌域生物体之间的决定性差异是基于16S核糖体RNA中的核苷酸碱基序列的基本差异。
术语“古细菌”是指疵壁菌门(Mendosicutes)的生物体类别,其典型地发现于异常环境中且根据若干个准则而与原核生物的其余部分区分开来,所述若干个准则包括核糖体蛋白的数目和细胞壁中的胞壁酸的缺乏。基于ssrRNA分析,古细菌由系统发生学截然不同的两种群组组成:嗜泉古菌界(Crenarchaeota)和广古生菌界(Euryarchaeota)。古细菌基于其生理学可以按三种类型组织:产甲烷菌(产生甲烷的原核生物);极端嗜盐菌(extremehalophiles)(在极高浓度的盐(NaCl)存在下活着的原核生物);和极端(超)嗜热菌(extreme(hyper)thermophilus)(在极高温度下活着的原核生物)。除有别于细菌的统一古细菌特点(即,细胞壁中没有胞壁质、酯连型膜脂质等)之外,这些原核生物还展现了使其适应其特定栖息地的独特结构或生物化学属性。嗜泉古菌界主要由极端嗜热性硫依赖性原核生物组成且广古生菌界含有产甲烷菌和极端嗜盐菌。
“细菌”或“真细菌”是指原核生物体的结构域。细菌包括如下至少11种不同群组:(1)革兰氏阳性(革兰+)细菌,其存在两大亚门:(1)高G+C群组(放线菌、分枝杆菌、微球菌等),(2)低G+C群组(芽孢杆菌、梭菌、乳杆菌属、葡萄球菌、链球菌、霉浆菌);(2)变形菌,例如紫色光合成+非光合成革兰氏阴性细菌(包括最“常见”的革兰氏阴性细菌);(3)蓝细菌,例如有氧光养型;(4)螺旋菌和相关菌种;(5)浮霉状菌;(6)拟杆菌、黄杆菌;(7)衣原体;(8)绿色硫细菌;(9)绿色非硫细菌(也是无氧光养生物);(10)耐放射性微球菌和相关菌种;(11)栖热孢菌和嗜热性热袍菌(Thermosipho thermophiles)。
“真核生物”是其细胞含有核和封闭于膜内的其它细胞器的任何生物体。真核生物属于真核或真核生物分类群。将真核细胞与原核细胞(前述细菌和古细菌)区分开来的限定性特点是其具有膜结合的细胞器,尤其是含有遗传物质且被核被膜封闭的细胞核。
术语“经基因修饰的宿主细胞”、“重组宿主细胞”和“重组菌株”在本文中可互换地使用且是指已经利用本发明的克隆和转化方法经基因修饰的宿主细胞。因此,所述术语包括宿主细胞(例如细菌、酵母细胞、真菌细胞、CHO、人类细胞等),相较于其所来源的天然存在的生物体,所述宿主细胞已经遗传改变、修饰或工程改造,以便其展现经改变、修饰或不同的基因型和/或表型(例如当基因修饰影响微生物的编码核酸序列时)。应了解,在一些实施例中,所述术语不仅指所讨论的特定重组宿主细胞,而且指这种宿主细胞的后代或潜在后代。
术语“野生型微生物”或“野生型宿主细胞”描述自然界中存在的细胞,即尚未经基因修饰的细胞。
术语“基因工程”可以指对宿主细胞基因组的任何操控(例如核酸的插入、缺失、突变或置换)。
术语“对照”或“对照宿主细胞”是指适当的比较宿主细胞,用于测定基因修饰或实验处理的影响。在一些实施例中,对照宿主细胞是野生型细胞。在其它实施例中,对照宿主细胞在基因上除了基因修饰之外,与经基因修饰的宿主细胞相同,从而有别于处理宿主细胞。在一些实施例中,本发明教示了使用亲代菌株作为对照宿主细胞(例如使用S1菌株作为菌株改良程序的基础)。在其它实施例中,宿主细胞可以是基因相同的细胞,其缺乏处理宿主细胞中所测试的特定启动子或SNP。
如本文所用,术语“等位基因”意指基因的一或多种替代形式中的任一种,其所有等位基因涉及至少一种性状或特征。在二倍体细胞中,所指定基因的两个等位基因占据一对同源染色体上的相应基因座。
如本文所用,术语“基因座(locus)”(基因座(loci)的复数形式)意指发现有例如基因或基因标记的染色体上的特定位置或位点。
如本文所用,术语“基因连接”是指在繁殖期间,两种或更多种性状以高比率共同遗传,以致其难以通过交换来分离。
如本文所用,“重组”或“重组事件”是指染色体交换或独立分类。
如本文所用,术语“表型”是指个别细胞、细胞培养物、生物体或生物体群组的可观察特征,其由那个个体的基因组成(即基因型)与环境之间的相互相用产生。
如本文所用,术语“嵌合”或“重组”当描述核酸序列或蛋白质序列时,是指使至少两个异源聚核苷酸或两个异源多肽连接成单一大分子或使至少一种天然核酸或蛋白质序列的一或多个元件重排的核酸或蛋白质序列。举例来说,术语“重组”可以是指两个以其它方式分离的序列区段例如通过化学合成或通过基因工程技术操控所分离的核酸区段而发生的人工组合。
如本文所用,“合成核苷酸序列”或“合成聚核苷酸序列”是已知不存在于自然界中或天然不存在的核苷酸序列。一般来说,与任何其它天然存在的核苷酸序列相比,这类合成核苷酸序列将包含至少一种核苷酸差异。
如本文所用,术语“核酸”是指具有任何长度的核苷酸(核糖核苷酸或脱氧核糖核苷酸)聚合物形式,或其类似物。这一术语是指分子的初级结构,并且因此包括双链和单链DNA,以及双链和单链RNA。其还包括经修饰的核酸,如甲基化和/或封端核酸、含有经修饰的碱基、主链修饰的核酸和其类似物。术语“核酸”和“核苷酸序列”可互换地使用。
如本文所用,术语“基因”是指与生物功能相关的任何DNA区段。因此,基因包括(但不限于)编码序列和/或其表达所需的调节序列。基因还可以包括未表达的DNA区段,其例如形成其它蛋白质的识别序列。基因可以从多种来源获得,包括从所关注的来源克隆或利用已知或预测的序列信息合成,并且可以包括经设计具有所期望参数的序列。
如本文所用,术语“同源”或“同源物”或“直系同源物”在所属领域中已知并且是指具有共同祖先或家族成员并且基于序列一致性程度测定的相关序列。术语“同源性”、“同源”、“基本上相似”和“基本上对应”在本文中可互换地使用。其是指核酸片段,其中一或多个核苷酸碱基的变化不影响所述核酸片段介导基因表达或产生某种表型的能力。这些术语也指本发明的核酸片段的修饰,如相对于初始、未经修饰的片段,基本上不改变所得核酸片段的功能特性的一或多个核苷酸的缺失或插入。因此应理解,如所属领域的技术人员将了解,本发明涵盖除所述特定示例性序列之外的序列。这些术语描述了一种物种、亚种、变种、栽培品种或品系中所发现的基因与另一种物种、亚种、变种、栽培品种或品系中的相应或等效基因之间的关系。出于本发明的目的,对同源序列进行比较。“同源序列”或“同源物”或“直系同源物”被认为、相信或已知在功能上是相关的。功能关系可以多种方式中的任一种表示,包括(但不限于):(a)序列一致性程度和/或(b)相同或相似的生物功能。优选(a)和(b)均有指示。可以使用所属领域中容易获得的软件程序测定同源性,如现代分子生物学实验技术(Current Protocols in Molecular Biology)(F.M.奥斯贝(F.M.Ausubel)等人编,1987)副刊30,章节7.718,表7.71中所论述的那些软件程序。一些比对程序是MacVector(牛津分子有限公司(Oxford Molecular Ltd),英国牛津(Oxford,U.K.))、ALIGN Plus(科学和教育软件(Scientific and Educational Software),宾夕法尼亚州(Pennsylvania))以及AlignX(Vector NTI,英杰公司(Invitrogen),加利福尼亚州卡尔斯巴德(Carlsbad,CA))。另一种比对程序是使用默认参数的Sequencher(基因代码,密歇根州安娜堡(Ann Arbor,Michigan))。
如本文所用,术语“内源”或“内源基因”是指天然存在的基因,在其所处位置发现其天然地存在于宿主细胞基因组内。在本发明的上下文中,异源启动子可操作地连接到内源基因意指通过遗传方式将异源启动子序列插入现有基因之前,处于那个基因天然存在的位置。如本文所述的内源基因可以包括天然存在的基因的等位基因,所述等位基因已经根据本发明的任何方法发生突变。
如本文所用,术语“外源”与术语“异源”可互换地使用且指来自不同于其原生来源的一些来源的物质。举例来说,术语“外源蛋白质”或“外源基因”是指来自非原生来源或位置且已经通过人工方式提供到生物系统中的蛋白质或基因。
如本文所用,术语“核苷酸变化”是指例如核苷酸取代、缺失和/或插入,如所属领域中充分了解。举例来说,突变所含的变异产生了静默取代、添加或缺失,但不改变所编码蛋白质的特性或活性或蛋白质制造方式。
如本文所用,术语“蛋白质修饰”是指例如氨基酸取代、氨基酸修饰、缺失和/或插入,如所属领域中充分了解。
如本文所用,术语核酸或多肽的“至少一部分”或“片段”意指具有这类序列的最小尺寸特征的部分,或全长分子的任何较大片段,最多是并且包括全长分子。本发明的聚核苷酸片段可以编码基因调节元件的生物活性部分。基因调节元件的生物活性部分能够通过分离本发明的聚核苷酸之一的包含基因调节元件的一部分并且如本文中所述评估活性来制备。类似地,多肽的一部分可以是4个氨基酸、5个氨基酸、6个氨基酸、7个氨基酸等,最多是全长多肽。待使用的所述部分的长度将取决于特定应用。适用作杂交探针的核酸的一部分可以短到12个核苷酸;在一些实施例中,其是20个核苷酸。适用作抗原决定基的多肽的一部分可以短到4个氨基酸。发挥全长多肽功能的多肽的一部分通常将长于4个氨基酸。
变异型聚核苷酸还涵盖来源于突变诱发和重组诱发程序(如DNA改组)的序列。这类DNA改组的策略在所属领域中已知。参见例如施特默尔(Stemmer)(1994)PNAS 91:10747-10751;施特默尔(1994),自然370:389-391;凯默瑞(Crameri)等人(1997)自然生物技术15:436-438;穆尔(Moore)等人(1997),分子生物学杂志272:336-347;张(Zhang)等人(1997)PNAS 94:4504-4509;凯默瑞等人(1998),自然391:288-291;以及美国专利第5,605,793号和第5,837,458号。
就PCR扩增本文所公开的聚核苷酸来说,可以设计用于PCR反应中的寡核苷酸引物以由从所关注的任何生物体提取的cDNA或基因组DNA扩增相应的DNA序列。用于设计PCR引物和PCR克隆的方法在所属领域中通常已知并且公开于萨布鲁克(Sambrook)等人(2001),分子克隆:实验室手册(Molecular Cloning:A Laboratory Manual)(第3版,冷泉港实验室出版社(Cold Spring Harbor Laboratory Press),纽约普莱恩维尤(Plainview,NewYork))。还参见英尼斯(Innis)等人编(1990),PCR方案:方法和应用指南(PCR Protocols:AGuide to Methods and Applications)(学术出版社,纽约);英尼斯和吉尔凡(Gelfand)编(1995),PCR策略(PCR Strategies)(学术出版社,纽约);以及英尼斯和吉尔凡编(1999),PCR方法手册(PCR Methods Manual)(学术出版社,纽约)。已知的PCR方法包括(但不限于)使用成对引物、巢式引物、单一特异性引物、简并引物、基因特异性引物、载体特异性引物、部分错配引物和其类似物的方法。
如本文所用,术语“引物”是指一种寡核苷酸,其当放置在诱导引物延伸产物合成的条件下时(即,在核苷酸和聚合药剂(如DNA聚合酶)存在下且在适合温度和pH下),能够与扩增目标粘接,从而允许DNA聚合酶附著,借此充当DNA合成的起始点。(扩增)引物优选单股以获得最大的扩增效率。引物优选寡脱氧核苷酸。引物长度必须足以在聚合药剂存在下引发延伸产物的合成。引物的确切长度将取决于多种因素,包括引物的温度和组成(A/T相对于G/C含量)。一对双向引物由一个正向和一个反向引物组成,如DNA扩增(如PCR扩增)领域中所常用。
如本文所用,“启动子”是指能够控制编码序列或功能RNA表达的DNA序列。在一些实施例中,启动子序列由近端和更远端上游元件组成,后者元件通常称为增强子。因此,“增强子”是能够刺激启动子活性的DNA序列,并且可以是启动子的固有元件或为了增强启动子的含量或组织特异性而插入的异源元件。启动子可完全来源于原生基因,或由来源于自然界中所发现的不同启动子的不同元件组成,或甚至包含合成DNA区段。所属领域的技术人员应了解,不同启动子可以引导基因在不同组织或细胞类型中或在不同的发育阶段或响应于不同的环境条件来表达。另外认识到,由于在大多数情况下,调节序列的确切边界尚未完全界定,因此一些变异的DNA片段可以具有相同的启动子活性。
如本文所用,短语“重组构筑体”、“表达构筑体”、“嵌合构筑体”、“构筑体”以及“重组DNA构筑体”在本文中可互换地使用。重组构筑体包含核酸片段的人工组合,例如自然界中未一同发现的调节和编码序列。举例来说,嵌合构筑体可以包含来源于不同来源的调节序列和编码序列,或来源于相同来源的调节序列和编码序列,但其以与自然界中所发现不同的方式排列。这类构筑体可以单独使用或可以与载体结合使用。如所属领域的技术人员众所周知,如果使用载体,那么载体的选择取决于用于使宿主细胞转化的方法。举例来说,可以使用质体载体。所属领域的技术人员深知,为了成功地转化、选择和繁殖包含本发明的任一个经分离核酸片段的宿主细胞,基因元件必须存在于载体上。所属领域的技术人员还将认识到不同的独立转型事件将引起不同的表达水平和模式(琼斯(Jones)等人,(1985),EMBO J 4:2411-2418;德阿尔梅达(De Almeida)等人,(1989),分子基因遗传学(Mol.Gen.Genetics)218:78-86),且因此必须对多个事件进行筛选以便获得呈现所期望表达水平和模式的株系。这类筛选可以通过DNA的南方分析、mRNA表达的北方分析、蛋白质表达的免疫印迹分析或表型分析等来完成。载体可以是质体、病毒、噬菌体、前病毒、噬菌粒、转座子、人工染色体和其类似物,其自主地复制并且能整合到宿主细胞的染色体中。载体还可以是非自主复制的裸RNA聚核苷酸、裸DNA聚核苷酸、由同一链内的DNA和RNA组成的聚核苷酸、聚赖氨酸结合的DNA或RNA、肽结合的DNA或RNA、脂质体结合的DNA或其类似物。如本文所用,术语“表达”是指功能性最终产物(例如mRNA或蛋白质(前体或成熟物))的产生。
在本文中,“可操作地连接”意指根据本发明的启动子聚核苷酸与其它寡核苷酸或聚核苷酸的依序排列,从而引起所述其它聚核苷酸的转录。
如本文所用,术语“所关注产物”或“生物分子”是指由原料中的微生物产生的任何产物。在一些情况下,所关注的产物可以是小分子、酶、肽、氨基酸、、合成化合物、燃料、乙醇等。举例来说,所关注的产物或生物分子可以是任何初级或次级细胞外代谢物。初级代谢物尤其可以是乙醇、柠檬酸、乳酸、谷氨酸、谷氨酸盐、赖氨酸、苏氨酸、色氨酸和其它氨基酸、维生素、多糖等。次级代谢物尤其可以是抗生素化合物,如青霉素,或免疫抑制剂,如环孢菌素A(cyclosporin A);植物激素,如赤霉素;抑制素药物,如洛伐他汀(lovastatin);杀真菌剂,如灰黄霉素(griseofulvin)等。所关注的产物或生物分子也可以是微生物产生的任何细胞内组分,如:微生物酶,包括:催化酶、淀粉酶、蛋白酶、果胶酶、葡萄糖异构酶、纤维素酶、半纤维素酶、脂肪酶、乳糖酶、链激酶和其它多种。细胞内组分还可以包括重组蛋白,如:胰岛素、B型肝炎疫苗、干扰素、粒细胞群落刺激因子、链激酶和其它。
术语“碳源”通常是指适用作供细胞生长用的碳源的物质。碳源包括(但不限于)生物质水解产物、淀粉、蔗糖、纤维素、半纤维素、木糖和木质素,以及这些底物的单体组分。碳源可以包含各种形式的各种有机化合物,包括(但不限于)聚合物、碳水化合物、酸、醇、醛、酮、氨基酸、肽等。这些包括例如各种单糖,如葡萄糖、右旋糖(D-葡萄糖)、麦芽糖、寡糖、多糖、饱和或不饱和脂肪酸、丁二酸盐、乳酸盐、乙酸盐、乙醇等,或其混合物。光合成生物体可以另外产生光合成产物形式的碳源。在一些实施例中,碳源可以选自生物质水解产物和葡萄糖。
术语“原料”定义为供应给微生物或发酵工艺的原材料或原材料混合物,利用所述工艺能够制备其它产物。举例来说,碳源,如生物质或来源于生物质的碳化合物,是供微生物在发酵工艺中产生所关注产物(例如小分子、肽、合成化合物、燃料、乙醇等)的原料。然而,原料可以含有不同于碳源的营养物。
术语“体积生产率”或“生产速率”定义为每体积培养基每单位时间形成的产物的量。体积生产率可以用克/升/小时(g/L/h)报告。
术语“比生产率”定义为产物的形成速率。比生产率在本文中进一步定义为以克产物/克细胞干重(CDW)/小时(g/g CDW/h)表示的比生产率。对指定微生物使用CDW与OD600的关系,比生产率还能够用克产物/升培养基/600nm培养液光学密度(OD)/小时(g/L/h/OD)表示。
术语“产量”定义为每单位重量的原材料所得的产物的量且可以用g产物/g底物(g/g)表示。产量可以用理论产量的百分比表示。“理论产量”定义为按指定量的底物计,能够产生的产物的最大量,如根据用于制备产物的代谢途径的化学计量学所指定。
术语“力价”或“效价”定义为溶液的浓度或溶液中的物质的浓度。举例来说,所关注产物(例如小分子、肽、合成化合物、燃料、乙醇等)在发酵液中的力价描述为溶液中的所关注产物克数/升发酵液(g/L)。
术语“总效价”定义为工艺中所产生的全部所关注产物的总和,包括(但不限于)溶液中的所关注产物、气相(如果适用)中的所关注产物,以及从工艺中去除且相对于工艺中的初始体积或工艺中的操作体积所回收的任何所关注产物。
如本文所用,术语“HTP基因设计文库”或“文库”是指根据本发明的基因扰动的集合。在一些实施例中,本发明的文库可以表现为i)数据库或其它计算机文件中的序列信息的集合;ii)编码前述系列的基因元件的基因构筑体的集合;或iii)包含所述基因元件的宿主细胞菌株。在一些实施例中,本发明的文库可以指个别元件的集合(例如用于PRO交换文库的启动子的集合,或用于STOP交换文库的终止子的集合)。在其它实施例中,本发明的文库也可以指基因元件的组合,如启动子::基因、基因:终止子或甚至启动子:基因:终止子的组合。在一些实施例中,本发明的文库进一步包含与文库中的每个成员应用于宿主生物体中的效果相关的元数据。举例来说,如本文所用的文库可以包括启动子::基因序列组合的集合,以及那些组合对特定物种的一或多种表型所产生的影响,从而在未来的启动子交换中利用所述组合来改良未来预测值。
如本文所用,术语“SNP”是指小核多态性。在一些实施例中,本发明的SNP应广义理解,且包括单核苷酸多态性、序列插入、缺失、倒位和其它序列置换。如本文所用,术语“非同义”或“非同义SNP”是指引起宿主细胞蛋白中的代码变化的突变。
“高通量(HTP)”基因组工程改造方法可能涉及使用自动化设备(例如液体处理机或培养盘处理机)的至少一个零件执行所述方法的至少一个步骤。
传统的菌株改良方法
传统的菌株改良方法可以广泛地分类为两类方法:定向菌株工程和随机突变诱发。
菌株改良的定向工程改造方法涉及对特定生物体的少数基因元件进行计划性扰动。这些方法典型地集中于调节特定生物合成或发育程序,且依赖于对影响所述路径的基因和代谢因素的先验了解。在其最简单的实施例中,定向工程涉及将一种生物体的特征化性状(例如能够产生可测量表型的基因、启动子或其它基因元件)转移到相同或不同物种的另一生物体。
菌株工程改造的随机方法涉及对亲代菌株进行随机突变诱发,以及为了鉴别性能改良而设计的广泛筛选。产生这些随机突变的方法包括暴露于紫外辐射,或突变诱发化学品,如甲烷磺酸乙酯。虽然是随机且大部分不可预测的,但是这种传统的菌株改良方法具有优于更多定向基因操控术的多项优势。首先,许多工业生物体就其基因和代谢谱系来说具有(且保持)不良的特征,以致替代的定向改良方法困难(如果并非不可能)。
其次,即使在表征相对充分的系统中,也难以预测引起工业性能改良的基因型变化,且所述基因型变化有时仅以上位表型表现自身,这要求在许多基因中具有已知和未知功能的累积突变。
另外,多年来,在指定工业生物体中产生定向基因组突变所需的的基因工具不可获得,或使用非常缓慢和/或困难。
然而,传统菌株改良程序的扩展应用在指定菌株谱系中产生的增益逐渐减少,且最终导致提升菌株效率的可能性耗竭。有益随机突变是相对罕见的事件,且需要较大筛选池和高突变率。这不可避免地引起许多中性和/或有害(或部分有害)突变在“已改良”菌株中的无意积累,最终阻碍了未来效率增加。
传统累积改良方法的另一种局限是,关于任何特定突变对任何菌株度量标准的影响的已知信息很少到没有。这在根本上限制了研究人员将有益突变组合和合并或去除中性或有害突变诱发“包袱”的能力。
存在着将突变诱发谱系内的菌株之间的突变随机重组的其它方法和技术。举例来说,用于迭代序列重组的一些形式和实例(有时称为DNA改组、进化或分子育种)已经描述于美国专利申请第08/198,431号(1994年2月17日提交)、第PCT/US95/02126号(1995年2月17日提交)、第08/425,684号(1995年4月18日提交)、第08/537,874号(1995年10月30日提交)、第08/564,955号(1995年11月30日提交)、第08/621,859号(1996年3月25日提交)、第08/621,430号(1996年3月25日提交)、第PCT/US96/05480号(1996年4月18日提交)、第08/650,400号(1996年5月20日提交)、第08/675,502号(1996年7月3日提交)、第08/721,824号(1996年9月27日提交)和第08/722,660号(1996年9月27日提交);施特默尔,科学270:1510(1995);施特默尔等人,基因164:49-53(1995);施特默尔,生物技术13:549-553(1995);施特默尔,美国国家科学院院刊91:10747-10751(1994);施特默尔,自然370:389-391(1994);凯默瑞等人,自然·医学2(1):1-3(1996);凯默瑞等人,自然·生物技术14:315-319(1996),所述文献各自以全文引用的方式并入本文中用于所有目的。
这些包括促进跨越突变型菌株的基因组重组的技术,如原生质体融合和全基因组改组。对于一些工业微生物(如酵母和丝状真菌)来说,还能够利用天然配对循环进行成对基因组重组。以此方式,能够通过与亲代菌株产生‘回复交换’突变体且合并有益突变来去除有害突变。此外,能够潜在地将来自两种不同菌株谱系的有益突变组合,从而相对于使单一菌株谱系自身发生突变而可能获得的改良可能性,产生额外的改良可能性。然而,这些方法受到许多限制,使用本发明方法规避了这些限制。
举例来说,如上文所述的传统重组方法缓慢且依赖于相对较少数目个随机重组互换事件来交换突变,且因此在可以在任何指定循环或时间段中尝试的组合数目上存在限制。另外,虽然现有技术中的天然重组事件基本上是随机的,但是其也服从基因组位置偏好。
最重要的是,传统方法提供的关于个别突变影响的信息也很少且由于重组突变的随机分布,因此无法产生且评估许多特定组合。
为了克服与传统菌株改良程序相关的许多前述问题,本发明阐述了由计算机驱动且整合了分子生物学、自动化、数据分析和机器学习方案的独特HTP基因组工程平台。这个整合平台是利用一套HTP分子工具集,所述工具集用于构筑HTP基因设计文库。这些基因设计文库将详细说明如下。
所教示的HTP平台和其独特微生物基因设计文库在根本上转变了微生物菌株开发和进化的范例。举例来说,基于突变诱发来开发工业微生物菌株的传统方法最终将产生背负沉重突变诱发负荷的微生物,所述负荷是在多年的随机突变诱发期间积累起来的。
解决这个问题(即去除这些微生物所积累的基因包袱)的能力已困惑微生物研究人员数十年。然而,利用本文公开的HTP平台,能够“修复”这些工业菌株且能够鉴别出和去除有害的基因突变。鉴别为有益的基因突变宜能够保持,且在一些情况下能够据以改良。所得微生物菌株相较于其亲代菌株展现了优良的表型性状(例如所关注的化合物产量提高)。
另外,本文教示的HTP平台能够鉴别、表征和量化个别突变对微生物菌株性能的影响。这个信息,即所指定基因变化x对宿主细胞表型y(例如所关注的化合物或产物的产量)的影响,能够产生且接着存储于下文论述的微生物HTP基因设计文库中。即,每种基因排列的序列信息和其对宿主细胞表型的影响存储于一或多种数据库中,且可供后续分析使用(例如上位定位,如下文所论述)。本发明还教示了在物理上保存/存储有价值的基因排列的方法,所述基因排列呈基因插入构筑体形式或呈含有所述基因排列的一或多种宿主细胞生物体形式(例如参见下文论述的文库)。
当将这些HTP基因设计文库结合到与复杂数据分析和机器学习程序集成的迭代程序中时,一种用于改良宿主细胞的显著不同方法便问世了。因此,所教示的平台在根本上不同于此前论述的开发宿主细胞菌株的传统方法。所教示的HTP平台不受扰于与此前方法相关的许多缺点。参照下文论述的HTP分子工具集和所来源的基因设计文库将显而易知这些和其它优势。
基因设计及微生物工程:利用一套HTP分子工具和HTP基因设计文库进行菌株改良的系统组合方法
如前所述,本发明提供了通过迭代系统性引入和去除跨越菌株的基因变化对微生物生物体进行工程改造的新颖HTP平台和基因设计策略。所述平台由一套分子工具提供支持,其能够产生HTP基因设计文库且允许对所指定的宿主菌株高效实施基因变异。
本发明的HTP基因设计文库充当可以引入特定微生物菌株背景中的可能基因变异的来源。以此方式,HTP基因设计文库是基因多样性的存储库,或基因扰动的集合,其能应用于对所指定的微生物菌株进行初始或进一步的工程改造。规划针对宿主菌株实施的基因设计的技术描述于申请中的美国专利申请第15/140,296号中,其名称为“用于提高经工程改造的核苷酸序列的大规模产量的微生物菌株设计系统和方法(Microbial Strain DesignSystem and Methods for Improved Large Scale Production of EngineeredNucleotide Sequences)”,所述申请以全文引用的方式并入本文中。
此平台中所用的HTP分子工具集尤其可以包括:(1)启动子交换(PRO交换)、(2)SNP交换、(3)起始/终止密码子交换、(4)STOP交换和(5)序列优化。本发明的HTP方法还教示了指导HTP工具集的合并/组合使用的方法,包括(6)上位定位方案。如前所述,单独或组合的这套分子工具能够产生HTP基因设计宿主细胞文库。
如将证明,在所教示的HTP微生物工程平台的背景下使用前述HTP基因设计文库能够鉴别和合并有益的“致病”突变或基因区段并且还能够鉴别和去除消极或有害突变或基因区段。这种新方法能够对菌株性能进行快速改良,而传统的随机突变诱发或定向基因工程则无法实现快速改良。去除基因负荷或将有益变化合并到无基因负荷的菌株中还向能够实现进一步改良的额外随机突变诱发提供新的稳固起点。
在一些实施例中,本发明教示了当鉴别出跨越突变诱发菌株谱系的不同离散分支的正交有益变化时,还能够将其快速地合并到性能更佳的菌株中。还能够将这些突变合并到不是突变诱发谱系一部分的菌株中,如通过定向基因工程获得改良的菌株。
在一些实施例中,本发明与已知的菌株改良方法不同之处在于,其分析了跨越多个不同基因组区域的突变的全基因组组合影响,包括已表达和未表达的基因元件,且利用所聚集的信息(例如实验结果)预测预期会产生菌株增强的突变组合。
在一些实施例中,本发明教示:i)能够通过本发明得到改良的工业微生物和其它宿主细胞;ii)产生多样性池用于下游分析;iii)用于对较大变异体池进行高通量筛选和测序的方法和硬件;iv)用于机器学习计算分析和预测全基因组突变的协同作用的方法和硬件;以及v)高通量菌株工程改造方法。
以下分子工具和文库结合说明性微生物实例来论述。所属领域中的技术人员将认识到,本发明的HTP分子工具与任何宿主细胞(包括真核生物细胞和更高级的生命形式)相容。
现将论述已鉴别的HTP分子工具集中的每一种,其能够产生微生物工程平台中所用的各种HTP基因设计文库。
1.启动子交换:用于衍生启动子交换微生物菌株文库的分子工具
在一些实施例中,本发明教示了选择具有最佳表达特性的启动子以对整体宿主菌株表型(例如产量或生产率)产生有益作用的方法。
举例来说,在一些实施例中,本发明教示了鉴别一或多种启动子和/或在宿主细胞内产生一或多种启动子的变异体的方法,所述启动子展现一系列表达强度(例如下文论述的启动子梯)或优良调节特性(例如针对所选基因的更紧密调控)。已鉴别和/或产生的这些启动子的特定组合可以归入同类作为启动子梯,其更详细地解释于下文。
接着使所讨论的启动子梯与所关注的指定基因关联。因此,如果具有启动子P1-P8(表示已经鉴别和/或产生以展现一系列表达强度的八种启动子)且使启动子梯与微生物中的所关注单一基因关联(即,通过使所指定启动子可操作地连接到指定靶基因来对微生物进行基因工程改造),那么能够通过表征由每种组合尝试产生的每种经工程改造菌株来确认八种启动子的每种组合的作用,条件是除与靶基因关联的特定启动子之外,经工程改造的微生物具有原本相同的基因背景。
通过这种方法加以工程改造的所得微生物形成HTP基因设计文库。
HTP基因设计文库可以指通过这种方法形成的真实实体微生物菌株集合,其中每种成员菌株代表了在原本相同基因背景下可操作地连接到特定靶基因的指定启动子,所述文库称为“启动子交换微生物菌株文库”。
另外,HTP基因设计文库可以指遗传扰动的集合,在这种情况下,所指定启动子x可操作地连接到所指定基因y,所述集合称为“启动子交换文库”。
另外,能够使用包含启动子P1-P8的相同启动子梯对微生物进行工程改造,其中8种启动子中的每一种可操作地连接到10个不同基因目标。此程序得到80种微生物,除可操作地连接到所关注靶基因的特定启动子之外,所述微生物原本呈现相同的基因背景。可以对这些80种微生物进行适当筛选和表征且产生另一个HTP基因设计文库。表征HTP基因设计文库中的微生物菌株产生的信息和数据可以存储于任何数据存储构筑体中,包括关系型数据库、面向对象数据库或高度分布式NoSQL数据库。此数据/信息可以是例如所指定启动子(例如P1-P8)当可操作地连接到所指定基因目标时的作用。此数据/信息还能够是通过使启动子P1-P8中的两种或更多种可操作地连接到所指定基因目标而产生的组合效应的更宽集合。
八种启动子和10种靶基因的前述实例仅具说明性,原因是所述概念可以应用于基于一系列表达强度的呈现而已经归入同类的任何指定数目个启动子和任何指定数目个靶基因。所属领域中的技术人员还将认识到两个或更多个启动子能够可操作地连接于任何基因目标之前。因此,在一些实施例中,本发明教示了启动子交换文库,其中来自启动子梯的1、2、3或更多个启动子可操作地连接到一或多种基因。
总之,利用各种启动子驱动各种基因在生物体中的表达是一种优化所关注的性状的强大工具。本发明人所开发的启动子交换分子工具是使用启动子序列梯,其已经证明可改变至少一个基因座在至少一种条件下的表达。接着利用高通量基因组工程学将此梯系统性地应用于生物体中的一组基因。基于多种方法中的任一种方法确定这组基因影响所关注性状的可能性较高。这些方法可以包括基于已知功能或对所关注性状的影响而进行的选择,或基于此前测定的有益遗传多样性而进行的算法选择。在一些实施例中,基因的选择可以包括所指定宿主中的所有基因。在其它实施例中,基因的选择可以是所指定宿主中的所有基因的随机选择的子集。
接着对含有连接到基因的启动子序列的生物体的所得HTP基因设计微生物菌株文库在高通量筛选模型中的性能进行评估,且确定引起性能增强的启动子-基因连接且将信息存储于数据库中。遗传扰动的集合(即,所指定的启动子x可操作地连接到所指定基因y)形成“启动子交换文库”,其可以用作微生物工程处理中所用的潜在基因变异的来源。随着时间逝去,当针对宿主细胞背景的更大多样性实施基因扰动的更大集合时,每个文库作为实验上被证实的数据的主体而变得更强大,其能用于根据所关注的任何背景更精确地且可预测地设计出定向变化。
生物体中的基因转录水平是影响生物体行为的控制关键点。转录与转译(蛋白质表达)紧密关联,且哪种蛋白质以什么数量表达决定了生物体行为。细胞表达数千种不同类型的蛋白质,且这些蛋白质以多种复杂的方式发生相互作用以产生功能。通过系统性地改变蛋白质集合的表达水平,能够使功能改变,由于复杂性,因此难以预测功能改变的方式。有些变异可以增强性能且因此与用于评估性能的机制关联,这项技术能够产生功能改良的生物体。
在小分子合成路径的背景下,酶通过其小分子底物和产物,在始于底物且终于所关注小分子的直链或支链中发生相互作用。由于这些相互作用依序关联,因此此系统展现分布式控制,且增强一种酶的表达仅能增加路径通量直到另一种酶变成速率限制型为止。
代谢控制分析(MCA)是一种利用实验数据和第一原理确定哪种酶具有速率限制性的方法。然而,MCA受到限制,原因是其在每种表达水平变化之后需要广泛的实验以确定新的速率限制酶。在此背景下,启动子交换是有利的,原因是通过将启动子梯应用于路径中的每种酶,发现限制酶,且同一件事可以随后进行多轮以发现变成速率限制型的新酶。另外,由于功能读数最好是所关注小分子的产量,因此确定哪种酶具限制性的实验与提高产量的工程学相同,从而缩短开发时间。在一些实施例中,本发明教示了将PRO交换应用于编码多单元酶的个别亚单元的基因。在又其它实施例中,本发明教示了对负责调节个别酶或整个生物合成路径的基因应用PRO交换技术的方法。
在一些实施例中,本发明的启动子交换工具可以用于鉴别所选基因目标的最佳表达。在一些实施例中,启动子交换的目标可以是增强靶基因的表达,以减少代谢或遗传路径中的瓶颈。在其它实施例中,,启动子交换的目标可以是减少靶基因的表达,以便在所述靶基因的表达不需要时,避免宿主细胞中不必要的能量消耗。
在其它细胞系统(如转录、转运或信号传导)的背景下,可以利用各种合理方法先验地竭力发现哪种蛋白质是表达变化的目标和那种变化应该是什么变化。这些合理方法减少了扰动数目,所述扰动必须加以测试以发现改良性能的扰动,但是这样做的成本相当大。基因缺失研究鉴别出其存在对特定功能具关键作用的蛋白质,且接着可以过度表达重要基因。由于蛋白质相互作用的复杂性,因此这对于增强性能而言通常无效。已经开发出不同类型的模型,其试图利用第一原理描述转录或信号传导行为与细胞中的蛋白质含量的关系。这些模型通常表明其中表达变化的目标可以产生不同或改良的功能。这些模型所基于的假设过分简单化且参数难以测量,因此其所产生的预测通常不正确,尤其对于非模型生物体来说。在基因缺失与建模的情况下,确定如何影响某种基因所需的实验不同于产生使性能改良的变化的后续工作。启动子交换避开了这些挑战,原因是突显了特定扰动的重要性的所构筑菌株也已经是改良的菌株。
因此,在特定实施例中,启动子交换是一种多步骤方法,其包含:
1.选择一组“x”个启动子充当“梯”。理想的是,这些启动子已经表明可引起跨越多个基因组基因座的高度可变表达,但唯一要求是其以某种方式扰动基因表达。
2.针对目标选择一组“n”个基因。这个集合可以是基因组中的每个开放阅读框架(ORF)或ORF的子集。可以利用关于功能相关ORF的注释、根据与此前证实的有益扰动的关系(此前启动子交换或此前SNP交换)、通过基于此前所产生的扰动之间的上位相互作用而进行的算法选择、基于与针对目标的有益ORF有关的假设的其它选择准则或通过随机选择来选择所述子集。在其它实施例中,“n”个靶基因可以包含非蛋白质编码基因,包括非编码RNA。
3.快速且在一些实施例中并行执行以下基因修饰的高通量菌株工程:当原生启动子存在于靶基因n之前且其序列已知时,用所述梯中的x个启动子中的每一种置换原生启动子。当原生启动子不存在或其序列未知时,将所述梯中的x个启动子中的每一种插入基因n之前(参见例如图21)。以此方式构筑菌株“文库”(也称为HTP基因设计文库),其中文库的每个成员是可操作地连接到n目标的x启动子在原本相同的基因背景下的例子。如此前所述,可以插入启动子组合,从而在构筑文库时,扩大组合可能性的范围。
4.在依据一或多种度量标准的菌株性能指示所优化的性能的背景下,高通量筛选菌株文库。
尤其可以如下扩展这种基本方法以提供菌株性能的进一步改良:(1)将多个有益扰动合并到单一菌株背景中,按互动式程序进行,一次一个;或作为多个变化在单个步骤中进行。多个扰动可以是一组特定的定义变化或部分随机化的变化组合文库。举例来说,如果目标集是路径中的每个基因,那么使扰动文库在此前菌株文库的改良成员中依序再生能够优化路径中的每个基因的表达水平,不论哪种基因在任一次指定的迭代时具有速率限制性;(2)将由文库的个别和组合产生所得到的性能数据馈送到算法中,所述算法使用那个数据基于每个扰动的相互作用来预测最佳的扰动集;以及(3)实施上述两种方法的组合(参见图20)。
上文所论述的分子工具或技术的特征为启动子交换,但不限于启动子且可以包括系统性地改变目标集表达水平的其它序列变化。用于改变一组基因的表达水平的其它方法可以包括:a)核糖体结合位点梯(或真核生物中的克扎克序列(Kozak sequences));b)用其它起始密码子中的每一种置换每个目标的起始密码子(例如,下文论述的起始/终止密码子交换);c)使各种mRNA稳定化或去稳定化序列连接到转录物的5'或3'端或任何其它位置;d)使各种蛋白质稳定化或去稳定化序列在蛋白质中的任何位置连接。
所述方法举工业微生物为例说明于本发明中,但适用于可以在基因突变体群体中鉴别出所期望性状的任何生物体。举例来说,这可以用于改良CHO细胞、酵母、昆虫细胞、藻类以及多细胞生物体(如植物)的性能。
2.SNP交换:用于衍生SNP交换微生物菌株文库的分子工具
在某些实施例中,SNP交换不是改良微生物菌株的随机突变诱发方法,而是涉及系统性地引入或去除跨越菌株的个别小核多态性核苷酸突变(即SNP)(因此称为“SNP交换”)。
通过这种方法加以工程改造的所得微生物形成HTP基因设计文库。
HTP基因设计文库可以指通过此方法形成的真实实体微生物菌株集合,其中每个成员菌株代表了所指定SNP在原本相同基因背景下的存在或不存在,所述文库称为“SNP交换微生物菌株文库”。
另外,HTP基因设计文库可以指遗传扰动的集合,在这种情况下,所指定的SNP存在或所指定的SNP不存在,所述集合称为“SNP交换文库”。
在一些实施例中,SNP交换涉及重新构筑具有目标SNP“构建模块”与已鉴别的有益性能作用的最佳组合的宿主生物体。因此,在一些实施例中,SNP交换涉及将多个有益突变合并到单一菌株背景中,以迭代程序进行一次一个;或作为多个变化在单个步骤中进行。多个变化可以是一组特定的定义变化或部分随机化的突变组合文库。
在其它实施例中,SNP交换还涉及从菌株中去除鉴别为有害的多个突变,按迭代程序进行,一次一个;或作为多个变化在单个步骤中进行。多个变化可以是一组特定的定义变化或部分随机化的突变组合文库。在一些实施例中,本发明的SNP交换方法包括添加有益SNP和去除有害和/或中性突变。
SNP交换是一种在经历突变诱发和选择以改良所关注性状的菌株谱系中鉴别和利用有益和有害突变的强大工具。SNP交换是利用高通量基因组工程技术系统地确定突变诱发谱系中的个别突变的影响。测定跨越突变诱发谱系中的一代或多代的菌株的基因组序列,所述突变诱发谱系具有已知的性能改良。接着系统地利用高通量基因组工程学在早期谱系菌株再现已改良菌株的突变,和/或使后期菌株中的突变恢复为早期菌株序列。接着评估这些菌株的性能且可以确定每种个别突变对改良的所关注表型的贡献。如前所述,对此方法所得的微生物菌株进行分析/表征且形成SNP交换基因设计文库的基础,所述文库可以告知跨越宿主菌株的微生物菌株改良。
有害突变的去除可以提供直接的性能改良,且在未接受突变诱发负荷的菌株背景下合并有益突变可以快速且大大改良菌株性能。通过SNP交换方法所产生的各种微生物菌株形成了HTP基因设计SNP交换文库,其是包含各种所添加/缺失/或合并SNP的微生物菌株,但是具有原本相同的基因背景。
如此前所论述,供性能改良用的随机突变诱发筛选是一种改良工业菌株的常用技术,且当前用于大规模制造的许多菌株已经使用此程序以迭代方式开发历时多年,有时数十年。产生基因组突变的随机方法(如暴露于UV辐射或化学诱变剂,如甲烷磺酸乙酯)是用于改良工业菌株的优选方法,原因是:1)工业生物体在遗传或代谢上可能受到不充分的表征,使得定向改良方法的目标选择困难或不可能;2)即使在表征相对充分的系统中,也难以预测引起工业性能改良的变化且可能需要扰动无已知功能的基因;以及3)在所指定工业生物体中产生定向基因组突变的遗传工具无法获得或非常缓慢和/或难以使用。
然而,尽管此程序存在前述效益,但是也存在多项已知缺点。有益突变是相对罕见的事件,且为了在固定的筛选能力下发现这些突变,突变率必须足够的高。这通常引起非所需的中性突变和部分有害的突变连同有益变化一起并入菌株中。随着时间逝去,此‘突变诱发负荷’积累,产生在总体稳定性和关键性状(如生长速率)上具有缺陷的菌株。最终,‘突变诱发负荷’越来越难以或不可能通过随机突变诱发获得性能的进一步改良。不使用适合的工具不可能将菌株谱系的离散和并联分支中所发现的有益突变合并。
SNP交换是一种克服这些限制的方法,其通过系统地再现或恢复当比较突变诱发谱系内的菌株时所观察到的一些或所有突变来实现。以此方式,能够鉴别和合并有益(‘致病’)突变,且/或能够鉴别和去除有害突变。这允许对菌株性能进行快速改良,而通过进一步随机突变诱发或靶向基因工程则无法实现。
去除基因负荷或将有益变化合并到无基因负荷的菌株中还向能够实现进一步改良的额外随机突变诱发提供新的稳固起点。
另外,当跨越突变诱发菌株谱系的各种离散分支鉴别正交有益变化时,能够将其快速地合并到性能更佳的菌株中。还能够将这些突变合并到不是突变诱发谱系一部分的菌株中,如通过定向基因工程获得改良的菌株。
存在着将突变诱发谱系内的菌株之间的突变随机重组的其它方法和技术。这些包括促进跨越突变型菌株的基因组重组的技术,如原生质体融合和全基因组改组。对于一些工业微生物(如酵母和丝状真菌)来说,还能够利用天然配对循环进行成对基因组重组。以此方式,能够通过与亲代菌株产生‘回复交换’突变体且合并有益突变来去除有害突变。然而,这些方法受到许多限制,使用本发明的SNP交换方法规避了这些限制。
举例来说,由于这些方法依赖于相对较少数目个随机重组互换事件交换突变,因此可以采取许多循环的重组和筛选来优化菌株性能。另外,虽然天然重组事件基本上是随机的,但是其也服从基因组位置偏好且可能难以解决一些突变。这些方法不使用额外基因组测序和分析而提供的关于个别突变影响的信息也是很少的。SNP交换克服了这些基本限制,因为其不是随机方法,而是系统性地引入或去除跨越菌株的个别突变。
在一些实施例中,本发明教示了用于鉴别多样性池的生物体中所存在的SNP序列多样性的方法。多样性池可以是分析所用微生物的指定种数n,其中所述微生物的基因组代表“多样性池”。
在特定方面中,多样性池可以是原始亲代菌株(S1),其在特定时间点具有“基线”或“参考”基因序列(S1Gen1),且接着是任何数目个衍生/开发自所述S1菌株的后续子代菌株(S2-n),其具有不同于S1基线基因组的基因组(S2-nGen2-n)。
举例来说,在一些实施例中,本发明教示了对多样性池中的微生物基因组进行测序以鉴别每种菌株中存在的SNP。在一个实施例中,多样性池中的菌株是历史上的微生物生产菌株。因此,本发明的多样性池可以包括例如工业参考菌株,和通过传统菌株改良程序所产生的一或多种突变型工业菌株。
在一些实施例中,多样性池内的SNP是参照“参考菌株”测定。在一些实施例中,参考菌株是野生型菌株。在其它实施例中,参考菌株是经历任何突变诱发之前的原始工业菌株。参考菌株可以由从业者定义且不一定是原始野生型菌株或原始工业菌株。基本菌株仅代表被视为“基本”、“参考”或原始基因背景的菌株,借此与由所述参考菌株衍生或开发的后续菌株比较。
鉴别出多样性池中的所有SNP后,本发明教示了用SNP交换方法和筛选方法描绘(即,量化和表征)个别和/或群组中的SNP的效应(例如所关注的表型的产生)。
在一些实施例中,本发明的SNP交换方法包含将突变型菌株(例如来自S2-nGen2-n的菌株)中所鉴别的一或多种SNP引入参考菌株(S1Gen1)或野生型菌株的步骤(“向上波动”)。
在其它实施例中,本发明的SNP交换方法包含将突变型菌株(例如来自S2-nGen2-n的菌株)中所鉴别的一或多种SNP去除的步骤(“向下波动”)。
在一些实施例中,根据本发明的一或多个准则(例如所关注的化学品或产物的产生)对包含一或多种SNP变化(引入或去除)的每种所产生菌株进行培养和分析。使得自每种所分析宿主菌株的数据与存在于宿主菌株中的特定SNP或SNP群组关联或相关,且记录下来供未来使用。因此,本发明能够产生高度注释的大型HTP基因设计微生物菌株文库,所述菌株文库能够鉴别所指定SNP对任何数目个所关注微生物基因或表型性状的影响。将这些HTP基因设计文库中所存储的信息告知HTP基因组工程平台的机器学习算法且指导所述程序的未来迭代,最终产生具有高度所期望特性/性状的进化微生物生物体。
3.起始/终止密码子交换:用于衍生起始/终止密码子微生物菌株文库的分子工具
在一些实施例中,本发明教示了交换起始和终止密码子变异体的方法。举例来说,酿酒酵母和哺乳动物的典型终止密码子分别是TAA(UAA)和TGA(UGA)。单子叶植物的典型终止密码子是TGA(UGA),而昆虫和大肠杆菌通常使用TAA(UAA)作为终止密码子(达尔芬(Dalphin)等人(1996),核酸研究(Nucl.Acids Res.)24:216-218)。在其它实施例中,本发明教示了使用TAG(UAG)终止密码子。
本发明类似地教示了交换起始密码子。在一些实施例中,本发明教示了使用大部分生物体(尤其真核生物)所使用的ATG(AUG)起始密码子。在一些实施例中,本发明教示了原核生物大部分使用ATG(AUG),继之为GTG(GUG)和TTG(UUG)。
在其它实施例中,本发明教示了用TTG置换ATG起始密码子。在一些实施例中,本发明教示了用GTG置换ATG起始密码子。在一些实施例中,本发明教示了用ATG置换GTG起始密码子。在一些实施例中,本发明教示了用TTG置换GTG起始密码子。在一些实施例中,本发明教示了用ATG置换TTG起始密码子。在一些实施例中,本发明教示了用GTG置换TTG起始密码子。
在其它实施例中,本发明教示了用TAG置换TAA终止密码子。在一些实施例中,本发明教示了用TGA置换TAA终止密码子。在一些实施例中,本发明教示了用TAA置换TGA终止密码子。在一些实施例中,本发明教示了用TAG置换TGA终止密码子。在一些实施例中,本发明教示了用TAA置换TAG终止密码子。在一些实施例中,本发明教示了用TGA置换TAG终止密码子。
4.终止密码子交换:用于衍生优化序列微生物菌株文库的分子工具
在一些实施例中,本发明教示了通过优化细胞基因转录来提高宿主细胞生产率的方法。基因转录是若干种不同生物学现象的结果,包括转录起始(RNAp募集和转录复合物形成)、伸长(链合成/延伸),和转录终止(RNAp脱离和终止)。虽然已经倾注了大量注意力以通过基因的转录调节(例如通过改变启动子,或诱导调节性转录因子)来控制基因表达,但是通过基因终止序列的调节获得转录调节的成果相对较少。
转录影响基因表达水平的最明显方式是通过Pol II起始速率,其可以通过启动子或增强子浓度与反式活化因子的组合来调节(卡顿加JT(Kadonaga,JT),2004,“序列特异性DNA结合因子对RNA聚合酶II转录的调节(Regulation of RNA polymerase IItranscription by sequence-specific DNA binding factors)”,细胞,2004年1月23日;116(2):247-57)。在真核生物中,伸长率也可以通过影响替代性拼接来决定基因表达模式(克拉默P.(Cramer P.)等人,1997“启动子结构与转录物替代性拼接之间的功能联系(Functional association between promoter structure and transcript alternativesplicing)”,美国国家科学院院刊,1997年10月14日;94(21):11456-60)。基因上的终止失效可以通过减少启动子至Pol II的可及性来消弱下游基因的表达(格莱吉IH(Greger IH)等人,2000“酿酒酵母的GAL7启动子的转录干扰和起始之间的平衡(Balancingtranscriptional interference and initiation on the GAL7 promoter ofSaccharomyces cerevisiae)”,美国国家科学院院刊,2000年7月18日;97(15):8415-20)。这种过程(称为转录干扰)与低级真核生物尤其相关,因为其通常具有紧密间隔的基因。
终止序列还能够影响所述序列所属的基因的表达。举例来说,研究表明,真核生物中的低效转录终止引起未拼接的前mRNA积累(参见韦斯特S.(West,S.)和普洛德弗N.J.(Proudfoot,N.J.),2009“转录终止使人类细胞中的蛋白质表达增强(TranscriptionalTermination Enhances Protein Expression in Human Cells)”,分子细胞,2009年2月13日;33(3-9);354-364)。其它研究也已表明,3'端处理可以通过低效终止来延迟(韦斯特S等人,2008“哺乳动物RNA聚合酶II转录终止的分子剥离(Molecular dissection ofmammalian RNA polymerase II transcriptional termination)”,分子细胞,2008年3月14日;29(5):600-10)。转录终止还能够通过使转录物从合成位点释放来影响mRNA稳定性。
真核生物中的转录机制的终止
真核生物中的转录终止通过终止子信号操作,所述终止子信号被与RNA聚合酶II有关的蛋白质因子识别。在一些实施例中,裂解和聚腺苷酸化特异性因子(CPSF)和裂解刺激因子(CstF)从RNA聚合酶II的羧基末端域转移到聚A信号。在一些实施例中,CPSF和CstF因子也将其它蛋白质募集到终止位点,接着使转录物裂解且使mRNA从转录复合物释放。终止也触发mRNA转录物的聚腺苷酸化。已验证真核生物终止因子和其保守结构的说明性实例论述于本文的后续部分中。
原核生物中的转录终止
在原核生物中,称为Rho非依赖性和Rho依赖性终止的两种主要机制介导转录终止。Rho非依赖性终止信号不需要外来的转录终止因子,原因是由这些序列转录的RNA中的茎-环结构的形成连同一系列尿苷(U)残基一起促进了RNA链从转录复合物中的释放。另一方面,Rho依赖性终止需要mRNA上存在称为Rho的转录终止因子和顺式作用元件。Rho的初始结合位点(Rho利用(rut)位点)是延伸的(约70个核苷酸,有时为80-100个核苷酸)单股区域,其特征是高胞苷/低鸟苷含量和所合成的RNA中的位于实际终止子序列上游的二级结构相对稀少。当遇到聚合酶暂停位点时,发生终止,且通过Rho的解螺旋酶活性来释放转录物。
终止子交换(STOP交换)
在一些实施例中,本发明教示了选择具有最佳表达特性的选择终止序列(“终止子”)以对整体宿主菌株生产率产生有益作用的方法。
举例来说,在一些实施例中,本发明教示了鉴别一或多种终止子和/或在宿主细胞内产生一或多种终止子的变异体的方法,其展现了一系列表达强度(例如下文论述的终止子梯)。已鉴别和/或产生的这些终止子的特定组合可以归入同类作为终止子梯,其更详细地解释于下文。
接着使所讨论的终止子梯与所关注的指定基因关联。因此,如果具有终止子T1-T8(表示已经鉴别和/或产生以便在与一或多个启动子组合时展现一系列表达强度的八个终止子)且使终止子梯与所关注的单一基因在宿主细胞中关联(即,通过所指定终止子可操作地连接到所指定靶基因的3'端而对宿主细胞进行基因工程改造),接着可以通过表征由每种组合尝试产生的每种工程改造菌株来确认终止子的每种组合的影响,条件是除与靶基因相关的特定启动子之外,经工程改造的宿主细胞具有另外相同的基因背景。通过此方法加以工程改造的所得宿主细胞形成了HTP基因设计文库。
HTP基因设计文库可以指通过此方法形成的真实实体微生物菌株集合,其中每个成员菌株代表所指定的终止子在原本相同的基因背景下可操作地连接到特定靶基因,所述文库称为“终止子交换微生物菌株文库”或“STOP交换微生物菌株文库”。
另外,HTP基因设计文库可以指基因扰动的集合,在这种情况下为可操作地连接到所指定基因y的所指定终止子x,所述集合称为“终止子交换文库”或“STOP交换文库”。
另外,能够使用包含终止子T1-T8的相同终止子梯对微生物进行工程改造,其中八种启动子中的每一种可操作地连接到10个不同基因目标。此程序得到80种宿主细胞菌株,除可操作地连接到所关注靶基因的特定终止子之外,所述菌株原本呈现相同的基因背景。可以对这些80种宿主细胞菌株进行适当筛选和表征且产生另一个HTP基因设计文库。表征HTP基因设计文库中的微生物菌株产生的信息和数据可以存储于任何数据库中,包括(但不限于)关系型数据库、面向对象数据库或高度分布式NoSQL数据库。此数据/信息可以包括例如所指定终止子(例如T1-T8)当可操作地连接到所指定基因目标时的作用。此数据/信息还能够是通过使终止子T1-T8中的两种或更多种可操作地连接到所指定基因目标而产生的组合效应的更宽集合。
八种启动子和10种靶基因的前述实例仅具说明性,原因是所述概念可以应用于基于一系列表达强度的呈现而已经归入同类的任何指定数目个启动子和任何指定数目个靶基因。
总之,利用各种终止子调节各种基因在生物体中的表达是一种优化所关注的性状的强大工具。本发明人所开发的终止子交换分子工具是使用终止子序列梯,其已经证明可改变至少一个基因座在至少一种条件下的表达。接着利用高通量基因组工程学将此梯系统性地应用于生物体中的一组基因。基于多种方法中的任一种方法确定这组基因影响所关注性状的可能性较高。这些方法可以包括基于已知功能或对所关注性状的影响而进行的选择,或基于此前测定的有益遗传多样性而进行的算法选择。
接着对含有连接到基因的终止子序列的生物体的所得HTP基因设计微生物菌株文库在高通量筛选模型中的性能进行评估,且确定引起性能增强的启动子-基因连接且将信息存储于数据库中。遗传扰动的集合(即,所指定的终止子x连接到所指定基因y)形成“终止子交换文库”,其可以用作微生物工程处理中所用的潜在基因变异的来源。随着时间逝去,当针对微生物背景的更大多样性实施基因扰动的更大集合时,每个文库作为实验上被证实的数据的主体而变得更强大,其能用于根据所关注的任何背景更精确地且可预测地设计出定向变化。即,在一些实施例中,本发明教示了基于此前实验结果将一或多个基因变化引入宿主细胞,所述此前实验结果嵌入与本发明的任何基因设计文库有关的元数据内。
因此,在特定实施例中,终止子交换是一种多步骤方法,其包含:
1.选择一组“x”个终止子充当“梯”。理想的是,这些终止子已经表明可引起跨越多个基因组基因座的高度可变表达,但唯一要求是其以某种方式扰动基因表达。
2.针对目标选择一组“n”个基因。此集合可以是基因组中的每个ORF或ORF的子集。可以利用关于功能相关ORF的注释、根据与此前证实的有益扰动的关系(此前启动子交换、STOP交换或SNP交换)、通过基于此前所产生的扰动之间的上位相互作用而进行的算法选择、基于与针对目标的有益ORF有关的假设的其它选择准则或通过随机选择来选择所述子集。在其它实施例中,“n”个靶基因可以包含非蛋白质编码基因,包括非编码RNA。
3.快速且并行执行以下基因修饰的高通量菌株工程:当原生终止子存在于靶基因n的3'端且其序列已知时,用所述梯中的x个终止子中的每一种置换原生终止子。当原生终止子不存在或其序列未知时,将所述梯中的x个终止子中的每一种插入基因终止密码子之后。
以此方式构筑菌株“文库”(也称为HTP基因设计文库),其中文库的每个成员是连接到n目标的x终止子在原本相同的基因背景下的例子。如此前所述,可以插入终止子组合,从而在构筑文库时,扩大组合可能性的范围。
4.在依据一或多种度量标准的菌株性能指示所优化的性能的背景下,高通量筛选菌株文库。
尤其可以如下扩展这种基本方法以提供菌株性能的进一步改良:(1)将多个有益扰动合并到单一菌株背景中,按互动式程序进行,一次一个;或作为多个变化在单个步骤中进行。多个扰动可以是一组特定的定义变化或部分随机化的变化组合文库。举例来说,如果目标集是路径中的每种基因,那么将此前菌株文库的改良成员中的扰动文库依序再生能够优化路径中的每种基因的表达水平,不论哪种基因在任一次指定的迭代时具有速率限制性;(2)将由文库的个别和组合产生所得到的性能数据馈送到算法中,所述算法使用那个数据基于每个扰动的相互作用来预测最佳的扰动集;以及(3)实施上述两种方法的组合。
所述方法举工业微生物为例说明于本发明中,但适用于可以在基因突变体群体中鉴别出所期望性状的任何生物体。举例来说,这可以用于改良CHO细胞、酵母、昆虫细胞、藻类以及多细胞生物体(如植物)的性能。
5.序列优化:用于衍生优化序列微生物菌株文库的分子工具
在一个实施例中,本发明的方法包含对宿主生物体所表达的一或多种基因进行密码子优化。用于优化密码子以改善各种宿主中的表达的方法在所属领域中已知且描述于文献(参见美国专利申请公开第2007/0292918号,所述申请以全文引用的方式并入本文中)中。可以制备含有由特定原核生物或真核生物宿主优选的密码子的优化编码序列(也参见莫雷(Murray)等人(1989),核酸研究(Nucl.Acids Res.)17:477-508),例如提高转译速率或产生具有期望特性的重组RNA转录物,如半衰期比由非优化序列产生的转录物长。
蛋白质表达由大量因素控制,包括影响转录、mRNA处理以及转译稳定性和起始的那些因素。优化因此可以解决任何特定基因的多个序列特点中的任一个。作为一个特定实例,稀有密码子诱导的转译暂停能够引起蛋白质表达减少。稀有密码子诱导的转译暂停包括所关注聚核苷酸中的很少用于宿主生物体中的密码子的存在因其在可利用的tRNA池中的稀缺性而可能对蛋白质转译产生负面影响。
交替转译起始还会引起异源蛋白质表达减少。交替转译起始可以包括合成聚核苷酸序列,其不经意间含有能够充当核糖体结合位点(RBS)的基元。这些位点可以起始所截断蛋白质从基因内部位点的转译。一种减少产生所截断蛋白质(其在提纯期间可能难以去除)的可能性的方法包括将推定的内部RBS序列从优化的聚核苷酸序列中排除。
重复诱导的聚合酶打滑会引起异源蛋白质表达减少。重复诱导的聚合酶打滑涉及核苷酸序列重复,其已经表明可引起DNA聚合酶打滑或停顿,从而会引起移框突变。这类重复还能够引起RNA聚合酶打滑。在具有高G+C含量偏好的生物体中,可以存在由G或C核苷酸重复组成的较高程度的重复。因此,一种减少诱导RNA聚合酶打滑的可能性的方法包括改变G或C核苷酸的延长重复。
干扰二级结构还会引起异源蛋白质表达减少。二级结构能够隔离RBS序列或起始密码子且已经与蛋白质表达的减少相关。茎环结构还会涉及转录暂停和减弱。优化的聚核苷酸序列可以在核苷酸序列的RBS和基因编码区中含有最少的二级结构以实现转录和转译的改善。
举例来说,优化程序可以始于鉴别由宿主表达的所期望氨基酸序列。由所述氨基酸序列可以设计候选聚核苷酸或DNA序列。在合成DNA序列的设计期间,可以对密码子使用频率与宿主表达生物体的密码子使用进行比较且可以从合成序列中去除罕见的宿主密码子。另外,可以修饰合成候选DNA序列以便去除非期望的酶限制位点和添加或去除任何所期望的信号序列、连接子或未转译区域。可以分析合成DNA序列中的可能会干扰转译过程的二级结构的存在,如G/C重复和茎环结构。
6.上位定位-能够实现有益基因合并的预测分析工具
在一些实施例中,本发明教示了用于预测有益基因变异且将其合并到宿主细胞中的上位定位方法。基因变异可以利用前述HTP分子工具集(例如启动子交换、SNP交换、起始/终止密码子交换、序列优化)中的任一种产生且根据所衍生的HTP基因设计微生物菌株文库的表征已知那些基因变异的效应。因此,如本文所用,术语上位定位包括鉴别可能会引起宿主性能增强的基因变异组合(例如有益SNP或有益启动子/靶基因关联)的方法。
在实施例中,本发明的上位定位方法是基于如下构思:相较于来自同一功能群组的突变的组合,来自两种不同功能群组的有益突变的组合更可能改良宿主性能。参见例如考斯坦佐(Costanzo),细胞的基因前景(The Genetic Landscape of a Cell),科学,第327卷,第5964期,2010年1月22日,第425-431页(以全文引用的方式并入本文中)。
来自同一功能群组的突变更可能通过相同机制来运作,且因此更可能对总体宿主性能展现负上位或中性上位效应。相比之下,来自不同功能群组的突变更可能通过独立机制来运作,从而能够引起宿主性能改善且在一些情况下产生协同效应。举例来说,参见图19,lysA和zwf是按照不同路径运作以实现赖氨酸产生的基因。基于那些基因的个别性能的差异性,使用那些基因的基因变化应该引起叠加的合并效应。这体现于对lysA与zwf组合的合并效应的实际测量中,如图16B和实例6中所示。
因此,在一些实施例中,本发明教示了分析SNP突变以鉴别经预测属于不同功能群组的SNP的方法。在一些实施例中,SNP功能群组相似度是通过计算突变相互作用曲线的余弦相似度(类似于相关系数,参见图16A)来测定。本发明还通过突变相似度矩阵(参见图15)或树状图(参见图16A)来说明SNP的比较。
因此,上位定位程序提供了一种对在一或多种基因背景下所施加的多种多样的基因突变进行分组和/或评级的方法,目的是将所述突变高效且有效地合并到一或多个基因背景中。
在各方面中,进行合并的目标是产生新颖菌株,所述新颖菌株针对目标生物分子的产生经优化。通过所教示的上位定位程序,可以鉴别突变的功能分类,且此功能分类能够实现使不期望的上位效应最小化的合并策略。
如此前所解释,供工业发酵使用的微生物的优化是一个重要的难题,其广泛牵涉到经济、社会和自然界。传统上,已经通过随机突变诱发的缓慢和不确定方法进行微生物工程改造。这类方法利用细胞的天然进化能力来适应人工强加的选择压力。这类方法还受到以下限制:有益突变的稀有性、潜在健康前景的稳固性,且更通常来说,未充分利用细胞和分子生物学的现有技术水平。
现代方法利用了在机制层面对细胞功能的新了解且利用新的分子生物学工具对特定的表型末端进行靶向基因操控。在实践中,这类合理方法因生物学的潜在复杂性而发生混淆。对致病机制的了解不充分,尤其当尝试将各自具有所观察到的有益效应的两个或更多个变化组合时。有时,基因变化的这类合并产生积极结果(根据所期望的表型活性的增强所测量),但是净积极结果可能低于预期且在一些情况下高于预期。在其他情况下,这类组合产生净中性效果或净消极效果。这种现象称为上位,且是微生物工程(一般是基因工程)的基本挑战之一。
如前所述,本发明的HTP基因组工程平台解决了与传统微生物工程改造方法相关的许多问题。本发明HTP平台利用自动化技术一次执行数百或数千个基因突变。在特定方面中,不同于上述合理方法,所公开的HTP平台能够并行构筑数千个突变体以更有效地探究相关基因组空间的较大子集,如美国申请第15/140,296号(名称为:用于改良经工程改造的核苷酸序列的大规模生产的微生物菌株设计系统和方法,所述申请以全文引用的方式并入本文中)中所公开。通过尝试“所有事物”,本发明的HTP平台避开了我们的有限生物学了解所引起的困难。
然而,同时,本发明的HTP平台面对的问题是根本上局限于基因组空间的组合爆发性规模,以及计算机技术解释所产生的数据集的有效性(鉴于基因相互作用的复杂性)。需要以使产生所期望结果的组合的非随机选择最大化的方式探究广大组合空间的子集的技术。
在酶优化的情况下,在某种程度上相似的HTP方法已证明是有效的。在这个小生境问题中,所关注的基因组序列(约1000个碱基)编码物理构形有些复杂的蛋白质链。确切的构形是利用其组成性原子组分之间的整体电磁相互作用来确定。短基因组序列与物理上受约束的折叠问题的这种组合使得其自身特别渴望优化策略。即,可以使序列在每个残基处发生个别的突变且使所得突变体改组,从而按照与序列活跃性响应模型相容的分辨率有效地对局部序列空间取样。
然而,针对生物分子进行完整基因组优化时,这类以残基为中心的方法因一些重要原因而不充分。第一个原因是与生物分子的基因组优化有关的相关序列空间呈指数级增加。第二个原因是生物分子合成中的调节、表达和代谢相互作用的复杂性增加。本发明人已经通过所教示的上位定位程序解决了这些问题。
用于对一组突变之间的上位相互作用建立模型以便更高效且有效地将所述突变合并到一或多种基因背景中的所教示方法在所属领域中具有开创性且是非常需要的。
描述上位定位程序时,术语“更高效”和“更有效”是指相对于特定表型目标,避免合并菌株间的不期望上位相互作用。
由于所述方法已经大体详述如上,因此现将描述更具体的工作流程实例。
第一,以M个突变的文库和一或多种基因背景(例如亲代细菌菌株)开始。在此所述的方法既非专门针对文库的选择、亦非专门针对基因背景的选择。但在特定实施方案中,突变文库可以排他地或组合性地包括:SNP交换文库、启动子交换文库,或本文所述的任何其它突变文库。
在一个实施方案中,仅提供单一基因背景。在这种情况下,首先利用此单一背景产生不同基因背景(微生物突变体)的集合。这可以如下实现:将初始突变文库(或其一些子集)应用于所指定的背景,例如将特定SNP的HTP基因设计文库或特定启动子的HTP基因设计文库应用于所指定的基因背景,从而在相同的基因背景下产生微生物突变体的群体(或许100个或1,000个),例外之处为其中并入了来自所指定的HTP基因设计文库的特定基因变异。如下详述,这个实施例可以产生文库或成对文库的组合。
在另一个实施方案中,可以简单地得到不同的已知基因背景的集合。如下详述,这个实施例可以产生组合文库的子集。
在一个特定实施方案中,为了使这种方法的有效性最大化,测定基因背景的数目和这些背景之间的基因多样性(根据突变数目或序列剪辑距离或其类似方面所测量)。
基因背景可以是天然的、原生的或野生型菌株或突变的经工程改造的菌株。N种不同背景菌株可以由向量b表示。在一个实例中,背景b可以代表如下形成的工程背景:将N个初始突变m0=(m1、m2、…mN)施加于野生型背景菌株b0以形成N种突变型背景菌株b=m0 b0=(m1b0、m2b0、…mN b0),其中mib0表示突变mi施加于背景菌株b0
在任一种情况(即,单一提供的基因背景,或基因背景的集合)下,结果是N种不同基因背景的集合。测量每种背景的相关表型。
第二,将M突变m1的集合中的每个突变施加于N种背景菌株的集合b内的每种背景,以形成M x N个突变体的集合。在其中N个背景本身通过施加初始突变集合m0而获得(如上文所述)的实施方案中,所得突变体集合有时称为组合文库或成对文库。在其中已经明确提供已知背景集合的另一个实施方案中,所得突变体集合可以称为组合文库的子集。类似于工程改造背景的载体的产生,在实施例中,输入界面202接收突变向量m1和背景向量b,以及指定的运算,如向量积。
继续以上述工程改造背景为例,形成MxN组合文库可以由m1 x m0 b0形成的矩阵(m1应用于b=m0 b0的N个背景的向量积)表示,其中m1中的每个突变施加于b内的每种背景菌株。所得MxN矩阵中的每个第i行表示m1内的第i个突变施加于背景集合b内的所有菌株。在一个实施例中,m1=m0和矩阵表示将相同突变成对施加于初始菌株b0。在这种情况下,矩阵围绕其对角线(M=N)是对称的,且在任何分析中可以忽略对角线,因为其表示相同突变施加两次。
在实施例中,形成MxN矩阵可以通过向输入界面202中输入混合表达式m1 x m0b0来实现。表达式的分量向量可以与明确指定的其元件一起、根据一或多种DNA规格直接输入,或读出到文库206以便在解译器204解译期间实现向量的撷取。如美国专利申请第15/140,296号(名称为“用于改良经工程改造的核苷酸序列的大规模生产的微生物菌株设计系统和方法”)中所述,LIMS系统200通过解译器204、执行引擎207、发订单引擎208和工厂210产生由输入表达式指定的微生物菌株。
第三,参照图42,分析设备214测量了MxN组合文库矩阵内的每种突变体的表型响应(4202)。因而,响应的集合可以理解为M x N响应矩阵R。R中的每个元素可以表示为rij=y(mi,mj),其中y表示工程集b内的背景菌株bj的响应(性能),如通过突变mi而发生突变。为了简单和实用性起见,我们采用成对突变,其中m1=m0。在突变集合表示成对突变文库的情况下(如本文),所得矩阵也可以称为基因相互作用矩阵或更具体地说,突变相互作用矩阵。
所属领域的技术人员将认识到,在一些实施例中,与上位效应和预测菌株设计有关的运算完全可以通过LIMS系统200的自动化方式进行,例如通过分析设备214或通过人工建构,或通过自动化方式与人工方式的组合。当运算并非完全自动进行时,LIMS系统200的元件(例如分析设备214)可以例如接收人工执行运算的结果,而非通过其自身的运算能力而产生结果。如本文在别处所述,LIMS系统200的组件(如分析设备214)可以完全或部分地通过一或多种计算机系统来建构。在一些实施例中,尤其在与预测菌株设计有关的运算是利用自动化方式与人工方式的组合来执行的情况下,分析设备214不仅可以包括计算机硬件、软件或固件(或其组合),而且包括由操作人员操作的设备,如下表5中所列的设备,例如在“评估性能”类别下所列的设备。
第四,分析设备212将响应矩阵归一化。归一化由以下组成:调节实测响应值的人工过程和/或在这个实施例中为自动化过程以便去除偏好和/或分离出此方法所特有的效果的相关部分。就图42来说,第一步骤4202可以包括获得归一化的实测数据。一般来说,在针对预测菌株设计和上位定位的权利要求书中,术语“性能测量”或“实测性能”或其类似术语可以用于描述一种度量标准,其反映了实测数据(不论未处理或以某种方式处理),例如归一化数据。在一个特定实施方案中,归一化可以通过从实测响应值中减去此前测量的背景响应来执行。在那种实施方案中,所得响应元素可以形成为rij=y(mi,mj)-y(mj),其中y(mj)是因向亲代菌株b0施加初始突变mj引起工程集b内的工程背景菌株bj的响应。应注意归一化响应矩阵内的每一行是作为其相应突变的响应分布来处理。即,第i行描述了施加于j=1到N的所有背景菌株bj的相应突变mi的相对效应。
就成对突变的实例来说,由两种突变引起的菌株的组合性能/响应可以大于、小于或等于每一种突变个别引起的菌株的性能/响应。这种效应称为“上位”且在一些实施例中,可以用eij=y(mi,mj)-(y(mi)+y(mj))表示。这种数学表示可以存在变化形式,且可以取决于例如个别变化在生物学上发生相互作用的程度。如上文所提及,来自同一功能群组的突变更可能通过相同机制来运作,且因此更可能对总体宿主性能展现负上位或中性上位效应。相比之下,来自不同功能群组的突变更可能通过独立机制来运作,从而能够通过例如减少冗余突变效应来改良宿主性能。因此,产生差异响应的突变比产生相似响应的突变更可能按叠加方式组合。由此引起在下一步骤中计算相似度。
第五,分析设备214测量了响应间的相似度,在成对突变实例中,这是响应矩阵内的第i个突变与第j(例如初始)突变的效应之间的相似度(4204)。请记住:R中的第i行表示第i个突变mi施加于N种背景菌株的性能效应,其中的每一种本身可以是如上文所述的工程改造突变的结果。因此,第i个和第j个突变的效应之间的相似度可以分别由第i行ρi与第j行ρj之间的相似度sij表示,以形成相似度矩阵S,其实例说明于图15中。相似度可以使用多种已知技术测量,如交叉相关或绝对余弦相似度,例如sij=abs(cos(ρij))。
作为度量标准(如余弦相似度)的一个替代或补充方案,可以对响应曲线进行聚类以测定相似度。聚类可以使用基于距离的聚类算法(例如k均值、分层凝聚等)、结合适合的距离测量(例如欧几里德(Euclidean)、汉明(Hamming)等)来进行。或者,可以使用基于相似度的聚类算法(例如光谱、最小切割等)、通过适合的相似度测量(例如余弦、相关度等)来执行聚类。当然,可以通过任何数目个标准函数运算(例如指数函数)来使距离测量对应于相似度测量且反之亦然。在一个实施方案中,分层凝聚聚类可以结合绝对余弦相似度来使用。(参见图16A)。
举聚类为例,假设C是突变mi按照k个不同簇的聚类。假设C是簇成员矩阵,其中cij是突变i属于簇j的程度(0与1之间的值)。接着利用Ci×Cj(C的第i行与第j行的点积)得到突变i与j之间的基于簇的相似度。一般来说,基于簇的相似度矩阵由CCT给定(即,C乘以C转置矩阵)。在硬聚类(突变恰好属于一个簇)的情况下,两个突变之间的相似度是1(如果其属于同一簇)和0(如果不)。
如考斯坦佐(Costanzo),细胞的基因前景,科学,第327卷,第5964期,2010年1月22日,第425-431页(以全文引用的方式并入本文中)所述,突变响应曲线的这种聚类是指细胞潜在功能组织的大致定位。即,聚为同类的突变倾向于与潜在的生物过程或代谢途径相关。这类突变在本文中称为“功能群”。这种方法的关键观察结果在于,如果两个突变通过相同的生物过程或途径来运作,那么所观察到的效应(和值得注意的是所观察到的效益)可能是冗余的。反之,如果两个突变通过远端机制来运作,那么有益效应不大可能是冗余的。
第六,基于上位效应,分析设备214选择产生差异响应的突变对,例如其余弦相似度度量标准低于相似度阈值,或其响应属于充分分隔的簇中(例如图15和图16A),如图42(4206)所示。优于相似对,所选突变对应该基于其差异性而合并到背景菌株中。
基于所选突变对产生充分差异响应,可以利用LIMS系统(例如解译器204、执行引擎207、下单器208和工厂210)设计具有那些所选突变的微生物菌株(4208)。在实施例中,如下文所述和本文别处所述,上位效应可以内置于预测模型中或结合预测模型使用以赋予菌株选择权重或过滤菌株选择。
假定可以通过一些优选的预测模型估计假想菌株的性能(也称为分数),所述假想菌株是通过将来自文库的突变集合合并到特定背景中来获得。教示方法中所用的代表性预测模型提供于标题为“预测菌株设计(Predictive Strain Design)”的下述章节中,所述章节见于更大章节:“全基因组基因设计准则的计算分析和效果预测(ComputationalAnalysis and Prediction of Effects of Genome-Wide Genetic Design Criteria)”。
当使用预测菌株设计技术(如线性回归)时,分析设备214可以将模型约束到具有低相似度测量值的突变,例如通过过滤回归结果以便仅保留具有充分差异性的突变。或者,可以利用相似度矩阵赋予预测模型权重。举例来说,一些实施例可以利用加权的最小二乘法回归,其使用相似度矩阵来表征所提出的突变的相互依赖性。举例来说,可以通过将“内核”策略应用于回归模型来执行加权。(就“内核策略”是多种机器学习建模方法的通用策略来说,这种再加权策略不限于线性回归。)
所属领域的技术人员已知这类方法。在实施例中,内核是具有元素1-w*sij的矩阵,其中1是恒等矩阵的元素,且w是0与1之间的实值。当w=0时,此简化为标准回归模型。在实践中,当针对成对组合构筑体和其关联效应y(mi,mj)评估时,w值将与预测模型的精确度(r2值或均方根误差(RMSE))相关。在一个简单的实施方案中,w定义为w=1-r2。在这种情况下,当模型完全可预测时,w=1-r2=0且合并仅基于预测模型且上位定位程序不起作用。另一方面,当预测模型根本不能预测时,w=1-r2=1且合并仅基于上位定位程序。在每次迭代期间,可以评估精确度以确定模型性能是否改良。
应该明确,本文所述的上位定位程序不取决于分析设备214使用哪种模型。鉴于这种预测模型,有可能对通过组合合并可近接突变文库的所有假想菌株评分和评级。
在一些实施例中,为了考虑上位效应,分析设备214可以利用差异突变响应曲线来增加与得自预测模型的每种假想菌株相关的分数和等级。这种程序可以广泛地被认为是分数的再加权,从而有利于具有差异响应曲线的候选菌株(例如从多种多样的簇中抽取的菌株)。在一个简单的实施方案中,菌株的分数可以因不满足差异性阈值或从同一簇(具有适合权重)中抽取的组成性突变的数目而降低。在一个特定实施方案中,假想菌株的性能估计值的减小可能是与所有组成性突变对相关的相似度矩阵中的各项的总和,所述组成性突变与假想菌株相关(再次具有适合权重)。可以利用这些强化分数对假想菌株再评级。在实践中,这类再加权计算可以结合初始分数评估来进行。
结果得到假想菌株的集合,其分数和等级经强化以更有效地避免令人混淆的上位相互作用。此时可以构筑假想菌株,或可以将其传送到另一计算方法供后续分析或使用。
所属领域的技术人员将认识到,如本文所述的上位定位和迭代预测菌株设计不限于仅使用成对突变,而是可以扩展到将许多更多的突变同时施加到背景菌株。在另一个实施例中,可以将额外突变依序施加到已经利用根据本文所述的预测方法所选的突变发生突变的菌株。在另一个实施例中,上位效应如下推测:将相同的基因突变施加到彼此稍微不同的多种菌株背景,且记录经改造的菌株背景间的正响应曲线的任何显著差异。
顺从基因设计的生物体
所公开的HTP基因组工程平台虽然以工业微生物细胞培养物(例如棒状杆菌和黑曲霉)为例说明,但是适用于任何宿主细胞生物体,其中能够在基因突变体群体中鉴别出所期望的性状。
因此,如本文所用,术语“微生物”应在宽广的意义上理解。其包括(但不限于)两个原核生物结构域:细菌和古细菌,以及某些真核生物真菌和原生生物。然而,在某些方面中,本文教示的方法中可以使用“更高级”真核生物体,如昆虫、植物和动物。
本发明提供原核生物(实例1-9)和真核生物(实例10-11)宿主细胞的工作实例。
适合的宿主细胞包括(但不限于):细菌细胞、藻类细胞、植物细胞、真菌细胞、昆虫细胞和哺乳动物细胞。在一个示例性实施例中,适合的宿主细胞包括大肠杆菌(例如SHuffleTM胜任型大肠杆菌,其获自马萨诸塞州伊普威治的新英格兰生物实验室(NewEngland BioLabs,Ipswich,Mass.))。
本发明的其它适合宿主生物体包括棒状杆菌属的微生物。在一些实施例中,优选的棒状杆菌菌株/菌种包括:有效棒状杆菌(C.efficiens),寄存型菌株是DSM44549;谷氨酸棒状杆菌(C.glutamicum),寄存型菌株是ATCC13032;以及产氨棒状杆菌(C.ammoniagenes),寄存型菌株是ATCC6871。在一些实施例中,本发明的优选宿主是谷氨酸棒状杆菌。
棒状杆菌属(具体地说,谷氨酸棒状杆菌菌种)中的适合宿主菌株尤其是已知的野生型菌株:谷氨酸棒状杆菌ATCC13032、醋谷棒杆菌(Corynebacterium acetoglutamicum)ATCC15806、醋麸酸棒状杆菌(Corynebacterium acetoacidophilum)ATCC13870、糖蜜棒状杆菌(Corynebacterium melassecola)ATCC17965、产热氨棒状杆菌(Corynebacteriumthermoaminogenes)FERM BP-1539、黄色短杆菌(Brevibacterium flavum)ATCC14067、乳酸发酵短杆菌(Brevibacterium lactofermentum)ATCC13869和分歧短杆菌(Brevibacteriumdivaricatum)ATCC14020;以及由其制备的产L-氨基酸突变体或菌株,例如产L-赖氨酸菌株:谷氨酸棒状杆菌FERM-P 1709、黄色短杆菌FERM-P 1708、乳酸发酵短杆菌FERM-P 1712、谷氨酸棒状杆菌FERM-P 6463、谷氨酸棒状杆菌FERM-P 6464、谷氨酸棒状杆菌DM58-1、谷氨酸棒状杆菌DG52-5、谷氨酸棒状杆菌DSM5714和谷氨酸棒状杆菌DSM12866。
对于谷氨酸棒状杆菌来说,术语“谷氨酸微球菌”也已在使用。菌种有效棒状杆菌的一些代表例在现有技术中也已称为产热氨棒状杆菌,如菌株FERM BP-1539。
在一些实施例中,本发明的宿主细胞是真核细胞。适合的真核生物宿主细胞包括(但不限于):真菌细胞、藻类细胞、昆虫细胞、动物细胞和植物细胞。适合的真菌宿主细胞包括(但不限于):子囊菌门(Ascomycota)、担子菌门(Basidiomycota)、半知菌门(Deuteromycota)、接合菌门(Zygomycota)、不完全菌类(Fungi imperfecti)。某些优选的真菌宿主细胞包括酵母细胞和丝状真菌细胞。适合的丝状真菌宿主细胞包括例如真菌门(Eumycotina)和卵菌门(Oomycota)亚门的任何丝状形式。(参见例如霍克索斯(Hawksworth)等人,于恩索斯(Ainsworth)和毕丝巴(Bisby)的真菌词典,第8版,1995年,CAB国际,大学出版社,英国剑桥,该文献以引用的方式并入本文中)。丝状真菌的特征是营养菌丝体,其细胞壁由甲壳素、纤维素和其它复杂多糖组成。丝状真菌宿主细胞在形态上不同于酵母。
在某些说明性但非限制性的实施例中,丝状真菌宿主细胞可以是以下菌种的细胞:棉霉属(Achlya)、枝顶孢属(Acremonium)、曲霉属(Aspergillus)、短梗霉属(Aureobasidium)、烟管霉属(Bjerkandera)、拟蜡菌属(Ceriporiopsis)、头孢霉属(Cephalosporium)、金孢霉属(Chrysosporium)、旋孢腔菌属(Cochliobolus)、棒囊壳属(Corynascus)、隐丛赤壳属(Cryphonectria)、隐球酵母属(Cryptococcus)、鬼伞属(Coprinus)、革盖菌属(Coriolus)、色二孢属(Diplodia)、内斯菌属(Endothis)、镰孢菌属(Fusarium)、赤霉属(Gibberella)、胶霉属(Gliocladium)、腐殖菌属(Humicola)、肉座菌属(Hypocrea)、毁丝菌属(Myceliophthora)(例如嗜热毁丝霉(Myceliophthorathermophila))、白霉菌属(Mucor)、红霉菌属(Neurospora)、青霉属(Penicillium)、柄孢壳属(Podospora)、射脉菌属(Phlebia)、瘤胃壶菌属(Piromyces)、梨胞霉属(Pyricularia)、根毛霉属(Rhizomucor)、根霉属(Rhizopus)、裂殖菌属(Schizophyllum)、革节孢属(Scytalidium)、孢子丝菌属(Sporotrichum)、踝节菌属(Talaromyces)、嗜热子囊菌属(Thermoascus)、梭孢壳霉属(Thielavia)、栓菌属(Tramates)、弯颈霉菌属(Tolypocladium)、木霉属(Trichoderma)、轮枝孢属(Verticillium)、小包脚菇属(Volvariella),或其有性世代或无性世代,以及其同义词或分类等效物。在一个实施例中,丝状真菌选自由以下组成的群组:构巢曲霉(A.nidulans)、米曲霉(A.oryzae)、酱油曲霉(A.sojae),和黑曲霉(A.niger)群组的曲霉菌。在一个实施例中,丝状真菌是黑曲霉。
在另一个实施例中,本文提供的方法和系统使用真菌物种的特定突变体。在一个实施例中,使用真菌物种的特定突变体,其适用于本文提供的高通量和/或自动化方法和系统。这类突变体的实例可以是原生质体保持非常好的菌株;主要或更偏向仅产生具有单一细胞核的原生质体的菌株;在微量滴定盘中高效再生的菌株;再生更快的菌株和/或高效吸收聚核苷酸(例如DNA)分子的菌株;产生低粘度培养物的菌株,例如在培养液中产生菌丝的细胞,所述菌丝的缠结不会阻碍单一克隆的分离和/或提高培养物的粘度;随机整合减少的菌株(例如失能的非同源末端连接途径);或其组合。
在又另一个实施例中,供本文所提供的方法和系统中使用的特定突变体菌株可以是缺乏可选标记基因的菌株,例如需要尿苷的突变体菌株。这些突变体菌株可以缺乏分别由pyrG或pyrE基因编码的乳清酸核苷5磷酸脱羧酶(OMPD)或乳清酸磷酸化核糖基转移酶(OPRT)(T.古森(T.Goosen)等人,现代遗传学,1987,11:499 503;J.贝格瑞特(J.Begueret)等人,基因,1984 32:487 92。
在一个实施例中,供本文所提供的方法和系统中使用的特定突变体菌株是具有致密细胞形态的菌株,其特征为菌丝较短和更多酵母样外形。
适合的酵母宿主细胞包括(但不限于):念珠菌属(Candida)、汉逊酵母属(Hansenula)、酵母属(Saccharomyces)、裂殖酵母属(Schizosaccharomyces)、毕赤酵母属(Pichia)、克鲁维酵母属(Kluyveromyces)和耶氏酵母属(Yarrowia)。在一些实施例中,酵母细胞是多形汉逊酵母(Hansenula polymorpha)、酿酒酵母(Saccharomycescerevisiae)、卡尔斯伯酵母(Saccaromyces carlsbergensis)、糖化酵母(Saccharomycesdiastaticus)、洛本酵母(Saccharomyces norbensis)、克鲁维酵母(Saccharomyceskluyveri)、粟酒裂殖酵母(Schizosaccharomyces pombe)、甲醇酵母(Pichia pastoris)、芬兰毕赤酵母(Pichia finlandica)、嗜海藻糖毕赤酵母(Pichia trehalophila)、考达毕赤酵母(Pichia kodamae)、膜醭毕赤酵母(Pichia membranaefaciens)、幸运毕赤酵母(Pichia opuntiae)、耐热毕赤酵母(Pichia thermotolerans)、萨利毕赤酵母(Pichiasalictaria)、松栎毕赤酵母(Pichia quercuum)、皮吉毕赤酵母(Pichia pijperi)、树干毕赤酵母(Pichia stipitis)、嗜甲醇毕赤酵母(Pichia methanolica)、安格斯毕赤酵母(Pichia angusta)、乳酸克鲁维酵母(Kluyveromyces lactis)、白色念珠菌(Candidaalbicans)或解脂耶罗威亚酵母(Yarrowia lipolytica)。
在某些实施例中,宿主细胞是藻类细胞,如衣藻属(Chlamydomonas)(例如莱茵衣藻(C.Reinhardtii))和席藻属(Phormidium)(席藻种ATCC29409)。
在其它实施例中,宿主细胞是原核细胞。适合的原核生物细胞包括革兰氏阳性、革兰氏阴性和革兰氏变异性细菌细胞。宿主细胞可以是(但不限于)以下菌种:农杆菌属(Agrobacterium)、脂环杆菌属(Alicyclobacillus)、念珠藻属(Anabaena)、倒囊藻属(Anacystis)、不动杆菌属(Acinetobacter)、酸热菌属(Acidothermus)、节杆菌属(Arthrobacter)、固氮菌属(Azobacter)、芽孢杆菌属(Bacillus)、双叉杆菌属(Bifidobacterium)、短杆菌属(Brevibacterium)、丁酸弧菌属(Butyrivibrio)、布赫纳氏菌属(Buchnera)、平原菟丝子(Campestris)、弯曲杆菌属(Camplyobacter)、梭菌属(Clostridium)、棒状杆菌属(Corynebacterium)、红色硫黃细菌属(Chromatium)、粪球菌属(Coprococcus)、埃希氏杆菌属(Escherichia)、肠球菌属(Enterococcus)、肠杆菌属(Enterobacter)、欧文菌属(Erwinia)、梭杆菌属(Fusobacterium)、粪栖杆菌属(Faecalibacterium)、弗朗西斯氏菌属(Francisella)、黄杆菌属(Flavobacterium)、土芽孢杆菌属(Geobacillus)、嗜血杆菌属(Haemophilus)、螺旋杆菌属(Helicobacter)、克雷伯氏菌属(Klebsiella)、乳杆菌属(Lactobacillus)、乳球菌属(Lactococcus)、泥杆菌属(Ilyobacter)、微球菌属(Micrococcus)、微杆菌属(Microbacterium)、中间根瘤菌属(Mesorhizobium)、甲基杆菌属(Methylobacterium)、甲基杆菌属(Methylobacterium)、分枝杆菌属(Mycobacterium)、奈瑟菌属(Neisseria)、泛菌属(Pantoea)、假单胞菌属(Pseudomonas)、原绿球藻属(Prochlorococcus)、红细菌属(Rhodobacter)、红假单胞菌属(Rhodopseudomonas)、红假单胞菌属(Rhodopseudomonas)、罗斯氏菌属(Roseburia)、红螺菌属(Rhodospirillum)、红球菌属(Rhodococcus)、栅列藻属(Scenedesmus)、链霉菌属(Streptomyces)、链球菌属(Streptococcus)、聚球藻属(Synecoccus)、糖单孢菌属(Saccharomonospora)、糖多孢菌属(Saccharopolyspora)、葡萄球菌属(Staphylococcus)、沙雷氏菌属(Serratia)、沙门氏菌属(Salmonella)、志贺杆菌属(Shigella)、嗜热厌氧杆菌属(Thermoanaerobacterium)、养障体(Tropheryma)、土拉热(Tularensis)、蒂梅丘拉(Temecula)、嗜热聚球藻属(Thermosynechococcus)、热球菌属(Thermococcus)、脲原体属(Ureaplasma)、黄单胞菌属(Xanthomonas)、木杆菌属(Xylella)、耶尔森氏菌属(Yersinia)和发酵单胞菌属(Zymomonas)。在一些实施例中,宿主细胞是谷氨酸棒状杆菌。
在一些实施例中,细菌宿主菌株是工业菌株。多种细菌工业菌株已知且适用于本文所述的方法和组合物中。
在一些实施例中,细菌宿主细胞是农杆菌种(例如土壤放射杆菌(A.radiobacter)、发根农杆菌(A.rhizogenes)、悬钩子农杆菌(A.rubi))、节杆菌种(例如金黄节杆菌(A.aurescens)、柠檬节杆菌(A.citreus)、球形节杆菌(A.globformis)、裂烃谷氨酸节杆菌(A.hydrocarboglutamicus)、迈索尔节杆菌(A.mysorens)、烟草节杆菌(A.nicotianae)、石蜡节杆菌(A.paraffineus)、畏光节杆菌(A.protophonniae)、玫瑰色石蜡节杆菌(A.roseoparaffinus)、硫磺节杆菌(A.sulfureus)、产脲节杆菌(A.ureafaciens))、芽孢杆菌种(例如苏云金芽孢杆菌(B.thuringiensis)、炭疽芽孢杆菌(B.anthracis)、巨大芽孢杆菌(B.megaterium)、枯草杆菌(B.subtilis)、迟缓芽胞杆菌(B.lentus)、环状芽孢杆菌(B.circulars)、短小芽孢杆菌(B.pumilus)、灿烂芽孢杆菌(B.lautus)、凝结芽孢杆菌(B.coagulans)、短小芽孢杆菌(B.brevis)、强固芽胞杆菌(B.firmus)、嗜碱芽孢杆菌(B.alkaophius)、地衣芽孢杆菌(B.licheniformis)、克劳氏芽孢杆菌(B.clausii)、嗜热脂肪芽孢杆菌(B.stearothermophilus)、耐盐嗜碱芽孢杆菌(B.halodurans)和解淀粉芽孢杆菌(B.amyloliquefaciens)。在特定实施例中,宿主细胞是工业芽孢杆菌属菌株,包括(但不限于)枯草杆菌、短小芽孢杆菌、地衣芽孢杆菌、巨大芽孢杆菌、克劳氏芽孢杆菌、嗜热脂肪芽孢杆菌和解淀粉芽孢杆菌。在一些实施例中,宿主细胞是工业梭菌属菌种(例如丙酮丁醇梭菌(C.acetobutylicum)、破伤风梭菌E88(C.tetaniE88)、象牙海岸梭菌(C.lituseburense)、糖丁酸梭菌(C.saccharobutylicum)、产气荚膜梭菌(C.perfringens)、拜氏梭菌(C.beijerinckii))。在一些实施例中,宿主细胞是工业棒状杆菌属菌种(例如谷氨酸棒状杆菌(C.glutamicum)、嗜乙酰乙酸棒状杆菌(C.acetoacidophilum))。在一些实施例中,宿主细胞是工业埃希氏杆菌属菌种(例如大肠杆菌)。在一些实施例中,宿主细胞是工业欧文菌属(Erwinia)菌种(例如噬夏孢欧文菌(E.uredovora)、胡萝卜软腐欧文菌(E.carotovora)、菠萝欧文氏菌(E.ananas)、草生欧文菌(E.herbicola)、点状欧文菌(E.punctata)、土生欧文菌(E.terreus))。在一些实施例中,宿主细胞是工业泛菌属菌种(例如柠檬泛菌(P.citrea)、成团泛菌(P.agglomerans))。在一些实施例中,宿主细胞是工业假单胞菌属(Pseudomonas)菌种(例如恶臭假单胞菌(P.putida)、铜绿假单胞菌(P.aeruginosa)、迈氏假单胞菌(P.mevalonii))。在一些实施例中,宿主细胞是工业链球菌属菌种(例如类马链球菌(S.equisimiles)、酿脓链球菌(S.pyogenes)、乳房链球菌(S.uberis))。在一些实施例中,宿主细胞是工业链霉菌属(Streptomyces)菌种(例如产二素链霉菌(S.ambofaciens)、不产色链霉菌(S.achromogenes)、除虫链霉菌(S.avermitilis)、天蓝色链霉菌(S.coelicolor)、金霉素链霉菌(S.aureofaciens)、金黄色葡萄球菌(S.aureus)、杀真菌素链霉菌(S.fungicidicus)、灰色链霉菌(S.griseus)、变铅青链霉菌(S.lividans))。在一些实施例中,宿主细胞是工业发酵单胞菌属(Zymomonas)菌种(例如运动发酵单胞菌(Z.mobilis)、解脂发酵单胞菌(Z.lipolytica)),和其类似菌种。
本发明还适合与多种动物细胞类型一起使用,包括哺乳动物细胞,例如人(包括293、WI38、PER.C6和Bowes黑色素瘤细胞)、小鼠(包括3T3、NS0、NS1、Sp2/0)、仓鼠(CHO、BHK)、猴(COS、FRhL、Vero)和融合瘤细胞系。
在各种实施例中,可以用于实施本发明的菌株(包括原核和真核菌株)容易公开获自多个培养物保藏中心,如美国菌种保藏中心(American Type Culture Collection,ATCC)、德国微生物菌种保藏中心(Deutsche Sammlung von Mikroorganismen andZellkulturen GmbH,DSM)、荷兰微生物菌种保藏中心(Centraalbureau VoorSchimmelcultures,CBS)以及美国农业研究菌种保藏中心(Agricultural ResearchService Patent Culture Collection,Northern Regional Research Center(NRRL))。
在一些实施例中,本发明的方法还适用于多细胞生物体。举例来说,所述平台可以用于改良农作物的性能。生物体可以包含多种植物,如禾本亚目(Gramineae)、非突亚科(Fetucoideae)、颇考亚科(Poacoideae)、剪股颖属(Agrostis)、梯牧草属(Phleum)、鸡脚茅属(Dactylis)、高粱(Sorgum)、狗尾草属(Setaria)、玉蜀黍属(Zea)、稻属(Oryza)、小麦属(Triticum)、黑麦属(Secale)、燕麦属(Avena)、大麦属(Hordeum)、蔗属(Saccharum)、早熟禾属(Poa)、羊茅属(Festuca)、钝叶草属(Stenotaphrum)、狗牙根属(Cynodon)、薏苡属(Coix)、莪利竹族(Olyreae)、原禾族(Phareae)、菊科(Compositae)或豆科(Leguminosae)。举例来说,植物可以是玉米、稻米、大豆、棉花、小麦、黑麦、燕麦、大麦、豌豆、菜豆、小扁豆、花生、地瓜、豇豆、绒毛豆、三叶草、苜蓿、羽扇豆、野豌豆、莲藕、草木樨、紫藤、香豌豆、高粱、小米、葵花、芥花或其类似物。类似地,生物体可以包括多种动物,如非人类哺乳动物、鱼、昆虫或其类似物。
产生基因多样性池供基因设计和HTP微生物工程平台使用
在一些实施例中,本发明的方法的特征为基因设计。如本文所用,术语基因设计是指通过鉴别和选择特定基因的最佳变异体、基因的一部分、启动子、终止密码子、5'UTR、3'UTR或其它DNA序列来重建或改变宿主生物体基因组,以设计和产生新的优良宿主细胞。
在一些实施例中,本发明的基因设计方法中的第一步骤是获得具有多种序列变异的初始基因多样性池群体,由此群体可以重建新的宿主基因组。
在一些实施例中,本文所教示的基因设计方法中的后续步骤将使用前述HTP分子工具集(例如SNP交换或启动子交换)中的一或多种构筑HTP基因设计文库,所述HTP基因设计文库接着通过提供用于在宿主细胞中测试的特定基因组变异文库来充当基因组工程学方法的驱动器。
利用来自现有野生型菌株的多样性池
在一些实施例中,本发明教示了用于鉴别所指定野生型群体的微生物间所存在的序列多样性的方法。因此,可以将分析所用的野生型微生物的指定种数n赋予多样性池,其中所述微生物基因组代表“多样性池”。
在一些实施例中,多样性池可以是所述野生型微生物间的天然基因变异所存在的现有多样性的结果。这种变异可以由所指定宿主细胞的菌株变异体产生或可以是作为完全不同物种的微生物所产生。基因变异可以包括菌株基因序列的任何差异,不论天然存在或不存在。在一些实施例中,基因变异可以包括SNP交换、PRO交换、起始/终止密码子交换,或STOP交换等。
利用来自现有工业菌株变异体的多样性池
在本发明的其它实施例中,多样性池是在传统菌株改良过程中所产生的菌株变异体(例如通过随机突变而产生且选用于多年来提高产量的一或多种宿主生物体菌株)。因此,在一些实施例中,多样性池或宿主生物体可以包含历史性生产菌株的集合。
在特定方面,多样性池可以是原始亲代微生物菌株(S1),其在特定时间点具有“基线”基因序列(S1Gen1);且接着是衍生/开发自所述S1菌株的任何数目个后续子代菌株(S2、S3、S4、S5等,可归纳为S2-n),其相对于S1的基线基因组,具有不同基因组(S2-nGen2-n)。
举例来说,在一些实施例中,本发明教示了对多样性池中的微生物基因组进行测序以鉴别每种菌株中存在的SNP。在一个实施例中,多样性池中的菌株是历史上的微生物生产菌株。因此,本发明的多样性池可以包括例如工业基本菌株,和通过传统菌株改良程序所产生的一或多种突变型工业菌株。
鉴别出多样性池中的所有SNP后,本发明教示了用SNP交换方法和筛选方法描绘(即,量化和表征)个别和群组中的SNP的效应(例如所关注的表型的产生)。因此,如前所述,所教示平台中的初始步骤可以获得具有多种序列变异(例如SNP)的初始基因多样性池群体。接着,所教示平台中的后续步骤可以使用一或多种前述HTP分子工具集(例如SNP交换)构筑HTP基因设计文库,其接着通过提供用于在微生物中测试的特定基因组变异文库来充当基因组工程学方法的驱动器。
在一些实施例中,本发明的SNP交换方法包含将突变型菌株(例如来自S2-nGen2-n的菌株)中所鉴别的一或多种SNP引入基本菌株(S1Gen1)或野生型菌株的步骤(“向上波动”)。
在其它实施例中,本发明的SNP交换方法包含将突变型菌株(例如来自S2-nGen2-n的菌株)中所鉴别的一或多种SNP去除的步骤。
通过突变诱发来产生多样性池
在一些实施例中,所指定多样性池细胞群中的所关注突变能够利用使菌株发生突变的任何方式(包括突变诱发化学品或辐射)人工产生。术语“突变诱发”在本文中用于指一种诱导细胞核酸材料发生一或多种基因修饰的方法。
术语“基因修饰”是指DNA的任何改变。代表性基因修饰包括核苷酸插入、缺失、取代以及其组合,且可以小如单个碱基或大如数万个碱基。因此,术语“基因修饰”涵盖核苷酸序列的倒位和其它染色体重排,借此改变包含染色体区域的DNA的位置或取向。染色体重排可以包含染色体内重排或染色体间重排。
在一个实施例中,本发明标的中所用的突变诱发方法基本上是随机的,以便基因修饰能够在待诱变的核酸材料内的任何可利用核苷酸位置发生。换句话说,在一个实施例中,突变诱发不展示在特定核苷酸序列处发生的偏好或频率增加。
本发明的方法可以使用任何突变诱发剂,包括(但不限于):紫外光、X射线辐射、γ辐射、N-乙基-N-亚硝基脲(ENU)、甲基亚硝基脲(MNU)、丙卡巴肼(procarbazine)(PRC)、三亚乙基三聚氰胺(TEM)、丙烯酰胺单体(AA)、苯丁酸氮芥(CHL)、美法仑(MLP)、环磷酰胺(CPP)、硫酸二乙酯(DES)、甲烷磺酸乙酯(EMS)、甲烷磺酸甲酯(MMS)、6-巯基嘌呤(6-MP)、丝裂霉素-C(MMC)、N-甲基-N'-硝基-N-亚硝基胍(MNNG)、3H2O和氨基甲酸酯(UR)(参见例如林奇克(Rinchik),1991;马克(Marker)等人,1997;和拉塞尔(Russell),1990)。其它突变诱发剂已为所属领域中的技术人员所熟知,包括http://www.iephb.nw.ru/~spirov/hazard/mutagen_lst.html中所述的那些。
术语“突变诱发”还涵盖了用于改变(例如通过靶向突变)或调节细胞功能、借此增强突变诱发速率、品质或程度的方法。举例来说,可以改变或调节细胞,借此使其在DNA修复、诱变剂代谢、诱变剂敏感性、基因组稳定性或其组合方面出现功能异常或缺陷。因此,通常维持基因组稳定性的基因功能的干扰可以用于增强突变诱发。干扰的代表性目标包括(但不限于)DNA连接酶I(本特雷(Bentley)等人,2002)和酪蛋白激酶I(美国专利第6,060,296号)。
在一些实施例中,利用定点突变诱发(例如使用市购试剂盒(如Transformer定点突变诱发试剂盒(克隆科技公司))进行的引物定向突变诱发)在整个核酸序列中产生多种变化,以便产生编码裂解酶的本发明核酸。
暴露于一或多种突变诱发剂后发生基因修饰的频率可以通过改变处理剂量和/或重复次数来调节,且可以根据特定应用来定制。
因此,在一些实施例中,如本文所用,“突变诱发”包含所属领域中已知的用于诱导突变的所有技术,包括易错PCR突变诱发、寡核苷酸定向突变诱发、定点突变诱发,以及利用本文所述的任何技术进行的迭代序列重组。
产生多样性的单一基因座突变
在一些实施例中,本发明教示了通过引入、缺失或置换基因组DNA的所选部分来使细胞群发生突变。因此,在一些实施例中,本发明教示了使突变对准特定基因座的方法。在其它实施例中,本发明教示了利用基因编辑技术(如ZFN、TALENS或CRISPR)选择性地编辑目标DNA区域。
在其它实施例中,本发明教示了使宿主生物体外部的所选DNA区域发生突变且接着将突变序列插回到宿主生物体中。举例来说,在一些实施例中,本发明教示了使原生或合成启动子发生突变,以产生具有各种表达特性的一系列启动子变异体(参见下文的启动子梯)。在其它实施例中,本发明与单基因优化技术兼容,如ProSAR(福克斯(Fox)等人,2007,“通过ProSAR驱动型酶演变来改良催化功能(Improving catalytic function by ProSAR-driven enzyme evolution)”,自然生物技术(Nature Biotechnology)第25卷(3)338-343,所述文献以引用的方式并入本文中)。
在一些实施例中,DNA的所选区域是在试管内通过天然变异体的基因改组或用合成寡核苷酸改组、质体-质体重组、病毒质体重组、病毒-病毒重组来产生。在其它实施例中,基因组区域是通过易错PCR产生(参见例如图1)。
在一些实施例中,在所选基因区域中产生突变是利用“再组装PCR”完成。简单来说,合成寡核苷酸引物(寡核苷酸)用于对所关注的核酸序列区段进行PCR扩增,以便寡核苷酸的序列叠覆两个区段的接合点。叠覆区域的长度典型地是约10到100个核苷酸。所述区段各自用一组这样的引物扩增。接着根据组装方案“再组装”PCR产物。简单来说,在组装方案中,首先通过例如凝胶电泳或尺寸排阻色谱而从引物中提纯PCR产物。将提纯的产物混合在一起且在聚合酶和三磷酸脱氧核苷(dNTP's)和适当缓冲盐存在下、在缺乏额外引物的情况下(“自引导”)经历约1-10个循环的变性、再粘接和延伸。利用后续PCR(以引物侧接基因)扩增经完整再组装和改组的基因的产量。
在本发明的一些实施例中,突变的DNA区域(如上文所论述的那些)中富集了突变序列,从而更高效地对多个突变范围(即,可能的突变组合)取样。在一些实施例中,通过mutS蛋白质亲和基质(瓦格纳(Wagner)等人,核酸研究23(19):3944-3948(1995);苏(Su)等人,美国国家科学院院刊,83:5057-5061(1986))鉴别突变序列,其中优选在组装反应之前进行试管内扩增亲和性提纯材料的步骤。接着使此扩增材料进行组装或再组装PCR反应,如本申请的后续部分中所述。
启动子梯
启动子调节基因转录速率且可以通过多种方式影响转录。举例来说,不论内部或外部细胞条件,组成性启动子均引导其关联基因按恒定速率转录,而可调节启动子增加或降低基因转录的速率却取决于内部和/或外部细胞条件,例如生长速率、温度、对特定环境化学品的响应和其类似条件。启动子可以从其正常细胞情境中分离出来且经工程改造可调节几乎任何基因的表达,从而能够有效修改细胞生长、产物产量和/或所关注的其它表型。
在一些实施例中,本发明教示了用于产生启动子梯文库以供下游基因设计方法使用的方法。举例来说,在一些实施例中,本发明教示了鉴别一或多种启动子和/或在宿主细胞内产生一或多种启动子的变异体的方法,其展现了一系列表达强度或优良的调节特性。已鉴别和/或产生的这些启动子的特定组合可以归入同类作为启动子梯,下文将更详细地解释。
在一些实施例中,本发明教示了启动子梯的使用。在一些实施例中,本发明的启动子梯包含展现连续系列的表达谱的启动子。举例来说,在一些实施例中,通过鉴别响应于刺激而展现一系列表达强度的天然、原生或野生型启动子,或通过组成性表达来产生启动子梯(参见例如图20和图28-30)。这些已鉴别的启动子可以归入同类作为启动子梯。
在其它实施例中,本发明教示了启动子梯的产生,所述启动子梯跨越不同条件展现了一系列表达谱。举例来说,在一些实施例中,本发明教示了启动子梯的产生,所述启动子梯具有在发酵的不同阶段期间扩散的表达峰(参见例如图28)。在其它实施例中,本发明教示了启动子梯的产生,其具有响应于特定刺激的不同表达峰动力学(参见例如图29)。所属领域的技术人员应明白,本发明的调节性启动子梯可以代表任一或多种调节曲线。
在一些实施例中,本发明的启动子梯经设计以可预测的方式、跨越响应的连续范围扰动基因表达。在一些实施例中,启动子梯的连续性质赋予菌株改良程序额外的预测能力。举例来说,在一些实施例中,所选代谢途径的交换启动子或终止序列可以产生宿主细胞性能曲线,其鉴别最佳表达率或表达谱;产生如下菌株,其中靶向基因不再是特定反应或基因级联的限制因素,同时还避免了在不适当情形下发生的不必要过度表达或错误表达。在一些实施例中,启动子梯如下产生:鉴别展现所期望曲线的天然、原生或野生型启动子。在其它实施例中,通过使天然存在的启动子发生突变以衍生多种突变启动子序列来产生启动子梯。测试这些突变启动子中的每一种对靶基因表达的影响。在一些实施例中,测试所编辑的启动子跨越多种条件的表达活性,以便记录/表征/注释每种启动子变异体的活性且存储于数据库中。随后将所得经编辑的启动子变异体组织成基于其表达强度而排列的启动子梯(例如高表达性变异体靠近顶部,且减弱的表达靠近底部,因此产生术语“梯”)。
在一些实施例中,本发明教示了启动子梯是已鉴别的天然存在的启动子与突变变异体启动子的组合。
在一些实施例中,本发明教示了鉴别满足以下准则的天然、原生或野生型启动子的方法:1)呈现为组成性启动子梯;和2)可以由短DNA序列(理想的是,小于100个碱基对)编码。在一些实施例中,本发明的组成性启动子展现跨越两种所选生长条件(典型地在工业培育期间所经历的条件间进行比较)的恒定基因表达。在一些实施例中,本发明的启动子将由约60个碱基对核心启动子和长度在26个碱基对与40个碱基对之间的5'UTR组成。
在一些实施例中,选择前述已鉴别的天然存在的启动子序列中的一或多种用于基因编辑。在一些实施例中,通过上文所述的任一种突变方法编辑天然启动子。在其它实施例中,本发明的启动子是通过合成具有所期望序列的新启动子变异体来编辑。
2015年12月07日提交的美国专利申请第62/264,232号的整个公开内容以全文引用的方式并入本文中用于所有目的。
本发明启动子的非详尽性清单提供于下表1中。启动子序列各自可以称为异源启动子或异源启动子聚核苷酸。
表1.本发明的所选启动子序列.
SEQ ID No. 启动子简称 启动子名称
1 P1 Pcg0007_lib_39
2 P2 Pcg0007
3 P3 Pcg1860
4 P4 Pcg0755
5 P5 Pcg0007_265
6 P6 Pcg3381
7 P7 Pcg0007_119
8 P8 Pcg3121
在一些实施例中,本发明的启动子展现与来自上表的启动子至少100%、99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%或75%的序列一致性。
终止子梯
在一些实施例中,本发明教示了通过在RNA编码元件末端的3'位置提供一或多种转录终止序列来改良经基因工程改造的宿主菌株的方法。在一些实施例中,本发明教示了添加终止序列使所选基因在经基因工程改造的宿主中的RNA转录效率提高。在其它实施例中,本发明教示了添加终止序列使所选基因在经基因工程改造的宿主中的RNA转录效率降低。因此在一些实施例中,本发明的终止子梯包含展现一系列转录效率的一系列终止序列(例如一个弱终止子、一个普通终止子和一个强启动子)。
转录终止序列可以是任何核苷酸序列,其当以转录方式放置于编码开放阅读框架的核苷酸序列的下游时,促使开放阅读框架的转录终止。这类序列在所属领域中已知且可以具有原核、真核或噬菌体来源。终止序列的实例包括(但不限于)PTH终止子、pET-T7终止子、
Figure BDA0002391987010000571
终止子、pBR322-P4终止子、水疱性口炎病毒终止子、rrnB-T1终止子、rrnC终止子、TTadc转录终止子,以及酵母识别的终止序列,如Matα(α因子)转录终止子、原生α因子转录终止序列、ADR1转录终止序列、ADH2转录终止序列和GAPD转录终止序列。转录终止序列的非详尽性清单可以见于iGEM注册表,其可获得于:http://partsregistry.org/Terminators/Catalog。
在一些实施例中,转录终止序列可以具有聚合酶特异性或非特异性,然而,选用于本发明实施例中的转录终止子应该与所选启动子形成‘功能性组合’,这意味着终止子序列应该能够通过在启动子起始的RNA聚合酶类型来终止转录。举例来说,在一些实施例中,本发明教示了真核RNA pol II启动子和真核RNA pol II终止子、T7启动子和T7终止子、T3启动子和T3终止子、酵母识别的启动子和酵母识别的终止序列等通常会形成功能性组合。所用转录终止序列的一致性也可以基于终止从所指定启动子转录的效率来选择。举例来说,异源转录终止子序列可以转录方式提供于RNA编码元件的下游,以实现从所指定启动子开始的至少60%、至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%或至少99%的终止效率。
在一些实施例中,从经工程改造的表达构筑体开始的RNA转录的效率可以通过在RNA编码元件末端的3'位置提供呈包含两个或更多个发夹的二级结构形式的核酸序列来提高。不希望受到特定理论的束缚,二级结构使转录延伸复合物失去稳定且使得聚合酶从DNA模板中解离,借此使非功能序列的非生产性转录最小化且增加所期望RNA的转录。相应地,可以提供形成包含两个或更多个相邻发夹的二级结构的终止序列。一般来说,发夹可以由回文核苷酸序列形成,所述回文核苷酸序列可以自身折回而形成成对的茎区域,所述茎区域的臂通过单链环来连接。在一些实施例中,终止序列包含2、3、4、5、6、7、8、9、10个或更多个相邻发夹。在一些实施例中,相邻发夹相隔0、1、2、3、4、5、6、7、8、9、10、11、12、13、14或15个不成对核苷酸。在一些实施例中,发夹茎包含4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30个或更多个碱基对的长度。在某些实施例中,发夹茎长度是12到30个碱基对。在某些实施例中,终止序列包含两个或更多个中等尺寸的发夹,其具有包含约9到25个碱基对的茎区域。在一些实施例中,发夹包含1、2、3、4、5、6、7、8、9或10个核苷酸的成环区域。在一些实施例中,成环区域包含4-8个核苷酸。不希望受到特定理论的束缚,二级结构的稳定性可以与终止效率相关。发夹稳定性由其长度、其所含的错配或凸起数目以及成对区域的碱基组成决定。鸟嘌呤与胞嘧啶之间的配对具有三个氢键且比仅具有两个氢键的腺嘌呤-胸腺嘧啶对更稳定。形成发夹的回文核苷酸序列的G/C含量可以是至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%或更多。在一些实施例中,形成发夹的回文核苷酸序列的G/C含量是至少80%。在一些实施例中,终止序列来源于具有原核、真核或噬菌体来源的一或多种转录终止序列。在一些实施例中,编码一系列4、5、6、7、8、9、10个或更多个腺嘌呤(A)的核苷酸序列提供于终止序列的3'。
在一些实施例中,本发明教示了一系列串联终止序列的使用。在一些实施例中,一系列2、3、4、5、6、7个或更多个中的第一转录终止子序列可以直接放置于dsRNA编码元件的最后核苷酸的3'或与dsRNA编码元件的最后核苷酸的3'相隔至少1-5、5-10、10-15、15-20、20-25、25-30、30-35、35-40、40-45、45-50、50-100、100-150、150-200、200-300、300-400、400-500、500-1,000或更多个核苷酸的距离。串联转录终止子序列之间的核苷酸数目可以变化,例如,转录终止子序列可以相隔0、1、2、3、4、5、6、7、8、9、10、10-15、15-20、20-25、25-30、30-35、35-40、40-45、45-50或更多个核苷酸。在一些实施例中,转录终止子序列可以基于其预测的二级结构(如根据结构预测算法所测定)来选择。结构预测程序在所属领域中是众所周知的且包括例如CLC主工作台。
所属领域中的技术人员将认识到本发明的方法与任何终止序列兼容。在一些实施例中,本发明教示了使用如以下文献中所公开的经注释的谷氨酸棒状杆菌终止子:普法伊费尔-桑卡(Pfeifer-Sancar)等人,2013,“使用改良的RNAseq技术对谷氨酸棒状杆菌转录组的综合分析(Comprehensive analysis of the Corynebacterium glutamicumtranscriptome using an improved RNAseq technique)”普法伊费尔-桑卡等人,BMC基因组学(BMC Genomics)2013,14:888)。在其它实施例中,本发明教示了使用iGEM注册表中所发现的转录终止子序列,所述iGEM注册表可获得于:http://partsregistry.org/Terminators/Catalog。本发明的转录终止子序列的非详尽性清单提供于下表1.1中。
表1.1.本发明的终止序列的非详尽性清单.
Figure BDA0002391987010000591
Figure BDA0002391987010000601
Figure BDA0002391987010000611
假设驱动型多样性池和爬山法
本发明教示了本发明的HTP基因组工程学方法不需要先验基因了解来实现宿主细胞性能的显著增加。的确,本发明教示了通过功能上不可知的若干种途经产生多样性池的方法,所述途经包括随机突变诱发和鉴别预先存在的宿主细胞变异体间的基因多样性(例如,如在野生型宿主细胞与工业变异体之间作出的比较)。
然而,在一些实施例中,本发明还教示了假设驱动型设计基因多样性突变的方法,所述多样性突变将用于下游HTP工程。即,在一些实施例中,本发明教示了所选突变的定向设计。在一些实施例中,将定向突变并入本发明的工程文库(例如SNP交换、PRO交换或STOP交换)中。
在一些实施例中,本发明教示了基于基因注释、假设(或证实)的基因功能或基因组内的位置来产生定向突变。本发明的多样性池可以包括基因中的假设涉及特定代谢或基因途径的突变,所述特定代谢或基因途径在文献中与宿主细胞的性能增强相关。在其它实施例中,本发明的多样性池还可以包括存在于操纵子中的与改良的宿主性能相关的基因突变。在又其它实施例中,本发明的多样性池还可以包括基于算法预测函数或其它基因注释的基因突变。
在一些实施例中,本发明教示了用于对假设驱动型突变的目标进行优先级排序的基于“壳”的方法。目标优先级排序的壳隐喻是基于如下假设:仅少数初始基因负责宿主细胞性能的大部分特定方面(例如单一生物分子的产生)。这些初始基因位于壳的核心处,继之为第二层的二级效应基因、第三壳中的三级效应以及...等。举例来说,在一个实施例中,壳的核心可以包含编码所选代谢途径(例如柠檬酸的产生)内的关键生物合成酶的基因。位于第二壳上的基因可以包含编码生物合成途径内的其它酶的基因,其负责产物转移或反馈信号传导。依据此说明性隐喻的第三层基因可能会包含调节基因,其负责调节生物合成途径的表达或用于调节宿主细胞内的一般碳通量。
本发明还教示了用于优化每种已鉴别突变所引起的性能增加的“爬山”方法。在一些实施例中,本发明教示了HTP多样性文库中的随机、天然或假设驱动型突变可以实现与宿主细胞性能相关的基因的鉴别。举例来说,本发明方法可以鉴别位于基因编码序列上或靠近基因编码序列的一或多种有益SNP。此基因可能与宿主细胞性能相关,且可以将其鉴别类比为在生物体的组合性基因突变空间中发现性能“山”。
在一些实施例中,本发明教示了探究围绕以SNP突变体现的已鉴别山的组合空间的方法。即,在一些实施例中,本发明教示了扰动已鉴别的基因和相关调节序列以便优化由那个基因节点(即,爬山)获得的性能增加。因此,根据本发明的方法,首先可以在来源于随机突变诱发的多样性文库中鉴别出基因,但是随后可以通过相同基因内的另一序列的定向突变加以改良供菌株改良程序使用。
还可以扩展爬山构思而超越围绕单一基因序列的组合空间的探究。在一些实施例中,特定基因中的突变可以揭露特定代谢或基因途径对于宿主细胞性能的重要性。举例来说,在一些实施例中,单一RNA降解基因中的突变引起宿主性能显著增加的发现可以用作使相关RNA降解基因发生突变的依据,这成为从宿主生物体提取额外性能增益的方式。所属领域中的技术人员将上述壳和爬山方法对于定向基因设计而言存在变化形式。高通量筛选。
细胞培养和发酵
本发明的细胞可以在适当时经修改的传统营养培养基中培养用于任何所期望的生物合成反应或选择。在一些实施例中,本发明教示了在诱导型培养基中培养用于活化启动子。在一些实施例中,本发明教示了具有选择剂的培养基,所述选择剂包括转化体选择剂(例如抗生素),或选择适合于在抑制条件(例如高乙醇条件)下生长的生物体。在一些实施例中,本发明教示了使细胞培养物在中针对细胞生长优化的培养基中生长。在其它实施例中,本发明教示了使细胞培养物在针对产物产量优化的培养基中生长。在一些实施例中,本发明教示了使培养物在培养基中生长,所述培养基能够诱导细胞生长并且还含有最终产物产生所需的前体(例如高含量的糖类用于产生乙醇)。
培养条件(如温度、pH和其类似条件)是适合与选用于表达的宿主细胞联合使用的那些条件,且对于所属领域的技术人员是显而易见的。如所提及,许多参考文献可供用于培养和产生许多细胞,包括细菌、植物、动物(包括哺乳动物)和古细菌来源的细胞。参见例如萨布鲁克(Sambrook),奥斯贝(Ausubel)(所有均见上文)以及伯杰(Berger),分子克隆技术指南(Guide to Molecular Cloning Techniques),酶学方法(Methods in Enzymology),第152卷,学术出版社有限公司(Academic Press,Inc.),加利福尼亚州圣地亚哥(SanDiego,CA);以及弗瑞旭尼(Freshney)(1994),动物细胞的培养:基本技术手册(Culture ofAnimal Cells,a Manualof Basic Technique),第三版,纽约威立-利斯(Wiley-Liss,NewYork)和其中引用的参考文献;多伊尔(Doyle)和格里菲思(Griffiths)(1997),哺乳动物细胞培养:基本技术(Mammalian Cell Culture:Essential Techniques),约翰·威利父子出版公司(John Wiley and Sons),NY;忽玛逊(Humason)(1979),动物组织技术(AnimalTissue Techniques),第四版,W.H.弗里曼公司(W.H.Freeman and Company);以及里奇埃德尔(Ricciardelle)等人,(1989),试管内细胞(In Vitro Cell),发育生物学(Dev.Biol.)25:1016-1024,所有文献均以引用的方式并入本文中。关于植物细胞培养和再生,参见派恩(Payne)等人(1992),液体系统中的植物细胞和组织培养(Plant Cell and TissueCulture in Liquid Systems),约翰·威利父子公司(John Wiley&Sons,Inc.),纽约州纽约市;冈堡(Gamborg)和菲利浦(Phillips)(编)(1995),植物细胞、组织和器官培养:基本方法(Plant Cell,Tissue and Organ Culture;Fundamental Methods),施普林格实验室手册(Springer Lab Manual),施普林格出版社(Springer-Verlag)(柏林海德堡,纽约);琼斯(Jones)编(1984),植物基因转移和表达方案(Plant Gene Transfer and ExpressionProtocols),胡马纳出版社(Humana Press),新泽西州特图瓦市(Totowa,N.J.),以及植物分子生物学(Plant Molecular Biology)(1993)R.R.D.克洛(R.R.D.Croy)编,生物科学出版社(Bios Scientific Publishers),英国牛津(Oxford,U.K.)ISBN 0 12 198370 6,所有文献均以引用的方式并入本文中。细胞培养基一般性地阐述于阿特拉斯(Atlas)和帕克斯(Parks)(编),微生物培养基手册(The Handbook of Microbiological Media)(1993)CRC出版社,佛罗里达州波卡拉顿(Boca Raton,Fla.),所述文献以引用的方式并入本文中。用于细胞培养的额外信息见于可获得的商业文献中,如得自西格玛-奥德里奇公司(Sigma-Aldrich,Inc)(密苏里州圣路易(St Louis,Mo.))的生命科学研究细胞培养目录(LifeScience Research Cell Culture Catalogue)(“西格马-LSRCCC”)以及例如也得自西格玛-奥德里奇公司(密苏里州圣路易)的植物培养目录和增刊(The Plant CultureCatalogue and supplement)(“西格马-PCCS”),所述文献都以引用的方式并入本文中。
待用的培养基必须以适合方式满足相应菌株的需求。用于各种微生物的培养基的描述存在于美国细菌学学会(American Society for Bacteriology)(美国华盛顿哥伦比亚特区,1981)的“通用细菌学方法手册(Manual of Methods for GeneralBacteriology)”中。
本发明另外提供一种发酵制备所关注产物的方法,包含以下步骤:a)将根据本发明的微生物在适合培养基中培养,从而产生发酵液;和b)将a)和/或微生物细胞的发酵液中的所关注产物浓缩。
在一些实施例中,本发明教示了所产生的微生物可以如例如WO 05/021772所述连续地培养,或用分批法(分批培育)或分批进料或重复分批进料法不连续培养,以便产生所期望的有机化合物。关于已知培育方法的通用性质的概述可获得于Chmiel的教科书(Bioprozeβtechnik.1:Einführung in die Bioverfahrenstechnik(Gustav FischerVerlag,Stuttgart,1991))或Storhas的教科书(Bioreaktoren和periphereEinrichtungen(Vieweg Verlag,Braunschweig/Wiesbaden,1994))。
在一些实施例中,本发明的细胞是在分批或连续发酵条件下生长。
经典的分批发酵是一种封闭系统,其中在发酵开始时设定培养基的组成且在发酵期间不进行人工改变。分批系统的变化形式是分批进料发酵,其也可用于本发明中。在这种变化形式中,随着发酵进展,按增量添加底物。当代谢物抑制可能会抑制细胞代谢时且在期望培养基中的底物的量有限的情况下,分批进料系统是适用的。分批和分批进料发酵是所属领域中常见且众所周知的。
连续发酵是一种系统,其中将所定义的发酵培养基连续地添加到生物反应器中且同时移出等量的改良性培养基以供处理和收获所关注的期望生物分子产物。在一些实施例中,连续发酵通常使培养物在恒定的高密度下维持,其中细胞主要处于对数生长期。在一些实施例中,连续发酵通常使培养物维持稳定期或对数后期/稳定期生长。连续发酵系统力求维持稳态生长条件。
连续发酵工艺中用于调节营养物和生长因子的方法以及使产物形成速率最大化的技术在工业微生物学领域中是众所周知的。
举例来说,本发明的培养物的碳源的非限制性清单包括糖类和碳水化合物,例如葡萄糖、蔗糖、乳糖、果糖、麦芽糖、糖蜜、得自甜菜或甘蔗处理的含蔗糖溶液、淀粉、淀粉水解产物和纤维素;油和脂肪,例如大豆油、葵花油、花生油和椰子脂肪;脂肪酸,例如棕榈酸、硬脂酸和亚油酸;醇类,例如甘油、甲醇和乙醇;以及有机酸,例如乙酸或乳酸。
用于本发明的培养物的氮源的非限制性清单包括含有机氮化合物,如蛋白胨、酵母萃取物、肉萃取物、麦芽萃取物、玉米浆、大豆粉和尿素;或无机化合物,如硫酸铵、氯化铵、磷酸铵、碳酸铵和硝酸铵。氮源可以个别地使用或作为混合物使用。
用于本发明的培养物的可能磷源的非限制性清单包括磷酸、磷酸二氢钾或磷酸氢二钾或相应含钠盐。
培养基可以另外包含生长所需的盐,例如呈氯化物形式的盐,或金属(例如钠、钾、镁、钙和铁)硫酸盐,例如硫酸镁或硫酸铁。
最后,除上述物质之外,可以使用基本生长因子,如氨基酸,例如高丝氨酸和维生素,例如硫胺、生物素或泛酸。
在一些实施例中,培养物的pH可以利用任何酸或碱或缓冲盐(包括(但不限于)氢氧化钠、氢氧化钾、氨或氨水);或酸性化合物(如磷酸或硫酸)通过适合方式来控制。在一些实施例中,pH通常调节到6.0到8.5的值,优选6.5到8。
在一些实施例中,本发明的培养物可以包括消泡剂,例如脂肪酸聚二醇酯。在一些实施例中,本发明的培养物通过添加适合的选择性物质(例如抗生素)来调节以使培养物中的质体稳定化。
在一些实施例中,在好氧条件下进行培养。为了维持这些条件,将氧气或含氧气气体混合物(例如空气)引入培养物中。同样可以使用富含过氧化氢的液体。适当时,在高压下,例如在0.03到0.2MPa的高压下进行发酵。培养物的温度通常是20℃到45℃且优选25℃到40℃,特别优选30℃到37℃。在分批或分批进料工艺中,培育优选持续至已经形成足以回收的量的所关注的期望产物(例如有机化合物)为止。此目的通常可以在10小时到160小时内实现。在连续工艺中,较长培育时间是可能的。微生物的活性使得所关注的产物在发酵培养基中和/或在所述微生物的细胞中浓缩(积累)。
在一些实施例中,在厌氧条件下进行培养。
筛选
在一些实施例中,本发明教示了高通量初始筛选。在其它实施例中,本发明还教示了基于稳定槽的对性能数据的验证(参见图6B)。
在一些实施例中,设计高通量筛选方法以预测菌株在生物反应器中的性能。如此前所述,选择适于生物体且反映生物反应器条件的培养条件。挑选个别群落且转移到96孔盘中且培育适合的时间量。随后将细胞转移到新的96孔盘中用于额外的种子培养或产生培养物。在可以进行多次测量的情况下,将培养物培育不同的时间长度。这些测量可以包括产物、生物质或其它特征的测量,从而预测菌株在生物反应器中的性能。使用高通量培养结果预测生物反应器性能。
在一些实施例中,使用基于槽的性能验证确认利用高通量筛选所分离的菌株的性能。发酵工艺/条件获自客户地点。使用实验室规模的发酵反应器(例如本发明的表5中所公开的反应器)筛选候选菌株以获得相关菌株性能特征,如生产率或产量。
产物回收和量化
根据所关注的产物产生进行筛选的方法已为所属领域的技术人员所知且在本说明书中论述。当筛选本发明的菌株时可以使用这类方法。
在一些实施例中,本发明教示了改良菌株的方法,所述菌株经设计可产生非分泌性细胞内产物。举例来说,本发明教示了提高细胞培养物的稳定性、产量、效率或总体期望度、从而产生细胞内酶、油、医药或其它有价值的小分子或肽的方法。非分泌性细胞内产物的回收或分离可以利用所属领域中众所周知的溶解和回收技术(包括本文所述的那些技术)实现。
举例来说,在一些实施例中,本发明的细胞可以利用离心、过滤、沉降或其它方法收获。所收获的细胞接着利用任何方便的方法破碎,包括冷冻-解冻循环、声波处理、机械破碎或使用细胞溶解剂,或所属领域的技术人员众所周知的其它方法。
所关注的所得产物(例如多肽)可以利用所属领域中已知的多种方法中的任一种回收/分离且任选地加以提纯。举例来说,可以利用传统程序从营养物培养基中分离出产物多肽,所述传统程序包括(但不限于):离心、过滤、萃取、喷雾干燥、蒸发、色谱(例如离子交换、亲和、疏水性相互作用、色谱焦聚和尺寸排阻),或沉淀。最后,可以在最后提纯步骤中使用高效液相色谱(HPLC)。(参见例如细胞内蛋白质的提纯(Purification ofintracellular protein),如帕瑞(Parry)等人,2001,生物化学杂志(Biochem.J.)353:117和洪(Hong)等人,2007,应用微生物学和生物技术(Appl.Microbiol.Biotechnol.)73:1331中所述,两种文献均以引用的方式并入本文中)。
除上文提及的参考文献之外,多种提纯方法在所属领域中是众所周知的,包括例如以下文献中所述的提纯方法:桑德纳(Sandana)(1997),蛋白质的生物分离(Bioseparation of Proteins),学术出版社有限公司(Academic Press,Inc.);博拉格(Bollag)等人(1996),蛋白质方法(Protein Methods)第2版,纽约州威立-利斯;沃克(Walker)(1996),蛋白质方案手册(The Protein Protocols Handbook),胡马纳出版社,新泽西州;哈里斯(Harris)和安格尔(Angal)(1990),蛋白质提纯应用:实用方法(ProteinPurification Applications:A Practical Approach),牛津IRL出版社,英国牛津;哈里斯和安格尔,蛋白质提纯方法:实用方法(Protein Purification Methods:A PracticalApproach),牛津IRL出版社,英国牛津;斯科普斯(Scopes)(1993),蛋白质提纯:原理和实践(Protein Purification:Principles and Practice)第3版,斯普林格出版社,纽约州;詹森(Janson)和赖登(Ryden)(1998),蛋白质提纯:原理、高分辨率方法和应用(ProteinPurification:Principles,High Resolution Methods and Applications),第二版,威立-VCH,纽约州;以及沃克(Walker)(1998),CD-ROM的蛋白质方案(Protein Protocols onCD-ROM),胡马纳出版社,新泽西州,所有文献以引用的方式并入本文中。
在一些实施例中,本发明教示了改良菌株的方法,所述菌株经设计可产生分泌性产物。举例来说,本发明教示了提高细胞培养物的稳定性、产量、效率或总体期望度、从而产生有价值的小分子或肽的方法。
在一些实施例中,可以利用免疫学方法检测和/或提纯由本发明的细胞产生的分泌性或非分泌性产物。在一种实例方法中,使用传统方法针对产物分子(例如针对胰岛素多肽或其免疫原性片段)产生的抗体固定于珠粒上,在使内切葡聚糖酶结合的条件下与细胞培养基混合,且沉淀。在一些实施例中,本发明教示了酶联免疫吸附分析(ELISA)的使用。
在其它相关实施例中,使用如以下文献中所公开的免疫色谱法:美国专利第5,591,645号、美国专利第4,855,240号、美国专利第4,435,504号、美国专利第4,980,298号,以及赛旺佩克(Se-Hwan Paek)等人,“一步免疫色谱快速分析方法的开发(Development ofrapid One-Step Immunochromatographic assay,Methods)”,22,53-60,2000),所述文献各自以引用的方式并入本文中。通用的免疫色谱法通过使用两种抗体来检测试样。第一抗体存在于测试溶液中或存在于由多孔膜制成的呈大致矩形形状的测试片末端的一部分处,其中将测试溶液滴落。这种抗体用胶乳颗粒或金胶体颗粒标记(这种抗体在下文中称为标记抗体)。当所滴落的测试溶液包括待检测的试样时,标记抗体识别试样以便与试样结合。试样与标记抗体的复合物通过毛细作用流向吸收剂,所述吸收剂由过滤纸制成且附接到与已包括标记抗体的末端相对的末端。在流动期间,试样与标记抗体的复合物被存在于多孔膜中部的第二抗体(其在下文中称为轻敲抗体)识别且捕获,且因此,复合物以可见信号的形式出现在多孔膜的检测部件上且被检测到。
在一些实施例中,本发明的筛选方法是基于光度检测技术(吸收,荧光)。举例来说,在一些实施例中,检测可以基于荧光团检测剂(如结合到抗体的GFP)的存在。在其它实施例中,光度检测可以基于得自细胞培养的所期望产物的积累。在一些实施例中,可以通过UV检测到培养物或得自所述培养物的萃取物中的产物。
所属领域中的技术人员将认识到,本发明的方法可与产生任何期望的所关注生物分子产物的宿主细胞兼容。下表2呈现了本发明范围内所包括的产物类别、生物分子和宿主细胞的非限制性清单。这些实例是为了说明性目的而提供,且不打算以任何方式限制本发明所公开的技术的适用性。
表2.本发明的所关注宿主细胞和产物的非限制性清单.
Figure BDA0002391987010000681
Figure BDA0002391987010000691
选择准则和目标
应用于本发明方法的选择准则将根据菌株改良程序的特定目标而变。本发明可以经调适以满足任何程序目标。举例来说,在一些实施例中,程序目标可以是最大化单次分批反应产量而无即刻时间限制。在其它实施例中,程序目标可以是生物合成产量的再平衡以产生特定产物,或产生特定的产物比率。在其它实施例中,程序目标可以是修饰产物的化学结构,如延长聚合物的碳链。在一些实施例中,程序目标可以是改良性能特征,如产量、效价、生产率、副产物消除、对过程偏移的耐受性、最佳生长温度和生长速率。在一些实施例中,程序目标是改良宿主性能,如根据微生物所产生的所关注产物的体积生产率、比生产率、产量或力价所度量。
在其它实施例中,就按输入量计的最终产物产量(例如每磅蔗糖所产生的乙醇的总量)而言,程序目标可以是优化商业菌株的合成效率。在其它实施例中,程序目标可以是优化合成速度,如根据例如分批完成率或连续培养系统的生产率所度量。在其它实施例中,程序目标可以是增强菌株对特定噬菌体的抗性,或以其它方式增强培养条件下的菌株活力/稳定性。
在一些实施例中,菌株改良项目可以接受超过一个目标。在一些实施例中,菌株项目的目标可以取决于品质、可靠性或总体盈利能力。在一些实施例中,本发明教示了进行相关所选突变或突变群组以具有上述一或多种菌株特性的方法。
所属领域中的技术人员将认识到如何定制菌株选择准则以满足特定项目目标。举例来说,按照反应饱和度选择菌株单批最大产量可以适于鉴别具有高单批产量的菌株。跨越一系列温度和条件、基于产量一致性的选择可以适用于鉴别稳定性和可靠性增强的菌株。
在一些实施例中,初始高通量阶段的选择准则和基于槽的验证是相同的。在其它实施例中,基于槽的选择可以依据额外和/或不同的选择准则运作。举例来说,在一些实施例中,高通量菌株选择可以是基于单批反应完成产量,而基于槽的选择可以扩展以包括基于产量的针对反应速度的选择。
测序
在一些实施例中,本发明教示了本文所述生物体的全基因组测序。在其它实施例中,本发明还教示了质体、PCR产物和其它寡核苷酸的测序作为对本发明方法的品质控制。大项目和小项目的测序方法已为所属领域的技术人员所熟知。
在一些实施例中,本发明的方法中可以使用供核酸测序用的任何高通量技术。在一些实施例中,本发明教示了全基因组测序。在其它实施例中,本发明教示了鉴别基因变异的扩增子测序超深度测序。在一些实施例中,本发明还教示了新颖的文库制备方法,包括片段化的同时添加标签(tagmentation)(参见WO/2016/073690)。DNA测序技术包含使用经标记的终止子或引物且在厚片或毛细管中进行凝胶隔离的经典双脱氧测序反应(桑格方法(Sanger method));使用可逆封端的经标记的核苷酸的边合成边测序、焦磷酸测序;454测序;与经标记的寡核苷酸探针文库进行等位基因特异性杂交;使用与经标记的克隆文库的等位基因特异性杂交、随后进行连接的边合成边测序;在聚合步骤期间并入经标记的核苷酸的实时监视;聚合酶克隆测序(polony sequencing);以及SOLiD测序。
在本发明的一个方面中,使用高通量测序方法,其包含对其上执行并行测序的固体表面上的个别分子进行空间分离的步骤。这类固体表面可以包括无孔表面(如Solexa测序,例如本特雷(Bentley)等人,自然,456:53-59(2008),或全面基因组学测序(CompleteGenomics sequencing),例如德尔马纳茨(Drmanac)等人,科学,327:78-81(2010));孔阵列,其可以包括珠粒或颗粒结合的模板(如用454,例如马古利斯(Margulies)等人,自然,437:376-380(2005)或离子激流测序(Ion Torrent sequencing),美国专利公开2010/0137143或2010/0304982);微机械加工的膜(如用SMRT测序,例如艾德(Eid)等人,科学,323:133-138(2009)),或珠粒阵列(如用SOLiD测序或聚合酶克隆测序,例如金(Kim)等人,科学,316:1481-1414(2007))。
在另一个实施例中,本发明的方法包含在对固体表面上的分子进行空间分离之前或之后,将经分离的分子扩增。先前扩增可以包含基于乳液的扩增,如乳液PCR,或滚环扩增。还教示了基于Solexa的测序,其中对固体表面上的个别模板分子进行空间分离,随后通过桥式PCR对其并行扩增以形成单独的克隆群体或簇,且接着测序,如以下文献中所述:本特雷等人(上文引用)和制造商说明书(例如TruSeqTM样品制备试剂盒和数据表,启迪公司(Illumina,Inc.),加利福尼亚州圣地亚哥(San Diego,Calif.),2010);且进一步如以下参考文献所述:美国专利第6,090,592号、第6,300,070号、第7,115,400号;和EP0972081B1,所述文献均以引用的方式并入本文。
在一个实施例中,安置于固体表面上且在固体表面上扩增的个别分子形成密度为每cm2至少个105个簇;或密度为每cm2至少5×105个;或密度为每cm2至少106个簇的簇。在一个实施例中,使用具有相对较高错误率的测序化学物质。在这类实施例中,这类化学物质所产生的平均品质分数是序列读段长度的单调下降函数。在一个实施例中,这类下降相当于0.5%的序列读段在位置1-75中具有至少一个错误;1%的序列读段在位置76-100中具有至少一个错误;且2%的序列读段在位置101-125中具有至少一个错误。
全基因组基因设计准则的计算分析和效果预测
在一些实施例中,本发明教示了对并入所指定宿主菌株中的特定基因变异的效果进行预测的方法。在其它方面中,本发明提供了用于产生所提出的基因变异的方法,所述基因变异应该并入所指定的宿主菌株中,以便所述宿主具有特定的表型性状或菌株参数。在指定的方面中,本发明提供可以用于设计新颖宿主菌株的预测模型。
在一些实施例中,本发明教示了分析每一轮筛选的执行结果的方法以及产生新的所提出的全基因组序列修饰的方法,所述全基因组序列修饰经预测可增强菌株在下一轮筛选中的性能。
在一些实施例中,本发明教示了所述系统基于此前筛选结果对宿主菌株产生所提出的序列修饰。在一些实施例中,本发明系统的建议是基于刚刚前一次筛选的结果。在其它实施例中,本发明系统的建议是基于一或多次之前筛选的累积结果。
在一些实施例中,本发明系统的建议是基于此前开发的HTP基因设计文库。举例来说,在一些实施例中,本发明系统经设计可保存此前筛选的结果,且将相同或不同宿主生物体的那些结果应用于不同项目。
在其它实施例中,本发明系统的建议是基于科学见解。举例来说,在一些实施例中,建议是基于基因的已知特性(来源如注释的基因数据库和相关文献)、密码子优化、转录打滑、uORFs,或其它假设驱动序列和宿主优化。
在一些实施例中,所述系统或预测模型推荐的针对宿主菌株所提出的序列修饰是通过利用一或多种所公开的分子工具集进行,所述分子工具集包含:(1)启动子交换、(2)SNP交换、(3)起点/终止密码子交换、(4)序列优化、(5)终止密码子交换和(6)上位定位。
本文所述的HTP基因工程平台相对于任何特定微生物或表型性状(例如特定化合物的产生)而言是不可知的。即,本文教示的平台和方法可以结合任何宿主细胞使用,以对所述宿主细胞进行工程改造,从而具有任何所期望的表型性状。另外,由用于产生一种新颖宿主细胞的指定HTP基因工程改造方法中习得的课程可以作为在所教示方法期间出现的大量工艺参数的存储、表征和分析的结果,应用于任何数目个其它宿主细胞。
如上位定位章节中所提及,通过一些优选预测模型可以估计假想菌株的性能(也称为分数),所述假想菌株是通过将来自HTP基因设计文库的突变集合合并到特定背景中所得。鉴于这种预测模型,有可能对通过组合合并可近接突变文库的所有假想菌株评分和评级。下述章节概述了本发明HTP平台中所用的特定模型。
预测菌株设计
本文描述了一种预测菌株设计的方法,包括:描述基因变化和菌株性能、基于菌株中的变化组成来预测菌株性能、推荐预测性能高的候选设计以及过滤预测以针对二级考虑因素(例如与现有菌株的相似度、上位或预测置信度)进行优化的方法。
菌株设计模型的输入
在一个实施例中,为了易于说明,输入数据可以包含两种分量:(1)基因变化集和(2)相对菌株性能。所属领域的技术人员将认识到,这种模型能容易扩展以考虑多种输入,同时留意过度拟合的抵消性考虑。除基因变化之外,可以加以调整的一些输入参数(自变量)是细胞类型(属、种、株系、谱系学表征等)和据以对细胞进行发酵的工艺参数(例如环境条件、处理设备、修饰技术等)。
基因变化集可以来自此前论述的基因扰动集合,称为HTP基因设计文库。相对菌株性能可以基于任何指定的所关注参数或表型性状(例如所关注的化合物、小分子或产物的产生)来评估。
细胞类型可以用通用类别说明,如原核和真核系统、属、种、株系、组织培养物(相对于分散细胞)等。能够加以调整的工艺参数包括温度、压力、反应器配置和培养基组成。反应器配置的实例包括反应器体积,不论所述工艺是分批或连续的,且如果是连续的,那么包括体积流量等。也可以指明其上存在细胞的载体结构(若存在)。培养基组成的实例包括电解质浓度、营养物、废产物、酸、pH和其类似方面。
从所选HTP基因设计文库获得基因变化集,以用于初始线性回归模型,随后用于产生预测菌株设计模型
基因变化表中的一组表项实例展示于下表3中。每一行表示菌株7000051473中的基因变化,以及关于变化机制的元数据,例如启动子交换或SNP交换。aceE、zwf和pyc都与柠檬酸循环有关。
在这种情况下,菌株7000051473总共具有7种变化。“最后一个变化”是指这种菌株中的变化表示这种菌株谱系中的最新修饰。因此,这种菌株性能与其亲代性能的比较代表关于“最后一个变化”突变的性能的数据点。
表3-菌株7000051473的菌株设计表项
菌株 名称 文库 变化 最后一个变化
7000051473 dlc19_42 proswp pcg3121 cg1144 pcg3121_cg1144 1
7000051473 dlc19_42 scswp acee atg>ttg ttg acee_atg 0
7000051473 dlc19_42 snpswp dss_033 NA na 0
7000051473 dlc19_42 snpswp dss_084 NA t 0
7000051473 dlc19_42 snpswp dss_316 NA na 0
7000051473 dlc19_42 proswp pcg0007_39 zwf pcg0007_39_zwf 0
7000051473 dlc19_42 proswp pcg1860 pyc pcg1860_pyc 0
所建构的菌株性能评估
所教示模型的目标是基于引入菌株中的基因变化的组成来预测菌株性能。为了构筑比较标准,首先通过计算每个分析盘每种菌株的中值性能,相对于常见参考菌株来计算菌株性能。接着以同一培养盘内的经工程改造的菌株与常见参考菌株之间的平均性能差异形式计算相对性能。将计算局限于盘内比较可确保考虑中的样品都接受相同实验条件。
图23描绘了相对菌株性能在考虑中的输入数据中的分布。相对性能为零表示经工程改造的菌株的性能与盘内基本或“参考”菌株同样好。所关注的是预测模型鉴别性能可能明显高于零的菌株的能力。另外,且更一般来说,所关注的是任何所指定的菌株根据一些准则是否胜过其亲代。在实践中,准则可以是产物效价满足或超过高于亲代水平的某一阈值,尽管也可以改为利用或另外利用在所期望的方向上与亲代的统计显著差异。基本或“参考”菌株的作用简单地是充当供在盘内或盘之间进行比较的所添加归一化因子。
值得留意的构思是亲代菌株与参考菌株之间的差异。亲代菌株是用于当前一轮突变诱发的背景。参考菌株是在每个培养盘中运作的对照菌株以促进比较,尤其是各盘之间的比较,且典型地是如上文所提及的“基本菌株”。但是由于所述基本菌株(例如用于基准测试总体性能的野生型或工业菌株)就在所指定一轮的菌株改良中是突变诱发目标而言不一定是“基本的”,因此更具描述性的术语是“参考菌株”。
总之,基本/参考菌株通常是用于对所建构菌株的性能进行基准测试,而亲代菌株是用于对相关基因背景下的特定基因变化的性能进行基准测试。
通过线性回归对所建构菌株的性能进行评级
所公开的模型的目标是通过描述相对菌株性能与引入所建构菌株中的基因变化的组成的关系来对所建构菌株的性能进行评级。如本发明所论述,各种HTP基因设计文库提供了引入工程改造菌株中的可能基因变化(例如基因扰动/变异)的谱系。线性回归是当前所述示例性预测模型的基础。
下表含有基于回归的模型的实例输入。相对于常见基本菌株,对与菌株中所含的基因变化的组成有关的菌株性能进行评级。
每一栏标题表示基因变化,“1”表示存在变化,而“0”表示不存在变化。“DSS”是指得自特定文库的SNP交换(相对_perf之后的前3栏)。后3栏是启动子交换,其中pcgXXXX表示特定启动子,且后3个字母表示启动子所应用的基因。所述基因与中心代谢有关。启动子来自谷氨酸棒状杆菌(下文记为“cg”)。关于所用启动子的其它信息可以见于列举启动子P1-P8的表1和本申请的序列表中。另外,关于每种启动子P1-P8的详细信息可以见于2015年12月07日所提交且名称为“得自谷氨酸棒状杆菌的启动子(Promoters fromCorynebacterium glutamicum)”的美国临时申请第62/264,232号中,所述申请以引用的方式并入本文中。为了易于参考,在下表中,pcg3121=P8;pcg0755=P4;且pcg1860=P3。
表4-基因变化和其对相对性能的影响的概述.
Figure BDA0002391987010000741
Figure BDA0002391987010000751
表征所建构菌株的线性回归
线性回归由于易于实施和解译而成为一种用于所述HTP基因组工程平台的诱人方法。所得回归系数可以解释为因每种基因变化的存在所致的相对菌株性能的平均增加或降低。
举例来说,如图24中所见,这种技术让我们断定:在不存在任何消极上位相互作用的情况下,将pgi启动子变成pcg3121使相对菌株性能改良平均约5个单位且因此是潜在的高度期望变化(注意:输入是无单位归一化值)。
所教示的方法因此使用线性回归模型对所建构的菌株进行描述/表征和评级,所建构的菌株的基因组中已引入来自各种所教示文库的各种基因扰动。
预测设计模型建立
使用所构筑菌株的数据的上述线性回归模型可以用于对尚未建构的菌株进行性能预测。
所述程序可以概述如下:通过计算机模拟产生基因变化的所有可能构形→使用回归模型预测相对菌株性能→根据性能订购候选菌株设计。从而,通过利用回归模型预测迄今尚未建构的菌株的性能,所述方法实现了较高性能菌株的产生,同时执行更少的实验。
产生构形
当构筑模型来预测迄今尚未建构的菌株的性能时,第一步骤是产生设计候选物的序列。此如下进行:固定菌株中的基因变化的总数,且接着界定基因变化的所有可能组合。举例来说,可以将潜在基因变化/扰动的总数设定为29(例如29种可能SNP,或29种不同启动子,或其任何组合,只要基因扰动的范围是29)且接着决定设计29种潜在基因变化的所有可能的3员组合,从而产生3,654种候选菌株设计。
为了向前述3,654种候选菌株提供背景,设想可以使用n!/((n-r)!*r!)、由n个可能成员计算尺寸r的非冗余分组数目。如果r=3、n=29,则得到3,654。因此,如果设计出29种潜在变化的所有可能的3员组合,那么获得3,654种候选菌株。图25的x轴中存在29种潜在基因变化。
预测新菌株设计的性能
使用以组合构形作为输入值所构筑的上述线性回归,接着可以预测每种候选设计的预期相对性能。图25概括了前100种预测菌株设计的变化组成。x轴列举了潜在基因变化(29种可能基因变化)池,且y轴展现了秩排序。黑色细胞表示候选设计中存在特定变化,而白色细胞表示那种变化不存在。在这个特定实例中,所有前100种设计都含有变化pcg3121_pgi、pcg1860_pyc、dss_339和pcg0007_39_lysa。另外,所述最佳候选设计含有变化dss_034、dss_009。
当使用新观察结果以迭代方式再训练和再拟合模型时,预测精确度应该随时间增加。本发明人的研究结果说明可借以对预测模型以迭代方式进行再训练和改良的方法。图47对模型预测与所观察到的测量值进行了比较。模型预测品质可以通过若干种方法评估,包括指示预测值与观察值之间的关联强度的相关系数,或度量平均模型误差的均方根误差。通过使用选定的度量标准进行模型评估,所述系统可以界定应该对模型再训练时所用的规则。
未陈述的假设与上述模型的联系包括:(1)不存在上位相互作用;和(2)建构预测模型所用的基因变化/扰动(例如来自所建构菌株的数据,如图24中所说明,或使用无论哪一种数据集参考文献来作为构筑模型)都是在相同背景下产生,作为所提出的基因变化组合(例如如图25中所说明)。
根据二级特点进行过滤
上述说明性实例集中于基于所预测的宿主细胞性能的线性回归预测。在一些实施例中,本发明的线性回归方法还能够应用于非生物分子因素,如饱和生物质、抗性或其它可测量的宿主细胞特点。因此,本发明的方法还教示了在对待建构的候选物进行优先级排序时,考虑所预测性能外的其它特点。假设存在额外的相关数据,那么所述回归模型中也包括非线性项。
接近现有菌株
预测菌株类似于已建构的菌株可以节省时间和成本,尽管不是最佳预测候选物。
变化的多样性
构筑前述模型时,由于上位相互作用的存在,因此不能确定基因变化真正具有叠加性(如根据线性回归所假定且如上述假设所提及)。因此,对基因变化差异性的了解可以用于提高正叠加作用的可能性。如果知道例如来自上述评级靠前的菌株的变化dss_034和dss_009(是SNP交换)位于相同代谢途径且具有相似的性能特征,那么这个信息可以用于选择变化组成有差异的另一种评级靠前的菌株。如与上位定位有关的上述章节中所述,可以过滤所预测的最佳基因变化以使选择限于响应曲线有充分差异的突变。或者,线性回归可以是使用相似度矩阵进行权重预测的加权最小二乘法回归。
所预测性能的多样性
最后,可以选择设计所预测性能居中或不良的菌株,以便验证且随后改良预测模型。
迭代菌株设计优化
如上述实例所述,所有前100种菌株设计均含有变化pcg3121_pgi、pcg1860_pyc、dss_339和pcg0007_39_lysa。另外,最佳候选菌株设计含有变化dss_034、dss_009。
在实施例中,发订单引擎208将工厂订单提供给工厂210以制造并入最佳候选突变的微生物菌株。在反馈回路方式中,可以利用分析设备214分析结果,以确定哪种微生物展现所期望的表型特性(314)。在分析阶段期间,评估经修饰的菌株培养物以确定其性能,即,其所期望的表型特性的表现,包括工业规模生产能力。举例来说,分析阶段尤其使用培养盘的影像数据测量微生物群落生长作为群落健康的指标。使用分析设备214使基因变化与表型性能相关,且将所得基因型-表型相关度数据保存在文库中,其可以存储于文库206中,以告知未来的微生物生产。
具体地说,实际产生足够高的实测性能的候选变化可以成行添加在数据库的表格(如上述表4)中。以这种方式,将最佳性能突变按照有监督的机器学习方式添加到预测菌株设计模型中。
LIMS基于由此前工厂运行所开发的相关度,以迭代方式执行设计/建构/测试/分析循环。在后续循环期间,单独或配合操作人员的分析设备214可以选择最佳候选物作为基本菌株输回到输入界面202中,从而使用相关度数据微调基因修饰以实现更佳的表型性能和更细的颗粒度。本发明实施例的实验室信息管理系统以这种方式执行了品质改良反馈回路。
总之,参照图33的流程图,迭代预测菌株设计工作流程可以描述如下:
●产生输入和输出变量(例如基因变化)的训练集作为输入和性能特点作为输出(3302)。可以由分析设备214基于此前的基因变化和并入那些基因变化的微生物菌株的相应实测性能来执行产生。
●开发基于训练集的初始模型(例如线性回归模型)(3304)。这可以由分析设备214执行。
●产生设计候选菌株(3306)
○在一个实施例中,分析设备214可以使相对于背景菌株所产生的基因变化的数目以变化组合的形式固定。为了体现这些变化,分析设备214可以向解译器204提供表示那些变化组合的一或多种DNA规格表述。(这些基因变化或并入那些变化的微生物菌株可以称为“测试输入”。)解译器204解译一或多种DNA规格,且执行引擎207执行DNA规格以将已解决的输出填入DNA规格,所述输出代表了个别候选设计菌株以获得那些变化。
●基于所述模型,分析设备214预测每种候选设计菌株的预期性能(3308)。
●分析设备214选择有限数目的具有最高预测性能的候选设计,例如100种(3310)。
○如本文在别处针对上位定位所述,分析设备214通过例如过滤最佳设计以获得上位效应或将上位纳入预测模型中可以解释二级效应,如上位。
●基于发订单引擎208产生的工厂订单建构已过滤的候选菌株(在工厂210)(3312)。
●分析设备214测量所选菌株的实际性能,基于优良的实际性能选择有限数目的那些所选菌株(3314),且将设计变化和其所得性能添加到预测模型中(3316)。在线性回归实例中,将设计变化和其相关性能的集合成行新添加在表4中。
●分析设备214接着以迭代方式返回到新设计候选菌株的产生(3306),且继续迭代直到满足中止条件为止。中止条件可以包含例如满足性能度量标准的至少一种微生物菌株的实测性能,如产量、生长速率或效价。
在以上实例中,菌株设计的迭代优化是利用反馈和线性回归来执行机器学习。一般来说,机器学习可以描述为在利用有限数目个标记数据实例执行信息任务(如分类或回归)且接着对未知数据执行相同任务时优化性能准则,例如参数、技术或其它特点。在有监督的机器学习(如上述线性回归实例中的机器学习)中,机器(例如计算装置)例如通过鉴别训练数据所展现的图案、类别、统计学关系或其它属性来学习。学习结果接着用于预测新数据是否展现相同的图案、类别、统计学关系或其它属性。
当训练数据可获得时,本发明的实施例可以使用其它有监督的机器学习技术。在缺乏训练数据的情况下,实施例可以利用无监督的机器学习。或者,实施例可以利用半监督的机器学习,其使用少量的标记数据和大量的未标记数据。实施例也可以利用特点选择来选择最相关特点的子集以优化机器学习模型的性能。根据所选的机器学习方法的类型,作为线性回归的替代方案或除线性回归之外,实施例可以利用例如逻辑回归、神经网络、支持向量机(SVM)、决策树、隐式马尔可夫模型(hidden Markov models)、贝叶斯网络(Bayesiannetworks)、Gram Schmidt、基于强化的学习、基于簇的学习(包括分级聚类)、基因算法,和所属领域中已知的任何其它适合的机器学习。具体地说,实施例可以利用逻辑回归模型得到分类的概率(例如基因按照不同功能群的分类)以及分类本身。参见例如席维德(Shevade),使用稀疏逻辑回归进行基因选择的简单高效算法(A simple and efficientalgorithm for gene selection using sparse logistic regression),生物信息学(Bioinformatics),第19卷,第17期,2003,第2246-2253页;冷(Leng)等人,对暂时基因表达数据使用功能数据分析的分类(Classification using functional data analysis fortemporal gene expression data),生物信息学,第22卷,第1期,牛津大学出版社(OxfordUniversity Press)(2006),第68-76页,所有文献均以全文引用的方式并入本文。
实施例可以利用图形处理单元(GPU)加速架构,已发现其在执行机器学习任务方面越来越流行,尤其是称为深度神经网络(DNN)的形式。本发明的实施例可以利用基于GPU的机器学习,如以下文献中所述的机器学习:基于GPU的深度学习推理:性能和能力分析(GPU-Based Deep Learning Inference:A Performance and Power Analysis),英伟达白皮书(NVidia Whitepaper),2015年11月;达耳(Dahl)等人,用于QSAR预测的多任务神经网络(Multi-task Neural Networks for QSAR Predictions),多伦多大学计算机科学系(Dept.of Computer Science,Univ.of Toronto),2014年6月(arXiv:1406.1231[stat.ML]),所有文献均以全文引用的方式并入本文。适用于本发明实施例的机器学习技术也可以见于其它参考文献中:里伯莱奇特(Libbrecht)等人,机器学习在遗传学和基因组学中的应用(Machine learning applications in genetics and genomics),自然评论:遗传学(Nature Reviews:Genetics),第16卷,2015年6月;卡什亚普(Kashyap)等人,生物信息学中的大数据分析:机器学习视角(Big Data Analytics in Bioinformatics:AMachine Learning Perspective),乳胶类文件杂志(Journal of Latex Class Files),第13卷,第9期,2014年9月;普隆浦纳姆(Prompramote)等人,生物信息学中的机器学习(Machine Learning in Bioinformatics),生物信息学技术(BioinformaticsTechnologies)的第5章,第117-153页,施普林格(Springer),柏林海德堡(BerlinHeidelberg),2005,所有文献均以全文引用的方式并入本文。
迭代预测菌株设计:实例
下文提供了上文所概述的迭代预测菌株设计工作流程的实例应用。
制备训练输入和输出变量的初始集合。这种集合包含1864种具有所定义基因组成的独特工程改造菌株。每种菌株含有5种与15种之间的工程改造变化。训练集中存在总共336种独特基因变化。
开发初始预测计算机模型。实施方案使用广义线性模型(具有4阶多项式内核的核岭回归)。实施方案对两种不同表型(产量和生产率)建模。将这些表型以加权总和形式组合,以获得用于评级的单一分数,如下文所示。通过相对于所指定训练数据的k倍交叉验证来调整各种模型参数,例如正则化因子。
实施方案不合并相互作用效应的任何明确分析,如上文上位定位章节中所述。然而,如所属领域的技术人员会了解,所建构的广义线性模型可以捕捉内核的二阶、三阶和四阶项隐含的相互作用效应。
根据训练集训练模型。所拟合的模型就产量而言具有0.52的R2值(决定系数)且就生产率而言具有0.67的R2值。图47展示了产量模型相对于训练数据的显著品质拟合。
产生候选菌株。这个实例包括与新基因变化引入亲代菌株中相关的一系列建构约束条件(在这个实例中,菌株中一次仅工程改造一个新突变)。在此,不能简单地认为候选物与所期望的变化数目有关。相反,分析设备214选择此前所设计的具有高性能度量标准的菌株的集合作为起点(“种子菌株”)。分析设备214将基因变化个别地施加到每一种种子菌株。所引入的基因变化不包括已经存在于种子菌株中的那些基因变化。因各种技术、生物学或其它原因,明确需要某些突变,例如opca_4,或明确排除某些突变,例如dss_422。使用166种可利用的种子菌株和336种用模型表征的变化,设计出6239种新颖候选菌株。
分析设备214基于所述模型预测候选菌株设计的性能。分析设备214基于针对两种所关注表型(产量和生产率)所预测的性能将候选物按“最佳”到“最差”评级。具体地说,分析设备214使用加权的总和对候选菌株评分。
分数=0.8*产量/最大(产量)+0.2*生产率/最大(生产率),
其中产量表示候选菌株的预测产量,
最大(产量)表示所有候选菌株的最大产量,
生产率表示候选菌株的生产率,且
最大(生产率)表示所有候选菌株的最大产率。
分析设备214通过施加容量约束和操作约束而由候选物的评级清单产生最终的建议集合。在这个实例中,容量限值设定为48种由计算机产生的候选设计菌株。由于操作约束,因此在这个实例中,96孔盘的每一列仅使用一种种子菌株。这意味着在选择种子菌株之后,那种菌株最多可以建构8种变化,但在任何指定的星期中可以选择仅6种种子菌株。
使用训练模型(上述)预测每种候选菌株的预期性能(产量和生产率)。分析设备214使用上文所指定的评分功能对候选菌株评级。施加容量和操作约束以产生48种候选菌株的过滤集合。经过滤的候选菌株的这个集合描绘于图48中。
基于发订单引擎208所产生的工厂订单来建构(在工厂210)经过滤的候选菌株(3312)。订购是基于对应于候选菌株的DNA规格。
在实践中,建构方法具有预期的失败率,借此不能建构随机的菌株集合。就此建构循环来说,约20%的候选菌株无法建构,产生37种建构的菌株。
使用分析设备214测量所选菌株的实际产量和生产率性能。分析设备214基于三个准则评估模型和所推荐的菌株:模型精确度;菌株性能的改良;和人类专家所产生的设计的等效物(或改良)。
测量所推荐菌株的产量和生产率表型且与利用模型所预测的值进行比较。如图49所示,模型展示适用的预测效用。具体地说,所推荐菌株的预测产量值对于相应的观察结果具有0.59的皮尔逊-r相关系数(Pearson-r correlation coefficient)。
接下来,分析设备214计算每一种所推荐菌株相对于亲代菌株的性能变化百分比。此数据描绘于图50(浅灰色)。本发明人发现,多种经预测的菌株相对于其直接的亲代实际上展现预期的性能增加。具体地说,最佳预测的菌株相对于其直接的亲代展示6%的产量提高。
与上述基于模型的菌株设计方法并行地由人类专家独立设计48种菌株的集合。在这些菌株中,成功地建构和测试37种。此数据证明,基于模型的菌株设计的性能与人类专家所设计的菌株相当。这些专家是本发明受让人所雇用或以其它方式雇佣的具有高技能(例如博士水平)的科学家,且熟悉本发明的实施例。为了比较两种方法,本发明人首先检验每组的的性能分布(图51)。在这个实验中,基于模型的菌株的平均产量相对于人类专家所产生的设计展示1%的增加。
本发明人接着对人类专家所设计的菌株与计算机模型所设计的根据背景分组的菌株(即,具有相同亲代的新菌株)进行比较(图52)。此外,本发明人发现计算机产生的设计的性能与人类专家产生的设计相当且在一些情况下更佳,且更倾向于产生较少的可变性。最后,本发明人对人类专家所设计的菌株与模型设计的菌株相对于亲代菌株的变化百分比进行了比较(图50)。这些群体再次展示了类似的增加。
参见表4.1的呈表格形式的概括统计数据。
表4.1.依据预测模型所设计的菌株和依据人类专家参考文献所设计的菌株的实测性能统计数据
Figure BDA0002391987010000811
Figure BDA0002391987010000821
在每一轮预测→建构→测试循环结束时,本发明人关注于评估模型预测品质和以迭代方式将新数据并入前一模型中。对于前者(模型评估)来说,本发明人关注于通过比较模型预测与实验测量结果来测量预测精确度。预测精确度可以通过若干种方法评估,包括指示预测值与观察值之间的关联强度的相关系数,或度量平均模型误差的均方根误差。
经过多轮实验,模型预测可能会发生漂移,且可以将新的基因变化添加到训练输入中以改善预测精确度。在这个实例中,将设计变化和其所得性能添加到预测模型中(3316)。
基因组设计和工程即服务
在本发明的实施例中,图31的LIMS系统软件3210可以按照图32的云计算系统3202建构,以使得多种用户能够设计和建构根据本发明实施例的微生物菌株。图32说明了根据本发明实施例的云计算环境3204。客户端计算机3206,如图34中所说明的那些计算机,通过网络3208(如因特网)接入LIMS系统。在实施例中,LIMS系统应用软件3210存在于云计算系统3202中。LIMS系统可以采用使用一或多个处理器的一或多种计算系统,所述计算系统的类型说明于图34中。云计算系统自身包括网络接口3212,其使LIMS系统应用程序3210通过网络3208连接到客户端计算机3206。网络接口3212可以包括应用软件编程接口(API)以使客户端计算机3206的客户应用程序能够访问LIMS系统软件3210。具体地说,通过API,客户端计算机3206可以访问LIMS系统200的组件,包括(但不限于)运行输入界面202、解译器204、执行引擎207、发订单引擎208、工厂210以及测试设备212和分析设备214的软件。软件即服务(SaaS)软件模块3214向客户端计算机3206提供LIMS系统软件3210即服务。云端管理模块3216管理客户端计算机3206对LIMS系统3210的访问。云端管理模块3216能够实现采用多租户应用程序、虚拟化的云端架构或所属领域中已知可服务多个用户的其它架构。
基因组自动化
本发明方法的自动化能够同时对多种测试菌株变异体中的目标产物进行高通量表型筛选和鉴别。
前述基因组工程预测建模平台是以如下事实为前提:以高通量方式构筑数百和数千种突变型菌株。下述机器人和计算机系统是可借以执行这种高通量方法的结构性机构。
在一些实施例中,本发明教示了提高宿主细胞生产率或修复工业菌株的方法。作为这种方法的一部分,本发明教示了在培养盘中组装DNA、建构新菌株、筛选培养物和在模型中筛选培养物用于槽发酵的方法。在一些实施例中,本发明教示了利用自动化机器人技术来辅助产生和测试新宿主菌株的一或多种上述方法。
在一些实施例中,本发明教示了如图6中所描绘的高通量菌株工程平台。
HTP机器人系统
在一些实施例中,本发明的自动化方法包含机器人系统。本文概述的系统通常针对96孔或384孔微量滴定盘的使用,但是如所属领域的技术人员将了解,可以使用任何数目个不同培养盘或配置。另外,本文概述的任一个或全部步骤可以自动进行;因此,例如,系统可以完全地或部分地自动化。
在一些实施例中,本发明的自动化系统包含一或多个工作模块。举例来说,在一些实施例中,本发明的自动化系统包含DNA合成模块、载体克隆模块、菌株转化模块、筛选模块和测序模块(参见图7)。
如所属领域的技术人员将了解,自动化系统可以包括多种组件,包括(但不限于):液体处理器;一或多个机器人臂;用于放置微量培养盘的培养盘处理器;培养盘密封件、培养盘穿孔机、自动化盖子处理器以去除和置换非交叉污染盘上的孔盖;用一次性吸头进行样品分布的一次性吸头组合件;用于样品分布的可洗吸头组合件;96孔加载块;一体式热循环仪;冷却的试剂架;微量滴定盘移液管位置(任选地冷却);用于培养盘和吸头的堆叠塔;磁珠处理站;过滤系统;培养盘振荡器;条形码阅读器和涂覆器;和计算机系统。
在一些实施例中,本发明的机器人系统包括实现了高通量移液的自动化液体和颗粒处理,以执行基因靶向和重组应用工艺中的所有步骤。这包括液体和颗粒操控,如抽吸、分配、混合、稀释、洗涤、精确体积转移;收回和丢弃移液管吸头;以及利用单次样品抽吸来重复吸移相同体积用于多次递送。这些操控是无交叉污染的液体、颗粒、细胞和生物体转移。仪器执行微量盘样品向过滤器、膜和/或子培养盘的自动化复制、高密度转移、全盘连续稀释以及高容量操作。
在一些实施例中,本发明的定制自动化液体处理系统是TECAN机器(例如定制的TECAN Freedom Evo)。
在一些实施例中,本发明的自动化系统与用于多孔盘、深孔盘、方孔盘、试剂槽、试管、小试管、微量离心管、冷冻管、过滤器、微阵列晶片、光纤、珠粒、琼脂糖和丙烯酰胺凝胶的平台兼容,且将其它固相基质或平台容纳于可升级的模块化台板上。在一些实施例中,本发明的自动化系统含有至少一个模块化台板用于多位置工作表面,以便放置源样品和输出样品、试剂、样品和试剂稀释液、分析盘、样品和试剂储集器、移液管吸头和活动的吸头洗涤站。
在一些实施例中,本发明的自动化系统包括高通量电穿孔系统。在一些实施例中,高通量电穿孔系统能够在96或384孔盘中转化细胞。在一些实施例中,高通量电穿孔系统包括
Figure BDA0002391987010000841
高通量电穿孔系统、BTXTM
Figure BDA0002391987010000842
基因脉冲发生器MXcellTM或其它多孔电穿孔系统。
在一些实施例中,一体式热循环仪和/或热调节器用于稳定热交换器的温度,如对培育样品提供从0℃到100℃的精确温度控制的可控块或平台。
在一些实施例中,本发明的自动化系统与能够以机器人方式操控液体、颗粒、细胞和多细胞生物体的可更换机器头(单或多通道)兼容,所述机器头具有单个或多个磁性探针、亲和探针、复制器或吸移管管理器。多孔或多管式磁性分离器和过滤站按单个或多个样品格式操控着液体、颗粒、细胞和生物体。
在一些实施例中,本发明的自动化系统与照相视觉和/或光谱仪系统兼容。因此,在一些实施例中,本发明的自动化系统能够检测和记录进行中的细胞培养物的颜色和吸收变化。
在一些实施例中,本发明的自动化系统经设计可相对于多种硬件附件具有灵活性和可适应性,以允许所述系统执行多种应用。软件程序模块实现了方法的产生、修改和运行。系统的诊断模块实现了设置、仪器校准和马达操作。定制的工具、实验室器具以及液体和颗粒转移模式实现了不同应用的程序化执行。数据库实现了方法和参数的存储。机器人和计算机界面实现了仪器之间的通信。
因此,在一些实施例中,本发明教示了如图26中所描绘的高通量菌株工程平台。
所属领域中的技术人员将认识到,各种机器人平台能够执行本发明的HTP工程改造方法。下表5提供了能够执行如图26中所述的本发明HTP工程步骤中的每一步的科学设备的非排它性清单。
表5-与本发明HTP工程改造方法兼容的科学设备的非排它性清单
Figure BDA0002391987010000851
Figure BDA0002391987010000861
Figure BDA0002391987010000871
Figure BDA0002391987010000881
计算机系统硬件
图34说明了根据本发明实施例的计算机系统800的实例,其可以用于执行非暂时性计算机可读媒体(例如存储器)中所存储的程序代码。计算机系统包括输入/输出子系统802,其可以用于介接人类用户和/或其它计算机系统,这取决于应用。I/O子系统802可以包括例如键盘、鼠标、图形用户界面、触摸屏,或用于输入的其它界面,以及例如LED或其它平面屏幕显示器,或用于输出的其它界面,包括应用程序界面(API)。本发明实施例的其它元件,如LIMS系统的组件,可以用计算机系统(如计算机系统800)实施。
程序代码可以存储于非暂时性媒体中,如辅助存储器810或主存储器808或这两者的永久性存储器中。主存储器808可以包括易失性存储器,如随机存取存储器(RAM),或非易失性存储器,如只读存储器(ROM),以及不同层次的高速缓存存储器用于更快地访问指令和数据。辅助存储器可以包括永久性存储器,如固态驱动器、硬盘驱动器或光盘。一或多个处理器804从一或多个非暂时性媒体中读取程序代码且执行所述代码以使计算机系统能够完成本文实施例所执行的方法。所属领域的技术人员将了解,处理器可以摄取原始码且将原始码解译或编译成处理器804的硬件门级所能理解的机器代码。处理器804可以包括用于处理计算密集型任务的图形处理单元(GPU)。特别是在机器学习中,一或多个CPU 804可以将大量数据的处理分流到一或多个GPU 804。
处理器804可以通过一或多个通讯接口807(如网络接口卡、WiFi收发器等)与外部网络通信。总线805使I/O子系统802、处理器804、周边装置806、通信接口807、存储器808和永久性存储器810可通信地耦接。本发明的实施例不限于此代表性架构。替代实施例可以采用不同的配置和组件类型,例如用于输入-输出组件和存储器子系统的单独总线。
所属领域的技术人员将了解,本发明实施例中的一些或全部元件和其伴随操作可以完全或部分地通过一或多个计算机系统来实施,所述计算机系统包括一或多个处理器和一或多个存储器系统,如计算机系统800的那些。具体地说,本文所述的LIMS系统200和任何机器人和其它自动化系统或装置的元件可以通过计算机实施。举例来说,一些元件和功能可以在本地实施且其它可以按通过不同服务器的网络分布方式(例如客户-服务器方式)实施。具体地说,可以使服务器一侧的操作按软件即服务(SaaS)方式供多个客户使用,如图32中所示。
术语组件在此背景中广泛地指软件、硬件或固件(或其任何组合)组件。组件典型地是能够利用所指定的输入来产生适用数据或其它输出的功能组件。组件可以是或可以不是独立的。应用程序(也称为“应用”)可以包括一或多个组件,或组件可以包括一或多个应用程序。
一些实施例包括所述组件中的一些、全部或悉缺以及其它模块或应用组件。再者,各种实施例可以将这些组件中的两种或更多种合并成单一模块且/或使这些组件中的一或多种的一部分功能与不同组件关联。
术语“存储器”可以是用于存储信息的任何装置或机构。根据本发明的一些实施例,存储器旨在涵盖(但不限于):易失性存储器、非易失性存储器和动态存储器中的任何类型。举例来说,存储器可以是随机存取存储器、存储器存储装置、光学存储器装置、磁性媒体、软盘、磁带、硬盘驱动器、SIMM、SDRAM、DIMM、RDRAM、DDR RAM、SODIMMS、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、光盘、DVD和/或类似物。根据一些实施例,存储器可以包括一或多个磁盘驱动器、闪存驱动器、数据库、本地高速缓冲存储器、处理器高速缓存存储器、关系数据库、平面数据库、服务器、基于云端的平台和/或类似物。另外,所属领域的技术人员将了解,可以使用存储信息的许多其它装置和技术作为存储器。
存储器可以用于存储指令以便在处理器上运行一或多个应用程序或模块。举例来说,存储器在一些实施例中可以用于容纳执行本申请中所公开的一或多种模块和/或应用程序的功能所需的全部或一些指令。
基于基因设计预测的HTP微生物菌株工程:实例工作流程
在一些实施例中,本发明教示了基于本发明的计算分析系统的建议对新宿主生物体进行定向工程改造。
在一些实施例中,本发明与所有基因设计和克隆方法兼容。即,在一些实施例中,本发明教示了传统克隆技术的使用,如聚合酶链反应、限制酶消化、连接、同源重组、RT PCR以及所属领域中通常已知的其它技术,且公开于例如:萨布鲁克(Sambrook)等人(2001),分子克隆:实验室手册(Molecular Cloning:A Laboratory Manual)(第3版,冷泉港实验室出版社(Cold Spring Harbor Laboratory Press),纽约普莱恩维尤(Plainview,New York),所述文献以引用的方式并入本文中。
在一些实施例中,所克隆的序列可以包括来自本文所教示的任何HTP基因设计文库的可能性,例如:来自启动子交换文库的启动子、来自SNP交换文库的SNP、来自起始/终止密码子交换文库的起始或终止密码子、来自STOP交换文库的终止子,或来自序列优化文库的序列优化。
另外,特定构筑体中应该包括的恰当序列组合可以通过上位定位功能知悉。
在其它实施例中,所克隆的序列还可包括基于合理设计(假设驱动型)的序列和/或基于其它来源(如科学出版物)的序列。
在一些实施例中,本发明教示了定向工程改造方法,包括如下步骤:i)产生定制的SNP特异性DNA;ii)组装SNP特异性质体;iii)用SNP特异性DNA转化目标宿主细胞;和iv)使任何选择标记环出(参见图2)。
图6A描绘了本发明的菌株工程改造方法的通用工作流程,包括获取和组装DNA、组装载体、转化宿主细胞和去除选择标记。
建构特异性DNA寡核苷酸
在一些实施例中,本发明教示了插入和/或置换和/或改变和/或缺失宿主细胞生物体中的DNA区段。在一些方面中,本文教示的方法涉及建构将并入宿主生物体基因组中的所关注寡核苷酸(即,目标DNA区段)。在一些实施例中,本发明的目标DNA区段可以通过所属领域中已知的任何方法获得,包括:拷贝或从已知模板中切割、突变或DNA合成。在一些实施例中,本发明与用于产生目标DNA序列的市售基因合成产物(例如GeneArtTM、GeneMakerTM、GenScriptTM、AnagenTM、Blue HeronTM、EntelechonTM,GeNOsys有限公司,或QiagenTM)兼容。
在一些实施例中,目标DNA区段经设计以将SNP并入宿主生物体的所选DNA区域中(例如添加有益SNP)。在其它实施例中,DNA区段经设计以从宿主生物体的DNA中去除SNP(例如去除有害或中性SNP)。
在一些实施例中,本发明方法中所用的寡核苷酸可以使用所属领域中已知的任何酶或化学合成方法合成。寡核苷酸可以在固体载体上合成,所述固体载体如可控微孔玻璃(CPG)、聚苯乙烯珠粒,或由可以含有CPG的热塑性聚合物组成的膜。寡核苷酸还能够在并行的微米尺度上、按阵列方式、使用微流体(田(Tian)等人,分子生物系统(Mol.BioSyst.),5,714-722(2009))或提供两者组合的已知技术(参见雅各布森(Jacobsen)等人,美国专利申请第2011/0172127号)合成。
按阵列方式或通过微流体方式的合成优于传统固体载体合成之处在于通过减少试剂使用降低了成本。基因合成所需的规模低,因此通过阵列或通过微流体合成的寡核苷酸产物的规模是可接受的。然而,所合成的寡核苷酸的品质低于使用固体载体合成时(参见田(Tian),见下文;也参见施泰勒(Staehler)等人,美国专利申请第2010/0216648号)。
自从二十世纪八十年代首次描述了传统的四步亚磷酰胺化学方法以来,所述化学方法已经实现大量的进步(参见例如丝兹查勒(Sierzchala)等人,美国化学学会杂志(J.Am.Chem.Soc.),125,13427-13441(2003),其使用过氧基阴离子脱除保护基;早川(Hayakawa)等人,美国专利第6,040,439号,其关于替代保护基团;阿杂叶维(Azhayev)等人,四面体(Tetrahedron)57,4977-4986(2001),其关于通用载体;考兹洛维(Kozlov)等人,核苷、核苷酸和核酸(Nucleosides,Nucleotides,and Nucleic Acids),24(5-7),1037-1041(2005),其关于通过使用大孔隙CPG改良较长寡核苷酸的合成;以及丹哈(Damha)等人,NAR,18,3813-3821(1990),其关于改良的衍生化)。
不论合成的类型,所得寡核苷酸接着可以形成较小的结构单元用于较长的寡核苷酸。在一些实施例中,较小寡核苷酸可以使用所属领域中已知的方案连接在一起,如聚合酶链组装体(PCA)、连接酶链反应(LCR)和热力学平衡的由内而外合成(TBIO)(参见兹阿尔(Czar)等人,生物技术趋势(Trends in Biotechnology),27,63-71(2009))。在PCA中,在多个循环(典型地约55个循环)中使跨越所期望较长产物的整个长度的寡核苷酸粘接且延长以最终获得全长产物。LCR使用连接酶将两个寡核苷酸连接,所述两个寡核苷酸均粘接到第三寡核苷酸。TBIO合成始于所期望产物的中心且通过使用重叠寡核苷酸而在两个方向上逐渐地延长,所述重叠寡核苷酸与位于基因的5'端的正向链同源且与位于基因的3'端的反向链非同源。
另一种合成较大双链DNA片段的方法是通过顶端链PCR(TSP)合并较小寡核苷酸。在此方法中,多种寡核苷酸跨越所期望产物的整个长度且含有相邻寡核苷酸的重叠区域。可以使用通用正向和反向引物执行扩增,且通过多个循环的扩增来形成全长双链DNA产物。此产物接着可以经历任选的差错校正和进一步的扩增,产生所期望的双链DNA片段最终产物。
在TSP的一种方法中,经组合而形成所期望全长产物的较小寡核苷酸集合具有40-200个之间的碱基长度且彼此重叠至少约15-20个碱基。就实用目的来说,重叠区域的最小长度应该足以确保寡核苷酸的特异性粘接且具有足够高的解链温度(Tm),以便在所用反应温度下粘接。重叠可以延伸到所指定寡核苷酸被相邻寡核苷酸完全叠覆的点。重叠的量似乎对最终产物的品质无任何影响。组装体中的第一个和最后一个寡核苷酸结构单元应该含有正向和反向扩增引物的结合位点。在一个实施例中,第一个和最后一个寡核苷酸的末端序列含有互补的相同序列以允许使用通用引物。
组装/克隆定制质体
在一些实施例中,本发明教示了构筑载体的方法,所述载体能够将所期望的目标DNA区段(例如含有特定SNP)插入宿主生物体的基因组中。在一些实施例中,本发明教示了克隆载体的方法,所述载体包含目标DNA、同源臂和至少一个选择标记(参见图3)。
在一些实施例中,本发明与适合于转化到宿主生物体中的任何载体相容。在一些实施例中,本发明教示了与宿主细胞相容的穿梭载体的使用。在一个实施例中,本文所提供的方法中使用的穿梭载体是与大肠杆菌和/或棒状杆菌属宿主细胞相容的穿梭载体。本文所提供的方法中使用的穿梭载体可以包含如本文所述用于选择和/或反向选择的标记。标记可以是所属领域中已知和/或本文提供的任何标记。穿梭载体可进一步包含适用于组装所述穿梭载体的任何调节序列和/或序列,如所属领域已知。穿梭载体可进一步包含任何复制起点,所述复制起点可以是在如本文所提供的宿主细胞(例如大肠杆菌或谷氨酸棒状杆菌)中繁殖所需要的。调节序列可以是所属领域中已知或本文提供的任何调节序列,例如宿主细胞的基因机器所用的启动子、起始、终止、信号、分泌和/或终止序列。在某些情况下,可以将目标DNA插入获自任何储存库或目录产物的载体、构筑体或质体中,如商业载体(参见例如DNA2.0定制版或
Figure BDA0002391987010000921
载体)。在某些情况下,可以将目标DNA插入获自任何储存库或目录产物的载体、构筑体或质体中,如商业载体(参见例如DNA2.0定制版或
Figure BDA0002391987010000922
载体)。
在一些实施例中,本发明的组装/克隆方法可以采用以下组装策略中的至少一种:i)II型传统克隆;ii)II S型介导或“金门控”克隆(参见例如恩格勒C.(Engler,C.),R.康德兹(R.Kandzia)和S.马里约内(S.Marillonnet),2008,“具有高通量能力的一锅一步精确克隆方法(A one pot,one step,precision cloning method with high-throughputcapability)”,公共科学图书馆综合卷(PLos One)3:e3647;科特纳I.(Kotera,I.)和T.长井(T.Nagai),2008,“使用DNA聚合酶抑制剂和IIS型限制酶对粗PCR产物的高通量单管式重组(A high-throughput and single-tube recombination of crude PCR productsusing a DNA polymerase inhibitor and type IIS restriction enzyme)”,生物技术杂志(J Biotechnol)137:1-7.;韦伯E.(Weber,E.),R.格鲁兹勒(R.Gruetzner),S.沃尔纳(S.Werner),C.恩格勒(C.Engler)和S.马里约内(S.Marillonnet),2011,通过金门控克隆组装设计者TAL效应子(Assembly of Designer TAL Effectors by Golden GateCloning),公共科学图书馆综合卷6:e19722);iii)
Figure BDA0002391987010000931
重组;iv)
Figure BDA0002391987010000932
克隆、核酸外切酶介导组装(艾斯兰迪斯(Aslanidis)和德迥(de Jong),1990,“PCR产物的连接非依赖性克隆(LIC-PCR)(Ligation-independent cloning of PCR products(LIC-PCR))”,核酸研究(Nucleic Acids Research),第18卷,第20 6069期);v)同源重组;vi)非同源末端连接;vii)吉布森组装(Gibson assembly)(吉布森(Gibson)等人,2009,“长达数百个千碱基的DNA分子的酶促组装(Enzymatic assembly of DNA molecules up to several hundredkilobases)”,自然方法(Nature Methods),6,343-345)或其组合。基于IIS型的模块化组装策略公开于PCT公开WO 2011/154147中,其公开内容以引用的方式并入本文中。
在一些实施例中,本发明教示了具有至少一个选择标记的克隆载体。各种选择标记基因在所属领域中已知,其通常编码抗生素抗性功能以便在原核细胞(例如针对安比西林(ampicillin)、卡那霉素(kanamycin)、四环素(tetracycline)、氯胺苯醇(chloramphenicol)、匀霉素(zeocin)、观霉素/链霉素(spectinomycin/streptomycin))或真核细胞(例如遗传霉素(geneticin)、新霉素(neomycin)、潮霉素(hygromycin)、嘌呤霉素(puromycin)、杀稻瘟菌素(blasticidin)、匀霉素)中、在选择性压力下进行选择。其它标记系统实现了所需或非所需细胞的筛选和鉴别,如众所周知的蓝/白斑筛选系统,其在细菌中用于在X-gal或萤光报导子(如成功转导的宿主细胞中所表达的绿色或红色荧光蛋白)存在下选择阳性克隆。另一类选择标记(其中大部分在原核生物系统中仅具功能性)是指反向可选标记基因,通常也称为“死亡基因”,其表达杀死生产者细胞的毒性基因产物。这类基因的实例包括sacB、rpsL(strA)、tetAR、pheS、thyA、gata-1或ccdB,其功能描述于(雷拉特(Reyrat)等人,1998,“反向可选标记:细菌遗传学和发病机理的未使用工具(Counterselectable Markers:Untapped Tools for Bacterial Genetics andPathogenesis)”,感染与免疫(Infect Immun.),66(9):4011-4017)。
原生质体产生方法
在一个实施例中,本文提供的方法和系统利用丝状真菌细胞产生原生质体。适用于制备原生质体的程序可以是所属领域中已知的任何程序,包括例如EP 238,023和耶尔顿(Yelton)等人(1984,美国国家科学院院刊81:1470-1474)中所述的那些程序。在一个实施例中,原生质体是通过用一或多种溶胞酶或其混合物处理丝状真菌细胞培养物来产生。溶胞酶可以是β-葡聚糖酶和/或聚半乳糖醛酸苷酶。在一个实施例中,用于产生原生质体的酶混合物是VinoTaste浓缩物。酶处理之后,可以使用所属领域中已知的方法(例如离心)分离出原生质体。
可以改变预培育和实际原生质体产生步骤以优化原生质体数目和转化效率。举例来说,可以改变接种物尺寸、接种方法、预培育培养基、预培育时间、预培育温度、混合条件、洗涤缓冲液组成、稀释比率、溶胞酶处理期间的缓冲液组成、所用溶胞酶的类型和/或浓度、与溶胞酶一起培育的时间、原生质体洗涤程序和/或缓冲液、原生质体和/或聚核苷酸和/或转化试剂在实际转化期间的浓度、转化期间的物理参数、转化至所得转化体之后的程序。
可以将原生质体再悬浮于渗透性稳定缓冲液中。这类缓冲液的组成可以根据菌种、应用和需要改变。然而,这些缓冲液典型地含有0.5与2M之间的有机组分,如蔗糖、柠檬酸盐、甘露醇或山梨糖醇。更优选0.75与1.5M之间;最优选1M。另外,这些缓冲液含有浓度在0.1M与1.5M之间的无机渗透性稳定组分,如KCl、MgSO4、NaCl或MgCl2。优选0.2M与0.8M之间;更优选0.3M与0.6M之间,最优选0.4M。最优选的稳定缓冲液是STC(山梨糖醇,0.8M;CaCl2,25mM;Tris,25mM;pH 8.0)或KCl-柠檬酸盐(KCl,0.3-0.6M;柠檬酸盐,0.2%(w/v))。原生质体的使用浓度可以在1×105与1×1010个细胞/毫升之间。浓度优选在1×106与1×109个细胞/毫升之间;浓度更优选在1×107与5×108个细胞/毫升之间;浓度最优选1×108个细胞/毫升。DNA的使用浓度在0.01μg与10μg之间;优选在0.1μg与5μg之间,甚至更优选在0.25μg与2μg之间;最优选在0.5μg与1μg之间。为了提高转染效率,可以将载剂DNA(如鲑精子DNA或非编码载体DNA)添加到转化混合物中。
在一个实施例中,在产生和随后分离之后,将原生质体与一或多种低温保护剂混合。低温保护剂可以是二醇、二甲亚砜(DMSO)、多元醇、糖类、2-甲基-2,4-戊二醇(MPD)、聚乙烯吡咯烷酮(PVP)、甲基纤维素、C连接型防冻糖蛋白(C-AFGP)或其组合。在本文提供的方法和系统中用作低温保护剂的二醇可以选自乙二醇、丙二醇、聚丙二醇(PEG)、甘油或其组合。在本文提供的方法和系统中用作低温保护剂的多元醇可以选自丙-1,2-二醇、丙-1,3-二醇、1,1,1-三-(羟基甲基)乙烷(THME)和2-乙基-2-(羟基甲基)-丙-1,3-二醇(EHMP)或其组合。在本文提供的方法和系统中用作低温保护剂的糖类可以选自海藻糖、蔗糖、葡萄糖、棉籽糖、右旋糖或其组合。在一个实施例中,将原生质体与DMSO混合。DMSO可以按至少、至多、小于、大于、等于或约1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、12.5%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%或75%w/v或v/v的最终浓度与原生质体混合。可以将原生质体/低温保护剂(例如DMSO)混合物分布到微量滴定盘中再储存。原生质体/低温保护剂(例如DMSO)混合物可以在本文提供的任何温度(如-20℃或-80℃)下储存如本文所提供的长期储存时间(例如数小时、数日、数周、数月、数年)。在一个实施例中,将额外的低温保护剂(例如PEG)添加到原生质体/DMSO混合物中。在又另一个实施例中,将额外的低温保护剂(例如PEG)添加到原生质体/DMSO混合物中再储存。PEG可以是本文提供的任何PEG且可以在如本文所提供的任何浓度(例如w/v或v/v)下添加。
原生质体转化方法
在一个实施例中,本文提供的方法和系统需要将核酸如本文所述转移到来源于丝状真菌细胞的原生质体中。在另一个实施例中,本文中提供的方法和系统中所用的转化具有高通量性质且/或如本文所述是部分或完全自动化的。除此实施例之外,如下执行转化:将如本文所述的构筑体或表达构筑体添加到微量滴定盘的孔中,随后将利用本文所提供的方法产生的原生质体等分到微量滴定盘的每个孔中。适用于转化/转染原生质体的程序可以是所属领域中已知的任何程序,包括例如以下文献中所述的那些程序:国际专利申请PCT/NL99/00618、PCT/EP99/202516;芬科斯坦(Finkelstein)和波耳(Ball)(编),丝状真菌的生物技术:技术和产物(Biotechnology of filamentous fungi,technology andproducts),巴特沃斯-海涅曼(Butterworth-Heinemann)(1992),班尼特(Bennett)和那苏尔(Lasure)(编),对真菌的更多基因操控(More Gene Manipulations in fungi),学术出版社(Academic Press)(1991),特纳(Turner),于:普勒(Puhler)(编),生物技术(Biotechnology),第二完整修订版,VHC(1992);如EP635574B中所述的原生质体融合以及Ca-PEG介导的原生质体转化。或者,丝状真菌宿主细胞或来源于其的原生质体的转化还能够利用以下方式执行:电穿孔,例如查克拉波提(Chakraborty)和卡普尔(Kapoor),核酸研究18:6737(1990)中所述的电穿孔;根癌农杆菌介导的转化;生物弹道引入DNA,例如如克里斯丁森(Christiansen)等人,当代遗传学(Curr.Genet.)29:100 102(1995);杜兰德(Durand)等人,当代遗传学31:158 161(1997);和巴塞罗斯(Barcellos)等人,加拿大微生物学杂志(Can.J.Microbiol.)44:1137 1141(1998)中所述;或“磁力生物弹道”转染细胞,例如美国专利第5,516,670号和第5,753,477号中所述。在一个实施例中,本文提供的方法和系统中所用的转化程序是如本文所提供的可修正成高通量且/或自动化进行的转化程序,例如PEG介导的转化。
使用本文所述方法产生的原生质体的转化可以通过使用所属领域中已知的任何转化试剂促进。适合的转化试剂可以选自聚乙二醇(PEG)、
Figure BDA0002391987010000961
HD(得自罗氏(Roche))、
Figure BDA0002391987010000962
Figure BDA0002391987010000963
(得自英杰公司(Invitrogen))、
Figure BDA0002391987010000964
D1(得自新英格兰生物实验室(New England Biolabs))、
Figure BDA0002391987010000965
Figure BDA0002391987010000966
(得自英伟杰公司(Invivogen))。在一个实施例中,PEG是最优选的转化/转染试剂。PEG可按不同分子量获得且可以在不同浓度下使用。PEG 4000优选在10%与60%之间使用,更优选在20%与50%之间使用,最优选在30%使用。在一个实施例中,将PEG添加到原生质体中后再储存,如本文所述。
宿主细胞的转化
在一些实施例中,可以使用多种技术中的任一种将本发明的载体引入宿主细胞中,所述技术包括转化、转染、转导、病毒感染、基因枪或Ti介导的基因转移(参见克里斯蒂P.J.(Christie,P.J.)和戈登J.E.(Gordon,J.E.),2014“农杆菌Ti质体(TheAgrobacterium Ti Plasmids)”,微生物学谱(Microbiol SPectr.),2014;2(6);10.1128)。特定方法包括磷酸钙转染、DEAE-聚葡萄糖介导转染、脂质体转染或电穿孔(戴维斯L.(Davis,L.),迪波乐M.(Dibner,M.),巴特I.(Battey,I.),1986“分子生物学的基本方法(Basic Methods in Molecular Biology)”)。其它转化方法包括例如乙酸锂转化和电穿孔。参见例如杰兹(Gietz)等人,核酸研究(Nucleic Acids Res.),27:69-74(1992);伊藤(Ito)等人,细菌学杂志(J.Bacterol.)153:163-168(1983);和贝克尔(Becker)和加伦特(Guarente),酶学方法(Methods in Enzymology)194:182-187(1991)。在一些实施例中,转化的宿主细胞称为重组宿主菌株。
在一些实施例中,本发明教示了使用本发明的96孔盘机器人平台和液体处理机器高通量转化细胞。
在一些实施例中,本发明教示了用如上文所述的一或多种选择标记筛选已转化的细胞。在一个此类实施例中,将经包含卡那霉素抗性标记(KanR)的载体转化的细胞涂铺于含有有效量的卡那霉素抗生素的培养基上。推测加入卡那霉素的培养基上可见的菌落形成单位,以将载体盒并入其基因组中。所期望序列的插入可以通过PCR、限制酶分析和/或相关插入位点的测序来证实。
所选序列的环出
在一些实施例中,本发明教示了使DNA的所选区域从宿主生物体中环出的方法。环出方法可以如中岛(Nakashima)等人,2014“通过基因组编辑和基因静默进行的细菌细胞工程改造(Bacterial Cellular Engineering by Genome Editing and Gene Silencing)”,国际分子科学杂志(Int.J.Mol.Sci.)15(2),2773-2793中所述。在一些实施例中,本发明教示了使选择标记从阳性转化体中环出。环出缺失技术在所属领域中已知,且描述于(替尔(Tear)等人,2014“不稳定人工基因特异性反向重复序列的切除介导了大肠杆菌中的无痕基因缺失(Excision of Unstable Artificial Gene-Specific inverted RepeatsMediates Scar-Free Gene Deletions in Escherichia coli)”,应用生物化学和生物技术(Appl.Biochem.Biotech.)175:1858-1867)。本文所提供的方法中使用的环出方法可以使用单一互换型同源重组或双重互换型同源重组执行。在一个实施例中,所选区域如本文所述环出可能需要使用如本文所述的单一互换型同源重组。
首先,将环出载体插入宿主生物体基因组内的所选目标区域中(例如通过同源重组、CRISPR或其它基因编辑技术)。在一个实施例中,单一互换型同源重组是在圆形质体或载体与宿主细胞基因组之间使用,以便使圆形质体或载体环入,如图3中所描绘。所插入的载体可以使用作为现有或邻近引入的宿主序列的直接重复序列的序列设计,以便直接重复序列侧接预定成环和缺失的DNA区域。一经插入,可以根据选择区域的缺失来反向选择含有环出质体或载体的细胞(参见例如图4;缺乏针对选择基因的抗性)。
所属领域中的技术人员将认识到,环出程序的描述仅展示了使非所需区域从基因组中缺失的一种说明性方法。的确,本发明的方法与用于基因组缺失的任何方法兼容,包括(但不限于)通过CRISPR、TALENS、FOK或其它核酸内切酶进行的基因编辑。所属领域的技术人员还将了解通过同源重组技术能够置换基因组的非所需区域。
实例
以下实例是为了说明本发明的各种实施例而提供且不希望以任何方式限制本发明。所属领域的技术人员将认识到,其中的变化和其它用途涵盖于由权利要求书范围限定的本发明精神内。
下文提供目录简表仅为了帮助读者。此目录不希望限制本申请的实例或公开内容的范围。
表5.1-实例章节的目录
Figure BDA0002391987010000971
Figure BDA0002391987010000981
实例1:棒状杆菌的HTP转化和SNP文库创建的演示
这个实例说明了本发明的HTP基因工程改造方法的实施例。宿主细胞用不同尺寸的多种SNP序列(皆靶向基因组的不同区域)转化。结果证明本发明的方法能够产生跨越宿主细胞的整个基因组的任何种类的快速基因变化。
A.转化载体的克隆
从谷氨酸棒状杆菌(ATCC21300)中随机选择多种SNP且使用酵母同源重组克隆技术克隆到棒状杆菌克隆载体中以组装载体,其中每个SNP侧接直接重复区域,如上文在“组装/克隆定制质体”章节中所述和如图3中所说明。
这个实例用的SNP盒经设计以包括一系列同源性直接重复臂长度,其范围为0.5Kb、1Kb、2Kb和5Kb。此外,针对靶向基因组的多个不同区域的同源重组设计SNP盒,如下文更详细地描述。
谷氨酸棒状杆菌基因组的尺寸是3,282,708bp(参见图9)。基因组任意地被分成24个等尺寸基因区域,且SNP盒经设计可靶向24个区域中的每一个。因此,这个实例总共克隆96种不同质体(4种不同插入尺寸×24个不同基因组区域)。
每个DNA插入是通过使用商业来源的寡核苷酸和上述宿主菌株基因组DNA作为模板对同源区域进行PCR扩增来产生。引入基因组中的SNP由寡核苷酸尾编码。PCR片段使用在酵母中进行的同源重组组装成载体主链。
每个SNP和同源臂克隆到载体中是根据图6、图3和表5中所述的HTP工程学工作流程进行。
B.已组装的克隆转化到大肠杆菌中
首先使用标准热休克转化技术将载体转化到大肠杆菌中,以便鉴别正确组装的克隆和扩增载体DNA用于棒状杆菌转化。
举例来说,针对组装的成功来测试所转化的大肠杆菌细菌。培养得自每个大肠杆菌转化培养盘的四个菌落且测试其通过PCR的正确组装。针对24个转化位置中的每一个且针对4种不同插入尺寸中的每一种(即,针对这个实例的所有96种转化体)重复此过程。此实验的结果表示为从针对每种处理(插入尺寸和基因组位置)所测试的四个菌落中鉴别出的正确菌落的数目(参见图12)。较长的5kb插入序列相较于较短对应物展现组装效率的降低(n=96)。
C.已组装的克隆转化到棒状杆菌中
已验证的克隆通过电穿孔转换到谷氨酸棒状杆菌宿主细胞中。针对每次转化,测定每μg DNA的菌落形成单位(CFU)数目与插入尺寸的关系(参见图13)。还分析棒状杆菌基因组整合与同源臂长度的关系,且结果表明较短的臂具有较低的效率(参见图13)。
还相对于谷氨酸棒状杆菌转化体中的目标基因组位置分析基因组整合效率。基因组位置1和2相较于基因组的其余部分展现稍微降低的整合效率(参见图10)。
D.使选择标记环出
将经鉴别已成功整合插入盒的棒状杆菌培养物在含有5%蔗糖的培养基上培养以进行反向选择,以便使sacb选择基因环出。各种同源性直接重复臂的蔗糖抗性频率未随臂长度而发生明显改变(参见图14)。这些结果表明环出效率在0.5kb到5kb的同源臂长度间保持稳定。
为了进一步验证环出事件,培养展现蔗糖抗性的菌落且通过测序加以分析。
插入基因组区域的测序结果总结于下表6中。
表6-环出验证频率
结果 频率(取样误差95%置信度)
成功环出 13%(9%/20%)
环仍存在 42%(34%/50%)
混合读段 44%(36%/52%)
测序结果表明环出效率为10-20%。实际的环出在某种程度上可能取决于插入序列。然而,挑选10-20种蔗糖抗性菌落使得成功率提高。
E.总结
下表7提供对本发明的HTP基因组工程改造方法的效率的量化评估。在10个测试菌落中的近似9个中,酵母同源性方法中的构筑体组装率产生了预期的DNA构筑体。具有2kb同源臂的SNP构筑体的棒状杆菌转化产生了每微克DNA平均51个菌落形成单位(CFU/μg),其中98%的所述菌落展现正确整合的SNP插入(靶向效率)。环出效率保持在细胞的0.2%,其当暴露于蔗糖时变得具有抗性,其中的13%展现正确环出的序列。
表7-谷氨酸棒状杆菌菌株工程改造的结果总结
QC步骤 2kb同源臂的结果
构筑体组装成功 87%
棒状杆菌转化效率 51CFU/μg DNA(+/-15)
靶向效率 98%
环出效率 0.2%(+/-0.03%)
实例2:HTP基因组工程-建构SNP文库以修复/改良工业微生物菌株
这个实例说明了本发明的HTP菌株改良程序中的SNP交换文库的若干方面。具体地说,所述实例说明了修复当前现有的工业菌株的若干设想方法。这个实例描述了探究表型解空间的向上波动和向下波动方法,所述解空间因“基本”、“中间”和工业菌株之间可能存在的多个基因差异而产生。
A.多样性池中的SNP的鉴别
使用本发明方法的示例性菌株改良程序是针对工业生产微生物菌株(本文称为“C”)进行。此程序用的多样性池菌株由A、B和C表示。菌株A代表任何突变诱发之前的原始生产宿主菌株。菌株C代表当前工业菌株,其已经经历许多年的通过传统菌株改良程序进行的突变诱发和选择。菌株B代表“折中”菌株,其已经经历一些突变诱发,且是菌株C的前体。(参见图17A)。
对菌株A、B和C测序且分析其基因组在各菌株之间的基因差异。总共鉴别332种非同义SNP。其中,133种SNP是C独有的,153种被B和C额外共有,且46种是菌株B独有的(参见图17B)。这些SNP将作为多样性池用于下游菌株改良循环。
B.SNP交换分析
对实例2的部分A中从多样性池中鉴别出的SNP进行分析,以确定其对宿主细胞性能的影响。对菌株性能的初轮“学习”将分解为如下文所述的六个步骤,且图解于图18中。
首先,将来自C的所有SNP个别地和/或组合地克隆到基本A菌株中。这将代表最少286种个别转化体。这些转化体的用途是鉴别有益SNP。
第二,将来自C的所有SNP个别地和/或组合地从商业菌株C中去除。这将代表最少286种个别转化体。这些转化体的用途是鉴别中性和有害SNP。任选的额外步骤3-6也描述如下。从两个基因时间点(基本菌株A和工业菌株C)添加和去除SNP的第一和第二步骤在本文中称为“波动”,其包含“向上波动”(向基本菌株中添加SNP,第一步骤)和“向下波动”(从工业菌株中去除SNP,第二步骤)。波动概念延伸到SNP的进一步添加/去除。
第三,将来自B的所有SNP个别地和/或组合地克隆到基本A菌株中。这将代表最少199种个别转化体。这些转化体的用途是鉴别有益SNP。若干种转化体还充当第一步骤中所产生的转化体的验证数据。
第四,将来自B的所有SNP个别地和/或组合地从商业菌株B中去除。这将代表最少199种个别转化体。这些转化体的用途是鉴别中性和有害SNP。若干种转化体还充当第二步骤中所产生的转化体的验证数据。
第五,将C独有(即,也不存在于B中)的所有SNP个别地和/或组合地克隆到商业B菌株中。这将代表最少46种个别转化体。这些转化体的用途是鉴别有益SNP。若干种转化体还充当第一和第三步骤中所产生的转化体的验证数据。
第六,将C独有的所有SNP个别地和/或组合地从商业菌株C中去除。这将代表最少46种个别转化体。这些转化体的用途是鉴别中性和有害SNP。若干种转化体还充当第二和第四步骤中所产生的转化体的验证数据。
使用从这些步骤中的每一个收集的数据将每种SNP初步分类为有益、中性或有害的。
C.利用上位定位确定有益SNP组合
通过本发明的上位定位方法对实例2的部分B中所鉴别的有益SNP进行分析,以便鉴别出当组合时可能会改良宿主性能的SNP。
使用实例1的工程改造方法产生经工程改造的新菌株变异体以根据上位定位预测测试SNP组合。SNP合并可以依序发生,或者可以跨越多个分支发生,使得超过一种改良菌株可以存在有益SNP的子集。SNP合并将在多轮菌株改良中持续,直到产生含有有益SNP的最佳组合而无任何中性或有害SNP包袱的最终菌株为止。
实例3:HTP基因组工程-建构SNP交换文库以改良棒状杆菌在赖氨酸产量方面的菌株性能
这个实例提供了实例2的SNP交换HTP设计菌株改良程序的一部分的说明性实施方案,目标是改良棒状杆菌生产赖氨酸的生产产量和生产率。
这个实例的章节B进一步说明了本发明的HTP菌株改良程序的突变合并步骤。所述实例因此提供本发明的HTP菌株改良方法的第一、第二和第三轮合并的实验结果。
第二和第三轮合并中的突变来源于单独的基因文库交换。这些结果因此也说明了HTP菌株程序执行多分支并行追踪的能力,且有益突变的“存储器”可以嵌入与本发明的基因设计文库的各种形式相关的元数据中。
如上文所述,对所提供的基本参考菌株(菌株A)和第二种“经工程改造”的菌株(菌株C)的基因组进行测序,且鉴别出所有基因差异。基本菌株是尚未经历UV突变诱发的谷氨酸棒状杆菌变异体。经工程改造的菌株也是谷氨酸棒状杆菌菌株,其已由基本菌株在数轮传统突变改良程序之后产生。这个实例提供了菌株A与C之间所鉴别的186种不同的非同义SNP差异的SNP交换结果。
A.HTP工程和高通量筛选
根据本发明的克隆和转化方法,将186种已鉴别的SNP中的每一种个别地添加回到基本菌株中。针对在为了评估产物效价性能而设计的小规模培养中的赖氨酸产量来测试新产生的包含单一SNP的每种菌株。使用工业规模培养用的培养基进行小规模培养。利用标准比色分析,在碳耗竭的情况下对产物效价进行光学测量(即,代表单一分批产量)。简单来说,制备浓缩的分析混合物且添加到发酵样品中,使得试剂的最终浓度是160mM磷酸钠缓冲液、0.2mM安普莱荧光红(Amplex Red)、0.2U/mL辣根过氧化酶和0.005U/mL赖氨酸氧化酶。允许反应进行到终点且使用Tecan M1000盘光谱仪在560nm波长下测量光学密度。实验结果总结于下表8中且描绘于图38中。
表8-针对赖氨酸产量的SNP交换菌株工程改造结果的总结
Figure BDA0002391987010001021
Figure BDA0002391987010001031
Figure BDA0002391987010001041
Figure BDA0002391987010001051
Figure BDA0002391987010001061
Figure BDA0002391987010001071
B.第二轮HTP工程和高通量筛选-将SNP交换文库与所选PRO交换选中合并
本发明HTP方法的力量之一是其能够将HTP基因设计文库连同与每种SNP/启动子/终止子/起始密码子对宿主细胞表型的影响有关的信息一起存储。本发明人此前已进行过启动子交换实验,所述启动子交换实验已鉴别出谷氨酸棒状杆菌中的对生物合成产量有积极影响的若干种zwf启动子交换(参见例如图22中的关于目标“N”的结果)。
本发明人将这个实例的基本菌株A改造成也包括实例5中的此前所鉴别的zwf启动子交换之一。将上述初始筛选中所鉴别的表8中的前176种SNP再引入这种新基本菌株中以产生新的SNP交换基因设计微生物文库。如同前一步骤,针对赖氨酸产量来测试新产生的包含单一SNP的每种菌株。也通过使用上述比色方法测量24小时时的赖氨酸产量来测试所选SNP突变型菌株的生产率指标。此步骤的结果总结于下表9中且描绘于图39中。
表9-根据赖氨酸产量、针对SNP交换菌株工程的第二轮筛选
Figure BDA0002391987010001081
Figure BDA0002391987010001091
Figure BDA0002391987010001101
Figure BDA0002391987010001111
Figure BDA0002391987010001121
此第二轮SNP交换的结果鉴别出了若干SNP,在包含zwf启动子交换突变的基本菌株中,所述SNP能够提高基本菌株的赖氨酸产量和生产率(参见例如图39右上方拐角的SNP084和SNP 121)。
C.槽培养物验证
上述HTP步骤期间所鉴别的含有最佳SNP的菌株在中等尺寸的测试发酵槽中培养。简单来说,使每种菌株的100ml少量培养物生长过夜,且接着用于将等量接种物接种于测试发酵槽的5升培养液中。根据OD600测量,接种物经归一化而含有相同的细胞密度。
所引起的槽培养允许进行3天,随后收获。利用在发酵期间的不同时点从槽中所取的样品中的底物和产物效价来计算产量和生产率测量值。使用适当标准,通过高压液相色谱来分析样品中的特定小分子浓度。此实验的结果总结于下表10中且描绘于图40中。
表10-SNP交换微生物的槽验证
Figure BDA0002391987010001131
如通过小规模高通量培养所预测,相对于基本参考菌株,包含zwf启动子交换与SNP121组合的菌株的更大槽培养物展现产量和生产率的显著增加。相较于基本菌株的3.29g/L/h生产率,这种菌株的生产率例如跃升到4.5g/L/h(在仅2轮的SNP交换中,生产率增加37.0%)。
实例4:HTP基因组工程-建构启动子交换文库以改良工业微生物菌株
前述实例已经证明了本发明的HTP菌株改良程序修复工业菌株的能力。实例2和3描述了SNP交换技术和文库的建构,从而探究各种基本、中间和工业菌株内的现有基因多样性。
这个实例说明了使用本发明的PRO交换技术进行HTP菌株改良程序的实施例。不同于实例3,这个实例教示了通过PRO交换文库产生法从头产生突变的方法。
A.鉴别用于启动子交换的目标
正如前述,启动子交换是多步骤方法,其包含选择一组“n”个基因作为目标的步骤。
在这个例子中,本发明人已鉴别出可通过本发明的启动子梯方法调节的一组23种潜在途径基因(在产生分子赖氨酸的示例性代谢途径中,19种基因过度表达且4+种转向基因下调)。(参见图19)。
B.产生启动子梯
实施启动子交换方法中的另一步骤是选择一组“x”个启动子充当“梯”。理想的是,这些启动子已经表明可引起跨越多个基因组基因座的高度可变表达,但唯一要求是其以某种方式扰动基因表达。
在特定实施例中,这些启动子梯如下创建:鉴别与所关注的靶基因相关的天然、原生或野生型启动子且接着使所述启动子发生突变以衍生出多种突变的启动子序列。测试这些突变启动子中的每一种对靶基因表达的影响。在一些实施例中,测试所编辑的启动子跨越多种条件的表达活性,以便记录/表征/注释每种启动子变异体的活性且存储于数据库中。随后将所得经编辑的启动子变异体组织成基于其表达强度而排列的梯(例如高表达性变异体靠近顶部,且减弱的表达靠近底部,因此产生术语“梯”)。
在本发明的示例性实施例中,本发明人已经创建了启动子梯:针对图19中所鉴别的每种靶基因的ORF组合。
C.使来自所述梯的启动子与靶基因关联
实施启动子交换方法中的另一步骤是对各种菌株进行HTP工程改造,所述菌株包含来自启动子梯的与特定靶基因关联的指定启动子。
如果原生启动子存在于靶基因n之前面且其序列已知,那么可以用梯中的x个启动子中的每一个置换原生启动子。当原生启动子不存在或其序列未知时,那么可以将梯中的x个启动子中的每一个插入基因n之前。以此方式构筑菌株文库,其中文库中的每个成员在原本相同的基因背景下是可操作地连接到n目标的x启动子的例子(参见例如图20)。
D.对菌株进行HTP筛选
启动子交换方法中的最后步骤是对前述文库中的菌株进行HTP筛选。所衍生菌株中的每一种代表了在原本相同基因背景下的连接到n目标的x启动子的例子。
在根据一或多种度量标准表征菌株性能的情况下,本发明人通过对每种菌株实施HTP筛选而能够根据所指定的度量标准确定什么样的启动子/靶基因关系最有益(例如优化所关注分子的产量)。参见图20(启动子P1-P8对所关注基因的影响)。
在图19-22所说明的示例性实施例中,本发明人已经使用启动子交换方法优化赖氨酸的产量。上述Pro交换方法的应用描述于下文实例5中。
实例5:HTP基因组工程-建构PRO交换文库以改良菌株生产赖氨酸的性能
下述章节提供了本发明的PRO交换HTP设计菌株改良程序工具的说明性实施方案,如实例4中所述。在这个实例中,对棒状杆菌菌株执行本发明的PRO交换方法以便增加宿主细胞的赖氨酸产量。
A.启动子交换
如实例4中所述执行启动子交换。使用启动子P1-P8靶向选自图19中的赖氨酸生物合成途径的基因用于启动子交换。
B.HTP工程和高通量筛选
如实例1和3中所述执行启动子交换的HTP工程。所得启动子交换菌株的HTP筛选如实例3中所述执行。总共执行145次PRO交换。实验结果总结于下表11中且描绘于图41中。
表11-赖氨酸PRO交换文库的HTP筛选
Figure BDA0002391987010001151
Figure BDA0002391987010001161
Figure BDA0002391987010001171
Figure BDA0002391987010001181
可视化时,启动子交换文库筛选结果用于鉴别与所度量的性能度量标准最紧密相关的基因目标。在这种情况下,基因目标pgi、zwf、ppc、pck、fbp和ddh经鉴别为启动子交换引起产量相对于基本菌株产生大幅增加的基因。
将选自表11的菌株在小培养盘中再培养且如上所述测试赖氨酸产量。此第二筛选的结果提供于图22中。
实例6:上位定位-用于预测有益突变合并的算法工具
这个实例描述了预测建模技术的一个实施例,其用作本发明的HTP菌株改良程序的一部分。首先鉴别出潜在有益突变(通过使用如上文所述的基因设计文库)之后,本发明教示了在第二轮、第三轮、第四轮和随后额外多轮HTP菌株改良中合并有益突变的方法。在一些实施例中,本发明教示了突变合并可以基于所述突变中的每一种的个别性能。在其它实施例中,本发明教示了预测两个或更多个突变的可能性的方法,所述突变如果合并到单一宿主细胞中将展现叠加或协同效应。下述实例说明了本发明的预测工具的一个实施例。
对选自实例3和5的SNP交换和启动子交换(PRO交换)文库的突变进行分析以鉴别最可能引起菌株宿主性能改良的SNP/PRO交换组合。
如本发明的“上位定位”章节中所述,使用余弦相似度矩阵对SNP交换文库序列进行互相比较。分析结果产生了每种SNP/PRO交换组合的功能相似度分数。所有SNP/PRO交换间的功能相似度的视觉表示描绘于图15的热图中。所得功能相似度分数还用于呈现描绘每一种SNP/PRO交换之间的相似度距离的树状图(图16A)。
相同或相似功能组的突变(即,功能相似度高的SNP/PRO交换)更可能通过相同机理来运作,且从而在组合时更可能对总体宿主性能展现负或中性上位效应。相比之下,来自不同功能组的突变更可能通过独立机理来运作,且从而更可能对宿主性能产生有益的叠加或组合效应。
为了说明生物学途径对上位的影响,将展现各种功能相似度的SNP和PRO交换进行组合且针对宿主菌株进行测试。将三种SNP/PRO交换组合如实例1中所述工程改造到谷氨酸棒状杆菌的基因组中:i)Pcg0007::zwf PRO交换+Pcg1860::pyc PRO交换;ii)Pcg0007::zwf PRO交换+SNP 309;以及iv)Pcg0007::zwf PRO交换+Pcg0007::lysA PRO交换(关于功能相似度关系,参见图15和16A)。
含有SNP/PRO交换组合的每一种宿主细胞的性能如实例3中所述加以测试,且与仅含有zwf PRO交换的对照宿主细胞的性能加以比较。下文表12和13总结了每一种所述菌株的宿主细胞产量(96小时测量值)和生产率(24小时测量值)结果。
表12-上位定位实验在24小时时的赖氨酸累计
SNP/PRO交换 平均赖氨酸(A<sub>560</sub>) 标准差
6318(zwf) 0.51 0.03
8126(zwf+lysA) 0.88 0.06
8156(zwf+pyc) 0.53 0.01
8708(zwf+SNP 309) 0.56 0.00
表13-上位定位实验在96小时时的赖氨酸累计
SNP/PRO交换 平均赖氨酸(A<sub>560</sub>) 标准差
6318(zwf) 0.83 0.01
8126(zwf+lysA) 0.94 0.02
8156(zwf+pyc) 0.83 0.06
每种SNP/PRO交换组合的宿主产量性能结果也描绘于图16B中。具有展现较低功能相似度的SNP/PRO交换组合的宿主菌株胜过其中SNP组合在24小时与96小时测量时均展现较高功能相似度的菌株。
因此,所述上位定位程序适用于预测/规划/告知所设计基因变化的有效和/或积极合并。得自上位定位程序的分析见解能够产生可以指导后续多轮微生物菌株开发的预测规则集。得自上位文库的预测见解可以跨越微生物类型和靶分子类型使用。
实例7:HTP基因组工程-Pro交换突变合并和多因子组合性测试
前述实例已经说明了将少量的预选PRO交换突变与SNP交换文库合并的方法(实例3)。其它实例已经说明了用于选择突变合并的上位方法,所述突变合并最可能产生叠加或协同的有益宿主细胞特性(实例6)。这个实例说明了本发明的HTP方法能够有效地探究巨大解空间,所述解空间由多个基因/基因设计文库组合(例如PRO交换文库×SNP文库或PRO交换文库内的组合)的组合性合并所产生。
在本发明的HTP菌株改良方法的这个说明性应用中,将实例5中的经鉴别对宿主性能具有正效应的启动子交换与原始PRO交换文库以二阶组合方式合并。合并PRO交换突变的决定是基于每种突变对产量或生产率的总体影响,以及两种突变的组合会产生叠加或协同效应的可能性。
举例来说,申请人提及了其基于实例6的上位定位结果选择了组合Pcg0007::zwf和Pcg0007::lysA。
A.PRO交换菌株工程改造中的合并轮回
菌株如前述实例1中所述进行转化。简单来说,已经含有一个所期望PRO交换突变的菌株再次用第二个所期望PRO交换突变转化。将实例5中的总共145个已测试的PRO交换合并到53种第二轮合并的菌株中,所述菌株各自包含预期可展现有益叠加或协同效应的两个PRO交换突变。
所得第二轮菌株再次如实例3中所述筛选。此实验的结果总结于下表14中,且描绘于图11中。
表14-对第二轮合并的赖氨酸PRO交换文库进行的HTP筛选
Figure BDA0002391987010001211
Figure BDA0002391987010001221
如利用上位模型所预测,包含Pcg0007::zwf和Pcg0007::lysA突变的第二轮PRO交换菌株展现了最高产量改良之一,其中产量相对于单独Pcg0007::lysA改良近似30%,且相对于基本菌株改良35.5%(参见图11中的带圆圈数据点)。
用于探究单一和双重合并突变的解空间的HTP方法还能够应用于第三轮、第四轮和后续突变合并。还关注例如所公开的对应于zwf、pyc和lysa的3变化合并菌株,其获自如上述表14所示且如利用本发明的上位方法所鉴别的2变化合并中所鉴别的最佳选中。此3变化合并菌株在槽中进一步验证,相较于亲代或亲代+zwf明显改良(参见上述表10,和图40)。
实例8:HTP基因组工程-建构终止子文库以改良工业宿主菌株
本实例将本发明的HTP方法应用于其它HTP基因设计文库,包括STOP交换。所述实例进一步说明了本发明能够将来自基本基因设计文库(例如PRO交换、SNP交换、STOP交换等)的元件组合以创建更复杂的基因设计文库(例如PRO-STOP交换文库,其并有启动子和终止子)。在一些实施例中,本发明教示了任何和所有可能的基因设计文库,包括来源于此前公开的任何基因设计文库的组合的那些文库。
在这个实例中,进行小规模实验以证明本发明的STOP交换方法对基因表达的影响。本发明的终止子T1-T8与如下文所述的两种原生谷氨酸棒状杆菌启动子之一成对,且分析其影响萤光蛋白质表达的能力。
A.DNA构筑体的组装
终止子T1-T8与表达黄色荧光蛋白质(YFP)的两种原生谷氨酸棒状杆菌启动子(例如Pcg0007或Pcg0047)之一成对。为了促进DNA扩增和组装,用两个部分合成最终启动子-YFP-终止子序列;第一部分编码(从5'到3')i)载体同源臂、ii)所选启动子和iii)2/3的YFP基因。第二部分编码(从5'到3')iv)接下来2/3的YFP基因、v)所选终止子和vi)第二个载体同源臂。每个部分使用合成寡核苷酸扩增且使用凝胶提纯。使用酵母同源重组将经凝胶提纯的扩增子与载体主链组装在一起。
B.已组装的克隆转化到大肠杆菌中
含有启动子-YFP-终止子序列的载体各自个别地转化到大肠杆菌中,以便鉴别正确组装的克隆,以及扩增载体DNA用于棒状杆菌转化。正确组装的载体通过限制酶消化和桑格法测序来证实。阳性克隆在-20℃储存供将来使用。
C.已组装的克隆转化到棒状杆菌中
经验证的载体克隆通过电穿孔个别地转化到谷氨酸棒状杆菌宿主细胞中。每种载体经设计可整合到谷氨酸棒状杆菌基因组内的中性整合位点中,所述整合位点凭经验确定以允许异源黄色荧光蛋白质表达,但对宿主细胞无害。为了促进整合,表达载体进一步包含与所期望整合位点同源的约2kbp序列(即,同源臂),借此将上述每个基因盒插入同源臂的下游。整合到基因组中是通过单一互换型整合来发生。接着通过PCR测试所转化棒状杆菌的正确整合。针对每种基因构筑体进行的每次转化均重复此程序。
D.评估棒状杆菌中的个别终止子构筑体
接着测试含有启动子-YFP-终止子构筑体的每种棒状杆菌转化体在两种类型的培养基(脑心浸液-BHI培养基和HTP测试培养基)中、在两个时间点的表型以便评估表达。简单来说,选择四到六种经PCR证实的转化体且在96孔格式中在选择性培养基中培育。接着将初始培养物分成选择性BHI培养基或选择性种子培养基。在48小时时,将种子培养基中的培养物接种到选择性HTP测试培养基或BHI培养基中且在代表生长曲线的不同部分的两个时间点加以分析。HTP测试培养基培养物的时间点是接种之后的48和96小时。选择性BHI培养基中的培养物是在接种之后的48和72小时加以分析。
培养物的分析是使用台式流式细胞仪执行。简单来说,培养物在200μl磷酸盐缓冲盐水(PBS)中1:100稀释。对于每种培养物来说,分析3000到5000个个别事件(即,细胞)的黄色荧光。台式流式细胞仪绘制了每个“事件”的黄色荧光直方图且计算每个孔内的中值荧光。图36描绘了每种构筑体(跨越4-6次生物学复制)的中值荧光的平均值。误差条表示每个数据点的95%置信区间。条件A-D各自指单一培养基和单一时间点。因此,条件A和B代表了BHI培养基的两个时间点,而C和D点代表了HTP测试培养基的两个时间点。应注意,任意单位(例如AU)表示台式流式细胞仪所记录的中值荧光。
结果表明,STOP交换基因设计文库中的终止子1-8引起了一系列连续的YFP表达。这些终止子从而形成能够根据本发明的HTP方法建构到未来基因设计文库中的终止子梯。
实例9:对HTP工具集与传统UV突变进行比较
这个实例证明了本发明的HTP基因设计文库相对于传统突变型菌株改良程序的效益。本说明书的这个部分中的实验对通过本发明HTP方法所实现的表型改良的量值和速度相对于传统UV突变诱发的改善进行了量化。
本发明教示了加快宿主细胞的菌株改良程序的新方法。在一些实施例中,本发明的HTP菌株改良程序依赖于HTP工具集产生和鉴别基因扰动的能力。本发明人尝试着通过执行小型并行追踪菌株改良程序来量化HTP工具集的效益,所述并行追踪菌株改良程序将本发明的启动子交换技术相对于传统UV突变方法进行了比较。
选择产生所关注的生物化学代谢物的基本参考菌株作为UV与启动子交换基因扰动的起点。
A.UV突变
使基本菌株培养物在BHI培养基中、在OD相对于10的OD600归一化的培养液中生长。将此培养物等分到无菌皮氏培养皿(petri dish)中且使用小磁性搅拌棒搅拌。接着将254nm波长的紫外透射仪(UV trans illuminator)倒置在培养物上且在UV曝光的5和9分钟获取等分试样。这些样品连续10倍稀释且将每种稀释液涂铺到BHI培养基Q托盘上。使用自动化菌落挑选设备从这些Q托盘中挑选出得自每种UV曝光点的约2500个菌落且如下评估性能。
B.启动子交换
使用选自表1所述的P1、P3、P4和P8的所有启动子或启动子子集,在基本菌株中产生针对15种基因目标的PRO交换构筑体。所关注产物的生物合成的最终步骤是由使用潜在速率限制性辅因子S-腺苷甲硫氨酸的O-甲基转移酶催化。PRO交换的基因目标因此是基于其直接涉及此辅因子或上游代谢物的生物合成而选择。
C.UV和启动子交换文库评估
根据产生所选生物分子的能力,对这个实例所开发的每种棒状杆菌菌株的表型进行测试。简单来说,选择每种PRO交换菌株的四到六种序列已证实菌落和每种UV菌株的单一菌落且在96孔格式中在生产液体培养基中繁殖。
在96孔微孔盘中进行生物质繁殖之后,将细胞块添加到96孔微孔盘中的含底物发酵培养基中且允许生物转化进行24小时。使用高效液相色谱法测定24小时时所取样品中的每种菌株的产物效价。分析每种基因扰动(UV和PRO交换)的效价结果。求每次重复实验的结果的平均值且指定代表所述菌株的总体性能。接着基于每种突变对实测产量的影响将菌株分类,所述实测产量用相对于基本菌株产量的比率表示。
图37总结了这个实验的结果,其呈现为每种菌株改良技术用的菌株数目,所述结果引起:i)产量不变、ii)产量提高1.2到1.4倍、iii)产量提高1.4到1.6倍、iv)产量提高1.6到1.8倍,或v)产量提高1.8到2倍。
结果说明了本发明的HTP工具集相对于传统UV突变诱发方法的效益。举例来说,图37的结果证明PRO交换菌株展现了产量积极变化的速率较高,且因此更可能提供可以明显改良菌株的突变。最惊人的是高度改良菌株的发生率高,PRO交换文库展示1.6、1.8和2倍增加,而UV文库的经鉴别改良很少直到没有。
结果重要的原因也是其突显了本发明的PRO交换方法的改良速率加快。的确,PRO交换文库的结果是基于小于100个启动子::基因扰动,而UV突变结果包括逾4,000种不同突变型菌株的筛选。因此,本发明的方法大幅度减少了在鉴别出能够赋予菌株高性能增益的基因扰动之前必须筛选的突变体数目。
实例10:HTP工程改造方法在真核生物中的应用
前述实例说明了HTP菌株改良程序对原核生物细胞的应用。这个实例证明了相同技术对真核细胞的适用性。具体地说,实例10和11描述了用于工业生产柠檬酸的黑曲霉的SNP交换菌株改良程序。
A.黑曲霉原生质体形成和转化
使用含有β-葡聚糖酶活性的市售酶混合物产生大体积(500ml)的真核真菌菌株黑曲霉ATCC 1015的原生质体。通过离心从酶混合物中分离出原生质体且最终再悬浮于含有氯化钙的缓冲液中。
将原生质体等分试样且在含有二甲亚砜和聚乙二醇(PEG)的悬浮液的容器中、在负80摄氏度下冷冻。在一些实施例中,本发明教示了可以在96孔微量滴定盘的每个孔中制备含有25-50微升原生质体的储备液且大批量冷冻以便使用此技术进行大规模基因组编辑活动。
利用自动化液体处理器执行传统的PEG钙介导转化,所述液体处理器将DNA与原生质体-PEG混合物合并于96孔中。转化之后,使用额外的自动化液体处理步骤将转化体涂铺于选择性培养基上。
B.转化体的自动化筛选
如下文较详细论述,黑曲霉细胞已用功能性pyrG基因转化,其允许已转化的细胞在缺乏尿嘧啶的情况下生长。这个实例的pyrG基因经进一步设计可并入黑曲霉的野生型aygA基因位置,从而将突变并入天然存在的aygA基因中。分裂aygA基因进一步产生了黄色孢子颜色,从而得到鉴别转化体的第二种筛选方法。
将在不含尿嘧啶的选择性培养基上生长的转化体分离且放置于第二个微量滴定盘的个别孔中。第二个微量滴定盘中的转化体允许生长且孢子化2-3天,随后再悬浮于由水和少量清洁剂组成的液体中,以产生适于储存和下游自动化筛选的孢子储备液。
接着使用前述孢子储备液中的每一种的少量等分试样接种到第三个96孔PCR盘的液体培养基中。这些少量培养物允许在固定培育箱中生长过夜,以便含有黄色色素的孢子发芽且形成更顺应于选择和下游步骤的菌丝。
培养步骤之后,通过添加市售缓冲液和历时20分钟将培养物加热到99摄氏度来溶解第三PCR盘中的菌丝。接着将盘离心以将DNA悬浮液上清液与细胞/细胞器集结粒分离。接着利用DNA萃取物进行PCR分析以鉴别包含所期望DNA修饰的细胞系。
C.用于整合SNP的共转化-SNP的设计
获得黑曲霉基因aygA的DNA序列且测定正确的阅读框架。设计四种不同类型的突变,若整合则会产生无效突变。
突变包括单一碱基对变化,所述单一碱基对变化并有同框终止密码子、少数的两个碱基对缺失、三碱基对整合和较大的100个碱基对缺失,所有这些若正确整合,则会消除aygA活性。缺乏aygA活性的菌株具有黄色孢子表型。产生计算机模拟构筑体形式的设计,其预测了一组寡聚物,使用吉布森组装法、使用所述寡聚物可建构构筑体。
D.通过共转化来整合SNP
使用上述转化方法,将含有少量变化的扩增子并入黑曲霉菌株1015的基因组中。如此前论述,黑曲霉的这种菌株包含非功能性pyrG基因,且因此不能够在缺乏外源尿嘧啶的情况下生长。已经成功地整合pyrG基因的细胞现在能够在缺乏尿嘧啶的情况下生长。在这些pyrG+转化体中,aygA基因中也整合有小突变的分离株展现了黄色孢子表型。(图43A)。通过对含有SNP交换所靶向的区域的小扩增子测序也检测到了突变的存在(图43B)。
实例11:HTP基因组工程-实施HTP SNP文库菌株改良程序以改良真核生物黑曲霉ATCC11414的柠檬酸产量
上述实例10描述了按照高通量方式自动化执行本发明基因工程技术的技术。这个实例将上述技术应用于黑曲霉菌株ATCC11414的特定HTP菌株改良。
黑曲霉是通过发酵大规模生产柠檬酸所用的丝状真菌菌种。已经分离出此菌种的多种菌株且已表明具有生产柠檬酸和其它有机酸的不同能力。本发明的HTP菌株工程改造方法可以用于组合致病等位基因和消除有害的等位基因以改良柠檬酸生产。
A.利用天然黑曲霉菌株变异体鉴别SNP的一组基因设计文库.
黑曲霉菌株ATCC 1015经鉴别为二十世纪早期的柠檬酸生产菌株。随后发现命名为ATCC 11414的此菌株的分离株展现的柠檬酸产量相对于其亲代增加。举例来说,黑曲霉菌株ATCC 1015在含有硝酸铵、但缺乏铁和锰阳离子的培养基中利用140克葡萄糖平均产生7克柠檬酸。另一方面,分离株菌株ATCC 11414在相同条件下展现10倍的产量增加(70克柠檬酸)。此外,菌株ATCC 11414孢子在柠檬酸生产培养基中的发芽和生长比菌株1015的孢子更佳。
为了鉴别这些表型差异的潜在基因来源,对ATCC 1015与ATCC 11414菌株的基因组进行测序和分析。所得分析鉴别出将1015和11414菌株区分开来的42种SNP。
B.交换致病等位基因
由菌株ATCC 1015(“基本菌株”)制备原生质体用于转化。接着将上文鉴别的42种SNP中的每一种通过本发明的基因编辑技术个别地引入基本菌株中(“向上波动”,图44A)。每种SNP与功能性pyrG和aygA基因突变一起共转化,如上文所述。使基因成功靶向aygA基因座的转化体产生了黄色孢子(图44B)。
C.为了成功整合而进行筛选
分离出含有推定SNP的转化体且繁殖孢子储备液,如上所述。利用下一代测序来分析含有含推定SNP的DNA区域的扩增子。使用此方法可以测定每种转化体内的成功整合事件,即使在亲代DNA存在下。此能力是决定在真菌中靶向目标所必需的,所述真菌可以如同所含核的基因型与相同细胞不同的异核体那样生长。
进一步验证转化体的所期望SNP变化的存在。具有黄色孢子表型的共转化体也含有柠檬酸SNP在约30%分离株中的正确整合(图45和46)。
本发明人预期可按照表型筛选所创建的SNP交换微生物菌株文库,以便鉴别出有益于生产柠檬酸的SNP。本发明人将在本文所述的HTP基因组工程改造方法的背景下使用此信息衍生出柠檬酸产量增加的黑曲霉菌株。
本发明的其它实施例
本发明涵盖的其它标的物阐明于以下被编号的实施例中:
1.一种使微生物进化以获得所期望表型的高通量(HTP)基因组工程改造方法,包含:
a.扰动多种具有相同微生物菌株背景的初始微生物的基因组,借此创建包含具有独特基因变异的个别微生物菌株的初始HTP基因设计微生物菌株文库;
b.根据所述所期望表型来筛选和选择所述初始HTP基因设计微生物菌株文库中的个别微生物菌株;
c.提供各自包含基因变异的独特组合的后续多种微生物,所述基因变异选自所述前一步骤中筛选的至少两种个别微生物菌株中所存在的基因变异,借此创建后续HTP基因设计微生物菌株文库;
d.根据所述所期望表型来筛选和选择所述后续HTP基因设计微生物菌株文库中的个别微生物菌株;以及
e.按照线性或非线性方式将步骤c)-d)重复一或多次,直到微生物已经获得所述所期望表型为止,其中每次后续迭代创建了新的HTP基因设计微生物菌株文库,所述新的HTP基因设计微生物菌株文库包含具有独特基因变异的个别微生物菌株,所述独特基因变异是选自前一HTP基因设计微生物菌株文库中的至少两种个别微生物菌株的基因变异的组合。
2.根据实施例1所述的HTP基因组工程改造方法,其中所述初始HTP基因设计微生物菌株文库包含选自由以下组成的群组的至少一种:启动子交换微生物菌株文库、SNP交换微生物菌株文库、起始/终止密码子微生物菌株文库、优化序列微生物菌株文库、终止子交换微生物菌株文库,以及其任何组合。
3.根据实施例1到2中任一例所述的HTP基因组工程改造方法,其中所述后续HTP基因设计微生物菌株文库是所述初始HTP基因设计微生物菌株文库的完整组合性微生物菌株文库。
4.根据实施例1到2中任一例所述的HTP基因组工程改造方法,其中所述后续HTP基因设计微生物菌株文库是所述初始HTP基因设计微生物菌株文库的完整组合性微生物菌株文库的子集。
5.根据实施例1到2中任一例所述的HTP基因组工程改造方法,其中所述后续HTP基因设计微生物菌株文库是前一HTP基因设计微生物菌株文库的完整组合性微生物菌株文库。
6.根据实施例1到5中任一例所述的HTP基因组工程改造方法,其中所述后续HTP基因设计微生物菌株文库是前一HTP基因设计微生物菌株文库的完整组合性微生物菌株文库的子集。
7.根据实施例1到5中任一例所述的HTP基因组工程改造方法,其中扰动所述基因组包含利用至少一种选自由以下组成的群组的方法:随机突变诱发、靶向序列插入、靶向序列缺失、靶向序列置换,以及其任何组合。
8.根据实施例1到6中任一例所述的HTP基因组工程改造方法,其中所述多种初始微生物包含来源于工业生产菌株微生物的独特基因变异。
9.根据实施例1到6中任一例所述的HTP基因组工程改造方法,其中所述多种初始微生物包含工业生产菌株微生物,表示为S1Gen1;和来源于其的任何数目个后代微生物,表示为SnGenn
10.一种产生SNP交换微生物菌株文库的方法,包含以下步骤:
a.提供参考微生物菌株和第二微生物菌株,其中所述第二微生物菌株包含选自单核苷酸多态性、DNA插入和DNA缺失的多种已鉴别基因变异,所述基因变异不存在于所述参考微生物菌株中;以及
b.扰动所述参考微生物菌株或所述第二微生物菌株的基因组,借此创建包含多种个别微生物菌株的初始SNP交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特基因变异,其中所述独特基因变异中的每一种对应于选自所述参考微生物菌株与所述第二微生物菌株之间的所述多种已鉴别基因变异中的单一基因变异。
11.根据实施例10所述的产生SNP交换微生物菌株文库的方法,其中扰动所述参考微生物菌株的所述基因组以添加所述第二微生物菌株中所发现的所述已鉴别单核苷酸多态性、DNA插入或DNA缺失中的一或多种。
12.根据实施例10所述的产生SNP交换微生物菌株文库的方法,其中扰动所述第二微生物菌株的所述基因组以去除所述参考微生物菌株中未发现的所述已鉴别单核苷酸多态性、DNA插入或DNA缺失中的一或多种。
13.根据实施例10到12中任一例所述的产生SNP交换微生物菌株文库的方法,其中所得所述多种具有独特基因变异的个别微生物菌株一起组成所述参考微生物菌株与所述第二微生物菌株之间的所有所述已鉴别基因变异的完整组合性文库。
14.根据实施例10到12中任一例所述的产生SNP交换微生物菌株文库的方法,其中所得所述多种具有独特基因变异的个别微生物菌株一起组成所述参考微生物菌株与所述第二微生物菌株之间的所有所述已鉴别基因变异的完整组合性文库的子集。
15.一种用于修复和改良工业微生物菌株的表型性能的方法,包含以下步骤:
a.提供亲代谱系微生物菌株和由其衍生的工业微生物菌株,其中所述工业微生物菌株包含选自单核苷酸多态性、DNA插入和DNA缺失的多种已鉴别基因变异,所述基因变异不存在于所述亲代谱系微生物菌株中;
b.扰动所述亲代谱系微生物菌株或所述工业微生物菌株的基因组,借此创建包含多种个别微生物菌株的初始SNP交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特基因变异,其中所述独特基因变异中的每一种对应于选自所述亲代谱系微生物菌株与所述工业微生物菌株之间的所述多种已鉴别基因变异;
c.根据相对于参考微生物菌株的表型性能改良来筛选和选择所述初始SNP交换微生物菌株文库中的个别微生物菌株,借此鉴别出赋予所述个别微生物菌株表型性能改良的独特基因变异;
d.提供各自包含基因变异的独特组合的后续多种微生物,所述基因变异选自所述前一步骤中筛选的至少两种个别微生物菌株中所存在的基因变异,借此创建后续SNP交换微生物菌株文库;
e.根据相对于所述参考微生物菌株的表型性能改良来筛选和选择所述后续SNP交换微生物菌株文库中的个别微生物菌株,借此鉴别出赋予所述微生物菌株额外表型性能改良的基因变异的独特组合;以及
f.按照线性或非线性方式将步骤d)-e)重复一或多次,直到微生物菌株展现的表型性能相较于所述工业微生物菌株的所述表型性能的改良达到所期望的水平为止,其中每次后续迭代创建了包含具有独特基因变异的个别微生物菌株的新SNP交换微生物菌株文库,所述独特基因变异是选自前一SNP交换微生物菌株文库中的至少两种个别微生物菌株的基因变异的组合。
15.1.根据实施例15所述的用于修复和改良工业微生物菌株的表型性能的方法,其中所述已鉴别的基因变异进一步包含来自启动子交换文库的人工启动子交换基因变异。
16.根据实施例15到15.1中任一例所述的用于修复和改良工业微生物菌株的表型性能的方法,其中所得所述多种具有独特基因变异的个别微生物菌株一起组成所述参考微生物菌株与所述第二微生物菌株之间的所有所述已鉴别基因变异的完整组合性文库。
17.根据实施例15到15.1中任一例所述的用于修复和改良工业微生物菌株的表型性能的方法,其中所得所述多种具有独特基因变异的个别微生物菌株一起组成所述参考微生物菌株与所述第二微生物菌株之间的所有所述已鉴别基因变异的完整组合性文库的子集。
18.根据实施例15到17中任一例所述的用于修复和改良工业微生物菌株的表型性能的方法,其中所得所述后续多种具有基因变异独特组合的个别微生物菌株一起组成所述前一步骤中筛选的所述个别微生物菌株中所存在的所有所述基因变异的完整组合性文库的子集。
19.根据实施例15到18中任一例所述的用于修复和改良工业微生物菌株的表型性能的方法,其中扰动所述亲代谱系微生物菌株的所述基因组以添加所述工业微生物菌株中发现的所述已鉴别单核苷酸多态性、DNA插入或DNA缺失中的一或多种。
20.根据实施例15到18中任一例所述的用于修复和改良工业微生物菌株的表型性能的方法,其中扰动所述工业微生物菌株的所述基因组以去除所述亲代谱系微生物菌株中未发现的所述已鉴别单核苷酸多态性、DNA插入或DNA缺失中的一或多种。
21.一种产生启动子交换微生物菌株文库的方法,所述方法包含以下步骤:
a.提供内源于基本微生物菌株的多种靶基因,和启动子梯,其中所述启动子梯包含在所述基本微生物菌株中展现不同表达谱的多种启动子;以及
b.对所述基本微生物菌株的所述基因组进行工程改造,借此创建包含多种个别微生物菌株的初始启动子交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特的基因变异,其中所述独特基因变异中的每一种包含可操作地连接到所述基本微生物菌株内源性靶基因之一的来自所述启动子梯的一或多种启动子。
22.一种使微生物进化以获得所期望表型的启动子交换基因组工程改造方法,所述方法包含以下步骤:
a.提供内源于基本微生物菌株的多种靶基因,和启动子梯,其中所述启动子梯包含在所述基本微生物菌株中展现不同表达谱的多种启动子;
b.对所述基本微生物菌株的所述基因组进行工程改造,借此创建包含多种个别微生物菌株的初始启动子交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特的基因变异,其中所述独特基因变异中的每一种包含可操作地连接到所述基本微生物菌株内源性靶基因之一的来自所述启动子梯的一或多种启动子;
c.根据所述所期望表型来筛选和选择所述初始启动子交换微生物菌株文库中的个别微生物菌株;
d.提供各自包含基因变异独特组合的后续多种微生物,所述基因变异选自所述前一步骤中筛选的至少两种个别微生物菌株中所存在的基因变异,借此创建后续启动子交换微生物菌株文库;
e.根据所述所期望表型来筛选和选择所述后续启动子交换微生物菌株文库中的个别微生物菌株;以及
f.按照线性或非线性方式将步骤d)-e)重复一或多次,直到微生物已经获得所述所期望表型为止,其中每次后续迭代创建了新的启动子交换微生物菌株文库,所述新的启动子交换微生物菌株文库包含具有独特基因变异的个别微生物菌株,所述独特基因变异是选自前一启动子交换微生物菌株文库中的至少两种个别微生物菌株的基因变异的组合。
23.根据实施例22所述的使微生物进化以获得所期望表型的启动子交换基因组工程改造方法,其中所得所述后续多种具有基因变异独特组合的个别微生物菌株一起组成所述前一步骤中筛选的所述个别微生物菌株中所存在的所有所述基因变异的完整组合性文库的子集。
23.1.根据实施例22所述的使微生物进化以获得所期望表型的启动子交换基因组工程改造方法,其中所得所述后续多种具有基因变异独特组合的个别微生物菌株一起组成所述前一步骤中筛选的所述个别微生物菌株中所存在的所有所述基因变异的完整组合性文库。
24.一种产生终止子交换微生物菌株文库的方法,所述方法包含以下步骤:
a.提供内源于基本微生物菌株的多种靶基因,和终止子梯,其中所述终止子梯包含在所述基本微生物菌株中展现不同表达谱的多种终止子;以及
b.对所述基本微生物菌株的所述基因组进行工程改造,借此创建包含多种个别微生物菌株的初始终止子交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特的基因变异,其中所述独特基因变异中的每一种包含可操作地连接到所述终止子梯中的一或多种终止子的所述基本微生物菌株内源性靶基因之一。
25.一种使微生物进化以获得所期望表型的终止子交换基因组工程改造方法,所述方法包含以下步骤:
a.提供内源于基本微生物菌株的多种靶基因,和终止子梯,其中所述终止子梯包含在所述基本微生物菌株中展现不同表达谱的多种终止子;
b.对所述基本微生物菌株的所述基因组进行工程改造,借此创建包含多种个别微生物菌株的初始终止子交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特的基因变异,其中所述独特基因变异中的每一种包含可操作地连接到所述终止子梯中的一或多种终止子的所述基本微生物菌株内源性靶基因之一;
c.根据所述所期望表型来筛选和选择所述初始终止子交换微生物菌株文库中的个别微生物菌株;
d.提供各自包含基因变异独特组合的后续多种微生物,所述基因变异选自所述前一步骤中筛选的至少两种个别微生物菌株中所存在的基因变异,借此创建后续终止子交换微生物菌株文库;
e.根据所述所期望表型来筛选和选择所述后续终止子交换微生物菌株文库中的个别微生物菌株;以及
f.按照线性或非线性方式将步骤d)-e)重复一或多次,直到微生物已经获得所述所期望表型为止,其中每次后续迭代创建了新的终止子交换微生物菌株文库,所述新的终止子交换微生物菌株文库包含具有独特基因变异的个别微生物菌株,所述独特基因变异是选自前一终止子交换微生物菌株文库中的至少两种个别微生物菌株的基因变异的组合。
26.根据实施例25所述的使微生物进化以获得所期望表型的终止子交换基因组工程改造方法,其中所得所述后续多种具有基因变异独特组合的个别微生物菌株一起组成所述前一步骤中筛选的所述个别微生物菌株中所存在的所有所述基因变异的完整组合性文库的子集。
26.1.根据实施例25所述的使微生物进化以获得所期望表型的终止子交换基因组工程改造方法,其中所得所述后续多种具有基因变异独特组合的个别微生物菌株一起组成所述前一步骤中筛选的所述个别微生物菌株中所存在的所有所述基因变异的完整组合性文库。
27.一种用于使微生物进化以获得所期望表型的高通量(HTP)基因组工程改造系统,所述系统包含:
一或多个处理器;以及
一或多个存储器,其与所述一或多个处理器中的至少一个可操作地耦接且其上存储有指令,所述指令当由所述一或多个处理器中的至少一个执行时促使所述系统:
a.扰动多种具有相同微生物菌株背景的初始微生物的基因组,借此创建包含具有独特基因变异的个别微生物菌株的初始HTP基因设计微生物菌株文库;
b.根据所述所期望表型来筛选和选择所述初始HTP基因设计微生物菌株文库中的个别微生物菌株;
c.提供各自包含基因变异独特组合的后续多种微生物,所述基因变异选自所述前一步骤中筛选的至少两种个别微生物菌株中所存在的基因变异,借此创建后续HTP基因设计微生物菌株文库;
d.根据所述所期望表型来筛选和选择所述后续HTP基因设计微生物菌株文库中的个别微生物菌株;以及
e.按照线性或非线性方式将步骤c)-d)重复一或多次,直到微生物已经获得所述所期望表型为止,其中每次后续迭代创建了新的HTP基因设计微生物菌株文库,所述新的HTP基因设计微生物菌株文库包含具有独特基因变异的个别微生物菌株,所述独特基因变异是选自前一HTP基因设计微生物菌株文库中的至少两种个别微生物菌株的基因变异的组合。
28.一或多种非暂时性计算机可读媒体,其存储了用于使微生物进化以获得所期望表型的指令,其中所述指令当由一或多种计算装置执行时,促使所述一或多种计算装置中的至少一种:
a.扰动多种具有相同微生物菌株背景的初始微生物的基因组,借此创建包含具有独特基因变异的个别微生物菌株的初始HTP基因设计微生物菌株文库;
b.根据所述所期望表型来筛选和选择所述初始HTP基因设计微生物菌株文库中的个别微生物菌株;
c.提供各自包含基因变异独特组合的后续多种微生物,所述基因变异选自所述前一步骤中筛选的至少两种个别微生物菌株中所存在的基因变异,借此创建后续HTP基因设计微生物菌株文库;
d.根据所述所期望表型来筛选和选择所述后续HTP基因设计微生物菌株文库中的个别微生物菌株;以及
e.按照线性或非线性方式将步骤c)-d)重复一或多次,直到微生物已经获得所述所期望表型为止,其中每次后续迭代创建了新的HTP基因设计微生物菌株文库,所述新的HTP基因设计微生物菌株文库包含具有独特基因变异的个别微生物菌株,所述独特基因变异是选自前一HTP基因设计微生物菌株文库中的至少两种个别微生物菌株的基因变异的组合。
29.一种用于产生SNP交换微生物菌株文库的系统,所述系统包含:
一或多个处理器;以及
一或多个存储器,其与所述一或多个处理器中的至少一个可操作地耦接且其上存储有指令,所述指令当由所述一或多个处理器中的至少一个执行时促使所述系统:
a.提供参考微生物菌株和第二微生物菌株,其中所述第二微生物菌株包含选自单核苷酸多态性、DNA插入和DNA缺失的多种已鉴别基因变异,所述基因变异不存在于所述参考微生物菌株中;以及
b.扰动所述参考微生物菌株或所述第二微生物菌株的基因组,借此创建包含多种个别微生物菌株的初始SNP交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特基因变异,其中所述独特基因变异中的每一种对应于选自所述参考微生物菌株与所述第二微生物菌株之间的所述多种已鉴别基因变异中的单一基因变异。
30.一或多种非暂时性计算机可读媒体,其存储了用于产生SNP交换微生物菌株文库的指令,其中所述指令当由一或多种计算装置执行时,促使所述一或多种计算装置中的至少一种:
a.提供参考微生物菌株和第二微生物菌株,其中所述第二微生物菌株包含选自单核苷酸多态性、DNA插入和DNA缺失的多种已鉴别基因变异,所述基因变异不存在于所述参考微生物菌株中;以及
b.扰动所述参考微生物菌株或所述第二微生物菌株的基因组,借此创建包含多种个别微生物菌株的初始SNP交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特基因变异,其中所述独特基因变异中的每一种对应于选自所述参考微生物菌株与所述第二微生物菌株之间的所述多种已鉴别基因变异中的单一基因变异。
31.一种用于修复和改良工业微生物菌株的表型性能的系统,所述系统包含:
一或多个处理器;以及
一或多个存储器,其与所述一或多个处理器中的至少一个可操作地耦接且其上存储有指令,所述指令当由所述一或多个处理器中的至少一个执行时促使所述系统:
a.提供亲代谱系微生物菌株和由其衍生的工业微生物菌株,其中所述工业微生物菌株包含选自单核苷酸多态性、DNA插入和DNA缺失的多种已鉴别基因变异,所述基因变异不存在于所述亲代谱系微生物菌株中;
b.扰动所述亲代谱系微生物菌株或所述工业微生物菌株的基因组,借此创建包含多种个别微生物菌株的初始SNP交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特基因变异,其中所述独特基因变异中的每一种对应于选自所述亲代谱系微生物菌株与所述工业微生物菌株之间的所述多种已鉴别基因变异中的单一基因变异;
c.根据相对于参考微生物菌株的表型性能改良来筛选和选择所述初始SNP交换微生物菌株文库中的个别微生物菌株,借此鉴别出赋予所述微生物菌株表型性能改良的独特基因变异;
d.提供各自包含基因变异独特组合的后续多种微生物,所述基因变异选自所述前一步骤中筛选的至少两种个别微生物菌株中所存在的基因变异,借此创建后续SNP交换微生物菌株文库;
e.根据相对于所述参考微生物菌株的表型性能改良来筛选和选择所述后续SNP交换微生物菌株文库中的个别微生物菌株,借此鉴别出赋予所述微生物菌株额外表型性能改良的基因变异的独特组合;以及
f.按照线性或非线性方式将步骤d)-e)重复一或多次,直到微生物菌株展现的表型性能相较于所述工业微生物菌株的所述表型性能的改良达到所期望的水平为止,其中每次后续迭代创建了包含具有独特基因变异的个别微生物菌株的新SNP交换微生物菌株文库,所述独特基因变异是选自前一SNP交换微生物菌株文库中的至少两种个别微生物菌株的基因变异的组合。
32.一或多种非暂时性计算机可读媒体,其存储了用于修复和改良工业微生物菌株的表型性能的指令,其中所述指令当由一或多种计算装置执行时,促使所述一或多种计算装置中的至少一种:
a.提供亲代谱系微生物菌株和由其衍生的工业微生物菌株,其中所述工业微生物菌株包含选自单核苷酸多态性、DNA插入和DNA缺失的多种已鉴别基因变异,所述基因变异不存在于所述亲代谱系微生物菌株中;
b.扰动所述亲代谱系微生物菌株或所述工业微生物菌株的基因组,借此创建包含多种个别微生物菌株的初始SNP交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特基因变异,其中所述独特基因变异中的每一种对应于选自所述亲代谱系微生物菌株与所述工业微生物菌株之间的所述多种已鉴别基因变异中的单一基因变异;
c.根据相对于参考微生物菌株的表型性能改良来筛选和选择所述初始SNP交换微生物菌株文库中的个别微生物菌株,借此鉴别出赋予所述微生物菌株表型性能改良的独特基因变异;
d.提供各自包含基因变异独特组合的后续多种微生物,所述基因变异选自所述前一步骤中筛选的至少两种个别微生物菌株中所存在的基因变异,借此创建后续SNP交换微生物菌株文库;
e.根据相对于所述参考微生物菌株的表型性能改良来筛选和选择所述后续SNP交换微生物菌株文库中的个别微生物菌株,借此鉴别出赋予所述微生物菌株额外表型性能改良的基因变异的独特组合;以及
f.按照线性或非线性方式将步骤d)-e)重复一或多次,直到微生物菌株展现的表型性能相较于所述工业微生物菌株的所述表型性能的改良达到所期望的水平为止,其中每次后续迭代创建了包含具有独特基因变异的个别微生物菌株的新SNP交换微生物菌株文库,所述独特基因变异是选自前一SNP交换微生物菌株文库中的至少两种个别微生物菌株的基因变异的组合。
33.一种用于产生启动子交换微生物菌株文库的系统,所述系统包含:
一或多个处理器;以及
一或多个存储器,其与所述一或多个处理器中的至少一个可操作地耦接且其上存储有指令,所述指令当由所述一或多个处理器中的至少一个执行时促使所述系统:
a.提供内源于基本微生物菌株的多种靶基因,和启动子梯,其中所述启动子梯包含在所述基本微生物菌株中展现不同表达谱的多种启动子;以及
b.对所述基本微生物菌株的所述基因组进行工程改造,借此创建包含多种个别微生物菌株的初始启动子交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特的基因变异,其中所述独特基因变异中的每一种包含可操作地连接到所述基本微生物菌株内源性靶基因之一的来自所述启动子梯的一或多种启动子。
34.一或多种非暂时性计算机可读媒体,其存储了用于产生启动子交换微生物菌株文库的指令,其中所述指令当由一或多种计算装置执行时,促使所述一或多种计算装置中的至少一种:
a.提供内源于基本微生物菌株的多种靶基因,和启动子梯,其中所述启动子梯包含在所述基本微生物菌株中展现不同表达谱的多种启动子;以及
b.对所述基本微生物菌株的所述基因组进行工程改造,借此创建包含多种个别微生物菌株的初始启动子交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特的基因变异,其中所述独特基因变异中的每一种包含可操作地连接到所述基本微生物菌株内源性靶基因之一的来自所述启动子梯的一或多种启动子。
35.一种通过启动子交换使微生物进化以获得所期望表型的基因组工程改造系统,所述系统包含:
一或多个处理器;以及
一或多个存储器,其与所述一或多个处理器中的至少一个可操作地耦接且其上存储有指令,所述指令当由所述一或多个处理器中的至少一个执行时促使所述系统:
a.提供内源于基本微生物菌株的多种靶基因,和启动子梯,其中所述启动子梯包含在所述基本微生物菌株中展现不同表达谱的多种启动子;
b.对所述基本微生物菌株的所述基因组进行工程改造,借此创建包含多种个别微生物菌株的初始启动子交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特的基因变异,其中所述独特基因变异中的每一种包含可操作地连接到所述基本微生物菌株内源性靶基因之一的来自所述启动子梯的一或多种启动子;
c.根据所述所期望表型来筛选和选择所述初始启动子交换微生物菌株文库中的个别微生物菌株;
d.提供各自包含基因变异独特组合的后续多种微生物,所述基因变异选自所述前一步骤中筛选的至少两种个别微生物菌株中所存在的基因变异,借此创建后续启动子交换微生物菌株文库;
e.根据所述所期望表型来筛选和选择所述后续启动子交换微生物菌株文库中的个别微生物菌株;以及
f.按照线性或非线性方式将步骤d)-e)重复一或多次,直到微生物已经获得所述所期望表型为止,其中每次后续迭代创建了新的启动子交换微生物菌株文库,所述新的启动子交换微生物菌株文库包含具有独特基因变异的个别微生物菌株,所述独特基因变异是选自前一启动子交换微生物菌株文库中的至少两种个别微生物菌株的基因变异的组合。
36.一或多种非暂时性计算机可读媒体,其存储了用于通过启动子交换使微生物进化以获得所期望表型的指令,其中所述指令当由一或多种计算装置执行时,促使所述一或多种计算装置中的至少一种:
a.提供内源于基本微生物菌株的多种靶基因,和启动子梯,其中所述启动子梯包含在所述基本微生物菌株中展现不同表达谱的多种启动子;
b.对所述基本微生物菌株的所述基因组进行工程改造,借此创建包含多种个别微生物菌株的初始启动子交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特的基因变异,其中所述独特基因变异中的每一种包含可操作地连接到所述基本微生物菌株内源性靶基因之一的来自所述启动子梯的一或多种启动子;
c.根据所述所期望表型来筛选和选择所述初始启动子交换微生物菌株文库中的个别微生物菌株;
d.提供各自包含基因变异独特组合的后续多种微生物,所述基因变异选自所述前一步骤中筛选的至少两种个别微生物菌株中所存在的基因变异,借此创建后续启动子交换微生物菌株文库;
e.根据所述所期望表型来筛选和选择所述后续启动子交换微生物菌株文库中的个别微生物菌株;以及
f.按照线性或非线性方式将步骤d)-e)重复一或多次,直到微生物已经获得所述所期望表型为止,其中每次后续迭代创建了新的启动子交换微生物菌株文库,所述新的启动子交换微生物菌株文库包含具有独特基因变异的个别微生物菌株,所述独特基因变异是选自前一启动子交换微生物菌株文库中的至少两种个别微生物菌株的基因变异的组合。
37.一种用于产生终止子交换微生物菌株文库的系统,所述系统包含:
一或多个处理器;以及
一或多个存储器,其与所述一或多个处理器中的至少一个可操作地耦接且其上存储有指令,所述指令当由所述一或多个处理器中的至少一个执行时促使所述系统:
a.提供内源于基本微生物菌株的多种靶基因,和终止子梯,其中所述终止子梯包含在所述基本微生物菌株中展现不同表达谱的多种终止子;以及
b.对所述基本微生物菌株的所述基因组进行工程改造,借此创建包含多种个别微生物菌株的初始终止子交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特的基因变异,其中所述独特基因变异中的每一种包含可操作地连接到所述终止子梯中的一或多种终止子的所述基本微生物菌株内源性靶基因之一。
38.一或多种非暂时性计算机可读媒体,其存储了用于产生终止子交换微生物菌株文库的指令,其中所述指令当由一或多种计算装置执行时,促使所述一或多种计算装置中的至少一种:
a.提供内源于基本微生物菌株的多种靶基因,和终止子梯,其中所述终止子梯包含在所述基本微生物菌株中展现不同表达谱的多种终止子;以及
b.对所述基本微生物菌株的所述基因组进行工程改造,借此创建包含多种个别微生物菌株的初始终止子交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特的基因变异,其中所述独特基因变异中的每一种包含可操作地连接到所述终止子梯中的一或多种终止子的所述基本微生物菌株内源性靶基因之一。
39.一种通过终止子交换使微生物进化以获得所期望表型的基因组工程改造系统,所述系统包含:
一或多个处理器;以及
一或多个存储器,其与所述一或多个处理器中的至少一个可操作地耦接且其上存储有指令,所述指令当由所述一或多个处理器中的至少一个执行时促使所述系统:
a.提供内源于基本微生物菌株的多种靶基因,和终止子梯,其中所述终止子梯包含在所述基本微生物菌株中展现不同表达谱的多种终止子;
b.对所述基本微生物菌株的所述基因组进行工程改造,借此创建包含多种个别微生物菌株的初始终止子交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特的基因变异,其中所述独特基因变异中的每一种包含可操作地连接到所述终止子梯中的一或多种终止子的所述基本微生物菌株内源性靶基因之一;
c.根据所述所期望表型来筛选和选择所述初始终止子交换微生物菌株文库中的个别微生物菌株;
d.提供各自包含基因变异独特组合的后续多种微生物,所述基因变异选自所述前一步骤中筛选的至少两种个别微生物菌株中所存在的基因变异,借此创建后续终止子交换微生物菌株文库;
e.根据所述所期望表型来筛选和选择所述后续终止子交换微生物菌株文库中的个别微生物菌株;以及
f.按照线性或非线性方式将步骤d)-e)重复一或多次,直到微生物已经获得所述所期望表型为止,其中每次后续迭代创建了新的终止子交换微生物菌株文库,所述新的终止子交换微生物菌株文库包含具有独特基因变异的个别微生物菌株,所述独特基因变异是选自前一终止子交换微生物菌株文库中的至少两种个别微生物菌株的基因变异的组合。
40.一或多种非暂时性计算机可读媒体,其存储了用于通过终止子交换使微生物进化以获得所期望表型的指令,其中所述指令当由一或多种计算装置执行时,促使所述一或多种计算装置中的至少一种:
a.提供内源于基本微生物菌株的多种靶基因,和终止子梯,其中所述终止子梯包含在所述基本微生物菌株中展现不同表达谱的多种终止子;
b.对所述基本微生物菌株的所述基因组进行工程改造,借此创建包含多种个别微生物菌株的初始终止子交换微生物菌株文库,所述多种个别微生物菌株的每种菌株内发现有独特的基因变异,其中所述独特基因变异中的每一种包含可操作地连接到所述终止子梯中的一或多种终止子的所述基本微生物菌株内源性靶基因之一;
c.根据所述所期望表型来筛选和选择所述初始终止子交换微生物菌株文库中的个别微生物菌株;
d.提供各自包含基因变异独特组合的后续多种微生物,所述基因变异选自所述前一步骤中筛选的至少两种个别微生物菌株中所存在的基因变异,借此创建后续终止子交换微生物菌株文库;
e.根据所述所期望表型来筛选和选择所述后续终止子交换微生物菌株文库中的个别微生物菌株;以及
f.按照线性或非线性方式将步骤d)-e)重复一或多次,直到微生物已经获得所述所期望表型为止,其中每次后续迭代创建了新的终止子交换微生物菌株文库,所述新的终止子交换微生物菌株文库包含具有独特基因变异的个别微生物菌株,所述独特基因变异是选自前一终止子交换微生物菌株文库中的至少两种个别微生物菌株的基因变异的组合。
41.一种迭代式改良候选微生物菌株设计的计算机实施方法,所述方法包含:
a.访问用训练集填充的预测模型,所述训练集包含(1)代表了相对于一或多种背景微生物菌株的基因变化的输入以及(2)相应性能度量;
b.将测试输入应用于代表基因变化的所述预测模型,所述测试输入对应于并入那些基因变化的候选微生物菌株;
c.至少部分地基于所述预测模型来预测所述候选微生物菌株的表型性能;
d.至少部分地基于所述候选微生物菌株的预测性能来选择所述候选微生物菌株的第一子集;
e.获得所述候选微生物菌株的所述第一子集的实测表型性能;
f.至少部分地基于所述候选微生物菌株的实测表型性能实现所述候选微生物菌株的第二子集的选择;
g.向所述预测模型的所述训练集中添加(1)对应于候选微生物菌株的所选第二子集的输入以及(2)候选微生物菌株的所选第二子集的相应实测性能;以及
h.重复(b)-(g)。
42.根据实施例41所述的方法,其中重复(b)-(g)包含重复(b)-(g)直到至少一种候选微生物菌株的实测表型性能满足性能度量标准为止。
43.根据实施例41所述的方法,其中:
在测试输入首次应用于所述预测模型期间,由所述测试输入表示的所述基因变化包含相对于所述一或多种背景微生物菌株的基因变化;并且
在测试输入的后续应用期间,由所述测试输入表示的所述基因变化包含相对于此前选择的候选微生物菌株第二子集内的候选微生物菌株的基因变化。
44.根据实施例41所述的方法,其中所述候选微生物菌株的所述第一子集的选择至少部分地基于上位效应。
45.根据实施例44所述的方法,其中至少部分地基于上位效应对所述第一子集的选择包含:
在所述第一子集的首次选择期间:
测定所述一或多种背景微生物菌株的性能度量之间的差异程度,所述性能度量响应于代表相对于所述一或多种背景微生物菌株的基因变化的多种相应输入的应用;以及
至少部分地基于所述一或多种背景微生物菌株的所述性能度量的差异程度来选择至少两种候选微生物菌株纳入所述第一子集,所述性能度量响应于并入所述至少两种候选微生物菌株中的所述基因变化的应用。
46.根据实施例45所述的方法,其进一步包含:
在所述第一子集的后续选择期间:
测定此前第一子集候选微生物菌株的性能度量之间的差异程度,所述性能度量响应于代表基因变化的多种相应输入的应用,其中所述此前第一子集候选微生物菌株是在所述第一子集的此前选择期间所选的菌株;以及
至少部分地基于所述此前第一子集候选微生物菌株的所述性能度量的所述差异程度来选择至少两种候选微生物菌株纳入所述第一子集,所述性能度量响应于并入所述至少两种候选微生物菌株中的所述基因变化的应用。
47.一种迭代式改良候选微生物菌株设计的系统,所述系统包含:
一或多个处理器;以及
一或多个存储器,其与所述一或多个处理器中的至少一个可操作地耦接且其上存储有指令,所述指令当由所述一或多个处理器中的至少一个执行时促使所述系统:
a.访问用训练集填充的预测模型,所述训练集包含(1)代表了相对于一或多种背景微生物菌株的基因变化的输入以及(2)相应性能度量;
b.将测试输入应用于代表基因变化的所述预测模型,所述测试输入对应于并入那些基因变化的候选微生物菌株;
c.至少部分地基于所述预测模型来预测所述候选微生物菌株的表型性能;
d.至少部分地基于所述候选微生物菌株的预测性能来选择所述候选微生物菌株的第一子集;
e.获得所述候选微生物菌株的所述第一子集的实测表型性能;
f.至少部分地基于所述候选微生物菌株的实测表型性能实现所述候选微生物菌株的第二子集的选择;
g.向所述预测模型的所述训练集中添加(1)对应于候选微生物菌株的所选第二子集的输入以及(2)候选微生物菌株的所选第二子集的相应实测性能;以及
h.重复(b)-(g)。
48.根据实施例47所述的系统,其中所述指令当由所述一或多个处理器中的至少一个执行时,促使所述系统重复(b)-(g)直到至少一种候选微生物菌株的实测表型性能满足性能度量标准为止。
49.根据实施例47所述的系统,其中:
在测试输入首次应用于所述预测模型期间,由所述测试输入表示的所述基因变化包含相对于所述一或多种背景微生物菌株的基因变化;并且
在测试输入的后续应用期间,由所述测试输入表示的所述基因变化包含相对于此前选择的候选微生物菌株第二子集内的候选微生物菌株的基因变化。
50.根据实施例47所述的系统,其中所述候选微生物菌株的所述第一子集的选择至少部分地基于上位效应。
51.根据实施例50所述的系统,其中所述指令当由所述一或多个处理器中的至少一个执行时,促使所述系统在所述第一子集的首次选择期间:
测定所述一或多种背景微生物菌株的性能度量之间的差异程度,所述性能度量响应于代表相对于所述一或多种背景微生物菌株的基因变化的多种相应输入的应用;以及
至少部分地基于所述一或多种背景微生物菌株的所述性能度量的差异程度来选择至少两种候选微生物菌株纳入所述第一子集,所述性能度量响应于并入所述至少两种候选微生物菌株中的基因变化的应用。
52.根据实施例51所述的系统,其中所述指令当由所述一或多个处理器中的至少一个执行时,促使所述系统在所述第一子集的后续选择期间:
测定此前第一子集候选微生物菌株的性能度量之间的差异程度,所述性能度量响应于代表基因变化的多种相应输入的应用,其中所述此前第一子集候选微生物菌株是在所述第一子集的此前选择期间所选的菌株;以及
至少部分地基于所述此前第一子集候选微生物菌株的所述性能度量的所述差异程度来选择至少两种候选微生物菌株纳入所述第一子集,所述性能度量响应于并入所述至少两种候选微生物菌株中的基因变化的应用。
53.一或多种非暂时性计算机可读媒体,其存储了用于迭代式改良候选微生物菌株设计的指令,其中所述指令当由一或多种计算装置执行时,促使所述一或多种计算装置中的至少一种:
a.访问用训练集填充的预测模型,所述训练集包含(1)代表了相对于一或多种背景微生物菌株的基因变化的输入以及(2)相应性能度量;
b.将测试输入应用于代表基因变化的所述预测模型,所述测试输入对应于并入那些基因变化的候选微生物菌株;
c.至少部分地基于所述预测模型来预测所述候选微生物菌株的表型性能;
d.至少部分地基于所述候选微生物菌株的预测性能来选择所述候选微生物菌株的第一子集;
e.获得所述候选微生物菌株的所述第一子集的实测表型性能;
f.至少部分地基于所述候选微生物菌株的实测表型性能实现所述候选微生物菌株的第二子集的选择;
g.向所述预测模型的所述训练集中添加(1)对应于候选微生物菌株的所选第二子集的输入以及(2)候选微生物菌株的所选第二子集的相应实测性能;以及
h.重复(b)-(g)。
54.根据实施例53所述的计算机可读媒体,其中所述指令当执行时促使所述一或多种计算装置中的至少一种重复(b)-(g)直到至少一种候选微生物菌株的实测表型性能满足性能度量标准为止。
55.根据实施例53所述的计算机可读媒体,其中:
在测试输入首次应用于所述预测模型期间,由所述测试输入表示的所述基因变化包含相对于所述一或多种背景微生物菌株的基因变化;并且
在测试输入的后续应用期间,由所述测试输入表示的所述基因变化包含相对于此前选择的候选微生物菌株第二子集内的候选微生物菌株的基因变化。
56.根据实施例53所述的计算机可读媒体,其中所述候选微生物菌株的所述第一子集的选择至少部分地基于上位效应。
57.根据实施例56所述的计算机可读媒体,其中所述指令当执行时促使所述一或多种计算装置中的至少一种在所述第一子集的首次选择期间:
测定所述一或多种背景微生物菌株的性能度量之间的差异程度,所述性能度量响应于代表相对于所述一或多种背景微生物菌株的基因变化的多种相应输入的应用;以及
至少部分地基于所述一或多种背景微生物菌株的所述性能度量的差异程度来选择至少两种候选微生物菌株纳入所述第一子集,所述性能度量响应于并入所述至少两种候选微生物菌株中的基因变化的应用。
58.根据实施例53所述的计算机可读媒体,其中所述指令当执行时促使所述一或多种计算装置中的至少一种在所述第一子集的后续选择期间:
测定此前第一子集候选微生物菌株的性能度量之间的差异程度,所述性能度量响应于代表基因变化的多种相应输入的应用,其中所述此前第一子集候选微生物菌株是在所述第一子集的此前选择期间所选的菌株;以及
至少部分地基于所述此前第一子集候选微生物菌株的所述性能度量的所述差异程度来选择至少两种候选微生物菌株纳入所述第一子集,所述性能度量响应于并入所述至少两种候选微生物菌株中的基因变化的应用。
59.一种将上位效应应用于候选微生物菌株迭代式改良的计算机实施方法,所述方法包含:
获得代表实测性能的数据,所述实测性能响应于对至少一种背景微生物菌株施加的相应基因变化;
至少部分地基于所述至少两种基因变化的相应响应性性能度量之间的差异程度来实现至少两种基因变化的选择,
其中所述差异程度是指所述至少两种基因变化通过不同生物学途径影响其相应响应性性能度量的程度;并且
将基因变化设计到背景微生物菌株中,从而包括所述的所选基因变化。
60.根据实施例59所述的方法,其中供设计所述至少两种所选基因变化用的所述背景微生物菌株与所得数据代表实测响应性性能的至少一种背景微生物菌株相同。
61.一种将上位效应应用于候选微生物菌株迭代式改良的系统,所述系统包含:
一或多个处理器;以及
一或多个存储器,其与所述一或多个处理器中的至少一个可操作地耦接且其上存储有指令,所述指令当由所述一或多个处理器中的至少一个执行时促使所述系统:
获得代表实测性能的数据,所述实测性能响应于对至少一种背景微生物菌株施加的相应基因变化;
至少部分地基于所述至少两种基因变化的相应响应性性能度量之间的差异程度来实现至少两种基因变化的选择,
其中所述差异程度是指所述至少两种基因变化通过不同生物学途径影响其相应响应性性能度量的程度;并且
将基因变化设计到背景微生物菌株中,从而包括所述的所选基因变化。
62.根据实施例61所述的系统,其中供设计所述至少两种所选基因变化用的所述背景微生物菌株与所得数据代表实测响应性性能的至少一种背景微生物菌株相同。
63.一或多种非暂时性计算机可读媒体,其存储了用于将上位效应应用于候选微生物菌株迭代式改良的指令,其中所述指令当由一或多种计算装置执行时,促使所述一或多种计算装置中的至少一种:
获得代表实测性能的数据,所述实测性能响应于对至少一种背景微生物菌株施加的相应基因变化;
至少部分地基于所述至少两种基因变化的相应响应性性能度量之间的差异程度来实现至少两种基因变化的选择,
其中所述差异程度是指所述至少两种基因变化通过不同生物学途径影响其相应响应性性能度量的程度;并且
将基因变化设计到背景微生物菌株中,从而包括所述的所选基因变化。
64.根据实施例63所述的计算机可读媒体,其中供设计所述至少两种所选基因变化用的所述背景微生物菌株与所得数据代表实测响应性性能的至少一种背景微生物菌株相同。
*****
以引用的方式并入
本文引用的所有参考文献、论文、公开、专利、专利公开以及专利申请均以全文引用的方式并入以用于所有目的。然而,本文引用的任何参考文献、论文、公开、专利、专利公开以及专利申请的提及不视为并且不应该视为承认或以任何形式表明其构成有效的现有技术或形成世界上任何国家的公共常识的一部分。
序列表
<110> 齐默尔根公司
<120> 利用HTP基因组工程平台对微生物菌株的改良
<130> ZYMR-001/01WO 327574-2016
<150> US 62/368,786
<151> 2016-07-29
<150> US 15/140,296
<151> 2016-04-27
<150> US 62/264,232
<151> 2015-12-07
<160> 16
<170> PatentIn version 3.5
<210> 1
<211> 97
<212> DNA
<213> 未知
<220>
<223> 衍生自Pcg0007_lib_39的表达启动子
<400> 1
tgccgtttct cgcgttgtgt gtggtactac gtggggacct aagcgtgtat tatggaaacg 60
tctgtatcgg ataagtagcg aggagtgttc gttaaaa 97
<210> 2
<211> 97
<212> DNA
<213> 未知
<220>
<223> 衍生自Pcg0007的表达启动子
<400> 2
tgccgtttct cgcgttgtgt gtggtactac gtggggacct aagcgtgtaa gatggaaacg 60
tctgtatcgg ataagtagcg aggagtgttc gttaaaa 97
<210> 3
<211> 93
<212> DNA
<213> 未知
<220>
<223> 衍生自Pcg1860的表达启动子
<400> 3
cttagctttg acctgcacaa atagttgcaa attgtcccac atacacataa agtagcttgc 60
gtatttaaaa ttatgaacct aaggggttta gca 93
<210> 4
<211> 98
<212> DNA
<213> 未知
<220>
<223> 衍生自Pcg0755的表达启动子
<400> 4
aataaattta taccacacag tctattgcaa tagaccaagc tgttcagtag ggtgcatggg 60
agaagaattt cctaataaaa actcttaagg acctccaa 98
<210> 5
<211> 97
<212> DNA
<213> 未知
<220>
<223> 衍生自Pcg0007_265的表达启动子
<400> 5
tgccgtttct cgcgttgtgt gtggtactac gtggggacct aagcgtgtac gctggaaacg 60
tctgtatcgg ataagtagcg aggagtgttc gttaaaa 97
<210> 6
<211> 86
<212> DNA
<213> 未知
<220>
<223> 衍生自Pcg3381的表达启动子
<400> 6
cgccggataa atgaattgat tattttaggc tcccagggat taagtctagg gtggaatgca 60
gaaatatttc ctacggaagg tccgtt 86
<210> 7
<211> 97
<212> DNA
<213> 未知
<220>
<223> 衍生自Pcg0007_119的表达启动子
<400> 7
tgccgtttct cgcgttgtgt gtggtactac gtggggacct aagcgtgttg catggaaacg 60
tctgtatcgg ataagtagcg aggagtgttc gttaaaa 97
<210> 8
<211> 87
<212> DNA
<213> 未知
<220>
<223> 衍生自Pcg3121的表达启动子
<400> 8
gtggctaaaa cttttggaaa cttaagttac ctttaatcgg aaacttattg aattcgggtg 60
aggcaactgc aactctggac ttaaagc 87
<210> 9
<211> 25
<212> DNA
<213> 未知
<220>
<223> cg0001终止子
<400> 9
gacccatctt cggatgggtc ttttt 25
<210> 10
<211> 30
<212> DNA
<213> 未知
<220>
<223> cg0007终止子
<400> 10
cccgcccctg gaattctggg ggcgggtttt 30
<210> 11
<211> 24
<212> DNA
<213> 未知
<220>
<223> cg0371终止子
<400> 11
ccggtaactt ttgtaagttg ccgg 24
<210> 12
<211> 27
<212> DNA
<213> 未知
<220>
<223> cg0480终止子
<400> 12
cccctcagaa gcgattctga ggggttt 27
<210> 13
<211> 28
<212> DNA
<213> 未知
<220>
<223> cg0494终止子
<400> 13
gcaccgcctt tcggggcggt gctttttt 28
<210> 14
<211> 28
<212> DNA
<213> 未知
<220>
<223> cg0564终止子
<400> 14
ggccccatgc tttgcatggg gtcttttt 28
<210> 15
<211> 30
<212> DNA
<213> 未知
<220>
<223> cg0610终止子
<400> 15
gcacttacct taactggtag gtgctttttt 30
<210> 16
<211> 24
<212> DNA
<213> 未知
<220>
<223> cg0695终止子
<400> 16
acccggtcac cagaccgggt cttt 24

Claims (18)

1.一种迭代式改良候选微生物菌株设计的计算机实施方法,所述方法包含:
a.访问用训练集填充的预测模型,所述训练集包含代表了相对于一或多种背景微生物菌株的基因变化的输入以及相应性能度量,其中用训练集填充预测模型是指基于所述训练集开发所述预测模型;
b.将测试输入应用于代表基因变化的所述预测模型,所述测试输入对应于并入所述基因变化的候选微生物菌株;
c.至少部分地基于所述预测模型来预测所述候选微生物菌株的表型性能;
d.至少部分地基于所述候选微生物菌株的预测性能来选择所述候选微生物菌株的第一子集;
e.获得所述候选微生物菌株的所述第一子集的实测表型性能;
f.至少部分地基于所述候选微生物菌株的所述第一子集的所述实测表型性能实现所述候选微生物菌株的第二子集的选择;
g.向所述预测模型的所述训练集中添加1)对应于候选微生物菌株的所选第二子集的输入以及2)候选微生物菌株的所选第二子集的相应实测性能;以及
h.重复步骤b)-g)。
2.根据权利要求1所述的方法,其中重复步骤b)-g)包含重复步骤b)-g)直到至少一种候选微生物菌株的实测表型性能满足性能度量标准为止。
3.根据权利要求1所述的方法,其中:
在测试输入首次应用于所述预测模型期间,由所述测试输入表示的所述基因变化包含相对于所述一或多种背景微生物菌株的基因变化;并且
在测试输入的后续应用期间,由所述测试输入表示的所述基因变化包含相对于先前选择的候选微生物菌株第二子集内的候选微生物菌株的基因变化。
4.根据权利要求1所述的方法,其中所述候选微生物菌株的所述第一子集的选择至少部分地基于上位效应。
5.根据权利要求4所述的方法,其中至少部分地基于上位效应对所述第一子集的选择包含:
在所述第一子集的首次选择期间:
测定所述一或多种背景微生物菌株的性能度量之间的差异程度,所述性能度量响应于代表相对于所述一或多种背景微生物菌株的基因变化的多种相应输入的应用;以及
至少部分地基于所述一或多种背景微生物菌株的所述性能度量的差异程度来选择至少两种候选微生物菌株纳入所述第一子集,所述性能度量响应于并入所述至少两种候选微生物菌株中的所述基因变化的应用。
6.根据权利要求5所述的方法,其进一步包含:
在所述第一子集的后续选择期间:
测定先前第一子集候选微生物菌株的性能度量之间的差异程度,所述性能度量响应于代表基因变化的多种相应输入的应用,其中所述先前第一子集候选微生物菌株是在所述第一子集的先前选择期间所选的菌株;以及
至少部分地基于所述先前第一子集候选微生物菌株的所述性能度量的所述差异程度来选择至少两种候选微生物菌株纳入所述第一子集,所述性能度量响应于并入所述至少两种候选微生物菌株中的所述基因变化的应用。
7.一种迭代式改良候选微生物菌株设计的系统,所述系统包含:
一或多个处理器;以及
一或多个存储器,其与所述一或多个处理器中的至少一个可操作地耦接且存储有指令,当所述指令由所述一或多个处理器中的至少一个执行时促使所述系统:
a.访问用训练集填充的预测模型,所述训练集包含代表了相对于一或多种背景微生物菌株的基因变化的输入以及相应性能度量,其中用训练集填充预测模型是指基于所述训练集开发所述预测模型;
b.将测试输入应用于代表基因变化的所述预测模型,所述测试输入对应于并入所述基因变化的候选微生物菌株;
c.至少部分地基于所述预测模型来预测所述候选微生物菌株的表型性能;
d.至少部分地基于所述候选微生物菌株的预测性能来选择所述候选微生物菌株的第一子集;
e.获得所述候选微生物菌株的所述第一子集的实测表型性能;
f.至少部分地基于所述候选微生物菌株的所述第一子集的所述实测表型性能实现所述候选微生物菌株的第二子集的选择;
g.向所述预测模型的所述训练集中添加1)对应于候选微生物菌株的所选第二子集的输入以及2)候选微生物菌株的所选第二子集的相应实测性能;以及
h.重复步骤b)-g)。
8.根据权利要求7所述的系统,其中当所述指令由所述一或多个处理器中的至少一个执行时,促使所述系统重复步骤b)-g)直到至少一种候选微生物菌株的实测表型性能满足性能度量标准为止。
9.根据权利要求7所述的系统,其中:
在测试输入首次应用于所述预测模型期间,由所述测试输入表示的所述基因变化包含相对于所述一或多种背景微生物菌株的基因变化;并且
在测试输入的后续应用期间,由所述测试输入表示的所述基因变化包含相对于先前选择的候选微生物菌株第二子集内的候选微生物菌株的基因变化。
10.根据权利要求7所述的系统,其中所述候选微生物菌株的所述第一子集的选择至少部分地基于上位效应。
11.根据权利要求10所述的系统,其中当所述指令由所述一或多个处理器中的至少一个执行时,促使所述系统在所述第一子集的首次选择期间:
测定所述一或多种背景微生物菌株的性能度量之间的差异程度,所述性能度量响应于代表相对于所述一或多种背景微生物菌株的基因变化的多种相应输入的应用;以及
至少部分地基于所述一或多种背景微生物菌株的所述性能度量的差异程度来选择至少两种候选微生物菌株纳入所述第一子集,所述性能度量响应于并入所述至少两种候选微生物菌株中的基因变化的应用。
12.根据权利要求11所述的系统,其中当所述指令由所述一或多个处理器中的至少一个执行时,促使所述系统在所述第一子集的后续选择期间:
测定先前第一子集候选微生物菌株的性能度量之间的差异程度,所述性能度量响应于代表基因变化的多种相应输入的应用,其中所述先前第一子集候选微生物菌株是在所述第一子集的先前选择期间所选的菌株;以及
至少部分地基于所述先前第一子集候选微生物菌株的所述性能度量的所述差异程度来选择至少两种候选微生物菌株纳入所述第一子集,所述性能度量响应于并入所述至少两种候选微生物菌株中的基因变化的应用。
13.一或多种非暂时性计算机可读媒体,其存储用于迭代式改良候选微生物菌株设计的指令,其中当所述指令由一或多种计算装置执行时,促使所述一或多种计算装置中的至少一种:
a.访问用训练集填充的预测模型,所述训练集包含代表了相对于一或多种背景微生物菌株的基因变化的输入以及相应性能度量,其中用训练集填充预测模型是指基于所述训练集开发所述预测模型;
b.将测试输入应用于代表基因变化的所述预测模型,所述测试输入对应于并入所述基因变化的候选微生物菌株;
c.至少部分地基于所述预测模型来预测所述候选微生物菌株的表型性能;
d.至少部分地基于所述候选微生物菌株的预测性能来选择所述候选微生物菌株的第一子集;
e.获得所述候选微生物菌株的所述第一子集的实测表型性能;
f.至少部分地基于所述候选微生物菌株的所述第一子集的所述实测表型性能实现所述候选微生物菌株的第二子集的选择;
g.向所述预测模型的所述训练集中添加1)对应于候选微生物菌株的所选第二子集的输入以及2)候选微生物菌株的所选第二子集的相应实测性能;以及
h.重复步骤b)-g)。
14.根据权利要求13所述的计算机可读媒体,其中所述指令当执行时促使所述一或多种计算装置中的至少一种重复步骤b)-g)直到至少一种候选微生物菌株的实测表型性能满足性能度量标准为止。
15.根据权利要求13所述的计算机可读媒体,其中:
在测试输入首次应用于所述预测模型期间,由所述测试输入表示的所述基因变化包含相对于所述一或多种背景微生物菌株的基因变化;并且
在测试输入的后续应用期间,由所述测试输入表示的所述基因变化包含相对于先前选择的候选微生物菌株第二子集内的候选微生物菌株的基因变化。
16.根据权利要求13所述的计算机可读媒体,其中所述候选微生物菌株的所述第一子集的选择至少部分地基于上位效应。
17.根据权利要求16所述的计算机可读媒体,其中所述指令当执行时促使所述一或多种计算装置中的至少一种在所述第一子集的首次选择期间:
测定所述一或多种背景微生物菌株的性能度量之间的差异程度,所述性能度量响应于代表相对于所述一或多种背景微生物菌株的基因变化的多种相应输入的应用;以及
至少部分地基于所述一或多种背景微生物菌株的所述性能度量的差异程度来选择至少两种候选微生物菌株纳入所述第一子集,所述性能度量响应于并入所述至少两种候选微生物菌株中的基因变化的应用。
18.根据权利要求13所述的计算机可读媒体,其中所述指令当执行时促使所述一或多种计算装置中的至少一种在所述第一子集的后续选择期间:
测定先前第一子集候选微生物菌株的性能度量之间的差异程度,所述性能度量响应于代表基因变化的多种相应输入的应用,其中所述先前第一子集候选微生物菌株是在所述第一子集的先前选择期间所选的菌株;以及
至少部分地基于所述先前第一子集候选微生物菌株的所述性能度量的所述差异程度来选择至少两种候选微生物菌株纳入所述第一子集,所述性能度量响应于并入所述至少两种候选微生物菌株中的基因变化的应用。
CN202010117635.5A 2015-12-07 2016-12-07 利用htp基因组工程平台对微生物菌株的改良 Active CN111223527B (zh)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US201562264232P 2015-12-07 2015-12-07
US62/264,232 2015-12-07
US15/140,296 2016-04-27
US15/140,296 US11151497B2 (en) 2016-04-27 2016-04-27 Microbial strain design system and methods for improved large-scale production of engineered nucleotide sequences
US201662368786P 2016-07-29 2016-07-29
US62/368,786 2016-07-29
CN201680037112.1A CN108027849B (zh) 2015-12-07 2016-12-07 利用htp基因组工程平台对微生物菌株的改良
PCT/US2016/065465 WO2017100377A1 (en) 2015-12-07 2016-12-07 Microbial strain improvement by a htp genomic engineering platform

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201680037112.1A Division CN108027849B (zh) 2015-12-07 2016-12-07 利用htp基因组工程平台对微生物菌株的改良

Publications (2)

Publication Number Publication Date
CN111223527A CN111223527A (zh) 2020-06-02
CN111223527B true CN111223527B (zh) 2022-07-26

Family

ID=59013271

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201680037112.1A Active CN108027849B (zh) 2015-12-07 2016-12-07 利用htp基因组工程平台对微生物菌株的改良
CN202010117635.5A Active CN111223527B (zh) 2015-12-07 2016-12-07 利用htp基因组工程平台对微生物菌株的改良

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201680037112.1A Active CN108027849B (zh) 2015-12-07 2016-12-07 利用htp基因组工程平台对微生物菌株的改良

Country Status (7)

Country Link
EP (2) EP3858996B1 (zh)
JP (5) JP6605042B2 (zh)
KR (2) KR20190090081A (zh)
CN (2) CN108027849B (zh)
CA (4) CA3090392C (zh)
ES (2) ES2878014T3 (zh)
WO (1) WO2017100377A1 (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL3105328T3 (pl) 2014-02-11 2020-10-19 The Regents Of The University Of Colorado, A Body Corporate Umożliwiana przez CRISPR multipleksowa modyfikacja genomu
US9988624B2 (en) 2015-12-07 2018-06-05 Zymergen Inc. Microbial strain improvement by a HTP genomic engineering platform
CA3007635A1 (en) 2015-12-07 2017-06-15 Zymergen Inc. Promoters from corynebacterium glutamicum
US11208649B2 (en) 2015-12-07 2021-12-28 Zymergen Inc. HTP genomic engineering platform
US10017760B2 (en) 2016-06-24 2018-07-10 Inscripta, Inc. Methods for generating barcoded combinatorial libraries
JP2019519241A (ja) 2016-06-30 2019-07-11 ザイマージェン インコーポレイテッド グルコース透過酵素ライブラリーを生成するための方法およびその使用
EP3478833A4 (en) 2016-06-30 2019-10-02 Zymergen, Inc. METHODS OF GENERATING A BACTERIAL HEMOGLOBIN LIBRARY AND USES THEREOF
KR20190098213A (ko) * 2016-12-30 2019-08-21 지머젠 인코포레이티드 유전자 조작 및 균주 정제를 위한 자동화 단계를 사용하여 균류 생산 균주를 제조하는 방법
CN110741091A (zh) 2017-05-19 2020-01-31 齐默尔根公司 增加nadph的生物合成途径的基因组工程化
CN110719956A (zh) 2017-06-06 2020-01-21 齐默尔根公司 用于改良真菌菌株的高通量基因组工程改造平台
JP2020524490A (ja) * 2017-06-06 2020-08-20 ザイマージェン インコーポレイテッド Escherichia Coliを改良するためのHTPゲノム操作プラットフォーム
EP3635111A1 (en) 2017-06-06 2020-04-15 Zymergen, Inc. High throughput transposon mutagenesis
WO2018226893A2 (en) * 2017-06-06 2018-12-13 Zymergen Inc. A high-throughput (htp) genomic engineering platform for improving saccharopolyspora spinosa
US10011849B1 (en) 2017-06-23 2018-07-03 Inscripta, Inc. Nucleic acid-guided nucleases
US9982279B1 (en) 2017-06-23 2018-05-29 Inscripta, Inc. Nucleic acid-guided nucleases
US11450121B2 (en) * 2017-06-27 2022-09-20 The Regents Of The University Of California Label-free digital brightfield analysis of nucleic acid amplification
US20190002874A1 (en) * 2017-06-30 2019-01-03 Inscripta, Inc. Cell libraries created using rationally designed nucleic acids
US10526598B2 (en) * 2018-04-24 2020-01-07 Inscripta, Inc. Methods for identifying T-cell receptor antigens
BR112020024839A2 (pt) * 2018-06-06 2021-05-18 Zymergen Inc. manipulação de genes envolvidos em transdução de sinal para controlar a morfologia fúngica durante a fermentação e produção
WO2020010093A1 (en) * 2018-07-03 2020-01-09 Zymergen Inc. Liquid based selection and cell isolation
US11951610B2 (en) 2018-07-31 2024-04-09 Mjnn Llc Opening apparatus for use with a multi-piece, hinged, hydroponic tower
KR20210088615A (ko) 2018-10-31 2021-07-14 지머젠 인코포레이티드 Dna 라이브러리의 다중 결정적 어셈블리
BR112021015218A2 (pt) * 2019-02-05 2022-01-11 Pivot Bio Inc Consistência aprimorada de rendimento de cultura através de fixação biológica de nitrogênio
JP2022524043A (ja) 2019-03-08 2022-04-27 ザイマージェン インコーポレイテッド 微生物の反復ゲノム編集
US11053515B2 (en) 2019-03-08 2021-07-06 Zymergen Inc. Pooled genome editing in microbes
WO2020223422A1 (en) * 2019-04-30 2020-11-05 Amgen Inc. Data-driven predictive modeling for cell line selection in biopharmaceutical production
US11723328B2 (en) 2019-05-08 2023-08-15 Mjnn Llc Cleaning apparatus for use with a plant support tower
CA3149211A1 (en) 2019-09-13 2021-03-18 Rama Ranganathan Method and apparatus using machine learning for evolutionary data-driven design of proteins and other sequence defined biomolecules
US11111507B2 (en) 2019-09-23 2021-09-07 Zymergen Inc. Method for counterselection in microorganisms
US11479779B2 (en) 2020-07-31 2022-10-25 Zymergen Inc. Systems and methods for high-throughput automated strain generation for non-sporulating fungi
CN116917474A (zh) 2020-11-13 2023-10-20 特里普巴尔生物公司 多参数发现和优化平台
WO2022175878A1 (en) * 2021-02-20 2022-08-25 Kcat Enzymatic Private Limited Insilico guided crispr-cas driven enzyme engineering framework
CN113393900B (zh) * 2021-06-09 2022-08-02 吉林大学 基于改进Transformer模型的RNA状态推断研究方法
CN116072227B (zh) * 2023-03-07 2023-06-20 中国海洋大学 海洋营养成分生物合成途径挖掘方法、装置、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006028063A1 (ja) * 2004-09-09 2006-03-16 Research Institute Of Innovative Technology For The Earth プロモーター機能を有するdna断片
WO2012142591A2 (en) * 2011-04-14 2012-10-18 The Regents Of The University Of Colorado Compositions, methods and uses for multiplex protein sequence activity relationship mapping
CN103189550A (zh) * 2010-11-04 2013-07-03 先正达参股股份有限公司 高表达基因组合和其他生物组分组合的计算机模拟预测
CN103279689A (zh) * 2013-05-20 2013-09-04 天津大学 基于fk506生产菌筑波链霉菌基因组尺度代谢网络模型指导下次级途径改造方法
CN105027129A (zh) * 2012-12-14 2015-11-04 生命技术控股私人有限公司 用于计算机设计的方法和系统

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4435504A (en) 1982-07-15 1984-03-06 Syva Company Immunochromatographic assay with support having bound "MIP" and second enzyme
GB8406752D0 (en) 1984-03-15 1984-04-18 Unilever Plc Chemical and clinical tests
DK122686D0 (da) 1986-03-17 1986-03-17 Novo Industri As Fremstilling af proteiner
CA1303983C (en) 1987-03-27 1992-06-23 Robert W. Rosenstein Solid phase assay
US4855240A (en) 1987-05-13 1989-08-08 Becton Dickinson And Company Solid phase assay employing capillary flow
JPH01225487A (ja) * 1988-03-04 1989-09-08 Sakai Eng Kk セルロースのアスペルギルス ニガーによるクエン酸若しくはグルコン酸生産を目的としたバイオリアクター担体への利用方法
US6060296A (en) 1991-07-03 2000-05-09 The Salk Institute For Biological Studies Protein kinases
US5516670A (en) 1991-09-30 1996-05-14 Kuehnle; Adelheid R. Magnetophoretic particle delivery method and apparatus for the treatment of cells
EP1321523A3 (en) 1993-07-23 2004-03-03 DSM IP Assets B.V. Selection marker gene free recombinant strains; a method for obtaining them and the use of these strains
US5837458A (en) 1994-02-17 1998-11-17 Maxygen, Inc. Methods and compositions for cellular and metabolic engineering
US5605793A (en) 1994-02-17 1997-02-25 Affymax Technologies N.V. Methods for in vitro recombination
US6090592A (en) 1994-08-03 2000-07-18 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid on supports
JPH11504218A (ja) * 1995-04-24 1999-04-20 クロマゾーム コーポレーション 新規代謝経路の生成およびスクリーニングのための方法
US5753477A (en) 1996-03-19 1998-05-19 University Technology Corporation Magneto-biolistic methods
US6326204B1 (en) * 1997-01-17 2001-12-04 Maxygen, Inc. Evolution of whole cells and organisms by recursive sequence recombination
EP3034626A1 (en) 1997-04-01 2016-06-22 Illumina Cambridge Limited Method of nucleic acid sequencing
JPH1180185A (ja) 1997-09-05 1999-03-26 Res Dev Corp Of Japan オリゴヌクレオチドの化学合成法
US6713073B1 (en) * 1998-07-24 2004-03-30 Megan Health, Inc. Method of vaccination of newly hatched poultry
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US6300070B1 (en) 1999-06-04 2001-10-09 Mosaic Technologies, Inc. Solid phase methods for amplifying multiple nucleic acids
JP5064625B2 (ja) * 1999-10-27 2012-10-31 バイオウルフ テクノロジーズ エルエルスィー パターンを同定するための方法及び機械
CA2424178A1 (en) * 2000-09-30 2002-04-11 Diversa Corporation Whole cell engineering by mutagenizing a substantial portion of a starting genome, combining mutations, and optionally repeating
WO2005021772A1 (en) 2003-08-29 2005-03-10 Degussa Ag Process for the preparation of l-lysine
EP2021489A2 (en) 2006-05-30 2009-02-11 Dow Global Technologies Inc. Codon optimization method
CN101434910A (zh) * 2007-11-13 2009-05-20 科兹莫弗姆有限公司 产生鞘脂碱的微生物菌株
DE102007047933B3 (de) 2007-12-20 2009-02-26 Vistec Semiconductor Systems Gmbh Verfahren zur Inspektion von einer Oberfläche eines Wafers mit Bereichen unterschiedlicher Detektionsempfindlichkeit
WO2010025310A2 (en) 2008-08-27 2010-03-04 Westend Asset Clearinghouse Company, Llc Methods and devices for high fidelity polynucleotide synthesis
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US8783382B2 (en) 2009-01-15 2014-07-22 Schlumberger Technology Corporation Directional drilling control devices and methods
WO2010094772A1 (en) 2009-02-20 2010-08-26 Febit Holding Gmbh Synthesis of sequence-verified nucleic acids
US8574835B2 (en) 2009-05-29 2013-11-05 Life Technologies Corporation Scaffolded nucleic acid polymer particles and methods of making and using
CN101628296A (zh) * 2009-07-31 2010-01-20 中国科学院南京土壤研究所 一种利用拮抗微生物菌剂修复沙门氏菌污染土壤的方法
TWI371374B (en) 2009-09-14 2012-09-01 Compal Electronics Inc Production method of three dimensional pattern
ME03410B (me) 2010-02-17 2020-01-20 Takeda Pharmaceuticals Co Heterociklična jedinjenja
EP2395087A1 (en) 2010-06-11 2011-12-14 Icon Genetics GmbH System and method of modular cloning
US8621430B2 (en) 2011-03-03 2013-12-31 International Business Machines Corporation Method for code transformation supporting temporal abstraction of parameters
WO2012149470A1 (en) * 2011-04-27 2012-11-01 Amyris, Inc. Methods for genomic modification
US10815478B2 (en) 2014-11-05 2020-10-27 Illumina, Inc. Method of sequential tagmentation with transposase compositions for reduction of insertion bias
KR102356072B1 (ko) 2015-09-10 2022-01-27 에스케이하이닉스 주식회사 메모리 시스템 및 그 동작 방법
WO2020004190A1 (ja) 2018-06-26 2020-01-02 東京エレクトロン株式会社 溶射装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006028063A1 (ja) * 2004-09-09 2006-03-16 Research Institute Of Innovative Technology For The Earth プロモーター機能を有するdna断片
CN103189550A (zh) * 2010-11-04 2013-07-03 先正达参股股份有限公司 高表达基因组合和其他生物组分组合的计算机模拟预测
WO2012142591A2 (en) * 2011-04-14 2012-10-18 The Regents Of The University Of Colorado Compositions, methods and uses for multiplex protein sequence activity relationship mapping
CN105027129A (zh) * 2012-12-14 2015-11-04 生命技术控股私人有限公司 用于计算机设计的方法和系统
CN103279689A (zh) * 2013-05-20 2013-09-04 天津大学 基于fk506生产菌筑波链霉菌基因组尺度代谢网络模型指导下次级途径改造方法

Also Published As

Publication number Publication date
JP6605042B2 (ja) 2019-11-13
CA3105722C (en) 2022-10-11
CA3090392A1 (en) 2017-06-15
JP7119048B2 (ja) 2022-08-16
EP3387571A4 (en) 2019-03-20
CA3007840C (en) 2020-09-15
ES2928728T3 (es) 2022-11-22
ES2878014T3 (es) 2021-11-18
KR20180012280A (ko) 2018-02-05
CA3088654C (en) 2021-05-18
JP2019162131A (ja) 2019-09-26
KR102006320B1 (ko) 2019-08-02
EP3858996B1 (en) 2022-08-03
JP2021010384A (ja) 2021-02-04
CN108027849B (zh) 2020-03-20
CN111223527A (zh) 2020-06-02
CN108027849A (zh) 2018-05-11
WO2017100377A1 (en) 2017-06-15
CA3105722A1 (en) 2017-06-15
CA3090392C (en) 2021-06-01
JP2022066521A (ja) 2022-04-28
JP2018523968A (ja) 2018-08-30
CA3088654A1 (en) 2017-06-15
EP3387571A1 (en) 2018-10-17
CA3007840A1 (en) 2017-06-15
JP2020115890A (ja) 2020-08-06
JP6715374B2 (ja) 2020-07-01
KR20190090081A (ko) 2019-07-31
EP3858996A1 (en) 2021-08-04
EP3387571B1 (en) 2021-03-31
JP6798056B2 (ja) 2020-12-09

Similar Documents

Publication Publication Date Title
CN111223527B (zh) 利用htp基因组工程平台对微生物菌株的改良
US11155807B2 (en) Automated system for HTP genomic engineering
US11208649B2 (en) HTP genomic engineering platform
JP2020524494A (ja) ハイスループットトランスポゾン変異誘発

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40022494

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant