JP2020527770A - 表現型最適化のスループットを増加させるための遺伝子改変の優先順位付け - Google Patents

表現型最適化のスループットを増加させるための遺伝子改変の優先順位付け Download PDF

Info

Publication number
JP2020527770A
JP2020527770A JP2019566963A JP2019566963A JP2020527770A JP 2020527770 A JP2020527770 A JP 2020527770A JP 2019566963 A JP2019566963 A JP 2019566963A JP 2019566963 A JP2019566963 A JP 2019566963A JP 2020527770 A JP2020527770 A JP 2020527770A
Authority
JP
Japan
Prior art keywords
gene
genes
activity
phenotypic performance
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2019566963A
Other languages
English (en)
Other versions
JP2020527770A5 (ja
Inventor
アヌパム チョウドリー,
アヌパム チョウドリー,
ピーター エンヤート,
ピーター エンヤート,
マイケル フラッシュマン,
マイケル フラッシュマン,
アレクサンダー シアラー,
アレクサンダー シアラー,
カート ソーン,
カート ソーン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZYMERGEN INC.
Original Assignee
ZYMERGEN INC.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZYMERGEN INC. filed Critical ZYMERGEN INC.
Publication of JP2020527770A publication Critical patent/JP2020527770A/ja
Publication of JP2020527770A5 publication Critical patent/JP2020527770A5/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Library & Information Science (AREA)
  • Biochemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

少なくとも1つの微生物株内の遺伝子に適用して表現型性能を改善するための改変を決定するためのシステム、方法およびコンピュータ可読媒体。本開示は、少なくとも1つの微生物株中の第1の遺伝子セットに行われた第1の遺伝子改変に少なくとも部分的に基づいて、第1の表現型性能データにアクセスすること;第1の表現型性能データと、第1の遺伝子改変および第2の遺伝子改変に共通する少なくとも1つの改変特徴とに少なくとも部分的に基づいて、第2の遺伝子改変の第2の予測表現型性能を予測すること;ならびに第2の表現型性能に少なくとも部分的に基づいて、第2の遺伝子セットに適用すべき第2の遺伝子改変を優先順位付けすることを教示する。

Description

関連出願の相互参照
本出願は、2017年6月6日に出願された米国仮出願第62/516,053号(これは、その全体が参照により本明細書に組み込まれる)の優先権を主張する。
背景
本開示の分野
本開示は、一般に、代謝およびゲノム工学の分野に関し、より具体的には、目的の産物を生産するための微生物株のハイスループット(「HTP」)遺伝子改変の分野に関する。
関連技術の説明
背景セクションで議論される主題は、背景セクションにおける言及の結果として単に先行技術であるとみなされるべきではない。同様に、背景セクションで言及される問題または背景セクションの主題に関連する問題は、先行技術において以前に認識されていたとみなされるべきではない。背景セクションの主題は単に異なるアプローチであり、これはそれ自体が、特許請求されている技術の実行にも対応し得る。
所望の表現型を示すように生物を遺伝子最適化することは周知の問題である。代謝工学が直面する2つの主な副次的問題は以下のものである:(1)生物に行われ得るすべての可能な改変のうち、所望の化合物のアウトプットを最大化しようとすべきである;および(2)一連の改変を決定したら、進行速度を最大化するためにどの順序でそれらを実施すべきか?
従来、改変の標的とされる遺伝子は、「オン経路」であると判断される遺伝子(すなわち、目的の分子の生合成経路の一部であるか、またはそれに分岐するかもしくはそれから分岐する代謝酵素の遺伝子)である(Keasling,JD.”Manufacturing molecules through metabolic engineering.”Science,2010)。このような遺伝子の発見を自動化し得るフラックスバランス分析(「FBA」)(Segreら、”Analysis of optimality in natural and perturbed metabolic networks.”PNAS,2002)などの方法が公知である。この方法で同定された遺伝子の改変は、多くの場合、菌株性能の改善をもたらすことが明らかであるが、最も単純な微生物でさえ依然として、あまり理解されていないことも事実である。本出願人らは、このような経路に直接関与しない他の遺伝子の改変が菌株性能の有意な改善をもたらし得ることを発見した。これは、ゲノム中の他の遺伝子を調査する必要性を示唆している。しかしながら、ゲノム中のあらゆる遺伝子の改変は依然として、細菌の比較的小さなゲノムでさえ、高価で時間のかかる取り組みである。標的遺伝子と、その標的遺伝子に行うべき改変であって、目的の分子の生産を最適化するために有用な改変とを同定するプロセスを迅速化することが望ましい。
本開示の概要
本開示の実施形態は、改変すべき遺伝子およびそれらの遺伝子に行うべき改変を優先順位付けすることにより、従来技術の欠点を克服する。
本開示のいくつかの実施形態の基本的なアプローチは、ゲノムの遺伝子を「シェル」と称される優先レベルに分割し、次いで、それらのシェルに対して計画的改変を順番に実行することである。実施形態では、シェルは、代謝ネットワーク、遺伝子オントロジー、または別の生物もしくは別の標的産物もしくはその両方の対応する遺伝子に行われる改変の性能に関する既存のデータセットを考慮に入れて活用するアルゴリズムにより設計され得る。実施すべき改変の正確な性質もまた、優先順位付けされ得る;例えば、弱プロモーターへの変化は、強プロモーターよりも少ない改善を提供する傾向があり、本発明者らが実施した実験によれば、中強度プロモーターよりも少ない改善を提供する。いくつかの場合では、弱プロモーターのスワッピングは、目的の所望の産物の生産を妨げる化合物の生産をダウンレギュレートし得る。最適化の努力が進むにつれて、どのクラスの改変が最高性能改善を提供するかに関するデータを収集し、次いで、次のラウンドの改変の優先順位付けのために、「オンライン」ダイナミック繰り返し方式でフィードバックし得る。このようなデータセットはまた、新たな表現型および/または生物の最適化のために、遺伝子改変のタイプ(例えば、プロモーターまたはSNP改変)の優先順位付けに適用され得る。
改変すべき遺伝子の標的優先順位付けのためのシェルメタファー(metaphor)は、少数の一次遺伝子のみが宿主細胞性能の特定の態様(例えば、単一生体分子の生産)の大部分を担うという仮説に基づく。これらの一次遺伝子はシェルのコアに位置し、続いて、二次効果遺伝子は第2の層に位置し、三次効果が第3のシェルに位置する、など。例えば、一実施形態では、シェルのコアは、選択された代謝経路(例えば、クエン酸の産生)に直接関与する生合成酵素をコードする遺伝子を含み得る。第2のシェルに位置する遺伝子は、産物の転換またはフィードバックシグナル伝達を担う生合成経路内の他の酵素をコードする遺伝子を含み得る。この例示的なメタファー下における第3層遺伝子は、生合成経路の発現のモジュレート、または宿主細胞内の一般的な炭素フラックスの調節を担う調節遺伝子を含む可能性が高い。
本開示の実施形態は、改変を少なくとも1つの微生物株内の遺伝子に適用して、表現型性能を改善するための優先順位付けを開発するためのシステム、方法およびコンピュータ可読媒体を提供する。本開示の実施形態は、コンピュータ実行方法、ならびに前記方法を実行するためのシステムおよび非一時的コンピュータ可読媒体を提供する。実施形態によれば、前記方法は、少なくとも1つの微生物株中の第1の遺伝子セットに行われた第1の遺伝子改変に少なくとも部分的に基づいて、第1の表現型性能データにアクセスすること;前記第1の表現型性能データと、前記第1の遺伝子改変および前記第2の遺伝子改変に共通する少なくとも1つの改変特徴とに少なくとも部分的に基づいて、第2の遺伝子改変の第2の予測表現型性能を予測すること;ならびに前記第2の表現型性能に少なくとも部分的に基づいて、第2の遺伝子セットに適用すべき前記第2の遺伝子改変を優先順位付けすることを含む。優先順位付けに少なくとも部分的に基づいて、第2の遺伝子改変を少なくとも1つの微生物株内の遺伝子に適用し得る。改変特徴は、予測モデリング、例えば機械学習において有用可能性があると考えられるパラメータである。改変特徴は、カテゴリ特徴(例えば、タイプ)、連続(例えば、数)または順序特徴(例えば、個別のグループ、例えばより良いまたはより悪い)として表現され得る。
本開示の実施形態によれば、遺伝子改変および少なくとも1つの改変特徴は、改変すべき遺伝子に関連し得るか、またはそれらの遺伝子に行われた改変のタイプに関連し得る。例えば、少なくとも1つの改変特徴は、オントロジークラス、例えばGO分類に関連するかまたは改変のタイプ、例えば2016年12月30日に出願された同時係属中の米国特許出願第15/396230号(米国特許出願公開第20170159045号)(これは、その全体が参照により本明細書に組み込まれる)に記載されているプロモータースワップ(例えば、プロモーターの挿入、欠失または置換を含むプロモーター改変)またはSNP(一塩基多型)スワップ(例えば、単一塩基対の挿入、欠失または置換を含む単一塩基対改変)に関連するクラスを含むクラスを含み得る。
改変特徴は、プロモーターの強度、例えば弱、強または中強度に関連し得る。本発明者らによる実験は、弱プロモーターまたは強プロモーターよりも中強度プロモーターが、微生物株による性能(例えば、収率、生産性)改善の高い可能性をもたらした事例を示した。したがって、本開示の実施形態は、強プロモーターまたは弱プロモーターよりも中強度プロモーターを予測表現型性能に重く重み付けし得る。本開示の実施形態は、強プロモーターおよび中強度プロモーターよりも弱プロモーターを軽く重み付けし得る。
一般に、実施形態は、より低い効果よりも公知の有益な効果を予測表現型性能に重く重み付けし得る。逆に、実施形態は、低い重み付けを、より有益な効果よりも、予測表現型性能における公知のネガティブなまたはあまり有益ではない効果に割り当て得る。別の例として、実施形態では、第2の遺伝子改変の第2の表現型性能の予測は、株中の少なくとも2つの遺伝子への1つまたはそれを超えるタイプの改変(例えば、プロモータースワップ、SNPスワップ)を含む少なくとも1つの改変特徴に少なくとも部分的に基づく。このようにして、前記方法は、2つまたはそれを超える遺伝子改変を同じ株に行うことの表現型効果から生じるエピスタシス効果を説明する。このような実施形態では、予測は、ポジティブエピスタシス効果をもたらす1つまたはそれを超えるタイプの改変を予測表現型性能により重く重み付けし得る。
実施形態では、少なくとも1つの改変特徴は、遺伝子オントロジー分類内の異なるレベルの抽象化を含む。実施形態では、少なくとも1つの改変特徴は、代謝ネットワークに基づく分類を含む。実施形態では、第2の遺伝子セットは、第1の遺伝子セット内の遺伝子を含まない。実施形態では、第2の遺伝子セット内の遺伝子はそれぞれ、複数のクラスのメンバーであり、所定の遺伝子の複合性能予測は、それが属する各クラスに適用する予測の組み合わせから生成され得る。実施形態では、第2の遺伝子セット内の遺伝子は、少なくとも1つの共通クラスのメンバーシップを共有し、共通クラスが、各遺伝子が属する唯一のクラスである場合、このような遺伝子はすべて、同じ予測性能を割り当てられる。実施形態では、第2の遺伝子セット内の遺伝子はそれぞれ、単一のクラスのみのメンバーであり得る。実施形態では、第1および第2のセット内の遺伝子は、互いにクラスメンバーシップを共有し得、このような遺伝子はそれぞれ、複数のクラスに属し得る。
実施形態では、少なくとも1つの改変特徴は、第1の分類システムからの第1のオントロジークラスおよび第2の分類システムからの第2のオントロジークラスを含む。例えば、遺伝子が、異なる分類システム(例えば、GO、KEGG、遺伝子または遺伝子産物の配列類似性、タンパク質ドメイン)からの複数のクラスのメンバーであり、それらのクラスが、性能改善をもたらすことが観察または予測されている場合、前記方法は、本開示の実施形態にしたがって、改変の候補としてのその遺伝子の予測表現型性能を有利に重み付けし得る(それにより、高い優先度が割り当てられる可能性が増加する)。
実施形態では、少なくとも1つの改変特徴は、少なくとも1つの微生物株により産生される産物の特徴を含む。例えば、産物の特徴は、同じ代謝経路またはオントロジークラスに関連し得る。第1のセットまたは第1のセットからの遺伝子が性能改善に関連する場合、同じ代謝経路に沿った、または同じオントロジークラス内の第2のセットからの遺伝子もまた、性能改善を生じさせる可能性がある。したがって、前記方法は、本開示の実施形態にしたがって、改変の候補としてのその遺伝子の予測表現型性能を有利に重み付けし得る(それにより、高い優先度が割り当てられる可能性が増加する)。
あるいは、表現型性能データの改変特徴として複数の株−産物組み合わせを使用する場合、産物の特徴は、標的株−産物組み合わせに対する、インプット株−産物組み合わせに関するデータの関連性を重み付けするために使用され得る。標的産物とより多くの特徴を共有するインプットは、有用な予測をもたらす可能性が高い。実施形態では、それらの産物特徴は、第1の産物に密接に関連する(含有量または最も近い共通前駆体への距離による)代謝経路から生じる構成原子の数、構造、原子含有量などを含み得る。
実施形態では、第2の表現型性能の予測は、機械学習予測モデルのトレーニングセットとして第1の遺伝子セットからの遺伝子を用いて、第2の遺伝子改変の第2の表現型性能を予測し得る。
実施形態では、第2の表現型性能の予測は、第1の観察表現型性能データに少なくとも部分的に基づいて、第2の遺伝子改変のクラスごとの強化確率を予測すること、および予測したクラスごとの強化確率のランキングに少なくとも部分的に基づいて、第2の予測遺伝子改変を優先順位付けすることを含む。本開示の実施形態は、クラスの予測強化が閾値強化を超える場合、クラス内の試験のために少なくとも1つの候補遺伝子を優先順位付けし得る。
驚くべきことに、本出願人らは、個々の遺伝子性能が状況依存的であり得ること(すなわち、株性能を改善する遺伝子改変の能力が株の遺伝子構成(以前に導入された改変を含む)に依存し得ること)をさらに発見した。例えば、当初は、特定の遺伝子改変が株性能に対して効果を有しないか、効果をほとんど有しないか、またはマイナス効果さえ有すると予測され得るのに対して、異なる遺伝的バックグラウンドにおける同じ改変の導入は、異なる効果をもたらし、反対の効果さえもたらし得る。したがって、本開示の実施形態では、前記方法は、第2の遺伝子セット内の遺伝子への第2の遺伝子改変の1つまたはそれを超える遺伝子改変の繰り返し適用から観察された表現型性能データに基づいて、第2の遺伝子セット内の遺伝子のサブセットに適用すべき第2の遺伝子改変のサブセットの優先順位付けを繰り返しアップデートすることを含む。このような繰り返しアップデートは、第2の遺伝子セット内の遺伝子への第2の遺伝子改変の1つまたはそれを超える遺伝子改変の適用に少なくとも部分的に基づいて、アップデートされた表現型性能データを取得すること、アップデートされた第1の表現型性能データおよび少なくとも1つの改変特徴に少なくとも部分的に基づいて、第2の遺伝子改変のサブセットのアップデートされた第2の表現型性能を予測すること、ならびにアップデートされた第2の表現型性能に少なくとも部分的に基づいて、第2の遺伝子セット内の遺伝子のサブセットに適用すべき第2の遺伝子改変のサブセットを優先順位付けすることを含み得る。第2の遺伝子セット内の遺伝子への第2の遺伝子改変の1つまたはそれを超える遺伝子改変の適用は、それらの改変遺伝子を第2の遺伝子セット内から第1の遺伝子セットに有効に移動させ、そして、本開示の実施形態にしたがって、性能データが取得され得ることに留意する。
実施形態では、少なくとも1つの改変特徴は、微生物株の特徴に関連する。このような特徴は、ゲノム配列類似性、ドメイン(古細菌、細菌または真核生物)、グラム陽性または陰性(細菌の場合)、属、種などを含む系統学的または分類学的な特徴;ネイティブ環境の特徴(例えば、pH、温度、塩分、圧力)、代謝特徴(例えば、好ましい成長基質、可能な成長基質、老廃物)などを含む生態学的および生理学的な特徴;または他の特徴を含み得る。例えば、第1の株中の遺伝子セットへの改変が性能改善を提供する場合、類似の第2の株中の類似の遺伝子セットへの類似の改変も性能改善を生じさせる可能性がある。本明細書における「類似の遺伝子セット」は、例えば、同じ遺伝子オントロジークラスに属する遺伝子であって、同じ産物、配列類似性、発現プロファイルまたは調節の類似性などを有する代謝経路に属する遺伝子として定義され得る。「類似の」株は、系統的類似性、遺伝系統の類似性を特徴とし得る;株が原核生物または真核生物であるか、類似の原料を消費するか、類似の代謝産物を産生するか、または他の改変特徴が類似するか。したがって、前記方法は、本開示の実施形態にしたがって、同じまたは類似の改変による改変の候補としての第2の株中の類似セット内の遺伝子の予測表現型性能を有利に重み付けし得る。
実施形態では、第2の遺伝子セットは、第1の遺伝子セットが存在する少なくとも1つの微生物株とは異なる少なくとも1つの微生物株内に存在する。これらの実施形態などでは、第1の表現型性能データは、少なくとも1つの微生物株により産生される第1の産物の1つまたはそれを超える特徴に関連し、第2の予測表現型性能は、第1の産物とは異なる第2産物であって、同じ株、または共通の特徴を共有する別の株により産生される第2産物の1つまたはそれを超える特徴に関連し得る。実施形態では、第2の産物は、共通の特徴、例えば、第1の産物に密接に関連する(含有量または最も近い共通前駆体への距離による)代謝経路から生じる構成原子の数、構造、原子含有量などを共有し得る。
図1は、本開示の実施形態を実行するためのクライアント−サーバコンピュータシステムを示す。
図2は、本開示の実施形態による、異なるプロモーター強度にわたる標的産物の生産性および収率を表す、改善レベルが表現型のノイズ閾値を超える改変の割合を示す。
図3は、ライブラリーの目的(多様化またはコンソリデーション)ごとに集計した図2の改変を示す。
図4は、本開示の実施形態による、異なるプロモーターレベルにわたる頻度バイアスを均一化するように設計された図2からのデータのサブセットを示す。
図5は、本開示の実施形態による、ライブラリーの目的ごとに集計した、熟練の人間またはアルゴリズム(FBA)による選択による、改善レベルが標的産物の生産性および収率の表現型のノイズ閾値を超える改変の割合を示す。
図6は、遺伝子オントロジーからのサブグラフの例を示し、収率の改善について強化された遺伝子クラスを示す。
図7は、表2の強化GO Slimの遺伝子の内訳を示す。
図8は、本開示の実施形態による、プロモータースワップによる改変が所望の表現型を改善することが実証された強化GO Slimの遺伝子のサブセットの内訳を示す。
図9は、少なくとも1つの微生物株内の遺伝子に適用して表現型性能を改善するための改変を優先順位付けするための方法を示すフローチャートである。
図10は、本開示の実施形態による、クラウドコンピューティング環境を示す。
図11は、本開示の実施形態を実行するプログラムコードを実行するために使用され得るコンピュータシステムの例を示す
図12は、図12A〜12Lの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。 図12は、図12A〜12Lの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。 図12は、図12A〜12Lの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。 図12は、図12A〜12Lの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。 図12は、図12A〜12Lの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。 図12は、図12A〜12Lの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。 図12は、図12A〜12Lの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。 図12は、図12A〜12Lの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。 図12は、図12A〜12Lの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。 図12は、図12A〜12Lの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。 図12は、図12A〜12Lの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。 図12は、図12A〜12Lの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。 図12は、図12A〜12Lの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。
詳細な説明
本説明は、様々な例示的な実施形態が示されている添付図面を参照してなされる。しかしながら、多くの異なる例示的な実施形態が使用され得るので、説明は、本明細書に記載される例示的な実施形態に限定されると解釈されるべきではない。むしろ、これらの例示的な実施形態は、本開示が十分かつ完全であるように提供される。例示的な実施形態に対する様々な改変は当業者には容易に明らかであり、本明細書で定義される一般的な原理は、本開示の精神および範囲から逸脱せずに、他の実施形態および適用に適用され得る。したがって、本開示は、示されている実施形態に限定されることを意図するものではなく、本明細書に開示される原理および特徴と一致する最も広い範囲が認められるべきである。
図1は、本開示の実施形態の分散システム100を示す。ユーザインターフェース102は、クライアント側インターフェース、例えばテキストエディターまたはグラフィカルユーザインターフェース(GUI)を含む。ユーザインターフェース102は、クライアント側コンピューティングデバイス103、例えばラップトップまたはデスクトップコンピュータに存在し得る。クライアント側コンピューティングデバイス103は、ネットワーク106、例えばインターネットを介して、1つまたはそれを超えるサーバ108に接続される。
サーバ108は、ゲノムデータ、遺伝子改変データ(例えば、プロモーターラダー)、および遺伝子改変に応じた微生物株性能を表し得る表現型性能データなどのデータを含むライブラリーの1つまたはそれを超えるコーパスを含み得る1つまたはそれを超えるデータベース110にローカルまたはリモートで接続される。
実施形態では、サーバ108は、少なくとも1つのプロセッサ107と、少なくとも1つのメモリ109であって、プロセッサ107により実行されると、遺伝子改変の表現型性能を予測し、遺伝子へのそれらの適用を優先順位付けし、それにより、本開示の実施形態による「優先順位付けエンジン」として作動する命令を格納する少なくとも1つのメモリ109とを含む。あるいは、優先順位付けエンジンのためのソフトウェアおよび関連ハードウェアは、サーバ108ではなくクライアント103にローカルに存在するか、またはクライアント103およびサーバ108の両方の間に分散し得る。実施形態では、優先順位付けエンジンの全部または一部は、図10にさらに示されているように、クラウドベースサービスとしてランし得る。
データベース110は、パブリックデータベースを含み得るだけではなく、ユーザなどにより生成されたカスタムデータベース、例えば、ユーザまたは第3寄与者により実施された合成生物学実験により生成された分子を含むデータベースも含み得る。データベース110は、クライアント103に対してローカルもしくはリモートであり得るか、またはローカルおよびリモートの両方に分散し得る。
所望の分子へのフラックスおよび収率をモジュレートする最も概念的に簡便な方法は、関連遺伝子プロモーターの強度を変化させることにより、そのフラックスに影響を及ぼす遺伝子産物の量を変化させることである。これは、プロモーターラダー(任意の遺伝子に適用され得るプロモーターのコレクションであって、弱〜強の広範な強度を有するプロモーターのコレクション)を構築することにより、システム的に達成され得る。理想的には、ラダーに配置されたプロモーターは、複数のゲノム遺伝子座にわたって非常に変わりやすい発現をもたらすことが示されているが、唯一の要件は、それらが何らかの方法で遺伝子発現を混乱させることである。
プロモーターラダーは、2016年12月7日に出願された国際特許出願第PCT/US16/65464号(国際公開第2017/100376号)(これは、その全体が参照により本明細書に組み込まれる)にさらに記載されている。実施形態では、プロモーターラダーは、目的の標的遺伝子に関連する天然の、ネイティブなまたは野生型のプロモーターを同定し、次いで、少なくとも1つのプロモーターを突然変異させて複数の突然変異プロモーター配列を駆動することにより作成される。これらの突然変異プロモーターはそれぞれ、標的遺伝子発現に対する効果について試験される。いくつかの実施形態では、各プロモーター変異体の活性が文書化/特性評価/アノテーションされ、データベースに保存されるように、編集プロモーターは、様々な条件にわたって発現活性について試験される。続いて、得られた編集プロモーター変異体は、それらの発現の強度に基づいて配置された「ラダー」に編成される(例えば、上部付近では高発現変異体および下部付近では弱発現であるので、「ラダー」という用語になる)。
ネイティブプロモーターをラダーからのプロモーターの1つに変化させるプロセスは、「プロモータースワッピング」と称される。実験データは、図2に示されているように、弱プロモータースワップよりも中プロモータースワップおよび強プロモータースワップが、所望の表現型の改善をもたらす可能性が高いことを示している。
図2は、改善レベルが表現型のノイズ閾値を超える改変(本明細書では、プロモータースワップ)の割合を示し、異なるプロモーター強度(1は最弱であり、8は最強である)にわたる標的産物の生産性および収率を表す。試行改変の数はプロモーター間で均一ではないことに留意する。合計カウントは、強度1から8の順に、532、22、422、61、68、415、108および3274である。
プロモーターに関して「弱」、「中」および「強」を定義するいくつかの方法がある。本明細書の実施形態では、これらの定義は、低〜高の実行可能な細胞内発現レベルの大部分をカバーするように設計された8プロモーターラダーの文脈内で最もよく理解される。
ラダー中のプロモーターの活性を評価するために、一連のプラスミド系蛍光レポーター構築物を設計した。例示的な一実験では、ラダー中の各プロモーターをeyfp(シャトルベクターpK18rep中の黄色蛍光タンパク質をコードする遺伝子)の前にクローニングした。これらのプラスミドをC.glutamicum NRRL B−11474に形質転換し、分光分析によりYFPタンパク質の蓄積を測定することにより、プロモーター活性を評価した。
エレクトロポレーションにより、精製レポーター構築物プラスミドをC.glutamicum NRRL B−11474に形質転換した(Haynesら、Journal of General Microbiology,1990)。BHI寒天+25μg/mLカナマイシン上で、形質転換体を選択した。各形質転換について、複数の単一コロニーを採取し、300μLのBHI培地+25μg/mLカナマイシンを含む96ミッドウェルブロックの個々のウェルに接種した。1,000rpmで振盪しながら30℃で48時間インキュベートすることにより、細胞を飽和まで成長させた。インキュベーション後、培養物を3,500rpmで5分間遠心分離し、吸引により培地を除去した。300μLのPBSに再懸濁し、3,500rpmで5分間遠心分離し、続いて、上清を吸引し、300μLのPBSに最終再懸濁することにより、細胞を1回洗浄した。この混合物の20μLアリコートを、180μLのPBSを含む96ウェル全面ブラッククリアボトムアッセイプレートに移した。SpectraMax M5マイクロプレートリーダーを用いて600nmにおける細胞の光学密度を測定し、TECAN M1000マイクロプレートリーダーを用いて514nmで励起させ、527nmの発光を測定することにより、蛍光を測定した。各ウェルについて、蛍光を光学密度で割ることにより、正規化蛍光活性を計算した。親プラスミドpK18repは陰性対照として機能した。レポーター構築物間および生物学的複製間で、正規化蛍光活性を比較した。プロモーター活性の数値概要は、以下の表1に示されている。
プロモーターレベル1〜3は「弱」とみなされ、プロモーターレベル4〜6は「中」とみなされ、プロモーターレベル7および8は「強」とみなされる。絶対的には、本明細書の弱プロモーターは、6,000未満の平均活性を有するものであり;中プロモーターは、少なくとも6,000および60,000を超えない平均活性を有し;強プロモーターは、60,000超の平均活性を有する。このような単位は種およびデバイスの両方に固有であることを考慮すると、相対単位は、より広い適用可能性を有する。表1の「相対発現」の列において使用される1つの標準は、ラダー中の最弱プロモーターのものであり、本明細書で実施されるものなどのアッセイにおいて500未満の平均活性を有すると想定される。弱プロモーターは、最弱プロモーターのレベルの少なくとも1〜60倍以下の範囲の相対発現を有するものであり;中プロモーターは、最弱プロモーターのレベルの60超〜600倍以下の範囲の相対発現を有するものであり;強プロモーターは、最弱プロモーターのレベルの600倍超の相対発現を有するものである。発現が起こる細胞の特徴に対する発現レベルは、異なる文脈にわたって広く適用可能である。例えば、中強度を有するプロモーターは、細胞内の平均タンパク質発現レベルの少なくとも20%かつ200%以下を有すると定義され得るか、または細胞内の最大タンパク質発現レベルの少なくとも100倍未満かつ10倍以上と定義され得、弱プロモーターおよび強プロモーターは、その発現レベルがこれらの範囲よりもそれぞれ低いものおよび高いものである。あるいは、より一般には、「中」プロモーターは、使用される最弱プロモーターよりも強く、使用される最強プロモーターよりも弱い任意のものであり得る。
この例および他の例における検討中の測定基準は、改善候補の割合、すなわち「ヒット率」(これは、改善の測定レベルが1つまたはそれを超える目的の表現型のノイズ閾値を超える改変の割合である)である。閾値は、スモールハイスループットスケールにおける性能に対する(すなわち、スモールスケールよりも大きい)スケールにおける性能を予測する際のノイズ(例えば、二乗平均平方根誤差)に基づいて設定され得、一度確認された表現型の実質的な改善と考えられ得るものの最小閾値も表す。実施形態では、これらのカットオフは、生産性モデルでは未改変親ゲノムを10%超えるものであり、収率モデルでは親を3%超えるものである。
新たな株バックグラウンドへの改変の追加は、典型的には、2つの目標:多様化(検索)またはコンソリデーション(適用)の1つで行われる。遺伝的バックグラウンド株は野生型株であり得るか、または野生型株と比べて1つもしくはそれを超える突然変異を含む突然変異操作株であり得る。多様化は、単一の株バックグラウンドにおいて可能な限り多くの異なる改変を試みるプロセスであるのに対して、コンソリデーションは、目的の表現型の表現型性能(これらは、この実施形態では生産性および収率である)に基づいて、多様化プロセス中に同定された潜在的に有用な改変を1つまたはそれを超える目的の株バックグラウンドに適用するプロセスであり、行い得るすべてに必ずしも適用するわけではない。表現型のノイズ閾値(すなわち、ヒット率)を超える性能増加をもたらす改変の割合がより高いことおよびより低いことの意味は、2つの場合で異なるので、これらの2つの場合を別々に検討することは有用である。コンソリデーションにおいて用いられる改変は、多様化からの最高性能改変のサブセットである。多様化における高いヒット率は、所定のライブラリーでは、改善が比較的容易に見出されることを意味するのに対して、コンソリデーションにおける高いヒット率は、所定のライブラリーでは、改善が一貫して有益であることを意味する。換言すれば、多様化では、多くの異なるバックグラウンドにおいて有用であり得る改変を同定するために、1つの株バックグラウンドにおいて可能な限り多くの異なる改変を試みることが優先される。多様化におけるヒットについて強化されたクラスは、使用されるバックグラウンドにおいて、性能を改善した遺伝子改変が比較的容易に見出されたことを意味する。多様化において、潜在的に有用な改変が同定された後、コンソリデーションは、複数の目的のバックグラウンドにおいてこれらの改変を試みることを含む。これらの改変のいくつかは、他のバックグラウンドにおいて一貫して使用されるものであることが証明されていなくてもよく、ヒットとして定期的に現れないであろう。したがって、コンソリデーションにおけるヒットについて強化されたこれらの改変または改変クラスは、多くの異なる株バックグラウンドにおいて繰り返しヒットであったものである。
本明細書で使用される場合、「ライブラリー」という用語は、本開示による遺伝子改変のコレクションを指す。いくつかの実施形態では、本発明のライブラリーは、i)データベースまたは他のコンピュータファイル中の配列情報のコレクション、ii)一連の遺伝的要素をコードする遺伝子構築物のコレクション、またはiii)前記遺伝的要素を含む細胞株として現れ得る。いくつかの実施形態では、本開示のライブラリーは、個々の要素のコレクション(例えば、PROスワップライブラリーではプロモーターのコレクション、またはSNPスワップライブラリーではSNPのコレクション)を指し得る。他の実施形態では、本開示のライブラリーは、遺伝的要素の組み合わせ、例えばプロモーター::遺伝子の組み合わせを指し得る。いくつかの実施形態では、本開示のライブラリーは、宿主生物におけるライブラリーの各メンバーを適用する効果に関連するメタデータを含み得る。例えば、本明細書で使用されるライブラリーは、特定の種における1つまたはそれを超える表現型に対するそれらの組み合わせの得られる効果と一緒に、プロモーター::遺伝子配列の組み合わせのコレクションを含み、それにより、将来のプロモータースワップにおいて前記組み合わせを使用することの将来の予測価値を改善し得る。
多様化およびコンソリデーションにより図2を詳細にして、図3とする。図3は、ライブラリーの目的(多様化またはコンソリデーション)ごとに集計した図2の改変である。コンソリデーションにおいて用いられる改変は、多様化からの最高性能改変のサブセットである。
一般に、コンソリデーションの成功は、複数のバックグラウンドにわたる遺伝子改変の繰り返し一貫した有用性に起因するので、コンソリデーションは、ライブラリーの価値の最良尺度である。図3では、多様化よりもコンソリデーションにおいて、プロモーター強度の差は小さいが、弱プロモーターは依然として最も性能不良である。
強プロモーターよりも中強度プロモータースワップが高いヒット率をもたらすという証拠は、図4に示されているように、中強度プロモータースワップに供された遺伝子座、またはラダー中のプロモーターの半数超(すなわち、少なくとも5)に供された遺伝子座のみにデータが限定される場合に特に実証される。図4は、異なるプロモーターレベルにわたる頻度バイアスを均一化するように設計された図2からのデータのサブセットを示す。
したがって、データは、中強度プロモータースワップが、弱プロモーターよりも有用な強プロモーターよりも一般に有用であることを示唆している。当技術分野における従来の慣行は、典型的には、発現を最大化または最小化することであるが、このような極端なアプローチは、特に本質的な細胞機能のモジュレートに関して、負担を細胞に過度に課し得る。
プロモータースワップの他に、多くの他の改変が可能である。外来遺伝子を挿入または使用してネイティブ遺伝子を置き換えることができ、一塩基多型(ATGからTTGなどの開始コドン改変を含む)を用いることができ、UV、トランスポゾンまたは他の変異原によるランダム突然変異誘発も適用することができる。
ゲノムにわたる遺伝子標的の優先順位付け
どのタイプの改変を行うべきかという性質の他に、どの遺伝子座に改変を適用すべきかという問題もまた、本開示の実施形態において対処される。従来、代謝工学は、努力を代謝経路遺伝子に集中させている。これらの遺伝子は明らかに重要なものであり、ゲノムをシェルに組織化するアプローチは、これらの遺伝子を「シェル1」として開始する。これらの遺伝子を定義するために、標的の生合成に関する収集した知識を調べて、シェル1における遺伝子のリストを作成する。
実施形態では、フラックスバランス分析(「FBA」)などの最適化駆動アルゴリズム方法を用いて、生物の代謝フラックスを標的産物に向けることに対して最大の影響を有するであろう遺伝子を同定し得る。このようなアプローチでは、生物のゲノムスケール代謝モデル(本明細書では、遺伝子触媒反応により接続された細胞代謝産物の有向グラフ)を使用して、細胞成長を最大化する別の表現型(例えば、基礎代謝)との比較で、産物の収率を最大化する株の代謝表現型を対比する。対比は、基礎代謝を産物最大化株に変化させるように改変(例えば、それらの発現レベルからアップレギュレートまたはダウンレギュレート)すべき遺伝子のサブセットを明らかにする。分析を実施する正式なステップは、以下を含む:
●線形計画(LP)最適化問題を定式化して、あるいは、代謝定常状態(すなわち、中間代謝産物の蓄積率が正味ゼロである指数成長期)の仮定の下で、標的化学物質の最大生産フラックス(以下、生産表現型)または最大細胞成長率(以下、ネイティブ表現型)をコンピュータ計算する。LP問題の構造は、以下に示されている。
以下を条件として:
式中、Sijは、反応jに関与する代謝産物iの化学量論係数を含むゲノムスケール代謝モデルのトポロジーのマトリックス表示である。反応フラックスの下限LBおよび上限UBは、反応が可逆的であるかまたは1つの特定方向に制限されることを可能にする熱力学的実行可能性に基づいて課される。LP問題の解決に際し、産物フラックス
および細胞成長
の最大値は、第2のステップのために保存される。
●第2のステップでは、一連のLP問題を解決することにより、生産表現型およびネイティブ表現型の両方について、各反応jに対する最大および最小実行可能フラックスを特定する。標的産物の最小フラックスおよび細胞成長をそれぞれ最適値
および
に制限するさらなる制約と一緒に、以前の問題のすべての制約が課せられる。LP問題の構造は、以下に示されている。
以下を条件として:
2つの各表現型のLP問題の解決に際し、一連の実行可能フラックス範囲
および
は保存される。
●各反応の実行可能範囲の対比は、ネイティブ表現型を生産表現型に変換するためには、反応のどのサブセットをそのフラックス能力の点でアップレギュレートまたはダウンレギュレートする必要があることを明らかにする。加えて、前記比較はまた、フラックスに必要なアップ/ダウンレギュレーションのレベルの定量的推定値を提供する。遺伝子反応マップは、反応レベル分類情報を伝達して、遺伝子レベル操作を同定する。
所定の微生物株(例えば、C.glutamicum)で所望のアミノ酸産物の収率および生産性を最適化する場合に関してこれら2つのアプローチにより決定される遺伝子改変の性能の比較は、図5に示されている。
図5は、ライブラリーの目的ごとに集計した、熟練の人間またはアルゴリズム(FBA)による選択にしたがって、改善レベルが、標的産物の生産性および収率の表現型のノイズ閾値を超える改変の割合を示す。コンソリデーションにおいて用いられる改変は、実験中に得られた多様化からの最高性能改変のサブセットである。
アルゴリズムは、多様化過程中により潜在的に有用な変化を推奨するが、コンソリデーションにおける有益な変化の比率は同様である。別の観察結果は、アルゴリズムが、収率または収率および生産性の両方を改善する変化の同定において明らかに性能良好であるということである。
所望の産物を産生する生物の能力を十分に活用するために、すべてのその遺伝子の改変を検討すべきである。しかしながら、技術的制限により、例えば、プロモータースワップを細菌ゲノム中のあらゆる遺伝子に適用することは依然として困難である。したがって、本開示の実施形態は、試験のための公知のオン経路酵素の他に遺伝子を分類および優先順位付けする。標的とする遺伝子に関して、本開示の実施形態は、改変のために遺伝子を優先順位付けする方法を決定する。優先順位付けの1つの目標は、目的の株における所望の性能改善に対する進行速度を最大化することである。
遺伝子をシェルに優先順位付けする別のアプローチは、本開示の実施形態にしたがって、遺伝子オントロジー(GO)によるものである。遺伝子オントロジー分類は、遺伝子産物特性を表す規定の用語の管理語を提供する。これらは、3つのドメインをカバーする:細胞成分(細胞の一部またはその細胞外環境);分子機能(分子レベルにおける遺伝子産物の基本活性、例えば結合または触媒作用);および生物学的プロセス(統合生物単位:細胞、組織、器官および生物の機能に関する、規定の開始および終了を伴う分子事象の操作またはセット)。
GO分類システムは、各用語が同じドメイン中の1つまたはそれを超える他の用語との、および時には他のドメインとの規定の関係を有する有向非巡回グラフとして構成される。GO語彙は、種非依存的であるように設計されており、原核生物および真核生物ならびに単細胞生物と多細胞生物に適用可能な用語を含む(http://geneontology.org/page/ontology−documentation(これは、その全体が参照により本明細書に組み込まれる)を参照のこと)。
遺伝子オントロジーは、遺伝子機能に関する概念の領域を定義する(GO用語:GO term)、およびこれらの機能がどのようにして互いに関連するか(「関係」)を定義する。それは、生物学的知識が蓄積されるにつれて改訂および拡張される。GOは、3つの態様に関する機能を説明する:分子機能(遺伝子産物により実行される分子レベル活性)、細胞成分(遺伝子産物が機能を実行する細胞構造に対する位置)、および生物学的プロセス(より大きなプロセス、または複数の分子活性により達成される「生物学的プログラム」)。
オントロジーの継続的改訂は、生物学および計算知識表示の両方で広範な経験を有するシニアオントロジーエディタのチームにより管理される。オントロジーのアップデートは、Gene Ontology Consortiumオントロジーチームと、アップデートを要求する科学者との間で協力して行われる。ほとんどの要求は、GOアノテーションを作成する科学者(これらは、典型的には、それぞれ少数の用語にのみ影響を与える)から、および生物学の特定分野の領域専門家(これらは、典型的には、多くの用語および関係を含むオントロジーの「ブランチ」全体を改訂する)からなされる。
GOアノテーションの例では、遺伝子産物「シトクロムc」は、分子機能用語「オキシドレダクターゼ活性」、生物学的プロセス用語「酸化的リン酸化」ならびに細胞成分用語「ミトコンドリアマトリックス」および「ミトコンドリア内膜」により説明され得る。
オントロジー
分子機能
単一の高分子機械の作用により行われ得る分子プロセスは、通常、他の分子実体との直接的な物理的相互作用を介する。この意味における機能は、遺伝子産物(または複合体)が実行する作用または活性を示す。これらの作用は、2つの異なるが関連する視点:(1)生化学的活性、および(2)より大きなシステム/プロセスの成分としての役割から説明される。
細胞成分
これらの用語は、分子機能を行う場合に高分子機械により占有される、細胞内コンパートメントおよび構造に対する位置を説明する。生物学者が遺伝子産物の位置を説明する方法は2つある:(1)細胞構造(例えば、原形質膜の細胞質側)またはコンパートメント(例えば、ミトコンドリア)、および(2)それらが一部である安定な高分子複合体(例えば、リボソーム)。GOの他の態様とは異なり、細胞成分概念は、プロセスではなく細胞生体構造を指す。
生物学的プロセス
生物学的プロセスは、達成するように生物が遺伝的にプログラム化される特定の目的を表す。生物学的プロセスは、多くの場合、それらの結果または終了状態により説明され、例えば、細胞分裂の生物学的プロセスは、単一親細胞から2つの娘細胞(分裂した細胞)の作成をもたらす。生物学的プロセスは、特定の遺伝子産物(または高分子複合体)により実行される特定の一連の分子機能により、多くの場合には高度に調節された方法で、特定の時系列で遂行される。
図6は、遺伝子オントロジーからのサブグラフの例を示し、遺伝子クラス602、604および606は、収率の改善について強化されている。この分類では、遺伝子セットは、オントロジーの特定の用語(およびすべての祖先用語)に関連する。(上記各ネームスペースを表すルート用語以外の)すべての用語は、別の用語とのサブクラス関係を有する。
以下はOBO形式ファイルから取られたGO用語の例である。
id:GO:0016049
名前:細胞成長
ネームスペース:生物学的_プロセス
def:”既に存在するものと同様の物質の付着および生合成産生により、細胞が、時間とともにサイズの点で不可逆的に増加するプロセス”[GOC:ai]
サブセット:goslim_一般
サブセット:goslim_植物
サブセット:gosubset_prok
同義語:”細胞エクスパンション”関連[]
同義語:”細胞の成長(cellular growth)”同意[]
同義語:”細胞の成長(growth of cell)”同意[]
is a:GO:0009987 ! 細胞プロセス
is a:GO:0040007 ! 成長
関係:GO:0008361 ! 細胞サイズの調節の一部
http://geneontology.org/page/ontology−structure
遺伝子オントロジーは、GO Slim(これは、遺伝子分類のより一般的な概要を与えるGO用語のサブセットである)を使用して、様々なレベルの抽象化および集合に「ロールアップ」され得る(http://geneontology.org/page/go−slim−and−subset−guideを参照のこと)。この場合、GO用語の「ロールアップ」は、特定のGO用語による遺伝子の分類から開始し、そのより具体的な用語からグラフを「上に」移動させて、特定の用語がサブセットであるより一般的なGO用語の下でそれらの遺伝子を分類することを意味する。「ロールアップ」プロセスはそこから継続して、一般的なGO用語から、これを組み込んださらにより一般的なGO用語に移行し得る。このプロセスは、一般的なGO用語のかなり小さなリストに含まれる1つまたはそれを超えるGO用語が達成されるまで継続する。このようにして、特定の各GO用語は、GO Slimオントロジーファイル内のGO用語の限定的なリスト内に含まれるより一般的なGO用語に変換される。GO Slimの使用は、ゲノムをシェルに優先順位付けするための最も潜在的な用途である。
GO SLIMマッピングのアルゴリズム的な定義は、すべてのGO用語を3レベルだけロールアップすること、または総GO用語の数もしくは所定のGO用語ごとに割り当てられる遺伝子の数の点で「スイートスポット」に達するまで繰り返しロールアップを行うことなどの方法を含み得る。GO Slimのすべてのプールが規定のサイズに達するか、またはユニークなGO用語のプールが特定量だけ減少するまで、GO用語が段階的にロールアップされるように、本開示の実施形態は、アルゴリズム的に「スイートスポット」アプローチを定義し得る。これらのアプローチには、多くの他の場合に容易に拡張可能であるという利点を有する。
表2は、実験に基づいて所定の微生物株において所望のアミノ酸収率および生産性について強化されたGO Slim用語を示す。各GO用語について、プリセット閾値を超える収率または生産性の改善をもたらす遺伝子の数を、偶然に見られると予想される数と比較した。この表は、コンソリデーションおよび多様化の組み合わせに関するものであり、多様化実験が中心である。
遺伝子分類スキームを決定したら、次のステップは、分類の観点から実験効果の構造を説明することである;すなわち、どのサブクラスが、標的表現型の改善に最も有用であるかを決定して、その後の改変ラウンドの指針とるか、または別の標的および/もしくは生物に同様に適用することである。統計的アプローチまたは機械学習アプローチを用いて、これらのサブクラスを同定し得る。
統計的アプローチの中で、遺伝子セット強化分析(「GSEA」)は、本開示の実施形態において用いられ得る。(GSEA;Subramanian Aら、”Gene set enrichment analysis:A knowledge−based approach for interpreting genome−wide expression profiles,”PNAS,2005(これは、その全体が参照により本明細書に組み込まれる)を参照のこと)。GSEAは、一連の候補遺伝子間で過剰表現されているオントロジー内の遺伝子クラスのサブセットを同定しようと試みる。この分析は、典型的には、2つのタイプのアウトプットを提供する:強化度ESは強化度を示し、p値は結果の有意性を示す。統計的方法を用いて、多重仮説検定を修正し得る。
ヒトゲノムプロジェクトの完了は、大量の新たな情報を研究者に与えたが、それはまた、膨大な量の得られたデータをどのように解釈および分析するかという問題を研究者に残した。疾患に関連する遺伝子を探すために、研究者は、異なる細胞における遺伝子発現量を測定するDNAマイクロアレイを利用した。研究者は、数千の異なる遺伝子に対してこれらのマイクロアレイを実施し、2つの異なる細胞カテゴリ(例えば、正常細胞および癌細胞)の結果を比較した。しかしながら、疾患は、典型的には、遺伝子群全体に関係するので、この比較方法は、個々の遺伝子の発現間の微妙な差を検出するために十分高感度ではない。複数の遺伝子が単一の生物学的経路に関連するので、遺伝子セット内の発現の相加的変化が表現型発現の差につながる。遺伝子セット強化分析は、遺伝子群の発現の変化に焦点を当て、そうすることにより、前記方法は、単一遺伝子の発現の検出不可能な小さな変化の問題を解決する。
遺伝子セット強化分析では、同じ生物学的経路への関与により、または染色体上の近傍位置により(これらはすべて、改変特徴として役立ち得る)互いにグループ化された優先遺伝子セットを使用する。本開示の実施形態では、これらの規定のセットのデータベースは、The Molecular Signatures Database(MSigDB)において見られ得る。GSEAでは、DNAマイクロアレイまたは今はRNA−Seq(全トランスクリプトームショットガンシーケンス)を実施し、2つの細胞カテゴリ間で比較し得るが、長いリスト中の個々の遺伝子に焦点を当てる代わりに、遺伝子セットに焦点が当てられている。研究者は、セット中の遺伝子の大部分がこのリストの両極端に該当するかを分析する:リストの上および下は、2つの細胞タイプ間の発現の最大差に対応する。遺伝子セットが上(過剰発現)または下(過少発現)のいずれかに該当する場合、それは、表現型の差に関連すると考えられる。
例えば、健常遺伝子型および疾患遺伝子型の比較では、ゲノムワイド関連研究を用いて、疾患ゲノムにおいて過剰なSNPであって、その症状に関連し得るSNPを見出すことを試み得る。GSEAの前には、ゲノムワイドSNP関連研究の精度は、多数の偽陽性により非常に制限されていた。GSEA−SNP法は、疾患に寄与するSNPが、同じ生物学的経路にすべてが関与する一連の遺伝子にグループ化される傾向があるという理論に基づく。GSEAのこの適用は、疾患関連SNPの発見を支援するだけではなく、対応する疾患経路および疾患機構を明らかにするために役立つ。
あるいは、本開示の実施形態は、オントロジーの所定のクラス(特徴)と観察結果との間の関係を学習するための機械学習(「ML」)技術を適用し得る。このフレームワークでは、実施形態は、標準的なMLモデル、例えば決定木を使用して、特徴の重要性を決定し得る。オントロジークラスの階層的性質により、特徴は相関しているかまたは冗長であることが多く、あいまいなモデルフィッティングおよび特徴検査につながり得る。この問題に対処するために、主成分分析により、インプット特徴に対して次元縮小を実施し得る。あるいは、子から親へのオントロジークラスから得られた情報に基づいて、特徴のトリミングを実施し得る。
一般に、機械学習は、限られた数のラベルデータ例を使用し、次いで、未知データに対して同タスクを実行することによる、情報タスク(例えば、分類または回帰)の性能に関する性能基準(例えば、パラメータ、技術または他の特徴)の最適化として説明され得る。教師あり機械学習、例えば線形回帰を用いたアプローチでは、機械(例えば、コンピューティングデバイス)は、例えば、トレーニングデータにより示されるパターン、カテゴリ、統計的関係または他の属性を特定することにより学習する。次いで、学習の結果を使用して、新たなデータが同じパターン、カテゴリ、統計的関係または他の属性を示すかを予測する。
本開示の実施形態は、トレーニングデータが利用可能である場合には、他の教師あり機械学習技術を用い得る。トレーニングデータがない場合には、実施形態は、教師なし機械学習を用い得る。あるいは、実施形態は、少量のラベルデータおよび大量の非ラベルデータを使用した半教師あり機械学習を用い得る。実施形態はまた、特徴選択を用いて、機械学習モデルの性能を最適化するように、最も関連する特徴のサブセットを選択し得る。選択した機械学習アプローチのタイプに応じて、代替としてまたは線形回帰に加えて、実施形態は、例えば、ロジスティック回帰、ニューラルネットワーク、サポートベクターマシン(SVM)、決定木、隠れマルコフモデル、ベイジアンネットワーク、グラムシュミット、強化系学習、クラスタ系学習(階層クラスタリングを含む)、遺伝的アルゴリズムおよび当技術分野で公知の任意の他の適切な学習機械を用い得る。特に、実施形態は、ロジスティック回帰を用いて、分類それ自体と一緒に分類(例えば、異なる機能グループへの遺伝子の分類)の確率を提供し得る。例えば、Shevade,A simple and efficient algorithm for gene selection using sparse logistic regression,Bioinformatics,Vol.19,No.17 2003,pp.2246−2253、Lengら、Classification using functional data analysis for temporal gene expression data,Bioinformatics,Vol.22,No.1,Oxford University Press(2006),pp.68−76(これらはすべて、その全体が参照により本明細書に組み込まれる)を参照のこと。
実施形態は、特にディープニューラルネットワーク(DNN)として公知の形式で、機械学習タスクの実行で人気が高まっているグラフィック処理ユニット(GPU)加速アーキテクチャを用い得る。本開示の実施形態は、GPU系機械学習、例えばGPU−Based Deep Learning Inference:A Performance and Power Analysis,NVidia Whitepaper,November 2015,Dahlら、Multi−task Neural Networks for QSAR Predictions,Dept.of Computer Science,Univ.of Toronto,June 2014(arXiv:1406.1231[stat.ML])(これらはすべて、その全体が参照により本明細書に組み込まれる)に記載されているものを用い得る。本開示の実施形態に適用可能な機械学習技術はまた、他の参考文献の中でも、Libbrechtら、Machine learning applications in genetics and genomics,Nature Reviews:Genetics,Vol.16,June 2015、Kashyapら、Big Data Analytics in Bioinformatics:A Machine Learning Perspective,Journal of Latex Class Files,Vol.13,No.9,Sept.2014(arXiv:1506.05101)、Prompramoteら、Machine Learning in Bioinformatics,Chapter 5 of Bioinformatics Technologies,pp.117−153,Springer Berlin Heidelberg 2005(これらはすべて、その全体が参照により本明細書に組み込まれる)に見られ得る。
株最適化のためのGSEA−新たなオントロジークラスの学習
実施形態では、株最適化問題の状況でGSEAを使用して、一連の履歴データに基づいて新規オントロジークラスを学習し、学習したものを使用して、性能を改善する可能性のある新たな候補変化を予測し得る。GSEAを使用して標的遺伝子を決定し得、さらに、それを他の情報(例えば、最適なプロモーター強度レベルの知識)と組み合わせて、実施すべき改変を選択し得る。
本開示の実施形態は、未試験遺伝子の予測を行う。例えば、本株最適化プロジェクトは、人間の専門家を使用して、26個、81個、415個および2107個の遺伝子からなる4つのシェルにゲノムを優先順位付けした。現在、第1の3つのシェルは完成しており、最後の(第4の)シェルの約半分が完成している。最後のシェルは、標的の収率および生産性表現型を最適化するために重要であることが人間の専門家には明らかではなかったゲノムの残り約80%に相当する。しかしながら、本発明の譲受人による最後のシェルまでの現在の進歩は、多数の有用な表現型改善をもたらしたので、これらの遺伝子のより良い優先順位付けが優先事項である。本明細書では、「進歩」は、それらに適用された改変を実際に有していたシェル4遺伝子の割合を指す。人間により定義されたシェルに対する表2からの強化GO Slimシェルの対応は、図7に示されている。
図7は、目的の株ゲノム中のすべての遺伝子の人間により優先順位付けされたシェルに対する対応による、表2の強化GO Slimの遺伝子の内訳を示す。
1つのアプローチでは、本開示の実施形態は、最後のシェルにおいて高度に表されるGO Slimに焦点を当てることにより、最後のシェルを優先順位付けする。図7からの例は、「DNA結合」、「DNA代謝プロセス」および「ストレスへの応答」を含む。したがって、本開示の実施形態は、他のGO Slim中の遺伝子に対して遺伝子改変を実施する前に、それらのGO Slim内の遺伝子への遺伝子改変の適用を優先順位付けする。
本開示の実施形態はまた、有用な改変が以前にどこにあったかを考慮し得る。例えば、図8は、人間により設計されたシェルが、図8に示されているGO Slimに対応する「ヒット」(ノイズを超える候補表現型改善)とこれまでに判断された改変を含むことを示す。
図8は、目的の例示的な株ゲノム中のすべての遺伝子の人間により優先順位付けされたシェルへの対応により、プロモータースワップによる改変が所望の表現型を改善することが実証された強化GO Slimの遺伝子のサブセットの内訳を示す。
本開示の実施形態は、有用な改善を引き続きもたらす可能性があるので、シェル4中の有用な改善につながったGO Slimを検討する。図8からの例は、「DNA代謝プロセス」および「ストレスへの応答」を含む。これらの2つのGO Slimは91個の遺伝子を表し、このうち、46個は以前に改変の標的であった;したがって、次の段階では、残りの45個の遺伝子を高優先標的とみなし得る。
本開示の実施形態は、機械学習アプローチを用いて、遡及的に上記アプローチの有用性を評価する。例示的なプロセスの例は、以下のとおりである:
●履歴データをトレーニングセットおよびテストセットに分割する
●トレーニングデータセット、例えばGSEAを使用して、クラスごとの強化確率を計算する。
●トレーニングセット(すなわち、テストデータセット)に存在しないすべての遺伝子クラス例の強化確率を予測する。
●テストデータセットに関して、クラスごとの強化確率の予測と観察結果とを比較する。
●必要に応じて、ハイパーパラメータ、例えばMLアルゴリズムの決定木パラメータを調整する。
オンライン学習
上記を考慮して、本開示の実施形態は、最初に、以下の降順で、シェルに分類される改変候補として遺伝子を優先順位付けし得る:
1.FBAまたは別の代謝モデルまたはそれらの組み合わせにより標的として同定された遺伝子(代謝マップおよび専門家が参考にする文献を含む)
2.以前のゲノムワイドな代謝最適化プロジェクトの取り組みにおいて有用であると同定され適用可能であると思われるGO Slim(例えば、DNA代謝、遺伝子調節、ストレス応答)、および専門家が重要である可能性があると判断した任意のGO Slim
3.他の遺伝子
最初のシェルが完成し、最後のシェルにおいていくらかの進歩があった後、本開示の実施形態は、自動GSEAまたは他の分析を繰り返し実施し、残りの最終シェル遺伝子を再優先順位付けし得る。実施形態では、優先順位付けエンジンは、実験結果に依拠して、予測アルゴリズム中の特定の特徴の重み付けを強制し得る。例えば、重み付けは、最重量から最軽量の重み付けまで、以下の順序で以下の遺伝子セットに割り当てられ得る:
1.最終シェル遺伝子の中から有用な改善を以前に生成した強化GO Slim中の遺伝子
2.最終シェルにおいて十分に表示されている強化GO Slim中の遺伝子
3.強化GO Slim中の他の遺伝子
4.他の遺伝子
実施形態では、最初に、中強度プロモータースワップを試行し、続いて、強プロモーターを試行し、最も低い優先度を受けた弱プロモーターを試行し得る。クラスが重複するので、または複数の分類システムが用いられているので、遺伝子が複数のクラスに属する場合、それが属する各クラスに関する予測性能の組み合わせに基づいて、重み付けされた予測性能を各遺伝子について割り当て得ることにも留意する。予測性能の重み付けは、それに応じて対応する優先順位付けに影響を及ぼすであろう。最も単純な場合では、各遺伝子の平均クラスベースの予測性能を使用し得る。別の例は、各関連クラスのサイズまたは公知の有用性にしたがって重み付けされた平均クラスベースの予測性能である。
遺伝子改変の新たなセットが予測、適用および試験されるにつれて、どのクラスの改変が最も有用であるかに関するデータを収集し、次いで、「オンライン」方式でフィードバックして、次のラウンドの改変を優先順位付けし得る。よりアルゴリズム的な点では、GSEAモデルは、トンプソンサンプリングにより繰り返しアップデートされて、以下に記載されるように、最も関連する(すなわち、ヒット強化された)オントロジークラスを効率的に学習し得る。この技術は、過去のクラスごとの成功(例えば、性能改善ヒット)に基づいて、クラスの比例サンプリングを調整する。
●クラスCのオントロジーO、およびオントロジークラスと遺伝子との間のマッピングを想定する。サイクルごとの株構築能力N(例えば、サイクルごとに構築される株の数)を想定する
●初期化
○j=0。ここで、jは、メインのwhileループカウンターである。
○jmax実行するランの最大数。
○予備オントロジークラス予想強化率P(C)、ここで、jは反復であり、iは、実験データからの予備知識、他の技術、例えばFBAもしくは他の代謝モデル、または最初の優先順位付けに関して上記で議論されている他の技術に基づいて、オントロジークラスを同定するインデックスである。
○株性能目標ygoal=0であり、現在の親株性能yjk=0であり、ベースラインとしてkは、ラウンドjで構築されたk番目の株を表す。
●While max(yjk)<ygoalまたはj<jmax
○P(C)に比例してオントロジークラスCからランダムにNの遺伝子gをサンプリングする。すなわち、オントロジークラスからトンプソンサンプリングを実施する。交換の有無にかかわらず、サンプリングを実施し得る。当業者は、他の学習ポリシー、例えば知識勾配ポリシーを代わりに用い得ることを認識し得る。
○以前のステップにおいて同定された遺伝子gを標的とする遺伝子摂動技術の1つ、例えばプロモータースワッピングを適用する。これは、新たな株Sjkをもたらす
○新たな株の表現型性能を測定する:yjk=f(Sjk
○GSEAまたは他の上記技術を使用した新たな測定結果に基づいて、アップデートされたオントロジークラス強化率Pj+1(C)を決定する
○インクリメントj=j+l
実施形態によれば、図9を参照すると、優先順位付けエンジンは、少なくとも1つの微生物株中の第1の遺伝子セットに行われた第1の遺伝子改変に少なくとも部分的に基づいて、第1の表現型性能データにアクセスし(902);第1の表現型性能データと、第1の遺伝子改変および第2の遺伝子改変に共通する少なくとも1つの改変特徴とに少なくとも部分的に基づいて、第2の遺伝子改変の第2の予測表現型性能を予測し(904);第2の表現型性能に少なくとも部分的に基づいて、第2の遺伝子セットに適用すべき第2の遺伝子改変を優先順位付けする(906)。優先順位付けに少なくとも部分的に基づいて、第2の遺伝子改変を少なくとも1つの微生物株内の遺伝子に適用し得る。改変特徴は、予測モデリング、例えば機械学習において有用可能性があると考えられるパラメータである。改変特徴は、カテゴリ特徴(例えば、タイプ)、連続(例えば、数)または順序特徴(例えば、個別のグループ、例えばより良いまたはより悪い)として表現され得る。
優先順位付けエンジンは、第2の遺伝子セット内の遺伝子への第2の遺伝子改変の1つまたはそれを超える遺伝子改変の繰り返し適用から観察された表現型性能データに基づいて、第2の遺伝子セット内の遺伝子のサブセットに適用すべき第2の遺伝子改変のサブセットの優先順位付けを繰り返しアップデートし得る。
実施形態では、優先順位付けエンジンは、第2の遺伝子セット内の遺伝子への第2の遺伝子改変の1つまたはそれを超える遺伝子改変の適用に少なくとも部分的に基づいて、アップデートされた第1の観察表現型性能データを取得し(908)、アップデートされた第1の表現型性能データに少なくとも部分的に基づいて、第2の遺伝子改変のサブセットのアップデートされた第2の表現型性能を予測し得る(904)。次いで、優先順位付けエンジンは、アップデートされた第2の表現型性能に少なくとも部分的に基づいて、第2の遺伝子セット内の遺伝子のサブセットに適用すべき第2の遺伝子改変のサブセットの優先順位付けをアップデートし得る(906)。第2の遺伝子セット内の遺伝子への第2の遺伝子改変の1つまたはそれを超える遺伝子改変の適用は、それらの改変遺伝子を第2の遺伝子セット内から第1の遺伝子セットに有効に移動させ、そして、本開示の実施形態にしたがって、性能データが取得され得ることに留意する。本開示の実施形態によれば、本明細書に記載される実施形態の任意の組み合わせは、優先順位付けされた遺伝子改変を使用して微生物株を生産するために使用され得る。本開示の実施形態によれば、微生物株は、第1の遺伝子セット中の遺伝子に適用される第1遺伝子改変を含むように生産される。実施形態によれば、このような微生物株は、優先順位付け閾値よりも上に優先順位付けされ、第2の遺伝子セット中の少なくとも1つの遺伝子に適用される第2の遺伝子改変をさらに含み得、適用される遺伝子改変は、予測された第2の表現型性能に基づくものよりも、予測されアップデートされた第2の表現型性能に基づく優先順位付けに応じて高く優先順位付けされる。
本開示の実施形態によれば、遺伝子改変および少なくとも1つの改変特徴は、改変すべき遺伝子に関連し得るか、またはそれらの遺伝子に行われた改変のタイプに関連し得る。例えば、少なくとも1つの改変特徴は、オントロジークラス、例えばGO分類に関連するかまたは改変のタイプ、例えばプロモータースワップ(例えば、プロモーターの挿入、欠失または置換を含むプロモーター改変)またはSNP(一塩基多型)スワップ(例えば、単一塩基対の挿入、欠失または置換を含む単一塩基対改変)に関連するクラスを含むクラスを含み得る。
改変特徴は、プロモーターの強度、例えば弱、強または中強度に関連し得る。本発明者らによる実験は、弱プロモーターまたは強プロモーターよりも中強度プロモーターが、微生物株による性能(例えば、収率、生産性)改善の高い可能性をもたらした事例を示した。したがって、優先順位付けエンジンは、強プロモーターまたは弱プロモーターよりも中強度プロモーターを予測表現型性能に重く重み付けし得る。本開示の実施形態では、優先順位付けエンジンは、強プロモーターおよび中強度プロモーターよりも弱プロモーターを軽く重み付けし得る。
一般に、優先順位付けエンジンは、より低い効果よりも公知の有益な効果を予測表現型性能に重く重み付けし得る。逆に、実施形態では、優先順位付けエンジンは、低い重み付けを、より有益な効果よりも、予測表現型性能における公知のネガティブなまたはあまり有益ではない効果に割り当て得る。別の例として、実施形態では、第2の遺伝子改変の第2の表現型性能の予測は、株中の少なくとも2つの遺伝子への1つまたはそれを超えるタイプの改変(例えば、プロモータースワップ、SNPスワップ)を含む少なくとも1つの改変特徴に少なくとも部分的に基づく。このようにして、前記方法は、2つまたはそれを超える遺伝子改変を同じ株に行うことの表現型効果から生じるエピスタシス効果を説明する。このような実施形態では、予測は、ポジティブエピスタシス効果をもたらす1つまたはそれを超えるタイプの改変を予測表現型性能により重く重み付けし得る。
実施形態では、少なくとも1つの改変特徴は、遺伝子オントロジー分類内の異なるレベルの抽象化を含む。実施形態では、少なくとも1つの改変特徴は、代謝ネットワークに基づく分類を含む。実施形態では、第2の遺伝子セットは、第1の遺伝子セット内の遺伝子を含まない。実施形態では、第2の遺伝子セット内の遺伝子はそれぞれ、複数のクラスのメンバーであり、所定の遺伝子の複合性能予測は、それが属する各クラスに適用する予測の組み合わせから生成され得る。実施形態では、第2の遺伝子セット内の遺伝子は、少なくとも1つの共通クラスのメンバーシップを共有し、共通クラスが、各遺伝子が属する唯一のクラスである場合、このような遺伝子はすべて、同じ予測性能を割り当てられる。実施形態では、第2の遺伝子セット内の遺伝子はそれぞれ、単一のクラスのみのメンバーであり得る。実施形態では、第1および第2のセット内の遺伝子は、互いにクラスメンバーシップを共有し得、このような遺伝子はそれぞれ、複数のクラスに属し得る。
実施形態では、少なくとも1つの改変特徴は、第1の分類システムからの第1のオントロジークラスおよび第2の分類システムからの第2のオントロジークラスを含む。例えば、遺伝子が、異なる分類システム(例えば、GO、KEGG、遺伝子または遺伝子産物の配列類似性、タンパク質ドメイン)からの複数のクラスのメンバーであり、それらのクラスが、性能改善をもたらすことが観察または予測されている場合、優先順位付けエンジンは、本開示の実施形態にしたがって、改変の候補としてのその遺伝子の予測表現型性能を有利に重み付けし得る(それにより、高い優先度が割り当てられる可能性が増加する)。
実施形態では、少なくとも1つの改変特徴は、少なくとも1つの微生物株により産生される産物の特徴を含む。例えば、産物の特徴は、同じ代謝経路またはオントロジークラスに関連し得る。第1のセットまたは第1のセットからの遺伝子が性能改善に関連する場合、同じ代謝経路に沿った、または同じオントロジークラス内の第2のセットからの遺伝子もまた、性能改善を生じさせる可能性がある。したがって、優先順位付けエンジンは、本開示の実施形態にしたがって、改変の候補としてのその遺伝子の予測表現型性能を有利に重み付けし得る(それにより、高い優先度が割り当てられる可能性が増加する)。
あるいは、表現型性能データの改変特徴として複数の株−産物組み合わせを使用する場合、産物の特徴は、標的株−産物組み合わせに対する、インプット株−産物組み合わせに関するデータの関連性を重み付けするために使用され得る。標的産物とより多くの特徴を共有するインプットは、有用な予測をもたらす可能性が高い。実施形態では、それらの産物特徴は、第1の産物に密接に関連する(含有量または最も近い共通前駆体への距離による)代謝経路から生じる構成原子の数、構造、原子含有量などを含み得る。
実施形態では、優先順位付けエンジンは、機械学習予測モデルのトレーニングセットとして第1の遺伝子セットからの遺伝子を使用した機械学習を用いて、第2の遺伝子改変の第2の表現型性能を予測し得る。
実施形態では、優先順位付けエンジンは、第1の観察表現型性能データに少なくとも部分的に基づいて、第2の遺伝子改変のクラスごとの強化確率を予測すること、および予測したクラスごとの強化確率のランキングに少なくとも部分的に基づいて、第2の予測遺伝子改変を優先順位付けすることにより、第2の表現型性能を予測し得る。本開示の実施形態では、優先順位付けエンジンは、クラスの予測強化が閾値強化を超える場合、クラス内の試験のために少なくとも1つの候補遺伝子を優先順位付けし得る。
実施形態では、少なくとも1つの改変特徴は、微生物株の特徴に関連する。このような特徴は、ゲノム配列類似性、ドメイン(古細菌、細菌または真核生物)、グラム陽性または陰性(細菌の場合)、属、種などを含む系統学的または分類学的な特徴;ネイティブ環境の特徴(例えば、pH、温度、塩分、圧力)、代謝特徴(例えば、好ましい成長基質、可能な成長基質、老廃物)などを含む生態学的および生理学的な特徴;または他の特徴を含み得る。例えば、第1の株中の遺伝子セットへの改変が性能改善を提供する場合、類似の第2の株中の類似の遺伝子セットへの類似の改変も性能改善を生じさせる可能性がある。本明細書における「類似の遺伝子セット」は、例えば、同じ遺伝子オントロジークラスに属する遺伝子であって、同じ産物、配列類似性、発現プロファイルまたは調節の類似性などを有する代謝経路に属する遺伝子として定義され得る。「類似の」株は、系統的類似性、遺伝系統の類似性を特徴とし得る;株が原核生物または真核生物であるか、類似の原料を消費するか、類似の代謝産物を産生するか、または他の改変特徴が類似するか。したがって、前記方法は、本開示の実施形態にしたがって、同じまたは類似の改変による改変の候補としての第2の株中の類似セット内の遺伝子の予測表現型性能を有利に重み付けし得る。
実施形態では、第2の遺伝子セットは、第1の遺伝子セットが存在する少なくとも1つの微生物株とは異なる少なくとも1つの微生物株内に存在する。これらの実施形態などでは、第1の表現型性能データは、少なくとも1つの微生物株により産生される第1の産物の1つまたはそれを超える特徴に関連し、第2の予測表現型性能は、第1の産物とは異なる第2産物であって、同じ株または共通の特徴を共有する別の株により産生される第2産物の1つまたはそれを超える特徴に関連し得る。実施形態では、第2の産物は、共通の特徴、例えば、第1の産物に密接に関連する(含有量または最も近い共通前駆体への距離による)代謝経路から生じる構成原子の数、構造、原子含有量などを共有し得る。
図12は、図12A〜12Lの表セグメントのレイアウトのガイドとして役立つ図である。図12A〜12Lは、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す実験データの表を共に形成する。(表は、図12A〜12Lのそれぞれの行番号および列番号を参照することにより、図12のガイドを用いずに継ぎ合わせることもできる。)任意の行の列見出し(括弧で特定)全体を読むことにより、正式名称(M.Ikedaら、The Corynebacterium glutamicum genome:features and impacts on biotechnological processes,Appl Microbiol Biotechnol.2003 Aug;62(2−3):99−109.Epub 2003 May 13(これは、その全体が参照により本明細書に組み込まれる)に言及されているngcl命名法でlocus_id(B)によっても特定される)、変化のタイプ(D)(例えば、欠失、プロモータースワップ(「proswp」)、開始コドンスワップ(「scswp」)、置換(「gene_repl」))(ほとんどがプロモータースワップである)、シェル番号(E)、およびシェルサブクラス(F)(例えば、オン経路、輸送、その他、TCA、転写、PTS)の下、宿主遺伝子(C)に影響を与える(改変識別子により特定された)変化(A)を確認することができる。シェル3および4は、一般に、生合成経路から外れている。変化と目的の産物との間に公知の生物学的関係がないので、シェルサブクラス「その他」は、一般に、将来の調査の関心対象であり得る予想外のオフ経路結果に対応する。他のシェルサブクラス(このうちのいくつかは、図12A〜Lの表に記載されている)は、以下に説明されている。
オン経路:産物の生合成経路上
輸送:イオンチャネル、輸送体、および細胞の内外への分子の輸送に関与する他のタンパク質
転写:転写因子および他の転写調節因子
TCA:クエン酸回路としても公知のトリカルボン酸回路
PTS:細菌への糖の輸入に関与するホスホトランスフェラーゼシステム
特定の変化(A)について、表は、グラム/リットル/時間の単位で生産性の変化(G)を示し、グルコースのグラム/目的の産物のグラム×100の単位で収率の変化(H)(重量パーセント比)を示す。
プロモーター(I)は、変化(A)により影響を受ける遺伝子のネイティブプロモーターを置換するプロモーターを特定する。置換プロモーター(I)の表中の識別子は、置換プロモーターが由来する遺伝子を参照する。「ネイティブ」が示されている場合、置換を行わなかった。
タンパク質名(J)は、改変された遺伝子により作られたタンパク質を特定する(例えば、プロモーター変化により増加した酵素)。一般に、作られたタンパク質は目的の産物ではなく、変化により影響を受ける生物により作られたタンパク質であることに留意する。
K列は、変化により影響を受けた遺伝子に関連する「GO用語」を列挙する。本書の別の場所で議論されているように、シェル3および4に関連するGO用語は、さらなる調査のために、潜在的な改変の高優先標的として特に関心対象である。
図12A〜Lの表からのシェル4GO用語のリストは、以下のとおりである:
デノボCTP生合成プロセス、
3−イソプロピルリンゴ酸デヒドラターゼ活性、
4鉄、
4硫黄クラスタ結合、
ATP結合、
DNA結合、
DNAトポイソメラーゼ活性、
DNAトポイソメラーゼタイプI活性、
DNAトポロジー変化、
DNAテンプレート、
L−アスパラギン酸:2−オキソグルタル酸アミノトランスフェラーゼ活性、
L−フェニルアラニン:2−オキソグルタル酸アミノトランスフェラーゼ活性、
NADHデヒドロゲナーゼ活性、
UMPキナーゼ活性、
アセト乳酸シンターゼ活性、
アデニル酸シクラーゼ活性、
アルコールデヒドロゲナーゼ(NAD)活性、
アミノ酸結合、
芳香族化合物生合成プロセス、
生合成プロセス、
分岐鎖アミノ酸生合成プロセス、
cAMP生合成プロセス、
触媒活性、
細胞アミノ酸生合成プロセス、
細胞成分の組織化または生物発生、
細胞高分子生合成プロセス、
細胞窒素化合物生合成プロセス、
細胞プロセス、
染色体組織化、
コドン特異的、
環状ヌクレオチド生合成プロセス、
複素環生合成プロセス、
細胞内シグナル伝達
イオン輸送、
鉄硫黄クラスタ結合、
イソメラーゼ活性、
キナーゼ活性、
ロイシン生合成プロセス、
リアーゼ活性、
代謝プロセス、
金属イオン結合、
ヌクレオチド結合、
ヌクレオチドリン酸化、
有機酸生合成プロセス、
酸化還元プロセス、
オキシドレダクターゼ活性、
リン−酸素リアーゼ活性、
リン酸化、
カリウムイオン輸送、
タンパク質分解、
プリン含有化合物代謝プロセス、
ピリドキサールリン酸結合、
ピリミジンヌクレオチド生合成プロセス、
ピリミジン含有化合物代謝プロセス、
細胞生合成プロセスの調節、
転写の調節、
配列特異的DNA結合、
セリンタイプエンドペプチダーゼ活性、
シグナル伝達物質活性、
シグナル伝達、
小分子代謝プロセス、
トランスアミナーゼ活性、
転写、
転写因子活性、
トランスフェラーゼ活性、
翻訳、
翻訳放出因子活性、
翻訳終了、
輸送、
ウリジル酸キナーゼ活性、
DNA代謝プロセス、
生合成プロセス、
細胞アミノ酸代謝プロセス、
代謝プロセス、
核酸塩基含有化合物代謝プロセス、
翻訳、
輸送
図10は、本開示の実施形態のクラウドコンピューティング環境を示す。本開示の実施形態では、クラウドコンピューティングシステム1002で優先順位付けエンジンソフトウェア1010を実行して、複数のユーザが、本開示の実施形態にしたがって遺伝子改変を優先順位付けすることを可能にし得る。図7に示されているクライアントコンピュータ1006は、ネットワーク1008、例えばインターネットを介してシステムにアクセスする。システムは、図7に示されているタイプの1つまたはそれを超えるプロセッサを使用した1つまたはそれを超えるコンピューティングシステムを用い得る。クラウドコンピューティングシステムそれ自体は、ネットワーク1008を介してソフトウェア1010をクライアントコンピュータ10010にインターフェースするネットワークインターフェース1012を含む。ネットワークインターフェース1012は、クライアントコンピュータ1006のクライアントアプリケーションがシステムソフトウェア1010にアクセスすることを可能にするアプリケーションプログラミングインターフェース(API)を含み得る。特に、APIを通じて、クライアントコンピュータ1006は、優先順位付けエンジンにアクセスし得る。
サービス型ソフトウェア(SaaS)ソフトウェアモジュール1014は、クライアントコンピュータ1006へのサービスとしてシステムソフトウェア1010を提供する。クラウド管理モジュール10110は、クライアントコンピュータ1006によるシステム1010へのアクセスを管理する。クラウド管理モジュール1016は、マルチテナントアプリケーション、仮想化、または当技術分野で公知の他のアーキテクチャを用いるクラウドアーキテクチャが複数のユーザにサービスを提供することを可能にし得る。
図11は、本開示の実施形態にしたがって、非一時的コンピュータ可読媒体(例えば、メモリ)に格納されたプログラムコードを実行するために使用され得るコンピュータシステム1100の例を示す。コンピュータシステムは、アプリケーションに応じて、人間ユーザおよび/または他のコンピュータシステムとインターフェースするために使用され得るインプット/アウトプットサブシステム1102を含む。I/Oサブシステム1102は、例えば、キーボード、マウス、グラフィカルユーザインターフェース、タッチスクリーン、またはインプットのための他のインターフェース、例えばLEDもしくは他のフラットスクリーンディスプレイ、またはアウトプットのための他のインターフェース(アプリケーションプログラムインターフェース(API)を含む)を含み得る。本開示の実施形態の他の要素、例えば優先順位付けエンジンは、コンピュータシステム1100のもののようなコンピュータシステムで実行され得る。
プログラムコードは、非一時的媒体、例えばセカンダリメモリ1110またはメインメモリ1108またはその両方の中の永続ストレージに格納され得る。メインメモリ1108は、揮発性メモリ、例えばランダムアクセスメモリ(RAM)または不揮発性メモリ、例えばリードオンリーメモリ(ROM)、ならびに命令およびデータへの高速アクセスのための異なるレベルのキャッシュメモリを含み得る。セカンダリメモリは、永続ストレージ、例えばソリッドステートドライブ、ハードディスクドライブまたは光ディスクを含み得る。1つまたはそれを超えるプロセッサ1104は、1つまたはそれを超える非一時的媒体からプログラムコードを読み取り、コードを実行して、コンピュータシステムが、本明細書の実施形態により実施される方法を遂行することを可能にする。当業者は、プロセッサがソースコードを取り込んで、プロセッサ1104のハードウェアゲートレベルで理解可能なマシンコードにソースコードを解釈またはコンパイルし得ることを理解するであろう。プロセッサ1104は、コンピュータ集約的なタスクを処理するためのグラフィックス処理ユニット(GPU)を含み得る。
プロセッサ1104は、1つまたはそれを超える通信インターフェース1107、例えばネットワークインターフェースカード、WiFiトランシーバなどを介して、外部ネットワークと通信し得る。バス1105は、I/Oサブシステム1102、プロセッサ1104、周辺機器1106、通信インターフェース1107、メモリ1108および永続ストレージ1110を通信可能に結合する。本開示の実施形態は、この代表的なアーキテクチャに限定されない。代替的な実施形態は、異なる配置およびタイプのコンポーネント、例えば、インプット−アウトプットコンポーネントおよびメモリサブシステムのための別個のバスを用い得る。
当業者は、本開示の実施形態の要素の一部または全部ならびにそれらに付随する操作が、コンピュータシステム1100のような1つまたはそれを超えるプロセッサおよび1つまたはそれを超えるメモリシステムを含む1つまたはそれを超えるコンピュータシステムにより全体的または部分的に実行され得ることを理解するであろう。特に、本明細書に記載される優先順位付けエンジンおよび任意の他の自動システムまたはデバイスの要素は、コンピュータにより実行され得る。いくつかの要素および機能はローカルに実行され得、他のものは、異なるサーバを介したネットワークを通じた分散方式で、例えばクライアントサーバ方式で実行され得る。特に、サーバ側操作は、図10に示されているように、サービス型ソフトウェア(SaaS)方式で複数のクライアントに利用可能にされ得る。
当業者は、いくつかの実施形態では、本明細書に記載される操作のいくつかは、人間による実行により、または自動手段および手動手段の組み合わせにより実施され得ることを認識するであろう。操作が完全に自動化されていない場合、優先順位付けエンジンの適切なコンポーネントは、例えば、それ自体の操作能力を通じて結果を生成するのではなく、操作者の人間性能の結果を受け入れ得る。
参照による組み込み
本明細書で引用される参考文献、記事、刊行物、特許、特許公報および特許出願はすべて、すべての目的のためにその全体が参照により組み込まれる。特に、本出願は、2015年12月7日に出願された米国仮出願第62/264,232号、2016年4月27日に出願された米国非仮出願第15/140,296号、および2016年7月29日に出願された米国仮出願第62/368,786号(これらはそれぞれ、その全体が参照により本明細書に組み込まれる)を参照により組み込む。
しかしながら、本明細書で引用されるいかなる参考文献、記事、刊行物、特許、特許公報および特許出願への言及も、それらが有効な先行技術を構成するかもしくは世界中の任意の国における共通一般知識の一部を形成し、またはそれらが本質的事項を開示することの承認またはいかなる形の示唆でもなく、そのようなものとして解釈されるべきではない。
実施形態
1.少なくとも1つの微生物株内の遺伝子に適用して表現型性能を改善するための改変を決定するためのコンピュータ実行方法であって、
少なくとも1つの微生物株中の第1の遺伝子セットに行われた第1の遺伝子改変に少なくとも部分的に基づいて、第1の表現型性能データにアクセスすること
コンピューティングデバイスを使用して、前記第1の表現型性能データと、前記第1の遺伝子改変および前記第2の遺伝子改変に共通する少なくとも1つの改変特徴とに少なくとも部分的に基づいて、第2の遺伝子改変の第2の表現型性能を予測すること;ならびに
コンピューティングデバイスを使用して、前記第2の表現型性能に少なくとも部分的に基づいて、第2の遺伝子セットに適用すべき前記第2の遺伝子改変を優先順位付けすること
を含み、
前記優先順位付けに少なくとも部分的に基づいて、前記第2の遺伝子改変の少なくともサブセットが少なくとも1つの微生物株内の遺伝子に適用され得る、コンピュータ実行方法。
2.前記少なくとも1つの改変特徴がオントロジークラスを含む、実施形態1に記載の方法。
3.前記少なくとも1つの改変特徴が遺伝子改変タイプを含む、実施形態1または2のいずれか一項に記載の方法。
4.前記改変タイプがプロモータースワップを含む、実施形態3に記載の方法。
5.前記改変タイプがプロモータースワップのプロモーター強度を含む、実施形態3または4に記載の方法。
6.前記予測することが、強プロモーターまたは弱プロモーターよりも中強度プロモーターを重く重み付けする、実施形態1〜5のいずれか一項に記載の方法。
7.前記予測することが、強プロモーターおよび中強度プロモーターよりも弱プロモーターを軽く重み付けする、実施形態1〜5のいずれか一項に記載の方法。
8.前記改変タイプがSNPスワップである、実施形態3〜5のいずれか一項に記載の方法。
9.前記少なくとも1つの改変特徴が、前記少なくとも1つの株中の少なくとも2つの遺伝子への1つまたはそれを超えるタイプの改変を含む、実施形態1〜8のいずれか一項に記載の方法。
10.前記予測することが、ポジティブエピスタシス効果をもたらす1つまたはそれを超えるタイプの改変をより重く重み付けする、実施形態1〜9のいずれか一項に記載の方法。
11.前記第2の遺伝子セットが、前記第1の遺伝子セット内の遺伝子を含まない、実施形態1〜10のいずれか一項に記載の方法。
12.前記第2の遺伝子セット内の遺伝子のサブセット内の遺伝子がそれぞれ複数のクラスのメンバーであり、第2の表現型性能の予測が、各遺伝子が属する各クラスの予測表現型性能の組み合わせに基づいて、複合的な第2の表現型性能を予測することを含む、実施形態1〜11のいずれか一項に記載の方法。
13.前記第2の遺伝子セット内の遺伝子が少なくとも1つの共通クラス中のメンバーシップを共有し、前記共通クラスが、このような遺伝子が属する唯一のクラスである場合、予測が、前記同じ第2の表現型性能を共通クラス内のすべての遺伝子に割り当てることを含む、実施形態1〜12のいずれか一項に記載の方法。
14.前記第2の遺伝子セット内の遺伝子がそれぞれ単一のクラスのみのメンバーである、実施形態1〜13のいずれか一項に記載の方法。
15.少なくとも1つの改変特徴が、第1の分類システムからの第1のオントロジークラスと、第2の分類システムからの第2のオントロジークラスとを含む、実施形態1〜14のいずれか一項に記載の方法。
16.前記少なくとも1つの改変特徴が、少なくとも1つの微生物株により合成された産物の特徴を含む、実施形態1〜15のいずれか一項に記載の方法。
17.第2の表現型性能の予測が、機械学習予測モデルのトレーニングセットとして前記第1の遺伝子セットからの遺伝子を用いる、実施形態1〜16のいずれか一項に記載の方法。
18.第2の表現型性能の予測が、前記第1の表現型性能データに少なくとも部分的に基づいて、前記第2の遺伝子改変に関するクラスごとの強化確率を予測することを含み;ならびに
前記第2の遺伝子改変の優先順位付けが、前記予測したクラスごとの強化確率のランキングに少なくとも部分的に基づく、実施形態1〜17のいずれか一項に記載の方法。
19.前記第2の遺伝子セット内の遺伝子への前記第2の遺伝子改変の1つまたはそれを超える遺伝子改変の適用に少なくとも部分的に基づいて、アップデートされた第1の表現型性能データを取得すること;ならびに
前記アップデートされた第1の表現型性能データに少なくとも部分的に基づいて、前記第2の遺伝子改変のサブセットのアップデートされた第2の表現型性能を予測すること;ならびに
前記アップデートされた第2の表現型性能に少なくとも部分的に基づいて、前記第2の遺伝子セットのサブセットに適用すべき前記第2の遺伝子改変の前記サブセットを優先順位付けすること
をさらに含む、実施形態1〜18のいずれか一項に記載の方法。
20.前記第2の遺伝子セット内の遺伝子への前記第2の遺伝子改変の1つまたはそれを超える遺伝子改変の繰り返し適用から取得された表現型性能データに基づいて、前記第2の遺伝子セット内の遺伝子のサブセットに適用すべき前記第2の遺伝子改変の改変のサブセットの優先順位付けを繰り返しアップデートすることを含む、実施形態1〜19のいずれか一項に記載の方法。
21.前記少なくとも1つの改変特徴が、遺伝子オントロジー分類内の異なるレベルの抽象化を含む、実施形態1〜20のいずれか一項に記載の方法。
22.前記少なくとも1つの改変特徴が、代謝ネットワークに基づく分類を含む、実施形態1〜21のいずれか一項に記載の方法。
23.前記少なくとも1つの改変特徴が、少なくとも1つの微生物株特徴に関連する、実施形態1〜22のいずれか一項に記載の方法。
24.前記第2の遺伝子セットが、前記第1の遺伝子セットが存在する前記少なくとも1つの微生物株とは異なる少なくとも1つの微生物株内に存在する、実施形態1〜23のいずれか一項に記載の方法。
25.前記第1の表現型性能データが、前記第1の遺伝子セットが存在する前記少なくとも1つの微生物株により産生された第1の産物の少なくとも1つの特徴に関連し、前記第2の表現型性能が、前記第1の産物とは異なる第2の産物の少なくとも1つの特徴に関連する、実施形態1〜24のいずれか一項に記載の方法。
26.前記第2の産物が、前記第1の遺伝子セットが存在する前記少なくとも1つの微生物株とは異なる少なくとも1つの微生物株により産生される、実施形態25に記載の方法。
27.実施形態1〜26のいずれか一項にしたがって優先順位付けされた1つまたはそれを超える第2の遺伝子改変を含む、微生物株。
28.実施形態1〜27のいずれか一項の第1の遺伝子セット中の遺伝子に適用される第1の遺伝子改変を含む、微生物株。
29.優先順位付け閾値よりも上に優先順位付けされ、前記第2の遺伝子セット中の少なくとも1つの遺伝子に適用される第2の遺伝子改変をさらに含む、実施形態1〜28のいずれか一項に記載の微生物株。
30.前記適用される遺伝子改変が、前記予測された第2の表現型性能に基づくものよりも、前記予測されアップデートされた第2の表現型性能に基づく前記優先順位付けに応じて高く優先順位付けされる、実施形態29に記載の微生物株。
31.前記少なくとも1つの改変特徴が、以下のオントロジークラス:
デノボCTP生合成プロセス、
3−イソプロピルリンゴ酸デヒドラターゼ活性、
4鉄、
4硫黄クラスタ結合、
ATP結合、
DNA結合、
DNAトポイソメラーゼ活性、
DNAトポイソメラーゼタイプI活性、
DNAトポロジー変化、
DNAテンプレート、
L−アスパラギン酸:2−オキソグルタル酸アミノトランスフェラーゼ活性、
L−フェニルアラニン:2−オキソグルタル酸アミノトランスフェラーゼ活性、
NADHデヒドロゲナーゼ活性、
UMPキナーゼ活性、
アセト乳酸シンターゼ活性、
アデニル酸シクラーゼ活性、
アルコールデヒドロゲナーゼ(NAD)活性、
アミノ酸結合、
芳香族化合物生合成プロセス、
生合成プロセス、
分岐鎖アミノ酸生合成プロセス、
cAMP生合成プロセス、
触媒活性、
細胞アミノ酸生合成プロセス、
細胞成分の組織化または生合成、
細胞高分子生合成プロセス、
細胞窒素化合物生合成プロセス、
細胞プロセス、
染色体組織化、
コドン特異的、
環状ヌクレオチド生合成プロセス、
複素環生合成プロセス、
細胞内シグナル伝達
イオン輸送、
鉄硫黄クラスタ結合、
イソメラーゼ活性、
キナーゼ活性、
ロイシン生合成プロセス、
リアーゼ活性、
代謝プロセス、
金属イオン結合、
ヌクレオチド結合、
ヌクレオチドリン酸化、
有機酸生合成プロセス、
酸化還元プロセス、
オキシドレダクターゼ活性、
リン−酸素リアーゼ活性、
リン酸化、
カリウムイオン輸送、
タンパク質分解、
プリン含有化合物代謝プロセス、
ピリドキサールリン酸結合、
ピリミジンヌクレオチド生合成プロセス、
ピリミジン含有化合物代謝プロセス、
細胞生合成プロセスの調節、
転写の調節、
配列特異的DNA結合、
セリンタイプエンドペプチダーゼ活性、
シグナル伝達物質活性、
シグナル伝達、
小分子代謝プロセス、
トランスアミナーゼ活性、
転写、
転写因子活性、
トランスフェラーゼ活性、
翻訳、
翻訳放出因子活性、
翻訳終了、
輸送、
ウリジル酸キナーゼ活性、
DNA代謝プロセス、
生合成プロセス、
細胞アミノ酸代謝プロセス、
代謝プロセス、
核酸塩基含有化合物代謝プロセス、
翻訳、または
輸送
の少なくとも1つを表す、実施形態1〜30のいずれか一項に記載の方法。

Claims (31)

  1. 少なくとも1つの微生物株内の遺伝子に適用して表現型性能を改善するための改変を決定するためのコンピュータ実行方法であって、
    少なくとも1つの微生物株中の第1の遺伝子セットに行われた第1の遺伝子改変に少なくとも部分的に基づいて、第1の表現型性能データにアクセスすること;
    コンピューティングデバイスを使用して、前記第1の表現型性能データと、前記第1の遺伝子改変および前記第2の遺伝子改変に共通する少なくとも1つの改変特徴とに少なくとも部分的に基づいて、第2の遺伝子改変の第2の表現型性能を予測すること;ならびに
    コンピューティングデバイスを使用して、前記第2の表現型性能に少なくとも部分的に基づいて、第2の遺伝子セットに適用すべき前記第2の遺伝子改変を優先順位付けすること
    を含み、
    前記優先順位付けに少なくとも部分的に基づいて、前記第2の遺伝子改変の少なくともサブセットが少なくとも1つの微生物株内の遺伝子に適用され得る、コンピュータ実行方法。
  2. 前記少なくとも1つの改変特徴がオントロジークラスを含む、請求項1に記載の方法。
  3. 前記少なくとも1つの改変特徴が遺伝子改変タイプを含む、請求項1または2のいずれか一項に記載の方法。
  4. 前記改変タイプがプロモータースワップを含む、請求項3に記載の方法。
  5. 前記改変タイプがプロモータースワップのプロモーター強度を含む、請求項3に記載の方法。
  6. 前記予測することが、強プロモーターまたは弱プロモーターよりも中強度プロモーターを重く重み付けする、請求項5に記載の方法。
  7. 前記予測することが、強プロモーターおよび中強度プロモーターよりも弱プロモーターを軽く重み付けする、請求項5に記載の方法。
  8. 前記改変タイプがSNPスワップである、請求項3に記載の方法。
  9. 前記少なくとも1つの改変特徴が、前記少なくとも1つの株中の少なくとも2つの遺伝子への1つまたはそれを超えるタイプの改変を含む、請求項1または2のいずれか一項に記載の方法。
  10. 前記予測することが、ポジティブエピスタシス効果をもたらす1つまたはそれを超えるタイプの改変をより重く重み付けする、請求項9に記載の方法。
  11. 前記第2の遺伝子セットが、前記第1の遺伝子セット内の遺伝子を含まない、請求項1または2のいずれか一項に記載の方法。
  12. 前記第2の遺伝子セット内の遺伝子のサブセット内の遺伝子がそれぞれ複数のクラスのメンバーであり、第2の表現型性能の予測が、各遺伝子が属する各クラスの予測表現型性能の組み合わせに基づいて、複合的な第2の表現型性能を予測することを含む、請求項2に記載の方法。
  13. 前記第2の遺伝子セット内の遺伝子が少なくとも1つの共通クラス中のメンバーシップを共有し、前記共通クラスが、このような遺伝子が属する唯一のクラスである場合、予測が、前記同じ第2の表現型性能を共通クラス内のすべての遺伝子に割り当てることを含む、請求項2または12のいずれか一項に記載の方法。
  14. 前記第2の遺伝子セット内の遺伝子がそれぞれ単一のクラスのみのメンバーである、請求項2に記載の方法。
  15. 少なくとも1つの改変特徴が、第1の分類システムからの第1のオントロジークラスと、第2の分類システムからの第2のオントロジークラスとを含む、請求項2に記載の方法。
  16. 前記少なくとも1つの改変特徴が、少なくとも1つの微生物株により合成された産物の特徴を含む、請求項1に記載の方法。
  17. 第2の表現型性能の予測が、機械学習予測モデルのトレーニングセットとして前記第1の遺伝子セットからの遺伝子を用いる、請求項1に記載の方法。
  18. 第2の表現型性能の予測が、前記第1の表現型性能データに少なくとも部分的に基づいて、前記第2の遺伝子改変に関するクラスごとの強化確率を予測することを含み;ならびに
    前記第2の遺伝子改変の優先順位付けが、前記予測したクラスごとの強化確率のランキングに少なくとも部分的に基づく、請求項1または2のいずれか一項に記載の方法。
  19. 前記第2の遺伝子セット内の遺伝子への前記第2の遺伝子改変の1つまたはそれを超える遺伝子改変の適用に少なくとも部分的に基づいて、アップデートされた第1の表現型性能データを取得すること;ならびに
    前記アップデートされた第1の表現型性能データに少なくとも部分的に基づいて、前記第2の遺伝子改変のサブセットのアップデートされた第2の表現型性能を予測すること;ならびに
    前記アップデートされた第2の表現型性能に少なくとも部分的に基づいて、前記第2の遺伝子セットのサブセットに適用すべき前記第2の遺伝子改変の前記サブセットを優先順位付けすること
    をさらに含む、請求項1に記載の方法。
  20. 前記第2の遺伝子セット内の遺伝子への前記第2の遺伝子改変の1つまたはそれを超える遺伝子改変の繰り返し適用から取得された表現型性能データに基づいて、前記第2の遺伝子セット内の遺伝子のサブセットに適用すべき前記第2の遺伝子改変の改変のサブセットの優先順位付けを繰り返しアップデートすることを含む、請求項1に記載の方法。
  21. 前記少なくとも1つの改変特徴が、遺伝子オントロジー分類内の異なるレベルの抽象化を含む、請求項2に記載の方法。
  22. 前記少なくとも1つの改変特徴が、代謝ネットワークに基づく分類を含む、請求項2に記載の方法。
  23. 前記少なくとも1つの改変特徴が、少なくとも1つの微生物株特徴に関連する、請求項1に記載の方法。
  24. 前記第2の遺伝子セットが、前記第1の遺伝子セットが存在する前記少なくとも1つの微生物株とは異なる少なくとも1つの微生物株内に存在する、請求項1に記載の方法。
  25. 前記第1の表現型性能データが、前記第1の遺伝子セットが存在する前記少なくとも1つの微生物株により産生された第1の産物の少なくとも1つの特徴に関連し、前記第2の表現型性能が、前記第1の産物とは異なる第2の産物の少なくとも1つの特徴に関連する、請求項24に記載の方法。
  26. 前記第2の産物が、前記第1の遺伝子セットが存在する前記少なくとも1つの微生物株とは異なる少なくとも1つの微生物株により産生される、請求項25に記載の方法。
  27. 請求項1〜26のいずれか一項に記載の方法により優先順位付けされた1つまたはそれを超える第2の遺伝子改変を含む、微生物株。
  28. 請求項19の第1の遺伝子セット中の遺伝子に適用される第1の遺伝子改変を含む、微生物株。
  29. 優先順位付け閾値よりも上に優先順位付けされ、前記第2の遺伝子セット中の少なくとも1つの遺伝子に適用される第2の遺伝子改変をさらに含む、請求項28に記載の微生物株。
  30. 前記適用される遺伝子改変が、前記予測された第2の表現型性能に基づくものに応じてよりも、前記予測されアップデートされた第2の表現型性能に基づく前記優先順位付けに応じて高く優先順位付けされる、請求項29に記載の微生物株。
  31. 前記少なくとも1つの改変特徴が、以下のオントロジークラス:
    デノボCTP生合成プロセス、
    3−イソプロピルリンゴ酸デヒドラターゼ活性、
    4鉄、
    4硫黄クラスタ結合、
    ATP結合、
    DNA結合、
    DNAトポイソメラーゼ活性、
    DNAトポイソメラーゼタイプI活性、
    DNAトポロジー変化、
    DNAテンプレート、
    L−アスパラギン酸:2−オキソグルタル酸アミノトランスフェラーゼ活性、
    L−フェニルアラニン:2−オキソグルタル酸アミノトランスフェラーゼ活性、
    NADHデヒドロゲナーゼ活性、
    UMPキナーゼ活性、
    アセト乳酸シンターゼ活性、
    アデニル酸シクラーゼ活性、
    アルコールデヒドロゲナーゼ(NAD)活性、
    アミノ酸結合、
    芳香族化合物生合成プロセス、
    生合成プロセス、
    分岐鎖アミノ酸生合成プロセス、
    cAMP生合成プロセス、
    触媒活性、
    細胞アミノ酸生合成プロセス、
    細胞成分の組織化または生合成、
    細胞高分子生合成プロセス、
    細胞窒素化合物生合成プロセス、
    細胞プロセス、
    染色体組織化、
    コドン特異的、
    環状ヌクレオチド生合成プロセス、
    複素環生合成プロセス、
    細胞内シグナル伝達
    イオン輸送、
    鉄硫黄クラスタ結合、
    イソメラーゼ活性、
    キナーゼ活性、
    ロイシン生合成プロセス、
    リアーゼ活性、
    代謝プロセス、
    金属イオン結合、
    ヌクレオチド結合、
    ヌクレオチドリン酸化、
    有機酸生合成プロセス、
    酸化還元プロセス、
    オキシドレダクターゼ活性、
    リン−酸素リアーゼ活性、
    リン酸化、
    カリウムイオン輸送、
    タンパク質分解、
    プリン含有化合物代謝プロセス、
    ピリドキサールリン酸結合、
    ピリミジンヌクレオチド生合成プロセス、
    ピリミジン含有化合物代謝プロセス、
    細胞生合成プロセスの調節、
    転写の調節、
    配列特異的DNA結合、
    セリンタイプエンドペプチダーゼ活性、
    シグナル伝達物質活性、
    シグナル伝達、
    小分子代謝プロセス、
    トランスアミナーゼ活性、
    転写、
    転写因子活性、
    トランスフェラーゼ活性、
    翻訳、
    翻訳放出因子活性、
    翻訳終了、
    輸送、
    ウリジル酸キナーゼ活性、
    DNA代謝プロセス、
    生合成プロセス、
    細胞アミノ酸代謝プロセス、
    代謝プロセス、
    核酸塩基含有化合物代謝プロセス、
    翻訳、または
    輸送
    の少なくとも1つを表す、請求項1に記載の方法。
JP2019566963A 2017-06-06 2018-06-05 表現型最適化のスループットを増加させるための遺伝子改変の優先順位付け Withdrawn JP2020527770A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762516053P 2017-06-06 2017-06-06
US62/516,053 2017-06-06
PCT/US2018/036096 WO2018226717A1 (en) 2017-06-06 2018-06-05 Prioritization of genetic modifications to increase throughput of phenotypic optimization

Publications (2)

Publication Number Publication Date
JP2020527770A true JP2020527770A (ja) 2020-09-10
JP2020527770A5 JP2020527770A5 (ja) 2021-07-26

Family

ID=62749209

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019566963A Withdrawn JP2020527770A (ja) 2017-06-06 2018-06-05 表現型最適化のスループットを増加させるための遺伝子改変の優先順位付け

Country Status (7)

Country Link
US (1) US20200168291A1 (ja)
EP (1) EP3635592A1 (ja)
JP (1) JP2020527770A (ja)
KR (1) KR20200015916A (ja)
CN (1) CN110914912A (ja)
CA (1) CA3064053A1 (ja)
WO (1) WO2018226717A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3908888A4 (en) * 2019-01-07 2022-08-31 Zymergen Inc. PRIORITY ASSIGNMENT OF POTENTIAL NODES FOR EDIT OR POTENTIAL EDITS TO A NODE FOR STEM MODIFICATION
CN113270144B (zh) * 2021-06-23 2022-02-11 北京易奇科技有限公司 一种基于表型的基因优先级排序方法和电子设备

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030228565A1 (en) * 2000-04-26 2003-12-11 Cytokinetics, Inc. Method and apparatus for predictive cellular bioinformatics
WO2002029032A2 (en) * 2000-09-30 2002-04-11 Diversa Corporation Whole cell engineering by mutagenizing a substantial portion of a starting genome, combining mutations, and optionally repeating
US7826975B2 (en) * 2002-07-10 2010-11-02 The Penn State Research Foundation Method for redesign of microbial production systems
WO2004033471A2 (en) * 2002-10-04 2004-04-22 Genencor International, Inc. Glucose transport mutants for production of biomaterial
US7943754B2 (en) * 2004-04-02 2011-05-17 Rosetta-Genomics Bioinformatically detectable group of novel regulatory bacterial and bacterial associated oligonucleotides and uses thereof
US20110289042A1 (en) * 2005-06-29 2011-11-24 Board Of Trustees Of Michagn State University Integrative Framework for Three-Stage Integrative Pathway Search
WO2008134461A2 (en) * 2007-04-27 2008-11-06 Dow Global Technologies, Inc. Method for rapidly screening microbial hosts to identify certain strains with improved yield and/or quality in the expression of heterologous proteins
US9580719B2 (en) * 2007-04-27 2017-02-28 Pfenex, Inc. Method for rapidly screening microbial hosts to identify certain strains with improved yield and/or quality in the expression of heterologous proteins
US20080090736A1 (en) * 2007-07-27 2008-04-17 Quantum Intelligence, Inc. Using knowledge pattern search and learning for selecting microorganisms
TW201217533A (en) * 2010-08-04 2012-05-01 Bayer Pharma AG Genomics of actinoplanes utahensis
WO2012142591A2 (en) * 2011-04-14 2012-10-18 The Regents Of The University Of Colorado Compositions, methods and uses for multiplex protein sequence activity relationship mapping
US8709766B2 (en) * 2011-10-17 2014-04-29 Colorado School Of Mines Use of endogenous promoters in genetic engineering of Nannochloropsis gaditana
EP2785849B1 (en) * 2011-11-30 2017-09-27 DSM IP Assets B.V. Yeast strains engineered to produce ethanol from acetic acid and glycerol
US20130324426A1 (en) * 2012-05-31 2013-12-05 Elena E. Brevnova Method to improve protein production
US9988624B2 (en) * 2015-12-07 2018-06-05 Zymergen Inc. Microbial strain improvement by a HTP genomic engineering platform
BR112018011503A2 (pt) 2015-12-07 2018-12-04 Zymergen Inc promotores da corynebacterium glutamicum
US11208649B2 (en) * 2015-12-07 2021-12-28 Zymergen Inc. HTP genomic engineering platform
GB2554334A (en) * 2016-05-17 2018-04-04 Tap Biosystems Phc Ltd Automated bioprocess development
MX2019011623A (es) * 2017-03-30 2019-11-18 Monsanto Technology Llc Sistemas y metodos de uso para utilizar en la identificacion de multiples ediciones genomicas y predecir los efectos acumulados de las ediciones genomicas identificadas.

Also Published As

Publication number Publication date
EP3635592A1 (en) 2020-04-15
US20200168291A1 (en) 2020-05-28
KR20200015916A (ko) 2020-02-13
CN110914912A (zh) 2020-03-24
CA3064053A1 (en) 2018-12-13
WO2018226717A1 (en) 2018-12-13

Similar Documents

Publication Publication Date Title
Kim et al. Applications of genome-scale metabolic network model in metabolic engineering
Stephanopoulos et al. Exploiting biological complexity for strain improvement through systems biology
Toubiana et al. Network analysis: tackling complex data to study plant metabolism
Caudai et al. AI applications in functional genomics
Kim et al. Microbial forensics: predicting phenotypic characteristics and environmental conditions from large-scale gene expression profiles
WO2020132683A1 (en) Method, apparatus, and computer-readable medium for efficiently optimizing a phenotype with a specialized prediction model
US20210225455A1 (en) Bioreachable prediction tool with biological sequence selection
US20200058376A1 (en) Bioreachable prediction tool for predicting properties of bioreachable molecules and related materials
Mienda Genome-scale metabolic models as platforms for strain design and biological discovery
EP3707234A1 (en) Optimization of organisms for performance in larger-scale conditions based on performance in smaller-scale conditions
WO2021217138A1 (en) Method for efficiently optimizing a phenotype with a combination of a generative and a predictive model
JP2020527770A (ja) 表現型最適化のスループットを増加させるための遺伝子改変の優先順位付け
Liu et al. PoplarGene: poplar gene network and resource for mining functional information for genes from woody plants
Schultheiss et al. KIRMES: kernel-based identification of regulatory modules in euchromatic sequences
Bai et al. Advances and applications of machine learning and intelligent optimization algorithms in genome-scale metabolic network models
Huang et al. Sequential Optimal Experimental Design of Perturbation Screens Guided by Multi-modal Priors
Huang et al. A survey of statistical models for reverse engineering gene regulatory networks
Metcalf et al. Rhythm of the Night (and Day): Predictive Metabolic Modeling of Diurnal Growth in Chlamydomonas
Xue et al. Bioinformatics and its Applications in Agriculture
Zhuo Exploit or explore? an empirical study of resource allocation in research labs
US20230245712A1 (en) Approaches to simulating the interactions of biological systems through the use of modular computational workflows
Scharl et al. Interactive visualization of clusters in microarray data: an efficient tool for improved metabolic analysis of E. coli
Lam et al. Check Chapter 17 updates for
Young Exploring genomes: Web based bioinformatics tutorials
Daud et al. Optimizing the Production of Valuable Metabolites using a Hybrid of Constraint-based Model and Machine Learning Algorithms: A Review

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210604

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210604

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20220426