JP2020527770A

JP2020527770A - 表現型最適化のスループットを増加させるための遺伝子改変の優先順位付け

Info

Publication number: JP2020527770A
Application number: JP2019566963A
Authority: JP
Inventors: アヌパムチョウドリー，; ピーターエンヤート，; マイケルフラッシュマン，; アレクサンダーシアラー，; カートソーン，
Original assignee: ZYMERGEN INC.
Current assignee: ZYMERGEN INC.
Priority date: 2017-06-06
Filing date: 2018-06-05
Publication date: 2020-09-10
Also published as: EP3635592A1; US20200168291A1; KR20200015916A; CN110914912A; CA3064053A1; WO2018226717A1

Abstract

少なくとも１つの微生物株内の遺伝子に適用して表現型性能を改善するための改変を決定するためのシステム、方法およびコンピュータ可読媒体。本開示は、少なくとも１つの微生物株中の第１の遺伝子セットに行われた第１の遺伝子改変に少なくとも部分的に基づいて、第１の表現型性能データにアクセスすること；第１の表現型性能データと、第１の遺伝子改変および第２の遺伝子改変に共通する少なくとも１つの改変特徴とに少なくとも部分的に基づいて、第２の遺伝子改変の第２の予測表現型性能を予測すること；ならびに第２の表現型性能に少なくとも部分的に基づいて、第２の遺伝子セットに適用すべき第２の遺伝子改変を優先順位付けすることを教示する。

Description

関連出願の相互参照
本出願は、２０１７年６月６日に出願された米国仮出願第６２／５１６，０５３号（これは、その全体が参照により本明細書に組み込まれる）の優先権を主張する。

背景
本開示の分野
本開示は、一般に、代謝およびゲノム工学の分野に関し、より具体的には、目的の産物を生産するための微生物株のハイスループット（「ＨＴＰ」）遺伝子改変の分野に関する。

関連技術の説明
背景セクションで議論される主題は、背景セクションにおける言及の結果として単に先行技術であるとみなされるべきではない。同様に、背景セクションで言及される問題または背景セクションの主題に関連する問題は、先行技術において以前に認識されていたとみなされるべきではない。背景セクションの主題は単に異なるアプローチであり、これはそれ自体が、特許請求されている技術の実行にも対応し得る。

所望の表現型を示すように生物を遺伝子最適化することは周知の問題である。代謝工学が直面する２つの主な副次的問題は以下のものである：（１）生物に行われ得るすべての可能な改変のうち、所望の化合物のアウトプットを最大化しようとすべきである；および（２）一連の改変を決定したら、進行速度を最大化するためにどの順序でそれらを実施すべきか？
従来、改変の標的とされる遺伝子は、「オン経路」であると判断される遺伝子（すなわち、目的の分子の生合成経路の一部であるか、またはそれに分岐するかもしくはそれから分岐する代謝酵素の遺伝子）である（Ｋｅａｓｌｉｎｇ，ＪＤ．”Ｍａｎｕｆａｃｔｕｒｉｎｇｍｏｌｅｃｕｌｅｓｔｈｒｏｕｇｈｍｅｔａｂｏｌｉｃｅｎｇｉｎｅｅｒｉｎｇ．”Ｓｃｉｅｎｃｅ，２０１０）。このような遺伝子の発見を自動化し得るフラックスバランス分析（「ＦＢＡ」）（Ｓｅｇｒｅら、”Ａｎａｌｙｓｉｓｏｆｏｐｔｉｍａｌｉｔｙｉｎｎａｔｕｒａｌａｎｄｐｅｒｔｕｒｂｅｄｍｅｔａｂｏｌｉｃｎｅｔｗｏｒｋｓ．”ＰＮＡＳ，２００２）などの方法が公知である。この方法で同定された遺伝子の改変は、多くの場合、菌株性能の改善をもたらすことが明らかであるが、最も単純な微生物でさえ依然として、あまり理解されていないことも事実である。本出願人らは、このような経路に直接関与しない他の遺伝子の改変が菌株性能の有意な改善をもたらし得ることを発見した。これは、ゲノム中の他の遺伝子を調査する必要性を示唆している。しかしながら、ゲノム中のあらゆる遺伝子の改変は依然として、細菌の比較的小さなゲノムでさえ、高価で時間のかかる取り組みである。標的遺伝子と、その標的遺伝子に行うべき改変であって、目的の分子の生産を最適化するために有用な改変とを同定するプロセスを迅速化することが望ましい。

Ｋｅａｓｌｉｎｇ，ＪＤ．"Ｍａｎｕｆａｃｔｕｒｉｎｇｍｏｌｅｃｕｌｅｓｔｈｒｏｕｇｈｍｅｔａｂｏｌｉｃｅｎｇｉｎｅｅｒｉｎｇ．"Ｓｃｉｅｎｃｅ，２０１０Ｓｅｇｒｅら、"Ａｎａｌｙｓｉｓｏｆｏｐｔｉｍａｌｉｔｙｉｎｎａｔｕｒａｌａｎｄｐｅｒｔｕｒｂｅｄｍｅｔａｂｏｌｉｃｎｅｔｗｏｒｋｓ．"ＰＮＡＳ，２００２

本開示の概要
本開示の実施形態は、改変すべき遺伝子およびそれらの遺伝子に行うべき改変を優先順位付けすることにより、従来技術の欠点を克服する。

本開示のいくつかの実施形態の基本的なアプローチは、ゲノムの遺伝子を「シェル」と称される優先レベルに分割し、次いで、それらのシェルに対して計画的改変を順番に実行することである。実施形態では、シェルは、代謝ネットワーク、遺伝子オントロジー、または別の生物もしくは別の標的産物もしくはその両方の対応する遺伝子に行われる改変の性能に関する既存のデータセットを考慮に入れて活用するアルゴリズムにより設計され得る。実施すべき改変の正確な性質もまた、優先順位付けされ得る；例えば、弱プロモーターへの変化は、強プロモーターよりも少ない改善を提供する傾向があり、本発明者らが実施した実験によれば、中強度プロモーターよりも少ない改善を提供する。いくつかの場合では、弱プロモーターのスワッピングは、目的の所望の産物の生産を妨げる化合物の生産をダウンレギュレートし得る。最適化の努力が進むにつれて、どのクラスの改変が最高性能改善を提供するかに関するデータを収集し、次いで、次のラウンドの改変の優先順位付けのために、「オンライン」ダイナミック繰り返し方式でフィードバックし得る。このようなデータセットはまた、新たな表現型および／または生物の最適化のために、遺伝子改変のタイプ（例えば、プロモーターまたはＳＮＰ改変）の優先順位付けに適用され得る。

改変すべき遺伝子の標的優先順位付けのためのシェルメタファー（ｍｅｔａｐｈｏｒ）は、少数の一次遺伝子のみが宿主細胞性能の特定の態様（例えば、単一生体分子の生産）の大部分を担うという仮説に基づく。これらの一次遺伝子はシェルのコアに位置し、続いて、二次効果遺伝子は第２の層に位置し、三次効果が第３のシェルに位置する、など。例えば、一実施形態では、シェルのコアは、選択された代謝経路（例えば、クエン酸の産生）に直接関与する生合成酵素をコードする遺伝子を含み得る。第２のシェルに位置する遺伝子は、産物の転換またはフィードバックシグナル伝達を担う生合成経路内の他の酵素をコードする遺伝子を含み得る。この例示的なメタファー下における第３層遺伝子は、生合成経路の発現のモジュレート、または宿主細胞内の一般的な炭素フラックスの調節を担う調節遺伝子を含む可能性が高い。

本開示の実施形態は、改変を少なくとも１つの微生物株内の遺伝子に適用して、表現型性能を改善するための優先順位付けを開発するためのシステム、方法およびコンピュータ可読媒体を提供する。本開示の実施形態は、コンピュータ実行方法、ならびに前記方法を実行するためのシステムおよび非一時的コンピュータ可読媒体を提供する。実施形態によれば、前記方法は、少なくとも１つの微生物株中の第１の遺伝子セットに行われた第１の遺伝子改変に少なくとも部分的に基づいて、第１の表現型性能データにアクセスすること；前記第１の表現型性能データと、前記第１の遺伝子改変および前記第２の遺伝子改変に共通する少なくとも１つの改変特徴とに少なくとも部分的に基づいて、第２の遺伝子改変の第２の予測表現型性能を予測すること；ならびに前記第２の表現型性能に少なくとも部分的に基づいて、第２の遺伝子セットに適用すべき前記第２の遺伝子改変を優先順位付けすることを含む。優先順位付けに少なくとも部分的に基づいて、第２の遺伝子改変を少なくとも１つの微生物株内の遺伝子に適用し得る。改変特徴は、予測モデリング、例えば機械学習において有用可能性があると考えられるパラメータである。改変特徴は、カテゴリ特徴（例えば、タイプ）、連続（例えば、数）または順序特徴（例えば、個別のグループ、例えばより良いまたはより悪い）として表現され得る。

本開示の実施形態によれば、遺伝子改変および少なくとも１つの改変特徴は、改変すべき遺伝子に関連し得るか、またはそれらの遺伝子に行われた改変のタイプに関連し得る。例えば、少なくとも１つの改変特徴は、オントロジークラス、例えばＧＯ分類に関連するかまたは改変のタイプ、例えば２０１６年１２月３０日に出願された同時係属中の米国特許出願第１５／３９６２３０号（米国特許出願公開第２０１７０１５９０４５号）（これは、その全体が参照により本明細書に組み込まれる）に記載されているプロモータースワップ（例えば、プロモーターの挿入、欠失または置換を含むプロモーター改変）またはＳＮＰ（一塩基多型）スワップ（例えば、単一塩基対の挿入、欠失または置換を含む単一塩基対改変）に関連するクラスを含むクラスを含み得る。

改変特徴は、プロモーターの強度、例えば弱、強または中強度に関連し得る。本発明者らによる実験は、弱プロモーターまたは強プロモーターよりも中強度プロモーターが、微生物株による性能（例えば、収率、生産性）改善の高い可能性をもたらした事例を示した。したがって、本開示の実施形態は、強プロモーターまたは弱プロモーターよりも中強度プロモーターを予測表現型性能に重く重み付けし得る。本開示の実施形態は、強プロモーターおよび中強度プロモーターよりも弱プロモーターを軽く重み付けし得る。

一般に、実施形態は、より低い効果よりも公知の有益な効果を予測表現型性能に重く重み付けし得る。逆に、実施形態は、低い重み付けを、より有益な効果よりも、予測表現型性能における公知のネガティブなまたはあまり有益ではない効果に割り当て得る。別の例として、実施形態では、第２の遺伝子改変の第２の表現型性能の予測は、株中の少なくとも２つの遺伝子への１つまたはそれを超えるタイプの改変（例えば、プロモータースワップ、ＳＮＰスワップ）を含む少なくとも１つの改変特徴に少なくとも部分的に基づく。このようにして、前記方法は、２つまたはそれを超える遺伝子改変を同じ株に行うことの表現型効果から生じるエピスタシス効果を説明する。このような実施形態では、予測は、ポジティブエピスタシス効果をもたらす１つまたはそれを超えるタイプの改変を予測表現型性能により重く重み付けし得る。

実施形態では、少なくとも１つの改変特徴は、遺伝子オントロジー分類内の異なるレベルの抽象化を含む。実施形態では、少なくとも１つの改変特徴は、代謝ネットワークに基づく分類を含む。実施形態では、第２の遺伝子セットは、第１の遺伝子セット内の遺伝子を含まない。実施形態では、第２の遺伝子セット内の遺伝子はそれぞれ、複数のクラスのメンバーであり、所定の遺伝子の複合性能予測は、それが属する各クラスに適用する予測の組み合わせから生成され得る。実施形態では、第２の遺伝子セット内の遺伝子は、少なくとも１つの共通クラスのメンバーシップを共有し、共通クラスが、各遺伝子が属する唯一のクラスである場合、このような遺伝子はすべて、同じ予測性能を割り当てられる。実施形態では、第２の遺伝子セット内の遺伝子はそれぞれ、単一のクラスのみのメンバーであり得る。実施形態では、第１および第２のセット内の遺伝子は、互いにクラスメンバーシップを共有し得、このような遺伝子はそれぞれ、複数のクラスに属し得る。

実施形態では、少なくとも１つの改変特徴は、第１の分類システムからの第１のオントロジークラスおよび第２の分類システムからの第２のオントロジークラスを含む。例えば、遺伝子が、異なる分類システム（例えば、ＧＯ、ＫＥＧＧ、遺伝子または遺伝子産物の配列類似性、タンパク質ドメイン）からの複数のクラスのメンバーであり、それらのクラスが、性能改善をもたらすことが観察または予測されている場合、前記方法は、本開示の実施形態にしたがって、改変の候補としてのその遺伝子の予測表現型性能を有利に重み付けし得る（それにより、高い優先度が割り当てられる可能性が増加する）。

実施形態では、少なくとも１つの改変特徴は、少なくとも１つの微生物株により産生される産物の特徴を含む。例えば、産物の特徴は、同じ代謝経路またはオントロジークラスに関連し得る。第１のセットまたは第１のセットからの遺伝子が性能改善に関連する場合、同じ代謝経路に沿った、または同じオントロジークラス内の第２のセットからの遺伝子もまた、性能改善を生じさせる可能性がある。したがって、前記方法は、本開示の実施形態にしたがって、改変の候補としてのその遺伝子の予測表現型性能を有利に重み付けし得る（それにより、高い優先度が割り当てられる可能性が増加する）。

あるいは、表現型性能データの改変特徴として複数の株−産物組み合わせを使用する場合、産物の特徴は、標的株−産物組み合わせに対する、インプット株−産物組み合わせに関するデータの関連性を重み付けするために使用され得る。標的産物とより多くの特徴を共有するインプットは、有用な予測をもたらす可能性が高い。実施形態では、それらの産物特徴は、第１の産物に密接に関連する（含有量または最も近い共通前駆体への距離による）代謝経路から生じる構成原子の数、構造、原子含有量などを含み得る。

実施形態では、第２の表現型性能の予測は、機械学習予測モデルのトレーニングセットとして第１の遺伝子セットからの遺伝子を用いて、第２の遺伝子改変の第２の表現型性能を予測し得る。

実施形態では、第２の表現型性能の予測は、第１の観察表現型性能データに少なくとも部分的に基づいて、第２の遺伝子改変のクラスごとの強化確率を予測すること、および予測したクラスごとの強化確率のランキングに少なくとも部分的に基づいて、第２の予測遺伝子改変を優先順位付けすることを含む。本開示の実施形態は、クラスの予測強化が閾値強化を超える場合、クラス内の試験のために少なくとも１つの候補遺伝子を優先順位付けし得る。

驚くべきことに、本出願人らは、個々の遺伝子性能が状況依存的であり得ること（すなわち、株性能を改善する遺伝子改変の能力が株の遺伝子構成（以前に導入された改変を含む）に依存し得ること）をさらに発見した。例えば、当初は、特定の遺伝子改変が株性能に対して効果を有しないか、効果をほとんど有しないか、またはマイナス効果さえ有すると予測され得るのに対して、異なる遺伝的バックグラウンドにおける同じ改変の導入は、異なる効果をもたらし、反対の効果さえもたらし得る。したがって、本開示の実施形態では、前記方法は、第２の遺伝子セット内の遺伝子への第２の遺伝子改変の１つまたはそれを超える遺伝子改変の繰り返し適用から観察された表現型性能データに基づいて、第２の遺伝子セット内の遺伝子のサブセットに適用すべき第２の遺伝子改変のサブセットの優先順位付けを繰り返しアップデートすることを含む。このような繰り返しアップデートは、第２の遺伝子セット内の遺伝子への第２の遺伝子改変の１つまたはそれを超える遺伝子改変の適用に少なくとも部分的に基づいて、アップデートされた表現型性能データを取得すること、アップデートされた第１の表現型性能データおよび少なくとも１つの改変特徴に少なくとも部分的に基づいて、第２の遺伝子改変のサブセットのアップデートされた第２の表現型性能を予測すること、ならびにアップデートされた第２の表現型性能に少なくとも部分的に基づいて、第２の遺伝子セット内の遺伝子のサブセットに適用すべき第２の遺伝子改変のサブセットを優先順位付けすることを含み得る。第２の遺伝子セット内の遺伝子への第２の遺伝子改変の１つまたはそれを超える遺伝子改変の適用は、それらの改変遺伝子を第２の遺伝子セット内から第１の遺伝子セットに有効に移動させ、そして、本開示の実施形態にしたがって、性能データが取得され得ることに留意する。

実施形態では、少なくとも１つの改変特徴は、微生物株の特徴に関連する。このような特徴は、ゲノム配列類似性、ドメイン（古細菌、細菌または真核生物）、グラム陽性または陰性（細菌の場合）、属、種などを含む系統学的または分類学的な特徴；ネイティブ環境の特徴（例えば、ｐＨ、温度、塩分、圧力）、代謝特徴（例えば、好ましい成長基質、可能な成長基質、老廃物）などを含む生態学的および生理学的な特徴；または他の特徴を含み得る。例えば、第１の株中の遺伝子セットへの改変が性能改善を提供する場合、類似の第２の株中の類似の遺伝子セットへの類似の改変も性能改善を生じさせる可能性がある。本明細書における「類似の遺伝子セット」は、例えば、同じ遺伝子オントロジークラスに属する遺伝子であって、同じ産物、配列類似性、発現プロファイルまたは調節の類似性などを有する代謝経路に属する遺伝子として定義され得る。「類似の」株は、系統的類似性、遺伝系統の類似性を特徴とし得る；株が原核生物または真核生物であるか、類似の原料を消費するか、類似の代謝産物を産生するか、または他の改変特徴が類似するか。したがって、前記方法は、本開示の実施形態にしたがって、同じまたは類似の改変による改変の候補としての第２の株中の類似セット内の遺伝子の予測表現型性能を有利に重み付けし得る。

実施形態では、第２の遺伝子セットは、第１の遺伝子セットが存在する少なくとも１つの微生物株とは異なる少なくとも１つの微生物株内に存在する。これらの実施形態などでは、第１の表現型性能データは、少なくとも１つの微生物株により産生される第１の産物の１つまたはそれを超える特徴に関連し、第２の予測表現型性能は、第１の産物とは異なる第２産物であって、同じ株、または共通の特徴を共有する別の株により産生される第２産物の１つまたはそれを超える特徴に関連し得る。実施形態では、第２の産物は、共通の特徴、例えば、第１の産物に密接に関連する（含有量または最も近い共通前駆体への距離による）代謝経路から生じる構成原子の数、構造、原子含有量などを共有し得る。

図１は、本開示の実施形態を実行するためのクライアント−サーバコンピュータシステムを示す。

図２は、本開示の実施形態による、異なるプロモーター強度にわたる標的産物の生産性および収率を表す、改善レベルが表現型のノイズ閾値を超える改変の割合を示す。

図３は、ライブラリーの目的（多様化またはコンソリデーション）ごとに集計した図２の改変を示す。

図４は、本開示の実施形態による、異なるプロモーターレベルにわたる頻度バイアスを均一化するように設計された図２からのデータのサブセットを示す。

図５は、本開示の実施形態による、ライブラリーの目的ごとに集計した、熟練の人間またはアルゴリズム（ＦＢＡ）による選択による、改善レベルが標的産物の生産性および収率の表現型のノイズ閾値を超える改変の割合を示す。

図６は、遺伝子オントロジーからのサブグラフの例を示し、収率の改善について強化された遺伝子クラスを示す。

図７は、表２の強化ＧＯＳｌｉｍの遺伝子の内訳を示す。

図８は、本開示の実施形態による、プロモータースワップによる改変が所望の表現型を改善することが実証された強化ＧＯＳｌｉｍの遺伝子のサブセットの内訳を示す。

図９は、少なくとも１つの微生物株内の遺伝子に適用して表現型性能を改善するための改変を優先順位付けするための方法を示すフローチャートである。

図１０は、本開示の実施形態による、クラウドコンピューティング環境を示す。

図１１は、本開示の実施形態を実行するプログラムコードを実行するために使用され得るコンピュータシステムの例を示す

図１２は、図１２Ａ〜１２Ｌの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。図１２は、図１２Ａ〜１２Ｌの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。図１２は、図１２Ａ〜１２Ｌの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。図１２は、図１２Ａ〜１２Ｌの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。図１２は、図１２Ａ〜１２Ｌの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。図１２は、図１２Ａ〜１２Ｌの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。図１２は、図１２Ａ〜１２Ｌの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。図１２は、図１２Ａ〜１２Ｌの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。図１２は、図１２Ａ〜１２Ｌの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。図１２は、図１２Ａ〜１２Ｌの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。図１２は、図１２Ａ〜１２Ｌの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。図１２は、図１２Ａ〜１２Ｌの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。図１２は、図１２Ａ〜１２Ｌの表のレイアウトの図であり、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す表を共に形成する。

詳細な説明
本説明は、様々な例示的な実施形態が示されている添付図面を参照してなされる。しかしながら、多くの異なる例示的な実施形態が使用され得るので、説明は、本明細書に記載される例示的な実施形態に限定されると解釈されるべきではない。むしろ、これらの例示的な実施形態は、本開示が十分かつ完全であるように提供される。例示的な実施形態に対する様々な改変は当業者には容易に明らかであり、本明細書で定義される一般的な原理は、本開示の精神および範囲から逸脱せずに、他の実施形態および適用に適用され得る。したがって、本開示は、示されている実施形態に限定されることを意図するものではなく、本明細書に開示される原理および特徴と一致する最も広い範囲が認められるべきである。

図１は、本開示の実施形態の分散システム１００を示す。ユーザインターフェース１０２は、クライアント側インターフェース、例えばテキストエディターまたはグラフィカルユーザインターフェース（ＧＵＩ）を含む。ユーザインターフェース１０２は、クライアント側コンピューティングデバイス１０３、例えばラップトップまたはデスクトップコンピュータに存在し得る。クライアント側コンピューティングデバイス１０３は、ネットワーク１０６、例えばインターネットを介して、１つまたはそれを超えるサーバ１０８に接続される。

サーバ１０８は、ゲノムデータ、遺伝子改変データ（例えば、プロモーターラダー）、および遺伝子改変に応じた微生物株性能を表し得る表現型性能データなどのデータを含むライブラリーの１つまたはそれを超えるコーパスを含み得る１つまたはそれを超えるデータベース１１０にローカルまたはリモートで接続される。

実施形態では、サーバ１０８は、少なくとも１つのプロセッサ１０７と、少なくとも１つのメモリ１０９であって、プロセッサ１０７により実行されると、遺伝子改変の表現型性能を予測し、遺伝子へのそれらの適用を優先順位付けし、それにより、本開示の実施形態による「優先順位付けエンジン」として作動する命令を格納する少なくとも１つのメモリ１０９とを含む。あるいは、優先順位付けエンジンのためのソフトウェアおよび関連ハードウェアは、サーバ１０８ではなくクライアント１０３にローカルに存在するか、またはクライアント１０３およびサーバ１０８の両方の間に分散し得る。実施形態では、優先順位付けエンジンの全部または一部は、図１０にさらに示されているように、クラウドベースサービスとしてランし得る。

データベース１１０は、パブリックデータベースを含み得るだけではなく、ユーザなどにより生成されたカスタムデータベース、例えば、ユーザまたは第３寄与者により実施された合成生物学実験により生成された分子を含むデータベースも含み得る。データベース１１０は、クライアント１０３に対してローカルもしくはリモートであり得るか、またはローカルおよびリモートの両方に分散し得る。

所望の分子へのフラックスおよび収率をモジュレートする最も概念的に簡便な方法は、関連遺伝子プロモーターの強度を変化させることにより、そのフラックスに影響を及ぼす遺伝子産物の量を変化させることである。これは、プロモーターラダー（任意の遺伝子に適用され得るプロモーターのコレクションであって、弱〜強の広範な強度を有するプロモーターのコレクション）を構築することにより、システム的に達成され得る。理想的には、ラダーに配置されたプロモーターは、複数のゲノム遺伝子座にわたって非常に変わりやすい発現をもたらすことが示されているが、唯一の要件は、それらが何らかの方法で遺伝子発現を混乱させることである。

プロモーターラダーは、２０１６年１２月７日に出願された国際特許出願第ＰＣＴ／ＵＳ１６／６５４６４号（国際公開第２０１７／１００３７６号）（これは、その全体が参照により本明細書に組み込まれる）にさらに記載されている。実施形態では、プロモーターラダーは、目的の標的遺伝子に関連する天然の、ネイティブなまたは野生型のプロモーターを同定し、次いで、少なくとも１つのプロモーターを突然変異させて複数の突然変異プロモーター配列を駆動することにより作成される。これらの突然変異プロモーターはそれぞれ、標的遺伝子発現に対する効果について試験される。いくつかの実施形態では、各プロモーター変異体の活性が文書化／特性評価／アノテーションされ、データベースに保存されるように、編集プロモーターは、様々な条件にわたって発現活性について試験される。続いて、得られた編集プロモーター変異体は、それらの発現の強度に基づいて配置された「ラダー」に編成される（例えば、上部付近では高発現変異体および下部付近では弱発現であるので、「ラダー」という用語になる）。

ネイティブプロモーターをラダーからのプロモーターの１つに変化させるプロセスは、「プロモータースワッピング」と称される。実験データは、図２に示されているように、弱プロモータースワップよりも中プロモータースワップおよび強プロモータースワップが、所望の表現型の改善をもたらす可能性が高いことを示している。

図２は、改善レベルが表現型のノイズ閾値を超える改変（本明細書では、プロモータースワップ）の割合を示し、異なるプロモーター強度（１は最弱であり、８は最強である）にわたる標的産物の生産性および収率を表す。試行改変の数はプロモーター間で均一ではないことに留意する。合計カウントは、強度１から８の順に、５３２、２２、４２２、６１、６８、４１５、１０８および３２７４である。

プロモーターに関して「弱」、「中」および「強」を定義するいくつかの方法がある。本明細書の実施形態では、これらの定義は、低〜高の実行可能な細胞内発現レベルの大部分をカバーするように設計された８プロモーターラダーの文脈内で最もよく理解される。

ラダー中のプロモーターの活性を評価するために、一連のプラスミド系蛍光レポーター構築物を設計した。例示的な一実験では、ラダー中の各プロモーターをｅｙｆｐ（シャトルベクターｐＫ１８ｒｅｐ中の黄色蛍光タンパク質をコードする遺伝子）の前にクローニングした。これらのプラスミドをＣ．ｇｌｕｔａｍｉｃｕｍＮＲＲＬＢ−１１４７４に形質転換し、分光分析によりＹＦＰタンパク質の蓄積を測定することにより、プロモーター活性を評価した。

エレクトロポレーションにより、精製レポーター構築物プラスミドをＣ．ｇｌｕｔａｍｉｃｕｍＮＲＲＬＢ−１１４７４に形質転換した（Ｈａｙｎｅｓら、ＪｏｕｒｎａｌｏｆＧｅｎｅｒａｌＭｉｃｒｏｂｉｏｌｏｇｙ，１９９０）。ＢＨＩ寒天＋２５μｇ／ｍＬカナマイシン上で、形質転換体を選択した。各形質転換について、複数の単一コロニーを採取し、３００μＬのＢＨＩ培地＋２５μｇ／ｍＬカナマイシンを含む９６ミッドウェルブロックの個々のウェルに接種した。１，０００ｒｐｍで振盪しながら３０℃で４８時間インキュベートすることにより、細胞を飽和まで成長させた。インキュベーション後、培養物を３，５００ｒｐｍで５分間遠心分離し、吸引により培地を除去した。３００μＬのＰＢＳに再懸濁し、３，５００ｒｐｍで５分間遠心分離し、続いて、上清を吸引し、３００μＬのＰＢＳに最終再懸濁することにより、細胞を１回洗浄した。この混合物の２０μＬアリコートを、１８０μＬのＰＢＳを含む９６ウェル全面ブラッククリアボトムアッセイプレートに移した。ＳｐｅｃｔｒａＭａｘＭ５マイクロプレートリーダーを用いて６００ｎｍにおける細胞の光学密度を測定し、ＴＥＣＡＮＭ１０００マイクロプレートリーダーを用いて５１４ｎｍで励起させ、５２７ｎｍの発光を測定することにより、蛍光を測定した。各ウェルについて、蛍光を光学密度で割ることにより、正規化蛍光活性を計算した。親プラスミドｐＫ１８ｒｅｐは陰性対照として機能した。レポーター構築物間および生物学的複製間で、正規化蛍光活性を比較した。プロモーター活性の数値概要は、以下の表１に示されている。

プロモーターレベル１〜３は「弱」とみなされ、プロモーターレベル４〜６は「中」とみなされ、プロモーターレベル７および８は「強」とみなされる。絶対的には、本明細書の弱プロモーターは、６，０００未満の平均活性を有するものであり；中プロモーターは、少なくとも６，０００および６０，０００を超えない平均活性を有し；強プロモーターは、６０，０００超の平均活性を有する。このような単位は種およびデバイスの両方に固有であることを考慮すると、相対単位は、より広い適用可能性を有する。表１の「相対発現」の列において使用される１つの標準は、ラダー中の最弱プロモーターのものであり、本明細書で実施されるものなどのアッセイにおいて５００未満の平均活性を有すると想定される。弱プロモーターは、最弱プロモーターのレベルの少なくとも１〜６０倍以下の範囲の相対発現を有するものであり；中プロモーターは、最弱プロモーターのレベルの６０超〜６００倍以下の範囲の相対発現を有するものであり；強プロモーターは、最弱プロモーターのレベルの６００倍超の相対発現を有するものである。発現が起こる細胞の特徴に対する発現レベルは、異なる文脈にわたって広く適用可能である。例えば、中強度を有するプロモーターは、細胞内の平均タンパク質発現レベルの少なくとも２０％かつ２００％以下を有すると定義され得るか、または細胞内の最大タンパク質発現レベルの少なくとも１００倍未満かつ１０倍以上と定義され得、弱プロモーターおよび強プロモーターは、その発現レベルがこれらの範囲よりもそれぞれ低いものおよび高いものである。あるいは、より一般には、「中」プロモーターは、使用される最弱プロモーターよりも強く、使用される最強プロモーターよりも弱い任意のものであり得る。

この例および他の例における検討中の測定基準は、改善候補の割合、すなわち「ヒット率」（これは、改善の測定レベルが１つまたはそれを超える目的の表現型のノイズ閾値を超える改変の割合である）である。閾値は、スモールハイスループットスケールにおける性能に対する（すなわち、スモールスケールよりも大きい）スケールにおける性能を予測する際のノイズ（例えば、二乗平均平方根誤差）に基づいて設定され得、一度確認された表現型の実質的な改善と考えられ得るものの最小閾値も表す。実施形態では、これらのカットオフは、生産性モデルでは未改変親ゲノムを１０％超えるものであり、収率モデルでは親を３％超えるものである。

新たな株バックグラウンドへの改変の追加は、典型的には、２つの目標：多様化（検索）またはコンソリデーション（適用）の１つで行われる。遺伝的バックグラウンド株は野生型株であり得るか、または野生型株と比べて１つもしくはそれを超える突然変異を含む突然変異操作株であり得る。多様化は、単一の株バックグラウンドにおいて可能な限り多くの異なる改変を試みるプロセスであるのに対して、コンソリデーションは、目的の表現型の表現型性能（これらは、この実施形態では生産性および収率である）に基づいて、多様化プロセス中に同定された潜在的に有用な改変を１つまたはそれを超える目的の株バックグラウンドに適用するプロセスであり、行い得るすべてに必ずしも適用するわけではない。表現型のノイズ閾値（すなわち、ヒット率）を超える性能増加をもたらす改変の割合がより高いことおよびより低いことの意味は、２つの場合で異なるので、これらの２つの場合を別々に検討することは有用である。コンソリデーションにおいて用いられる改変は、多様化からの最高性能改変のサブセットである。多様化における高いヒット率は、所定のライブラリーでは、改善が比較的容易に見出されることを意味するのに対して、コンソリデーションにおける高いヒット率は、所定のライブラリーでは、改善が一貫して有益であることを意味する。換言すれば、多様化では、多くの異なるバックグラウンドにおいて有用であり得る改変を同定するために、１つの株バックグラウンドにおいて可能な限り多くの異なる改変を試みることが優先される。多様化におけるヒットについて強化されたクラスは、使用されるバックグラウンドにおいて、性能を改善した遺伝子改変が比較的容易に見出されたことを意味する。多様化において、潜在的に有用な改変が同定された後、コンソリデーションは、複数の目的のバックグラウンドにおいてこれらの改変を試みることを含む。これらの改変のいくつかは、他のバックグラウンドにおいて一貫して使用されるものであることが証明されていなくてもよく、ヒットとして定期的に現れないであろう。したがって、コンソリデーションにおけるヒットについて強化されたこれらの改変または改変クラスは、多くの異なる株バックグラウンドにおいて繰り返しヒットであったものである。

本明細書で使用される場合、「ライブラリー」という用語は、本開示による遺伝子改変のコレクションを指す。いくつかの実施形態では、本発明のライブラリーは、ｉ）データベースまたは他のコンピュータファイル中の配列情報のコレクション、ｉｉ）一連の遺伝的要素をコードする遺伝子構築物のコレクション、またはｉｉｉ）前記遺伝的要素を含む細胞株として現れ得る。いくつかの実施形態では、本開示のライブラリーは、個々の要素のコレクション（例えば、ＰＲＯスワップライブラリーではプロモーターのコレクション、またはＳＮＰスワップライブラリーではＳＮＰのコレクション）を指し得る。他の実施形態では、本開示のライブラリーは、遺伝的要素の組み合わせ、例えばプロモーター：：遺伝子の組み合わせを指し得る。いくつかの実施形態では、本開示のライブラリーは、宿主生物におけるライブラリーの各メンバーを適用する効果に関連するメタデータを含み得る。例えば、本明細書で使用されるライブラリーは、特定の種における１つまたはそれを超える表現型に対するそれらの組み合わせの得られる効果と一緒に、プロモーター：：遺伝子配列の組み合わせのコレクションを含み、それにより、将来のプロモータースワップにおいて前記組み合わせを使用することの将来の予測価値を改善し得る。

多様化およびコンソリデーションにより図２を詳細にして、図３とする。図３は、ライブラリーの目的（多様化またはコンソリデーション）ごとに集計した図２の改変である。コンソリデーションにおいて用いられる改変は、多様化からの最高性能改変のサブセットである。

一般に、コンソリデーションの成功は、複数のバックグラウンドにわたる遺伝子改変の繰り返し一貫した有用性に起因するので、コンソリデーションは、ライブラリーの価値の最良尺度である。図３では、多様化よりもコンソリデーションにおいて、プロモーター強度の差は小さいが、弱プロモーターは依然として最も性能不良である。

強プロモーターよりも中強度プロモータースワップが高いヒット率をもたらすという証拠は、図４に示されているように、中強度プロモータースワップに供された遺伝子座、またはラダー中のプロモーターの半数超（すなわち、少なくとも５）に供された遺伝子座のみにデータが限定される場合に特に実証される。図４は、異なるプロモーターレベルにわたる頻度バイアスを均一化するように設計された図２からのデータのサブセットを示す。

したがって、データは、中強度プロモータースワップが、弱プロモーターよりも有用な強プロモーターよりも一般に有用であることを示唆している。当技術分野における従来の慣行は、典型的には、発現を最大化または最小化することであるが、このような極端なアプローチは、特に本質的な細胞機能のモジュレートに関して、負担を細胞に過度に課し得る。

プロモータースワップの他に、多くの他の改変が可能である。外来遺伝子を挿入または使用してネイティブ遺伝子を置き換えることができ、一塩基多型（ＡＴＧからＴＴＧなどの開始コドン改変を含む）を用いることができ、ＵＶ、トランスポゾンまたは他の変異原によるランダム突然変異誘発も適用することができる。

ゲノムにわたる遺伝子標的の優先順位付け

どのタイプの改変を行うべきかという性質の他に、どの遺伝子座に改変を適用すべきかという問題もまた、本開示の実施形態において対処される。従来、代謝工学は、努力を代謝経路遺伝子に集中させている。これらの遺伝子は明らかに重要なものであり、ゲノムをシェルに組織化するアプローチは、これらの遺伝子を「シェル１」として開始する。これらの遺伝子を定義するために、標的の生合成に関する収集した知識を調べて、シェル１における遺伝子のリストを作成する。

実施形態では、フラックスバランス分析（「ＦＢＡ」）などの最適化駆動アルゴリズム方法を用いて、生物の代謝フラックスを標的産物に向けることに対して最大の影響を有するであろう遺伝子を同定し得る。このようなアプローチでは、生物のゲノムスケール代謝モデル（本明細書では、遺伝子触媒反応により接続された細胞代謝産物の有向グラフ）を使用して、細胞成長を最大化する別の表現型（例えば、基礎代謝）との比較で、産物の収率を最大化する株の代謝表現型を対比する。対比は、基礎代謝を産物最大化株に変化させるように改変（例えば、それらの発現レベルからアップレギュレートまたはダウンレギュレート）すべき遺伝子のサブセットを明らかにする。分析を実施する正式なステップは、以下を含む：
●線形計画（ＬＰ）最適化問題を定式化して、あるいは、代謝定常状態（すなわち、中間代謝産物の蓄積率が正味ゼロである指数成長期）の仮定の下で、標的化学物質の最大生産フラックス（以下、生産表現型）または最大細胞成長率（以下、ネイティブ表現型）をコンピュータ計算する。ＬＰ問題の構造は、以下に示されている。
以下を条件として：
式中、Ｓ_ｉｊは、反応ｊに関与する代謝産物ｉの化学量論係数を含むゲノムスケール代謝モデルのトポロジーのマトリックス表示である。反応フラックスの下限ＬＢ_ｊおよび上限ＵＢ_ｊは、反応が可逆的であるかまたは１つの特定方向に制限されることを可能にする熱力学的実行可能性に基づいて課される。ＬＰ問題の解決に際し、産物フラックス
および細胞成長
の最大値は、第２のステップのために保存される。
●第２のステップでは、一連のＬＰ問題を解決することにより、生産表現型およびネイティブ表現型の両方について、各反応ｊに対する最大および最小実行可能フラックスを特定する。標的産物の最小フラックスおよび細胞成長をそれぞれ最適値
および
に制限するさらなる制約と一緒に、以前の問題のすべての制約が課せられる。ＬＰ問題の構造は、以下に示されている。
以下を条件として：
２つの各表現型のＬＰ問題の解決に際し、一連の実行可能フラックス範囲
および
は保存される。
●各反応の実行可能範囲の対比は、ネイティブ表現型を生産表現型に変換するためには、反応のどのサブセットをそのフラックス能力の点でアップレギュレートまたはダウンレギュレートする必要があることを明らかにする。加えて、前記比較はまた、フラックスに必要なアップ／ダウンレギュレーションのレベルの定量的推定値を提供する。遺伝子反応マップは、反応レベル分類情報を伝達して、遺伝子レベル操作を同定する。

所定の微生物株（例えば、Ｃ．ｇｌｕｔａｍｉｃｕｍ）で所望のアミノ酸産物の収率および生産性を最適化する場合に関してこれら２つのアプローチにより決定される遺伝子改変の性能の比較は、図５に示されている。

図５は、ライブラリーの目的ごとに集計した、熟練の人間またはアルゴリズム（ＦＢＡ）による選択にしたがって、改善レベルが、標的産物の生産性および収率の表現型のノイズ閾値を超える改変の割合を示す。コンソリデーションにおいて用いられる改変は、実験中に得られた多様化からの最高性能改変のサブセットである。

アルゴリズムは、多様化過程中により潜在的に有用な変化を推奨するが、コンソリデーションにおける有益な変化の比率は同様である。別の観察結果は、アルゴリズムが、収率または収率および生産性の両方を改善する変化の同定において明らかに性能良好であるということである。

所望の産物を産生する生物の能力を十分に活用するために、すべてのその遺伝子の改変を検討すべきである。しかしながら、技術的制限により、例えば、プロモータースワップを細菌ゲノム中のあらゆる遺伝子に適用することは依然として困難である。したがって、本開示の実施形態は、試験のための公知のオン経路酵素の他に遺伝子を分類および優先順位付けする。標的とする遺伝子に関して、本開示の実施形態は、改変のために遺伝子を優先順位付けする方法を決定する。優先順位付けの１つの目標は、目的の株における所望の性能改善に対する進行速度を最大化することである。

遺伝子をシェルに優先順位付けする別のアプローチは、本開示の実施形態にしたがって、遺伝子オントロジー（ＧＯ）によるものである。遺伝子オントロジー分類は、遺伝子産物特性を表す規定の用語の管理語を提供する。これらは、３つのドメインをカバーする：細胞成分（細胞の一部またはその細胞外環境）；分子機能（分子レベルにおける遺伝子産物の基本活性、例えば結合または触媒作用）；および生物学的プロセス（統合生物単位：細胞、組織、器官および生物の機能に関する、規定の開始および終了を伴う分子事象の操作またはセット）。

ＧＯ分類システムは、各用語が同じドメイン中の１つまたはそれを超える他の用語との、および時には他のドメインとの規定の関係を有する有向非巡回グラフとして構成される。ＧＯ語彙は、種非依存的であるように設計されており、原核生物および真核生物ならびに単細胞生物と多細胞生物に適用可能な用語を含む（ｈｔｔｐ：／／ｇｅｎｅｏｎｔｏｌｏｇｙ．ｏｒｇ／ｐａｇｅ／ｏｎｔｏｌｏｇｙ−ｄｏｃｕｍｅｎｔａｔｉｏｎ（これは、その全体が参照により本明細書に組み込まれる）を参照のこと）。

遺伝子オントロジーは、遺伝子機能に関する概念の領域を定義する（ＧＯ用語：ＧＯｔｅｒｍ）、およびこれらの機能がどのようにして互いに関連するか（「関係」）を定義する。それは、生物学的知識が蓄積されるにつれて改訂および拡張される。ＧＯは、３つの態様に関する機能を説明する：分子機能（遺伝子産物により実行される分子レベル活性）、細胞成分（遺伝子産物が機能を実行する細胞構造に対する位置）、および生物学的プロセス（より大きなプロセス、または複数の分子活性により達成される「生物学的プログラム」）。

オントロジーの継続的改訂は、生物学および計算知識表示の両方で広範な経験を有するシニアオントロジーエディタのチームにより管理される。オントロジーのアップデートは、ＧｅｎｅＯｎｔｏｌｏｇｙＣｏｎｓｏｒｔｉｕｍオントロジーチームと、アップデートを要求する科学者との間で協力して行われる。ほとんどの要求は、ＧＯアノテーションを作成する科学者（これらは、典型的には、それぞれ少数の用語にのみ影響を与える）から、および生物学の特定分野の領域専門家（これらは、典型的には、多くの用語および関係を含むオントロジーの「ブランチ」全体を改訂する）からなされる。

ＧＯアノテーションの例では、遺伝子産物「シトクロムｃ」は、分子機能用語「オキシドレダクターゼ活性」、生物学的プロセス用語「酸化的リン酸化」ならびに細胞成分用語「ミトコンドリアマトリックス」および「ミトコンドリア内膜」により説明され得る。

オントロジー

分子機能

単一の高分子機械の作用により行われ得る分子プロセスは、通常、他の分子実体との直接的な物理的相互作用を介する。この意味における機能は、遺伝子産物（または複合体）が実行する作用または活性を示す。これらの作用は、２つの異なるが関連する視点：（１）生化学的活性、および（２）より大きなシステム／プロセスの成分としての役割から説明される。

細胞成分

これらの用語は、分子機能を行う場合に高分子機械により占有される、細胞内コンパートメントおよび構造に対する位置を説明する。生物学者が遺伝子産物の位置を説明する方法は２つある：（１）細胞構造（例えば、原形質膜の細胞質側）またはコンパートメント（例えば、ミトコンドリア）、および（２）それらが一部である安定な高分子複合体（例えば、リボソーム）。ＧＯの他の態様とは異なり、細胞成分概念は、プロセスではなく細胞生体構造を指す。

生物学的プロセス

生物学的プロセスは、達成するように生物が遺伝的にプログラム化される特定の目的を表す。生物学的プロセスは、多くの場合、それらの結果または終了状態により説明され、例えば、細胞分裂の生物学的プロセスは、単一親細胞から２つの娘細胞（分裂した細胞）の作成をもたらす。生物学的プロセスは、特定の遺伝子産物（または高分子複合体）により実行される特定の一連の分子機能により、多くの場合には高度に調節された方法で、特定の時系列で遂行される。

図６は、遺伝子オントロジーからのサブグラフの例を示し、遺伝子クラス６０２、６０４および６０６は、収率の改善について強化されている。この分類では、遺伝子セットは、オントロジーの特定の用語（およびすべての祖先用語）に関連する。（上記各ネームスペースを表すルート用語以外の）すべての用語は、別の用語とのサブクラス関係を有する。

以下はＯＢＯ形式ファイルから取られたＧＯ用語の例である。
ｉｄ：ＧＯ：００１６０４９
名前：細胞成長
ネームスペース：生物学的＿プロセス
ｄｅｆ：”既に存在するものと同様の物質の付着および生合成産生により、細胞が、時間とともにサイズの点で不可逆的に増加するプロセス”［ＧＯＣ：ａｉ］
サブセット：ｇｏｓｌｉｍ＿一般
サブセット：ｇｏｓｌｉｍ＿植物
サブセット：ｇｏｓｕｂｓｅｔ＿ｐｒｏｋ
同義語：”細胞エクスパンション”関連［］
同義語：”細胞の成長（ｃｅｌｌｕｌａｒｇｒｏｗｔｈ）”同意［］
同義語：”細胞の成長（ｇｒｏｗｔｈｏｆｃｅｌｌ）”同意［］
ｉｓａ：ＧＯ：０００９９８７！細胞プロセス
ｉｓａ：ＧＯ：００４０００７！成長
関係：ＧＯ：０００８３６１！細胞サイズの調節の一部
ｈｔｔｐ：／／ｇｅｎｅｏｎｔｏｌｏｇｙ．ｏｒｇ／ｐａｇｅ／ｏｎｔｏｌｏｇｙ−ｓｔｒｕｃｔｕｒｅ

遺伝子オントロジーは、ＧＯＳｌｉｍ（これは、遺伝子分類のより一般的な概要を与えるＧＯ用語のサブセットである）を使用して、様々なレベルの抽象化および集合に「ロールアップ」され得る（ｈｔｔｐ：／／ｇｅｎｅｏｎｔｏｌｏｇｙ．ｏｒｇ／ｐａｇｅ／ｇｏ−ｓｌｉｍ−ａｎｄ−ｓｕｂｓｅｔ−ｇｕｉｄｅを参照のこと）。この場合、ＧＯ用語の「ロールアップ」は、特定のＧＯ用語による遺伝子の分類から開始し、そのより具体的な用語からグラフを「上に」移動させて、特定の用語がサブセットであるより一般的なＧＯ用語の下でそれらの遺伝子を分類することを意味する。「ロールアップ」プロセスはそこから継続して、一般的なＧＯ用語から、これを組み込んださらにより一般的なＧＯ用語に移行し得る。このプロセスは、一般的なＧＯ用語のかなり小さなリストに含まれる１つまたはそれを超えるＧＯ用語が達成されるまで継続する。このようにして、特定の各ＧＯ用語は、ＧＯＳｌｉｍオントロジーファイル内のＧＯ用語の限定的なリスト内に含まれるより一般的なＧＯ用語に変換される。ＧＯＳｌｉｍの使用は、ゲノムをシェルに優先順位付けするための最も潜在的な用途である。

ＧＯＳＬＩＭマッピングのアルゴリズム的な定義は、すべてのＧＯ用語を３レベルだけロールアップすること、または総ＧＯ用語の数もしくは所定のＧＯ用語ごとに割り当てられる遺伝子の数の点で「スイートスポット」に達するまで繰り返しロールアップを行うことなどの方法を含み得る。ＧＯＳｌｉｍのすべてのプールが規定のサイズに達するか、またはユニークなＧＯ用語のプールが特定量だけ減少するまで、ＧＯ用語が段階的にロールアップされるように、本開示の実施形態は、アルゴリズム的に「スイートスポット」アプローチを定義し得る。これらのアプローチには、多くの他の場合に容易に拡張可能であるという利点を有する。

表２は、実験に基づいて所定の微生物株において所望のアミノ酸収率および生産性について強化されたＧＯＳｌｉｍ用語を示す。各ＧＯ用語について、プリセット閾値を超える収率または生産性の改善をもたらす遺伝子の数を、偶然に見られると予想される数と比較した。この表は、コンソリデーションおよび多様化の組み合わせに関するものであり、多様化実験が中心である。

遺伝子分類スキームを決定したら、次のステップは、分類の観点から実験効果の構造を説明することである；すなわち、どのサブクラスが、標的表現型の改善に最も有用であるかを決定して、その後の改変ラウンドの指針とるか、または別の標的および／もしくは生物に同様に適用することである。統計的アプローチまたは機械学習アプローチを用いて、これらのサブクラスを同定し得る。

統計的アプローチの中で、遺伝子セット強化分析（「ＧＳＥＡ」）は、本開示の実施形態において用いられ得る。（ＧＳＥＡ；ＳｕｂｒａｍａｎｉａｎＡら、”Ｇｅｎｅｓｅｔｅｎｒｉｃｈｍｅｎｔａｎａｌｙｓｉｓ：Ａｋｎｏｗｌｅｄｇｅ−ｂａｓｅｄａｐｐｒｏａｃｈｆｏｒｉｎｔｅｒｐｒｅｔｉｎｇｇｅｎｏｍｅ−ｗｉｄｅｅｘｐｒｅｓｓｉｏｎｐｒｏｆｉｌｅｓ，”ＰＮＡＳ，２００５（これは、その全体が参照により本明細書に組み込まれる）を参照のこと）。ＧＳＥＡは、一連の候補遺伝子間で過剰表現されているオントロジー内の遺伝子クラスのサブセットを同定しようと試みる。この分析は、典型的には、２つのタイプのアウトプットを提供する：強化度ＥＳは強化度を示し、ｐ値は結果の有意性を示す。統計的方法を用いて、多重仮説検定を修正し得る。

ヒトゲノムプロジェクトの完了は、大量の新たな情報を研究者に与えたが、それはまた、膨大な量の得られたデータをどのように解釈および分析するかという問題を研究者に残した。疾患に関連する遺伝子を探すために、研究者は、異なる細胞における遺伝子発現量を測定するＤＮＡマイクロアレイを利用した。研究者は、数千の異なる遺伝子に対してこれらのマイクロアレイを実施し、２つの異なる細胞カテゴリ（例えば、正常細胞および癌細胞）の結果を比較した。しかしながら、疾患は、典型的には、遺伝子群全体に関係するので、この比較方法は、個々の遺伝子の発現間の微妙な差を検出するために十分高感度ではない。複数の遺伝子が単一の生物学的経路に関連するので、遺伝子セット内の発現の相加的変化が表現型発現の差につながる。遺伝子セット強化分析は、遺伝子群の発現の変化に焦点を当て、そうすることにより、前記方法は、単一遺伝子の発現の検出不可能な小さな変化の問題を解決する。

遺伝子セット強化分析では、同じ生物学的経路への関与により、または染色体上の近傍位置により（これらはすべて、改変特徴として役立ち得る）互いにグループ化された優先遺伝子セットを使用する。本開示の実施形態では、これらの規定のセットのデータベースは、ＴｈｅＭｏｌｅｃｕｌａｒＳｉｇｎａｔｕｒｅｓＤａｔａｂａｓｅ（ＭＳｉｇＤＢ）において見られ得る。ＧＳＥＡでは、ＤＮＡマイクロアレイまたは今はＲＮＡ−Ｓｅｑ（全トランスクリプトームショットガンシーケンス）を実施し、２つの細胞カテゴリ間で比較し得るが、長いリスト中の個々の遺伝子に焦点を当てる代わりに、遺伝子セットに焦点が当てられている。研究者は、セット中の遺伝子の大部分がこのリストの両極端に該当するかを分析する：リストの上および下は、２つの細胞タイプ間の発現の最大差に対応する。遺伝子セットが上（過剰発現）または下（過少発現）のいずれかに該当する場合、それは、表現型の差に関連すると考えられる。

例えば、健常遺伝子型および疾患遺伝子型の比較では、ゲノムワイド関連研究を用いて、疾患ゲノムにおいて過剰なＳＮＰであって、その症状に関連し得るＳＮＰを見出すことを試み得る。ＧＳＥＡの前には、ゲノムワイドＳＮＰ関連研究の精度は、多数の偽陽性により非常に制限されていた。ＧＳＥＡ−ＳＮＰ法は、疾患に寄与するＳＮＰが、同じ生物学的経路にすべてが関与する一連の遺伝子にグループ化される傾向があるという理論に基づく。ＧＳＥＡのこの適用は、疾患関連ＳＮＰの発見を支援するだけではなく、対応する疾患経路および疾患機構を明らかにするために役立つ。

あるいは、本開示の実施形態は、オントロジーの所定のクラス（特徴）と観察結果との間の関係を学習するための機械学習（「ＭＬ」）技術を適用し得る。このフレームワークでは、実施形態は、標準的なＭＬモデル、例えば決定木を使用して、特徴の重要性を決定し得る。オントロジークラスの階層的性質により、特徴は相関しているかまたは冗長であることが多く、あいまいなモデルフィッティングおよび特徴検査につながり得る。この問題に対処するために、主成分分析により、インプット特徴に対して次元縮小を実施し得る。あるいは、子から親へのオントロジークラスから得られた情報に基づいて、特徴のトリミングを実施し得る。

一般に、機械学習は、限られた数のラベルデータ例を使用し、次いで、未知データに対して同タスクを実行することによる、情報タスク（例えば、分類または回帰）の性能に関する性能基準（例えば、パラメータ、技術または他の特徴）の最適化として説明され得る。教師あり機械学習、例えば線形回帰を用いたアプローチでは、機械（例えば、コンピューティングデバイス）は、例えば、トレーニングデータにより示されるパターン、カテゴリ、統計的関係または他の属性を特定することにより学習する。次いで、学習の結果を使用して、新たなデータが同じパターン、カテゴリ、統計的関係または他の属性を示すかを予測する。

本開示の実施形態は、トレーニングデータが利用可能である場合には、他の教師あり機械学習技術を用い得る。トレーニングデータがない場合には、実施形態は、教師なし機械学習を用い得る。あるいは、実施形態は、少量のラベルデータおよび大量の非ラベルデータを使用した半教師あり機械学習を用い得る。実施形態はまた、特徴選択を用いて、機械学習モデルの性能を最適化するように、最も関連する特徴のサブセットを選択し得る。選択した機械学習アプローチのタイプに応じて、代替としてまたは線形回帰に加えて、実施形態は、例えば、ロジスティック回帰、ニューラルネットワーク、サポートベクターマシン（ＳＶＭ）、決定木、隠れマルコフモデル、ベイジアンネットワーク、グラムシュミット、強化系学習、クラスタ系学習（階層クラスタリングを含む）、遺伝的アルゴリズムおよび当技術分野で公知の任意の他の適切な学習機械を用い得る。特に、実施形態は、ロジスティック回帰を用いて、分類それ自体と一緒に分類（例えば、異なる機能グループへの遺伝子の分類）の確率を提供し得る。例えば、Ｓｈｅｖａｄｅ，Ａｓｉｍｐｌｅａｎｄｅｆｆｉｃｉｅｎｔａｌｇｏｒｉｔｈｍｆｏｒｇｅｎｅｓｅｌｅｃｔｉｏｎｕｓｉｎｇｓｐａｒｓｅｌｏｇｉｓｔｉｃｒｅｇｒｅｓｓｉｏｎ，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，Ｖｏｌ．１９，Ｎｏ．１７２００３，ｐｐ．２２４６−２２５３、Ｌｅｎｇら、Ｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｆｕｎｃｔｉｏｎａｌｄａｔａａｎａｌｙｓｉｓｆｏｒｔｅｍｐｏｒａｌｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａ，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，Ｖｏｌ．２２，Ｎｏ．１，ＯｘｆｏｒｄＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ（２００６），ｐｐ．６８−７６（これらはすべて、その全体が参照により本明細書に組み込まれる）を参照のこと。

実施形態は、特にディープニューラルネットワーク（ＤＮＮ）として公知の形式で、機械学習タスクの実行で人気が高まっているグラフィック処理ユニット（ＧＰＵ）加速アーキテクチャを用い得る。本開示の実施形態は、ＧＰＵ系機械学習、例えばＧＰＵ−ＢａｓｅｄＤｅｅｐＬｅａｒｎｉｎｇＩｎｆｅｒｅｎｃｅ：ＡＰｅｒｆｏｒｍａｎｃｅａｎｄＰｏｗｅｒＡｎａｌｙｓｉｓ，ＮＶｉｄｉａＷｈｉｔｅｐａｐｅｒ，Ｎｏｖｅｍｂｅｒ２０１５，Ｄａｈｌら、Ｍｕｌｔｉ−ｔａｓｋＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒＱＳＡＲＰｒｅｄｉｃｔｉｏｎｓ，Ｄｅｐｔ．ｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，Ｕｎｉｖ．ｏｆＴｏｒｏｎｔｏ，Ｊｕｎｅ２０１４（ａｒＸｉｖ：１４０６．１２３１［ｓｔａｔ．ＭＬ］）（これらはすべて、その全体が参照により本明細書に組み込まれる）に記載されているものを用い得る。本開示の実施形態に適用可能な機械学習技術はまた、他の参考文献の中でも、Ｌｉｂｂｒｅｃｈｔら、Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｐｐｌｉｃａｔｉｏｎｓｉｎｇｅｎｅｔｉｃｓａｎｄｇｅｎｏｍｉｃｓ，ＮａｔｕｒｅＲｅｖｉｅｗｓ：Ｇｅｎｅｔｉｃｓ，Ｖｏｌ．１６，Ｊｕｎｅ２０１５、Ｋａｓｈｙａｐら、ＢｉｇＤａｔａＡｎａｌｙｔｉｃｓｉｎＢｉｏｉｎｆｏｒｍａｔｉｃｓ：ＡＭａｃｈｉｎｅＬｅａｒｎｉｎｇＰｅｒｓｐｅｃｔｉｖｅ，ＪｏｕｒｎａｌｏｆＬａｔｅｘＣｌａｓｓＦｉｌｅｓ，Ｖｏｌ．１３，Ｎｏ．９，Ｓｅｐｔ．２０１４（ａｒＸｉｖ：１５０６．０５１０１）、Ｐｒｏｍｐｒａｍｏｔｅら、ＭａｃｈｉｎｅＬｅａｒｎｉｎｇｉｎＢｉｏｉｎｆｏｒｍａｔｉｃｓ，Ｃｈａｐｔｅｒ５ｏｆＢｉｏｉｎｆｏｒｍａｔｉｃｓＴｅｃｈｎｏｌｏｇｉｅｓ，ｐｐ．１１７−１５３，ＳｐｒｉｎｇｅｒＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ２００５（これらはすべて、その全体が参照により本明細書に組み込まれる）に見られ得る。

株最適化のためのＧＳＥＡ−新たなオントロジークラスの学習

実施形態では、株最適化問題の状況でＧＳＥＡを使用して、一連の履歴データに基づいて新規オントロジークラスを学習し、学習したものを使用して、性能を改善する可能性のある新たな候補変化を予測し得る。ＧＳＥＡを使用して標的遺伝子を決定し得、さらに、それを他の情報（例えば、最適なプロモーター強度レベルの知識）と組み合わせて、実施すべき改変を選択し得る。

本開示の実施形態は、未試験遺伝子の予測を行う。例えば、本株最適化プロジェクトは、人間の専門家を使用して、２６個、８１個、４１５個および２１０７個の遺伝子からなる４つのシェルにゲノムを優先順位付けした。現在、第１の３つのシェルは完成しており、最後の（第４の）シェルの約半分が完成している。最後のシェルは、標的の収率および生産性表現型を最適化するために重要であることが人間の専門家には明らかではなかったゲノムの残り約８０％に相当する。しかしながら、本発明の譲受人による最後のシェルまでの現在の進歩は、多数の有用な表現型改善をもたらしたので、これらの遺伝子のより良い優先順位付けが優先事項である。本明細書では、「進歩」は、それらに適用された改変を実際に有していたシェル４遺伝子の割合を指す。人間により定義されたシェルに対する表２からの強化ＧＯＳｌｉｍシェルの対応は、図７に示されている。

図７は、目的の株ゲノム中のすべての遺伝子の人間により優先順位付けされたシェルに対する対応による、表２の強化ＧＯＳｌｉｍの遺伝子の内訳を示す。

１つのアプローチでは、本開示の実施形態は、最後のシェルにおいて高度に表されるＧＯＳｌｉｍに焦点を当てることにより、最後のシェルを優先順位付けする。図７からの例は、「ＤＮＡ結合」、「ＤＮＡ代謝プロセス」および「ストレスへの応答」を含む。したがって、本開示の実施形態は、他のＧＯＳｌｉｍ中の遺伝子に対して遺伝子改変を実施する前に、それらのＧＯＳｌｉｍ内の遺伝子への遺伝子改変の適用を優先順位付けする。

本開示の実施形態はまた、有用な改変が以前にどこにあったかを考慮し得る。例えば、図８は、人間により設計されたシェルが、図８に示されているＧＯＳｌｉｍに対応する「ヒット」（ノイズを超える候補表現型改善）とこれまでに判断された改変を含むことを示す。

図８は、目的の例示的な株ゲノム中のすべての遺伝子の人間により優先順位付けされたシェルへの対応により、プロモータースワップによる改変が所望の表現型を改善することが実証された強化ＧＯＳｌｉｍの遺伝子のサブセットの内訳を示す。

本開示の実施形態は、有用な改善を引き続きもたらす可能性があるので、シェル４中の有用な改善につながったＧＯＳｌｉｍを検討する。図８からの例は、「ＤＮＡ代謝プロセス」および「ストレスへの応答」を含む。これらの２つのＧＯＳｌｉｍは９１個の遺伝子を表し、このうち、４６個は以前に改変の標的であった；したがって、次の段階では、残りの４５個の遺伝子を高優先標的とみなし得る。

本開示の実施形態は、機械学習アプローチを用いて、遡及的に上記アプローチの有用性を評価する。例示的なプロセスの例は、以下のとおりである：
●履歴データをトレーニングセットおよびテストセットに分割する
●トレーニングデータセット、例えばＧＳＥＡを使用して、クラスごとの強化確率を計算する。
●トレーニングセット（すなわち、テストデータセット）に存在しないすべての遺伝子クラス例の強化確率を予測する。
●テストデータセットに関して、クラスごとの強化確率の予測と観察結果とを比較する。
●必要に応じて、ハイパーパラメータ、例えばＭＬアルゴリズムの決定木パラメータを調整する。

オンライン学習

上記を考慮して、本開示の実施形態は、最初に、以下の降順で、シェルに分類される改変候補として遺伝子を優先順位付けし得る：
１．ＦＢＡまたは別の代謝モデルまたはそれらの組み合わせにより標的として同定された遺伝子（代謝マップおよび専門家が参考にする文献を含む）
２．以前のゲノムワイドな代謝最適化プロジェクトの取り組みにおいて有用であると同定され適用可能であると思われるＧＯＳｌｉｍ（例えば、ＤＮＡ代謝、遺伝子調節、ストレス応答）、および専門家が重要である可能性があると判断した任意のＧＯＳｌｉｍ
３．他の遺伝子

最初のシェルが完成し、最後のシェルにおいていくらかの進歩があった後、本開示の実施形態は、自動ＧＳＥＡまたは他の分析を繰り返し実施し、残りの最終シェル遺伝子を再優先順位付けし得る。実施形態では、優先順位付けエンジンは、実験結果に依拠して、予測アルゴリズム中の特定の特徴の重み付けを強制し得る。例えば、重み付けは、最重量から最軽量の重み付けまで、以下の順序で以下の遺伝子セットに割り当てられ得る：
１．最終シェル遺伝子の中から有用な改善を以前に生成した強化ＧＯＳｌｉｍ中の遺伝子
２．最終シェルにおいて十分に表示されている強化ＧＯＳｌｉｍ中の遺伝子
３．強化ＧＯＳｌｉｍ中の他の遺伝子
４．他の遺伝子

実施形態では、最初に、中強度プロモータースワップを試行し、続いて、強プロモーターを試行し、最も低い優先度を受けた弱プロモーターを試行し得る。クラスが重複するので、または複数の分類システムが用いられているので、遺伝子が複数のクラスに属する場合、それが属する各クラスに関する予測性能の組み合わせに基づいて、重み付けされた予測性能を各遺伝子について割り当て得ることにも留意する。予測性能の重み付けは、それに応じて対応する優先順位付けに影響を及ぼすであろう。最も単純な場合では、各遺伝子の平均クラスベースの予測性能を使用し得る。別の例は、各関連クラスのサイズまたは公知の有用性にしたがって重み付けされた平均クラスベースの予測性能である。

遺伝子改変の新たなセットが予測、適用および試験されるにつれて、どのクラスの改変が最も有用であるかに関するデータを収集し、次いで、「オンライン」方式でフィードバックして、次のラウンドの改変を優先順位付けし得る。よりアルゴリズム的な点では、ＧＳＥＡモデルは、トンプソンサンプリングにより繰り返しアップデートされて、以下に記載されるように、最も関連する（すなわち、ヒット強化された）オントロジークラスを効率的に学習し得る。この技術は、過去のクラスごとの成功（例えば、性能改善ヒット）に基づいて、クラスの比例サンプリングを調整する。
●クラスＣ_ｉのオントロジーＯ、およびオントロジークラスと遺伝子との間のマッピングを想定する。サイクルごとの株構築能力Ｎ（例えば、サイクルごとに構築される株の数）を想定する
●初期化
○ｊ＝０。ここで、ｊは、メインのｗｈｉｌｅループカウンターである。
○ｊ_ｍａｘ実行するランの最大数。
○予備オントロジークラス予想強化率Ｐ_ｊ（Ｃ_ｉ）、ここで、ｊは反復であり、ｉは、実験データからの予備知識、他の技術、例えばＦＢＡもしくは他の代謝モデル、または最初の優先順位付けに関して上記で議論されている他の技術に基づいて、オントロジークラスを同定するインデックスである。
○株性能目標ｙ_ｇｏａｌ＝０であり、現在の親株性能ｙ_ｊｋ＝０であり、ベースラインとしてｋは、ラウンドｊで構築されたｋ番目の株を表す。
●Ｗｈｉｌｅｍａｘ（ｙ_ｊｋ）＜ｙ_ｇｏａｌまたはｊ＜ｊ_ｍａｘ
○Ｐ_ｊ（Ｃ_ｉ）に比例してオントロジークラスＣ_ｉからランダムにＮの遺伝子ｇ_ｋをサンプリングする。すなわち、オントロジークラスからトンプソンサンプリングを実施する。交換の有無にかかわらず、サンプリングを実施し得る。当業者は、他の学習ポリシー、例えば知識勾配ポリシーを代わりに用い得ることを認識し得る。
○以前のステップにおいて同定された遺伝子ｇ_ｋを標的とする遺伝子摂動技術の１つ、例えばプロモータースワッピングを適用する。これは、新たな株Ｓ_ｊｋをもたらす
○新たな株の表現型性能を測定する：ｙ_ｊｋ＝ｆ（Ｓ_ｊｋ）
○ＧＳＥＡまたは他の上記技術を使用した新たな測定結果に基づいて、アップデートされたオントロジークラス強化率Ｐ_ｊ＋１（Ｃ_ｉ）を決定する
○インクリメントｊ＝ｊ＋ｌ

実施形態によれば、図９を参照すると、優先順位付けエンジンは、少なくとも１つの微生物株中の第１の遺伝子セットに行われた第１の遺伝子改変に少なくとも部分的に基づいて、第１の表現型性能データにアクセスし（９０２）；第１の表現型性能データと、第１の遺伝子改変および第２の遺伝子改変に共通する少なくとも１つの改変特徴とに少なくとも部分的に基づいて、第２の遺伝子改変の第２の予測表現型性能を予測し（９０４）；第２の表現型性能に少なくとも部分的に基づいて、第２の遺伝子セットに適用すべき第２の遺伝子改変を優先順位付けする（９０６）。優先順位付けに少なくとも部分的に基づいて、第２の遺伝子改変を少なくとも１つの微生物株内の遺伝子に適用し得る。改変特徴は、予測モデリング、例えば機械学習において有用可能性があると考えられるパラメータである。改変特徴は、カテゴリ特徴（例えば、タイプ）、連続（例えば、数）または順序特徴（例えば、個別のグループ、例えばより良いまたはより悪い）として表現され得る。

優先順位付けエンジンは、第２の遺伝子セット内の遺伝子への第２の遺伝子改変の１つまたはそれを超える遺伝子改変の繰り返し適用から観察された表現型性能データに基づいて、第２の遺伝子セット内の遺伝子のサブセットに適用すべき第２の遺伝子改変のサブセットの優先順位付けを繰り返しアップデートし得る。

実施形態では、優先順位付けエンジンは、第２の遺伝子セット内の遺伝子への第２の遺伝子改変の１つまたはそれを超える遺伝子改変の適用に少なくとも部分的に基づいて、アップデートされた第１の観察表現型性能データを取得し（９０８）、アップデートされた第１の表現型性能データに少なくとも部分的に基づいて、第２の遺伝子改変のサブセットのアップデートされた第２の表現型性能を予測し得る（９０４）。次いで、優先順位付けエンジンは、アップデートされた第２の表現型性能に少なくとも部分的に基づいて、第２の遺伝子セット内の遺伝子のサブセットに適用すべき第２の遺伝子改変のサブセットの優先順位付けをアップデートし得る（９０６）。第２の遺伝子セット内の遺伝子への第２の遺伝子改変の１つまたはそれを超える遺伝子改変の適用は、それらの改変遺伝子を第２の遺伝子セット内から第１の遺伝子セットに有効に移動させ、そして、本開示の実施形態にしたがって、性能データが取得され得ることに留意する。本開示の実施形態によれば、本明細書に記載される実施形態の任意の組み合わせは、優先順位付けされた遺伝子改変を使用して微生物株を生産するために使用され得る。本開示の実施形態によれば、微生物株は、第１の遺伝子セット中の遺伝子に適用される第１遺伝子改変を含むように生産される。実施形態によれば、このような微生物株は、優先順位付け閾値よりも上に優先順位付けされ、第２の遺伝子セット中の少なくとも１つの遺伝子に適用される第２の遺伝子改変をさらに含み得、適用される遺伝子改変は、予測された第２の表現型性能に基づくものよりも、予測されアップデートされた第２の表現型性能に基づく優先順位付けに応じて高く優先順位付けされる。

本開示の実施形態によれば、遺伝子改変および少なくとも１つの改変特徴は、改変すべき遺伝子に関連し得るか、またはそれらの遺伝子に行われた改変のタイプに関連し得る。例えば、少なくとも１つの改変特徴は、オントロジークラス、例えばＧＯ分類に関連するかまたは改変のタイプ、例えばプロモータースワップ（例えば、プロモーターの挿入、欠失または置換を含むプロモーター改変）またはＳＮＰ（一塩基多型）スワップ（例えば、単一塩基対の挿入、欠失または置換を含む単一塩基対改変）に関連するクラスを含むクラスを含み得る。

改変特徴は、プロモーターの強度、例えば弱、強または中強度に関連し得る。本発明者らによる実験は、弱プロモーターまたは強プロモーターよりも中強度プロモーターが、微生物株による性能（例えば、収率、生産性）改善の高い可能性をもたらした事例を示した。したがって、優先順位付けエンジンは、強プロモーターまたは弱プロモーターよりも中強度プロモーターを予測表現型性能に重く重み付けし得る。本開示の実施形態では、優先順位付けエンジンは、強プロモーターおよび中強度プロモーターよりも弱プロモーターを軽く重み付けし得る。

一般に、優先順位付けエンジンは、より低い効果よりも公知の有益な効果を予測表現型性能に重く重み付けし得る。逆に、実施形態では、優先順位付けエンジンは、低い重み付けを、より有益な効果よりも、予測表現型性能における公知のネガティブなまたはあまり有益ではない効果に割り当て得る。別の例として、実施形態では、第２の遺伝子改変の第２の表現型性能の予測は、株中の少なくとも２つの遺伝子への１つまたはそれを超えるタイプの改変（例えば、プロモータースワップ、ＳＮＰスワップ）を含む少なくとも１つの改変特徴に少なくとも部分的に基づく。このようにして、前記方法は、２つまたはそれを超える遺伝子改変を同じ株に行うことの表現型効果から生じるエピスタシス効果を説明する。このような実施形態では、予測は、ポジティブエピスタシス効果をもたらす１つまたはそれを超えるタイプの改変を予測表現型性能により重く重み付けし得る。

実施形態では、少なくとも１つの改変特徴は、第１の分類システムからの第１のオントロジークラスおよび第２の分類システムからの第２のオントロジークラスを含む。例えば、遺伝子が、異なる分類システム（例えば、ＧＯ、ＫＥＧＧ、遺伝子または遺伝子産物の配列類似性、タンパク質ドメイン）からの複数のクラスのメンバーであり、それらのクラスが、性能改善をもたらすことが観察または予測されている場合、優先順位付けエンジンは、本開示の実施形態にしたがって、改変の候補としてのその遺伝子の予測表現型性能を有利に重み付けし得る（それにより、高い優先度が割り当てられる可能性が増加する）。

実施形態では、少なくとも１つの改変特徴は、少なくとも１つの微生物株により産生される産物の特徴を含む。例えば、産物の特徴は、同じ代謝経路またはオントロジークラスに関連し得る。第１のセットまたは第１のセットからの遺伝子が性能改善に関連する場合、同じ代謝経路に沿った、または同じオントロジークラス内の第２のセットからの遺伝子もまた、性能改善を生じさせる可能性がある。したがって、優先順位付けエンジンは、本開示の実施形態にしたがって、改変の候補としてのその遺伝子の予測表現型性能を有利に重み付けし得る（それにより、高い優先度が割り当てられる可能性が増加する）。

実施形態では、優先順位付けエンジンは、機械学習予測モデルのトレーニングセットとして第１の遺伝子セットからの遺伝子を使用した機械学習を用いて、第２の遺伝子改変の第２の表現型性能を予測し得る。

実施形態では、優先順位付けエンジンは、第１の観察表現型性能データに少なくとも部分的に基づいて、第２の遺伝子改変のクラスごとの強化確率を予測すること、および予測したクラスごとの強化確率のランキングに少なくとも部分的に基づいて、第２の予測遺伝子改変を優先順位付けすることにより、第２の表現型性能を予測し得る。本開示の実施形態では、優先順位付けエンジンは、クラスの予測強化が閾値強化を超える場合、クラス内の試験のために少なくとも１つの候補遺伝子を優先順位付けし得る。

実施形態では、第２の遺伝子セットは、第１の遺伝子セットが存在する少なくとも１つの微生物株とは異なる少なくとも１つの微生物株内に存在する。これらの実施形態などでは、第１の表現型性能データは、少なくとも１つの微生物株により産生される第１の産物の１つまたはそれを超える特徴に関連し、第２の予測表現型性能は、第１の産物とは異なる第２産物であって、同じ株または共通の特徴を共有する別の株により産生される第２産物の１つまたはそれを超える特徴に関連し得る。実施形態では、第２の産物は、共通の特徴、例えば、第１の産物に密接に関連する（含有量または最も近い共通前駆体への距離による）代謝経路から生じる構成原子の数、構造、原子含有量などを共有し得る。

図１２は、図１２Ａ〜１２Ｌの表セグメントのレイアウトのガイドとして役立つ図である。図１２Ａ〜１２Ｌは、特定の微生物宿主生物における特定のアミノ酸の産生に関与する特質を示す実験データの表を共に形成する。（表は、図１２Ａ〜１２Ｌのそれぞれの行番号および列番号を参照することにより、図１２のガイドを用いずに継ぎ合わせることもできる。）任意の行の列見出し（括弧で特定）全体を読むことにより、正式名称（Ｍ．Ｉｋｅｄａら、ＴｈｅＣｏｒｙｎｅｂａｃｔｅｒｉｕｍｇｌｕｔａｍｉｃｕｍｇｅｎｏｍｅ：ｆｅａｔｕｒｅｓａｎｄｉｍｐａｃｔｓｏｎｂｉｏｔｅｃｈｎｏｌｏｇｉｃａｌｐｒｏｃｅｓｓｅｓ，ＡｐｐｌＭｉｃｒｏｂｉｏｌＢｉｏｔｅｃｈｎｏｌ．２００３Ａｕｇ；６２（２−３）：９９−１０９．Ｅｐｕｂ２００３Ｍａｙ１３（これは、その全体が参照により本明細書に組み込まれる）に言及されているｎｇｃｌ命名法でｌｏｃｕｓ＿ｉｄ（Ｂ）によっても特定される）、変化のタイプ（Ｄ）（例えば、欠失、プロモータースワップ（「ｐｒｏｓｗｐ」）、開始コドンスワップ（「ｓｃｓｗｐ」）、置換（「ｇｅｎｅ＿ｒｅｐｌ」））（ほとんどがプロモータースワップである）、シェル番号（Ｅ）、およびシェルサブクラス（Ｆ）（例えば、オン経路、輸送、その他、ＴＣＡ、転写、ＰＴＳ）の下、宿主遺伝子（Ｃ）に影響を与える（改変識別子により特定された）変化（Ａ）を確認することができる。シェル３および４は、一般に、生合成経路から外れている。変化と目的の産物との間に公知の生物学的関係がないので、シェルサブクラス「その他」は、一般に、将来の調査の関心対象であり得る予想外のオフ経路結果に対応する。他のシェルサブクラス（このうちのいくつかは、図１２Ａ〜Ｌの表に記載されている）は、以下に説明されている。

オン経路：産物の生合成経路上

輸送：イオンチャネル、輸送体、および細胞の内外への分子の輸送に関与する他のタンパク質

転写：転写因子および他の転写調節因子

ＴＣＡ：クエン酸回路としても公知のトリカルボン酸回路

ＰＴＳ：細菌への糖の輸入に関与するホスホトランスフェラーゼシステム

特定の変化（Ａ）について、表は、グラム／リットル／時間の単位で生産性の変化（Ｇ）を示し、グルコースのグラム／目的の産物のグラム×１００の単位で収率の変化（Ｈ）（重量パーセント比）を示す。

プロモーター（Ｉ）は、変化（Ａ）により影響を受ける遺伝子のネイティブプロモーターを置換するプロモーターを特定する。置換プロモーター（Ｉ）の表中の識別子は、置換プロモーターが由来する遺伝子を参照する。「ネイティブ」が示されている場合、置換を行わなかった。

タンパク質名（Ｊ）は、改変された遺伝子により作られたタンパク質を特定する（例えば、プロモーター変化により増加した酵素）。一般に、作られたタンパク質は目的の産物ではなく、変化により影響を受ける生物により作られたタンパク質であることに留意する。

Ｋ列は、変化により影響を受けた遺伝子に関連する「ＧＯ用語」を列挙する。本書の別の場所で議論されているように、シェル３および４に関連するＧＯ用語は、さらなる調査のために、潜在的な改変の高優先標的として特に関心対象である。

図１２Ａ〜Ｌの表からのシェル４ＧＯ用語のリストは、以下のとおりである：

デノボＣＴＰ生合成プロセス、

３−イソプロピルリンゴ酸デヒドラターゼ活性、

４鉄、

４硫黄クラスタ結合、

ＡＴＰ結合、

ＤＮＡ結合、

ＤＮＡトポイソメラーゼ活性、

ＤＮＡトポイソメラーゼタイプＩ活性、

ＤＮＡトポロジー変化、

ＤＮＡテンプレート、

Ｌ−アスパラギン酸：２−オキソグルタル酸アミノトランスフェラーゼ活性、

Ｌ−フェニルアラニン：２−オキソグルタル酸アミノトランスフェラーゼ活性、

ＮＡＤＨデヒドロゲナーゼ活性、

ＵＭＰキナーゼ活性、

アセト乳酸シンターゼ活性、

アデニル酸シクラーゼ活性、

アルコールデヒドロゲナーゼ（ＮＡＤ）活性、

アミノ酸結合、

芳香族化合物生合成プロセス、

生合成プロセス、

分岐鎖アミノ酸生合成プロセス、

ｃＡＭＰ生合成プロセス、

触媒活性、

細胞アミノ酸生合成プロセス、

細胞成分の組織化または生物発生、

細胞高分子生合成プロセス、

細胞窒素化合物生合成プロセス、

細胞プロセス、

染色体組織化、

コドン特異的、

環状ヌクレオチド生合成プロセス、

複素環生合成プロセス、

細胞内シグナル伝達

イオン輸送、

鉄硫黄クラスタ結合、

イソメラーゼ活性、

キナーゼ活性、

ロイシン生合成プロセス、

リアーゼ活性、

代謝プロセス、

金属イオン結合、

ヌクレオチド結合、

ヌクレオチドリン酸化、

有機酸生合成プロセス、

酸化還元プロセス、

オキシドレダクターゼ活性、

リン−酸素リアーゼ活性、

リン酸化、

カリウムイオン輸送、

タンパク質分解、

プリン含有化合物代謝プロセス、

ピリドキサールリン酸結合、

ピリミジンヌクレオチド生合成プロセス、

ピリミジン含有化合物代謝プロセス、

細胞生合成プロセスの調節、

転写の調節、

配列特異的ＤＮＡ結合、

セリンタイプエンドペプチダーゼ活性、

シグナル伝達物質活性、

シグナル伝達、

小分子代謝プロセス、

トランスアミナーゼ活性、

転写、

転写因子活性、

トランスフェラーゼ活性、

翻訳、

翻訳放出因子活性、

翻訳終了、

輸送、

ウリジル酸キナーゼ活性、

ＤＮＡ代謝プロセス、

生合成プロセス、

細胞アミノ酸代謝プロセス、

代謝プロセス、

核酸塩基含有化合物代謝プロセス、

翻訳、

輸送

図１０は、本開示の実施形態のクラウドコンピューティング環境を示す。本開示の実施形態では、クラウドコンピューティングシステム１００２で優先順位付けエンジンソフトウェア１０１０を実行して、複数のユーザが、本開示の実施形態にしたがって遺伝子改変を優先順位付けすることを可能にし得る。図７に示されているクライアントコンピュータ１００６は、ネットワーク１００８、例えばインターネットを介してシステムにアクセスする。システムは、図７に示されているタイプの１つまたはそれを超えるプロセッサを使用した１つまたはそれを超えるコンピューティングシステムを用い得る。クラウドコンピューティングシステムそれ自体は、ネットワーク１００８を介してソフトウェア１０１０をクライアントコンピュータ１００１０にインターフェースするネットワークインターフェース１０１２を含む。ネットワークインターフェース１０１２は、クライアントコンピュータ１００６のクライアントアプリケーションがシステムソフトウェア１０１０にアクセスすることを可能にするアプリケーションプログラミングインターフェース（ＡＰＩ）を含み得る。特に、ＡＰＩを通じて、クライアントコンピュータ１００６は、優先順位付けエンジンにアクセスし得る。

サービス型ソフトウェア（ＳａａＳ）ソフトウェアモジュール１０１４は、クライアントコンピュータ１００６へのサービスとしてシステムソフトウェア１０１０を提供する。クラウド管理モジュール１０１１０は、クライアントコンピュータ１００６によるシステム１０１０へのアクセスを管理する。クラウド管理モジュール１０１６は、マルチテナントアプリケーション、仮想化、または当技術分野で公知の他のアーキテクチャを用いるクラウドアーキテクチャが複数のユーザにサービスを提供することを可能にし得る。

図１１は、本開示の実施形態にしたがって、非一時的コンピュータ可読媒体（例えば、メモリ）に格納されたプログラムコードを実行するために使用され得るコンピュータシステム１１００の例を示す。コンピュータシステムは、アプリケーションに応じて、人間ユーザおよび／または他のコンピュータシステムとインターフェースするために使用され得るインプット／アウトプットサブシステム１１０２を含む。Ｉ／Ｏサブシステム１１０２は、例えば、キーボード、マウス、グラフィカルユーザインターフェース、タッチスクリーン、またはインプットのための他のインターフェース、例えばＬＥＤもしくは他のフラットスクリーンディスプレイ、またはアウトプットのための他のインターフェース（アプリケーションプログラムインターフェース（ＡＰＩ）を含む）を含み得る。本開示の実施形態の他の要素、例えば優先順位付けエンジンは、コンピュータシステム１１００のもののようなコンピュータシステムで実行され得る。

プログラムコードは、非一時的媒体、例えばセカンダリメモリ１１１０またはメインメモリ１１０８またはその両方の中の永続ストレージに格納され得る。メインメモリ１１０８は、揮発性メモリ、例えばランダムアクセスメモリ（ＲＡＭ）または不揮発性メモリ、例えばリードオンリーメモリ（ＲＯＭ）、ならびに命令およびデータへの高速アクセスのための異なるレベルのキャッシュメモリを含み得る。セカンダリメモリは、永続ストレージ、例えばソリッドステートドライブ、ハードディスクドライブまたは光ディスクを含み得る。１つまたはそれを超えるプロセッサ１１０４は、１つまたはそれを超える非一時的媒体からプログラムコードを読み取り、コードを実行して、コンピュータシステムが、本明細書の実施形態により実施される方法を遂行することを可能にする。当業者は、プロセッサがソースコードを取り込んで、プロセッサ１１０４のハードウェアゲートレベルで理解可能なマシンコードにソースコードを解釈またはコンパイルし得ることを理解するであろう。プロセッサ１１０４は、コンピュータ集約的なタスクを処理するためのグラフィックス処理ユニット（ＧＰＵ）を含み得る。

プロセッサ１１０４は、１つまたはそれを超える通信インターフェース１１０７、例えばネットワークインターフェースカード、ＷｉＦｉトランシーバなどを介して、外部ネットワークと通信し得る。バス１１０５は、Ｉ／Ｏサブシステム１１０２、プロセッサ１１０４、周辺機器１１０６、通信インターフェース１１０７、メモリ１１０８および永続ストレージ１１１０を通信可能に結合する。本開示の実施形態は、この代表的なアーキテクチャに限定されない。代替的な実施形態は、異なる配置およびタイプのコンポーネント、例えば、インプット−アウトプットコンポーネントおよびメモリサブシステムのための別個のバスを用い得る。

当業者は、本開示の実施形態の要素の一部または全部ならびにそれらに付随する操作が、コンピュータシステム１１００のような１つまたはそれを超えるプロセッサおよび１つまたはそれを超えるメモリシステムを含む１つまたはそれを超えるコンピュータシステムにより全体的または部分的に実行され得ることを理解するであろう。特に、本明細書に記載される優先順位付けエンジンおよび任意の他の自動システムまたはデバイスの要素は、コンピュータにより実行され得る。いくつかの要素および機能はローカルに実行され得、他のものは、異なるサーバを介したネットワークを通じた分散方式で、例えばクライアントサーバ方式で実行され得る。特に、サーバ側操作は、図１０に示されているように、サービス型ソフトウェア（ＳａａＳ）方式で複数のクライアントに利用可能にされ得る。

当業者は、いくつかの実施形態では、本明細書に記載される操作のいくつかは、人間による実行により、または自動手段および手動手段の組み合わせにより実施され得ることを認識するであろう。操作が完全に自動化されていない場合、優先順位付けエンジンの適切なコンポーネントは、例えば、それ自体の操作能力を通じて結果を生成するのではなく、操作者の人間性能の結果を受け入れ得る。
参照による組み込み

本明細書で引用される参考文献、記事、刊行物、特許、特許公報および特許出願はすべて、すべての目的のためにその全体が参照により組み込まれる。特に、本出願は、２０１５年１２月７日に出願された米国仮出願第６２／２６４，２３２号、２０１６年４月２７日に出願された米国非仮出願第１５／１４０，２９６号、および２０１６年７月２９日に出願された米国仮出願第６２／３６８，７８６号（これらはそれぞれ、その全体が参照により本明細書に組み込まれる）を参照により組み込む。

しかしながら、本明細書で引用されるいかなる参考文献、記事、刊行物、特許、特許公報および特許出願への言及も、それらが有効な先行技術を構成するかもしくは世界中の任意の国における共通一般知識の一部を形成し、またはそれらが本質的事項を開示することの承認またはいかなる形の示唆でもなく、そのようなものとして解釈されるべきではない。
実施形態
１．少なくとも１つの微生物株内の遺伝子に適用して表現型性能を改善するための改変を決定するためのコンピュータ実行方法であって、
少なくとも１つの微生物株中の第１の遺伝子セットに行われた第１の遺伝子改変に少なくとも部分的に基づいて、第１の表現型性能データにアクセスすること
コンピューティングデバイスを使用して、前記第１の表現型性能データと、前記第１の遺伝子改変および前記第２の遺伝子改変に共通する少なくとも１つの改変特徴とに少なくとも部分的に基づいて、第２の遺伝子改変の第２の表現型性能を予測すること；ならびに
コンピューティングデバイスを使用して、前記第２の表現型性能に少なくとも部分的に基づいて、第２の遺伝子セットに適用すべき前記第２の遺伝子改変を優先順位付けすること
を含み、
前記優先順位付けに少なくとも部分的に基づいて、前記第２の遺伝子改変の少なくともサブセットが少なくとも１つの微生物株内の遺伝子に適用され得る、コンピュータ実行方法。
２．前記少なくとも１つの改変特徴がオントロジークラスを含む、実施形態１に記載の方法。
３．前記少なくとも１つの改変特徴が遺伝子改変タイプを含む、実施形態１または２のいずれか一項に記載の方法。
４．前記改変タイプがプロモータースワップを含む、実施形態３に記載の方法。
５．前記改変タイプがプロモータースワップのプロモーター強度を含む、実施形態３または４に記載の方法。
６．前記予測することが、強プロモーターまたは弱プロモーターよりも中強度プロモーターを重く重み付けする、実施形態１〜５のいずれか一項に記載の方法。
７．前記予測することが、強プロモーターおよび中強度プロモーターよりも弱プロモーターを軽く重み付けする、実施形態１〜５のいずれか一項に記載の方法。
８．前記改変タイプがＳＮＰスワップである、実施形態３〜５のいずれか一項に記載の方法。
９．前記少なくとも１つの改変特徴が、前記少なくとも１つの株中の少なくとも２つの遺伝子への１つまたはそれを超えるタイプの改変を含む、実施形態１〜８のいずれか一項に記載の方法。
１０．前記予測することが、ポジティブエピスタシス効果をもたらす１つまたはそれを超えるタイプの改変をより重く重み付けする、実施形態１〜９のいずれか一項に記載の方法。
１１．前記第２の遺伝子セットが、前記第１の遺伝子セット内の遺伝子を含まない、実施形態１〜１０のいずれか一項に記載の方法。
１２．前記第２の遺伝子セット内の遺伝子のサブセット内の遺伝子がそれぞれ複数のクラスのメンバーであり、第２の表現型性能の予測が、各遺伝子が属する各クラスの予測表現型性能の組み合わせに基づいて、複合的な第２の表現型性能を予測することを含む、実施形態１〜１１のいずれか一項に記載の方法。
１３．前記第２の遺伝子セット内の遺伝子が少なくとも１つの共通クラス中のメンバーシップを共有し、前記共通クラスが、このような遺伝子が属する唯一のクラスである場合、予測が、前記同じ第２の表現型性能を共通クラス内のすべての遺伝子に割り当てることを含む、実施形態１〜１２のいずれか一項に記載の方法。
１４．前記第２の遺伝子セット内の遺伝子がそれぞれ単一のクラスのみのメンバーである、実施形態１〜１３のいずれか一項に記載の方法。
１５．少なくとも１つの改変特徴が、第１の分類システムからの第１のオントロジークラスと、第２の分類システムからの第２のオントロジークラスとを含む、実施形態１〜１４のいずれか一項に記載の方法。
１６．前記少なくとも１つの改変特徴が、少なくとも１つの微生物株により合成された産物の特徴を含む、実施形態１〜１５のいずれか一項に記載の方法。
１７．第２の表現型性能の予測が、機械学習予測モデルのトレーニングセットとして前記第１の遺伝子セットからの遺伝子を用いる、実施形態１〜１６のいずれか一項に記載の方法。
１８．第２の表現型性能の予測が、前記第１の表現型性能データに少なくとも部分的に基づいて、前記第２の遺伝子改変に関するクラスごとの強化確率を予測することを含み；ならびに
前記第２の遺伝子改変の優先順位付けが、前記予測したクラスごとの強化確率のランキングに少なくとも部分的に基づく、実施形態１〜１７のいずれか一項に記載の方法。
１９．前記第２の遺伝子セット内の遺伝子への前記第２の遺伝子改変の１つまたはそれを超える遺伝子改変の適用に少なくとも部分的に基づいて、アップデートされた第１の表現型性能データを取得すること；ならびに
前記アップデートされた第１の表現型性能データに少なくとも部分的に基づいて、前記第２の遺伝子改変のサブセットのアップデートされた第２の表現型性能を予測すること；ならびに
前記アップデートされた第２の表現型性能に少なくとも部分的に基づいて、前記第２の遺伝子セットのサブセットに適用すべき前記第２の遺伝子改変の前記サブセットを優先順位付けすること
をさらに含む、実施形態１〜１８のいずれか一項に記載の方法。
２０．前記第２の遺伝子セット内の遺伝子への前記第２の遺伝子改変の１つまたはそれを超える遺伝子改変の繰り返し適用から取得された表現型性能データに基づいて、前記第２の遺伝子セット内の遺伝子のサブセットに適用すべき前記第２の遺伝子改変の改変のサブセットの優先順位付けを繰り返しアップデートすることを含む、実施形態１〜１９のいずれか一項に記載の方法。
２１．前記少なくとも１つの改変特徴が、遺伝子オントロジー分類内の異なるレベルの抽象化を含む、実施形態１〜２０のいずれか一項に記載の方法。
２２．前記少なくとも１つの改変特徴が、代謝ネットワークに基づく分類を含む、実施形態１〜２１のいずれか一項に記載の方法。
２３．前記少なくとも１つの改変特徴が、少なくとも１つの微生物株特徴に関連する、実施形態１〜２２のいずれか一項に記載の方法。
２４．前記第２の遺伝子セットが、前記第１の遺伝子セットが存在する前記少なくとも１つの微生物株とは異なる少なくとも１つの微生物株内に存在する、実施形態１〜２３のいずれか一項に記載の方法。
２５．前記第１の表現型性能データが、前記第１の遺伝子セットが存在する前記少なくとも１つの微生物株により産生された第１の産物の少なくとも１つの特徴に関連し、前記第２の表現型性能が、前記第１の産物とは異なる第２の産物の少なくとも１つの特徴に関連する、実施形態１〜２４のいずれか一項に記載の方法。
２６．前記第２の産物が、前記第１の遺伝子セットが存在する前記少なくとも１つの微生物株とは異なる少なくとも１つの微生物株により産生される、実施形態２５に記載の方法。
２７．実施形態１〜２６のいずれか一項にしたがって優先順位付けされた１つまたはそれを超える第２の遺伝子改変を含む、微生物株。
２８．実施形態１〜２７のいずれか一項の第１の遺伝子セット中の遺伝子に適用される第１の遺伝子改変を含む、微生物株。
２９．優先順位付け閾値よりも上に優先順位付けされ、前記第２の遺伝子セット中の少なくとも１つの遺伝子に適用される第２の遺伝子改変をさらに含む、実施形態１〜２８のいずれか一項に記載の微生物株。
３０．前記適用される遺伝子改変が、前記予測された第２の表現型性能に基づくものよりも、前記予測されアップデートされた第２の表現型性能に基づく前記優先順位付けに応じて高く優先順位付けされる、実施形態２９に記載の微生物株。
３１．前記少なくとも１つの改変特徴が、以下のオントロジークラス：
デノボＣＴＰ生合成プロセス、
３−イソプロピルリンゴ酸デヒドラターゼ活性、
４鉄、
４硫黄クラスタ結合、
ＡＴＰ結合、
ＤＮＡ結合、
ＤＮＡトポイソメラーゼ活性、
ＤＮＡトポイソメラーゼタイプＩ活性、
ＤＮＡトポロジー変化、
ＤＮＡテンプレート、
Ｌ−アスパラギン酸：２−オキソグルタル酸アミノトランスフェラーゼ活性、
Ｌ−フェニルアラニン：２−オキソグルタル酸アミノトランスフェラーゼ活性、
ＮＡＤＨデヒドロゲナーゼ活性、
ＵＭＰキナーゼ活性、
アセト乳酸シンターゼ活性、
アデニル酸シクラーゼ活性、
アルコールデヒドロゲナーゼ（ＮＡＤ）活性、
アミノ酸結合、
芳香族化合物生合成プロセス、
生合成プロセス、
分岐鎖アミノ酸生合成プロセス、
ｃＡＭＰ生合成プロセス、
触媒活性、
細胞アミノ酸生合成プロセス、
細胞成分の組織化または生合成、
細胞高分子生合成プロセス、
細胞窒素化合物生合成プロセス、
細胞プロセス、
染色体組織化、
コドン特異的、
環状ヌクレオチド生合成プロセス、
複素環生合成プロセス、
細胞内シグナル伝達
イオン輸送、
鉄硫黄クラスタ結合、
イソメラーゼ活性、
キナーゼ活性、
ロイシン生合成プロセス、
リアーゼ活性、
代謝プロセス、
金属イオン結合、
ヌクレオチド結合、
ヌクレオチドリン酸化、
有機酸生合成プロセス、
酸化還元プロセス、
オキシドレダクターゼ活性、
リン−酸素リアーゼ活性、
リン酸化、
カリウムイオン輸送、
タンパク質分解、
プリン含有化合物代謝プロセス、
ピリドキサールリン酸結合、
ピリミジンヌクレオチド生合成プロセス、
ピリミジン含有化合物代謝プロセス、
細胞生合成プロセスの調節、
転写の調節、
配列特異的ＤＮＡ結合、
セリンタイプエンドペプチダーゼ活性、
シグナル伝達物質活性、
シグナル伝達、
小分子代謝プロセス、
トランスアミナーゼ活性、
転写、
転写因子活性、
トランスフェラーゼ活性、
翻訳、
翻訳放出因子活性、
翻訳終了、
輸送、
ウリジル酸キナーゼ活性、
ＤＮＡ代謝プロセス、
生合成プロセス、
細胞アミノ酸代謝プロセス、
代謝プロセス、
核酸塩基含有化合物代謝プロセス、
翻訳、または
輸送
の少なくとも１つを表す、実施形態１〜３０のいずれか一項に記載の方法。

Claims

少なくとも１つの微生物株内の遺伝子に適用して表現型性能を改善するための改変を決定するためのコンピュータ実行方法であって、
少なくとも１つの微生物株中の第１の遺伝子セットに行われた第１の遺伝子改変に少なくとも部分的に基づいて、第１の表現型性能データにアクセスすること；
コンピューティングデバイスを使用して、前記第１の表現型性能データと、前記第１の遺伝子改変および前記第２の遺伝子改変に共通する少なくとも１つの改変特徴とに少なくとも部分的に基づいて、第２の遺伝子改変の第２の表現型性能を予測すること；ならびに
コンピューティングデバイスを使用して、前記第２の表現型性能に少なくとも部分的に基づいて、第２の遺伝子セットに適用すべき前記第２の遺伝子改変を優先順位付けすること
を含み、
前記優先順位付けに少なくとも部分的に基づいて、前記第２の遺伝子改変の少なくともサブセットが少なくとも１つの微生物株内の遺伝子に適用され得る、コンピュータ実行方法。
前記少なくとも１つの改変特徴がオントロジークラスを含む、請求項１に記載の方法。
前記少なくとも１つの改変特徴が遺伝子改変タイプを含む、請求項１または２のいずれか一項に記載の方法。
前記改変タイプがプロモータースワップを含む、請求項３に記載の方法。
前記改変タイプがプロモータースワップのプロモーター強度を含む、請求項３に記載の方法。
前記予測することが、強プロモーターまたは弱プロモーターよりも中強度プロモーターを重く重み付けする、請求項５に記載の方法。
前記予測することが、強プロモーターおよび中強度プロモーターよりも弱プロモーターを軽く重み付けする、請求項５に記載の方法。
前記改変タイプがＳＮＰスワップである、請求項３に記載の方法。
前記少なくとも１つの改変特徴が、前記少なくとも１つの株中の少なくとも２つの遺伝子への１つまたはそれを超えるタイプの改変を含む、請求項１または２のいずれか一項に記載の方法。
前記予測することが、ポジティブエピスタシス効果をもたらす１つまたはそれを超えるタイプの改変をより重く重み付けする、請求項９に記載の方法。
前記第２の遺伝子セットが、前記第１の遺伝子セット内の遺伝子を含まない、請求項１または２のいずれか一項に記載の方法。
前記第２の遺伝子セット内の遺伝子のサブセット内の遺伝子がそれぞれ複数のクラスのメンバーであり、第２の表現型性能の予測が、各遺伝子が属する各クラスの予測表現型性能の組み合わせに基づいて、複合的な第２の表現型性能を予測することを含む、請求項２に記載の方法。
前記第２の遺伝子セット内の遺伝子が少なくとも１つの共通クラス中のメンバーシップを共有し、前記共通クラスが、このような遺伝子が属する唯一のクラスである場合、予測が、前記同じ第２の表現型性能を共通クラス内のすべての遺伝子に割り当てることを含む、請求項２または１２のいずれか一項に記載の方法。
前記第２の遺伝子セット内の遺伝子がそれぞれ単一のクラスのみのメンバーである、請求項２に記載の方法。
少なくとも１つの改変特徴が、第１の分類システムからの第１のオントロジークラスと、第２の分類システムからの第２のオントロジークラスとを含む、請求項２に記載の方法。
前記少なくとも１つの改変特徴が、少なくとも１つの微生物株により合成された産物の特徴を含む、請求項１に記載の方法。
第２の表現型性能の予測が、機械学習予測モデルのトレーニングセットとして前記第１の遺伝子セットからの遺伝子を用いる、請求項１に記載の方法。
第２の表現型性能の予測が、前記第１の表現型性能データに少なくとも部分的に基づいて、前記第２の遺伝子改変に関するクラスごとの強化確率を予測することを含み；ならびに
前記第２の遺伝子改変の優先順位付けが、前記予測したクラスごとの強化確率のランキングに少なくとも部分的に基づく、請求項１または２のいずれか一項に記載の方法。
前記第２の遺伝子セット内の遺伝子への前記第２の遺伝子改変の１つまたはそれを超える遺伝子改変の適用に少なくとも部分的に基づいて、アップデートされた第１の表現型性能データを取得すること；ならびに
前記アップデートされた第１の表現型性能データに少なくとも部分的に基づいて、前記第２の遺伝子改変のサブセットのアップデートされた第２の表現型性能を予測すること；ならびに
前記アップデートされた第２の表現型性能に少なくとも部分的に基づいて、前記第２の遺伝子セットのサブセットに適用すべき前記第２の遺伝子改変の前記サブセットを優先順位付けすること
をさらに含む、請求項１に記載の方法。
前記第２の遺伝子セット内の遺伝子への前記第２の遺伝子改変の１つまたはそれを超える遺伝子改変の繰り返し適用から取得された表現型性能データに基づいて、前記第２の遺伝子セット内の遺伝子のサブセットに適用すべき前記第２の遺伝子改変の改変のサブセットの優先順位付けを繰り返しアップデートすることを含む、請求項１に記載の方法。
前記少なくとも１つの改変特徴が、遺伝子オントロジー分類内の異なるレベルの抽象化を含む、請求項２に記載の方法。
前記少なくとも１つの改変特徴が、代謝ネットワークに基づく分類を含む、請求項２に記載の方法。
前記少なくとも１つの改変特徴が、少なくとも１つの微生物株特徴に関連する、請求項１に記載の方法。
前記第２の遺伝子セットが、前記第１の遺伝子セットが存在する前記少なくとも１つの微生物株とは異なる少なくとも１つの微生物株内に存在する、請求項１に記載の方法。
前記第１の表現型性能データが、前記第１の遺伝子セットが存在する前記少なくとも１つの微生物株により産生された第１の産物の少なくとも１つの特徴に関連し、前記第２の表現型性能が、前記第１の産物とは異なる第２の産物の少なくとも１つの特徴に関連する、請求項２４に記載の方法。
前記第２の産物が、前記第１の遺伝子セットが存在する前記少なくとも１つの微生物株とは異なる少なくとも１つの微生物株により産生される、請求項２５に記載の方法。
請求項１〜２６のいずれか一項に記載の方法により優先順位付けされた１つまたはそれを超える第２の遺伝子改変を含む、微生物株。
請求項１９の第１の遺伝子セット中の遺伝子に適用される第１の遺伝子改変を含む、微生物株。
優先順位付け閾値よりも上に優先順位付けされ、前記第２の遺伝子セット中の少なくとも１つの遺伝子に適用される第２の遺伝子改変をさらに含む、請求項２８に記載の微生物株。
前記適用される遺伝子改変が、前記予測された第２の表現型性能に基づくものに応じてよりも、前記予測されアップデートされた第２の表現型性能に基づく前記優先順位付けに応じて高く優先順位付けされる、請求項２９に記載の微生物株。
前記少なくとも１つの改変特徴が、以下のオントロジークラス：
デノボＣＴＰ生合成プロセス、
３−イソプロピルリンゴ酸デヒドラターゼ活性、
４鉄、
４硫黄クラスタ結合、
ＡＴＰ結合、
ＤＮＡ結合、
ＤＮＡトポイソメラーゼ活性、
ＤＮＡトポイソメラーゼタイプＩ活性、
ＤＮＡトポロジー変化、
ＤＮＡテンプレート、
Ｌ−アスパラギン酸：２−オキソグルタル酸アミノトランスフェラーゼ活性、
Ｌ−フェニルアラニン：２−オキソグルタル酸アミノトランスフェラーゼ活性、
ＮＡＤＨデヒドロゲナーゼ活性、
ＵＭＰキナーゼ活性、
アセト乳酸シンターゼ活性、
アデニル酸シクラーゼ活性、
アルコールデヒドロゲナーゼ（ＮＡＤ）活性、
アミノ酸結合、
芳香族化合物生合成プロセス、
生合成プロセス、
分岐鎖アミノ酸生合成プロセス、
ｃＡＭＰ生合成プロセス、
触媒活性、
細胞アミノ酸生合成プロセス、
細胞成分の組織化または生合成、
細胞高分子生合成プロセス、
細胞窒素化合物生合成プロセス、
細胞プロセス、
染色体組織化、
コドン特異的、
環状ヌクレオチド生合成プロセス、
複素環生合成プロセス、
細胞内シグナル伝達
イオン輸送、
鉄硫黄クラスタ結合、
イソメラーゼ活性、
キナーゼ活性、
ロイシン生合成プロセス、
リアーゼ活性、
代謝プロセス、
金属イオン結合、
ヌクレオチド結合、
ヌクレオチドリン酸化、
有機酸生合成プロセス、
酸化還元プロセス、
オキシドレダクターゼ活性、
リン−酸素リアーゼ活性、
リン酸化、
カリウムイオン輸送、
タンパク質分解、
プリン含有化合物代謝プロセス、
ピリドキサールリン酸結合、
ピリミジンヌクレオチド生合成プロセス、
ピリミジン含有化合物代謝プロセス、
細胞生合成プロセスの調節、
転写の調節、
配列特異的ＤＮＡ結合、
セリンタイプエンドペプチダーゼ活性、
シグナル伝達物質活性、
シグナル伝達、
小分子代謝プロセス、
トランスアミナーゼ活性、
転写、
転写因子活性、
トランスフェラーゼ活性、
翻訳、
翻訳放出因子活性、
翻訳終了、
輸送、
ウリジル酸キナーゼ活性、
ＤＮＡ代謝プロセス、
生合成プロセス、
細胞アミノ酸代謝プロセス、
代謝プロセス、
核酸塩基含有化合物代謝プロセス、
翻訳、または
輸送
の少なくとも１つを表す、請求項１に記載の方法。