JP2021502084A

JP2021502084A - 小規模条件の性能に基づく大規模条件の性能のための生物の最適化

Info

Publication number: JP2021502084A
Application number: JP2020524820A
Authority: JP
Inventors: コック，ステファンデ; ピーターエンヤート，; リチャードハンセン，; トレントホーク，; ザカリアサーバー，; アメリアテイラー，; トーマストレイナー，; クリスティーナタイナー，; サラリーダー，
Original assignee: Zymergen Inc
Current assignee: Zymergen Inc
Priority date: 2017-11-09
Filing date: 2018-11-09
Publication date: 2021-01-28
Also published as: WO2019094787A1; EP3707234A1; KR20200084341A; CA3079750A1; US20200357486A1; CN111886330A

Abstract

第１の規模の測定値に基づいて第２の規模の目的の表現型に関する生物の性能を改善するための、システムと、方法と、実行可能命令を記憶するコンピュータ可読媒体とが提供される。第１の規模の第１の生物の観測された第１の性能に少なくとも部分的に基づく第１の規模の性能データと、第１の規模よりも大きい第２の規模の第２の生物の観測された第２の性能に少なくとも部分的に基づく第２の規模の性能データとがアクセスされる。第１の規模の性能データに対する第２の規模の性能データの関係に少なくとも部分的に基づく予測関数が生成される。第２の規模の供試生物についての第２の規模の予測性能データを生成するために、第１の規模の目的の表現型に関して供試生物についての観測された性能データに対して予測関数が適用され得る。

Description

関連出願の相互参照
本願は、全体が参照によって本明細書に組み込まれている２０１７年１１月９日出願の米国仮出願第６２／５８３，９６１号に対する優先権の利益を主張するものである。
開示の分野

本開示は一般に代謝工学およびゲノム工学の分野に関し、より詳細には大規模環境における化学的標的の生産のための生物の代謝の最適化の分野に関する。

背景技術の節で論じられる主題は、単に背景技術の節において言及される結果として従来技術であると決めてかかるべきではない。同様に、背景技術の節において言及される問題または背景技術の節の主題に関連する問題は、従来技術において以前に認知されたものと想定されるべきではない。背景技術の節における主題は単に様々な手法を表し、それ自体がまた、特許請求される技術の実装形態に対応し得るものである。

生細胞など、理解が不十分なシステムの性能を最適化するための最高の手法は、大抵の場合、できるだけ多くの異なる改変を試験して、最良の性能を発揮するものを実験的に決定することである。工業生産にとって適切な規模で改変を試験することは、一般的には高価で時間がかかるため、規模を拡大して改変を試験することのスループットは非常に低い。したがって、多数の改変の中から性能に関して最高の候補を迅速に識別するために、小規模かつ高スループットのスクリーニング手法が使用されている。しかしながら、この手法が成功するためには、小規模性能から大規模性能を予測する確実な手段が必要である。例として、規模は、多くのウェル（たとえば１つのウェル当たり２００μＬ）を有する小さいプレートから、より少ないウェルを有するより大きいプレート、ベンチ規模のタンク（たとえば５リットルまたはそれよりも大きい）、工業サイズのタンク（たとえば１００〜５００，０００リットル）まである。

医薬品工業の技術分野では、新規の有効な薬物を識別するために、そのような手法が広く適用されている。最初に、数千もの候補分子が、ｉｎｖｉｖｏ活性に関する予測上の代用物であると期待されるアッセイにおける活性に関してｉｎｖｉｔｒｏでスクリーニングされ得る。最高のパフォーマを決定するために統計的手法（たとえば、Ｍａｌｏｅｔａｌ． ”Ｓｔａｔｉｓｔｉｃａｌｐｒａｃｔｉｃｅｉｎｈｉｇｈ−ｔｈｒｏｕｇｈｐｕｔｓｃｒｅｅｎｉｎｇｄａｔａａｎａｌｙｓｉｓ．” ＮａｔＢｉｏｔｅｃｈｎｏｌ２４：１６７−１７５（２００６）を参照されたい）が適用され、次いで、最高のパフォーマは、より費用がかかるより大規模な実験（マウスおよび人間におけるｉｎｖｉｖｏ試験を含み得る）に使用される。
しかしながら、これらの手法は、より低いスループットの実験に関する将来の決定のためのランキング性能とは対照的に、二者択一の判断（たとえば、有効か有効でないか）を対象とするものである。さらに、これらの手法は、試験される試料の大部分が同一の値を有し、目的のものではないと想定する。目的の特定の生成物を、大規模に生成するために、細胞の遺伝経路が最適化される代謝工学の分野では、これらの想定は成り立たない。詳細には、複数の株の系統を反復して改善を加えるとき、測定された値がはなはだしく変動する可能性があり、改善したものと思われる試料が、より低いスループットで大規模に合理的にスクリーニングすることができる試料数よりもはるかに多くなってしまうことがあり、そのため、性能の明瞭なランキングが必要とされる。言い換えれば、どの試料がより優れているかを決定するのでは不十分であり、次のレベルの規模において、どの試料が最良か、好ましくはその程度も知ることが重要である。

Ｍａｌｏｅｔａｌ． "Ｓｔａｔｉｓｔｉｃａｌｐｒａｃｔｉｃｅｉｎｈｉｇｈ−ｔｈｒｏｕｇｈｐｕｔｓｃｒｅｅｎｉｎｇｄａｔａａｎａｌｙｓｉｓ．" ＮａｔＢｉｏｔｅｃｈｎｏｌ２４：１６７−１７５（２００６）

従来の予測モデリングでは、モデルの予測誤差を低減するために、一般的には訓練データセットから統計的外れ値が除去される。しかしながら、本発明者は、ゲノム工学の分野では、より小規模の条件から、より大規模の条件における性能を予測するための最適なモデルを達成するのに、そのような外れ値の棄却は不要であり得ることを認識した。代わりに、外れ値を除去する必要性を軽減するために、モデルに対してさらなる特徴が追加され得る。

本開示は、とりわけ化学的標的の大量生産のための生物の代謝の最適化の技術分野において、小規模かつ高スループットの測定値を基に、大規模かつ低スループットの条件において重要な性能指標（たとえば収率、生産性、力価）の値を確実に予測するための頑健な方法を提供するものである。本開示の実施形態は、予測のために最適化された統計モデルを採用し得る。さらに、本開示が提供する伝達関数開発ツールは、再現可能なやり方でモデルを生成し、決定を記録し、予測値を得、予測値と共に働くための高速で簡単な機構をもたらすものである。

本開示の状況では、伝達関数は、１つの状況における性能を別の状況における性能に基づいて予測するための統計モデルであり、主要目的は、大規模の試料の性能を小規模の試料の性能から予測することである。実施形態において、伝達関数は、本発明者が発見した最適化と併せて、小規模値および大規模値を考慮に入れる１因子線形回帰を採用するものである。他の実施形態では、伝達関数は重回帰を採用し得る。

これらの回帰モデルを構築するために、本開示の一部の実施形態は、モデルを使用して、高スループットの状況（たとえばプレートモデル）における株の性能を要約し、次いで、より低いスループットの状況での複数の実施にわたって株の性能を予測するために、個別のモデル（たとえば伝達関数）を使用する。

特に伝達関数に線形モデルを採用する実施形態では、いくつかの株を検討項目（ｃｏｎｓｉｄｅｒａｔｉｏｎ）から除去するとモデルの予測力が改善することが認められ、この反復プロセスはそれ自体の最適化であった。実施形態では、上記に列記された試料特性を使用する方法は、特性（遺伝子改変の存在、系統など）を反復して識別するための機構をもたらし、高スループット性能を予測する因子としてこの機構を含有すると、予測力がさらに改善され得る一方で、そうでなければ除去されかねない株も、モデルの中に維持され得る。そのような技法により、予測性能を計算する際の処理負荷が軽くなる。

本開示の実施形態は、第１の規模の測定値を基に、第２の規模の目的の表現型に関して生物の性能を改善するための、システムと、方法と、実行可能命令を記憶するコンピュータ可読媒体とを提供するものである。本開示の実施形態は、（ａ）第１の規模の１つまたは複数の第１の生物の観測された第１の性能を表す第１の規模の性能データと、第１の規模よりも大きい第２の規模の１つまたは複数の第２の生物の観測された第２の性能を表す第２の規模の性能データとにアクセスして、（ｂ）第１の規模の性能データに対する第２の規模の性能データの関係に少なくとも部分的に基づき、予測関数を生成するものである。本開示の実施形態によれば、第２の規模の１つまたは複数の供試生物についての第２の規模の予測性能データを生成するために、第１の規模の目的の表現型に関して１つまたは複数の供試生物についての観測された性能データに対して予測関数が適用される。本開示の実施形態は、第２の規模の予測性能に少なくとも部分的に基づいて、１つまたは複数の供試生物のうち少なくとも１つを製造することをさらに含む。

本開示の実施形態によれば、第１の規模はプレート規模であり、第２の規模はタンク規模である。１つまたは複数の第２の生物は、１つまたは複数の第１の生物のサブセットでよい。表現型は化合物の生成を含み得る。生物は微生物株でよい。

本開示の実施形態によれば、第１の規模の統計モデルを使用して、１つまたは複数の第１の生物に関する第１の規模の性能データが生成される。第１の規模の統計モデルは第１の規模の生物体の特徴（ｏｒｇａｎｉｓｍｆｅａｔｕｒｅ）を表し得る。生物体の特徴は、プロセス条件、培地条件、または遺伝因子を含み得る。生物体の特徴は生物位置に関連し得る。本開示の実施形態によれば、予測関数は、１つまたは複数の第１の規模の性能変数の加重和に少なくとも部分的に基づき、第１の規模の性能変数のうち少なくとも１つは、生物性能の２つまたはそれよりも多くの測定値の組合せに基づくものである（「１つまたは複数の変数の合計」は、１つの変数だけが合計されるときには単に変数自体であることが理解される）。本開示の実施形態によれば、組合せは、生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである。

本開示の実施形態によれば、予測関数を生成することは、１つまたは複数の外れ値生物に関する第１の規模の性能データおよび第２の規模の性能データを検討項目から除去することを含み得る。本開示の実施形態によれば、予測関数を生成することは、予測関数の誤差（たとえば、レバレッジメトリック）を低減するために１つまたは複数の因子（たとえば遺伝因子）を組み込むことを含み得る。

本開示の実施形態は、因子のセットからの１つまたは複数の因子によって予測関数を改変して、第１の候補の外れ値生物を検討項目から除外して（すなわち、第１の候補の外れ値生物について観測された性能データを除外して）予測関数を生成してよく、この性能データを含めて予測関数を生成すると、レバレッジ条件を満たさないレバレッジメトリックを有する改変された予測関数をもたらすことになる。本開示の実施形態によれば、「レバレッジ」は、一般に、株が、モデルの予測能力の誤差に及ぼす影響を含めて、予測モデルの出力（たとえば予測性能）に及ぼす影響の量を指し得る。本開示の実施形態によれば、第１の候補の外れ値生物に関して改変された予測関数のレバレッジメトリックがレバレッジ条件を満たす場合には、そのような実施形態は、改変された予測関数を予測関数として使用し得る。

本開示の実施形態によれば、第１の候補の外れ値生物は、予測関数を生成する際に検討項目から除外する場合、改変される予測関数のレバレッジメトリックにおいて最大の改善をもたらす生物である。本開示の実施形態は、（ａ）第１の候補の外れ値生物も除外した条件で予測関数を生成する際に、検討項目から除外する場合、予測関数のレバレッジメトリックにおいて最大の改善をもたらす生物を、第２の候補の外れ値生物であると識別し、（ｂ）因子のセットからの１つまたは複数の因子によって予測関数を改変して、第２の改変された予測関数を生成し、（ｃ）予測関数を生成する際の検討項目から第２の候補の外れ値生物を除外するものであり、予測関数を生成する際に第２の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する第２の改変された予測関数をもたらすことになる。

本開示の実施形態によれば、第１の候補の外れ値生物は、第１の規模の性能データおよび第２の規模の性能データで表され、１つまたは複数の供試生物が第１の候補の外れ値生物を含み、第２の規模の予測性能データは、第１の候補の外れ値生物の第２の規模の予測性能を表す。

本開示の実施形態によれば、予測関数を改変することは、１つまたは複数の因子を予測関数に組み込むこと、またはその予測関数から除去することを含む。本開示の実施形態によれば、予測関数を生成することは、第１の規模の性能データおよび第２の規模の性能データを使用して機械学習モデルを訓練することを含む。本開示の実施形態によれば、予測関数を生成することは、１つまたは複数の因子によって予測関数を改変するプロセスにおいて機械学習を適用することを含む。

本開示の実施形態は、複数の予測関数について性能誤差メトリックを比較し、少なくともこの比較に基づいて予測関数をランク付けする。

本開示の実施形態によれば、１つまたは複数の第１の生物に関する第１の規模の性能データは、第１の規模の統計モデルの出力を表し、そのような実施形態は、１つまたは複数の第１の生物に関する第２の規模の予測性能を第２の規模の性能データと比較して、この比較に少なくとも部分的に基づいて、第１の規模の統計モデルのパラメータを調整する。

本開示の実施形態は、目的の表現型の改善された性能を伴う生物を第２の規模において提供するものであり、この生物は、本明細書に開示された方法のうち任意のものを使用して識別される。

本開示の実施形態が提供する伝達関数開発ツールは、ユーザが、生物に関する第２の規模の予測モデルの開発を、第２の規模よりも小さい第１の規模で観測されたデータに基づいて制御するためのユーザインターフェースをもたらすものである。実施形態によれば、このツールは、第２の規模の生物性能を予測するための予測関数にも適合する。

本開示の実施形態は予測関数にアクセスし、予測関数は、第１の規模の性能データと第２の規模の性能データの関係に少なくとも部分的に基づくものであり、本明細書で説明されたように、遺伝因子などの因子の外れ値の除去および組込みなどの最適化を含み得る。第１の規模の性能データは、第１の規模の１つまたは複数の第１の生物の観測された第１の性能を表し、第２の規模の性能データは、第１の規模よりも大きい第２の規模の１つまたは複数の第２の生物の観測された第２の性能を表す。そのような実施形態は、第１の規模の１つまたは複数の供試生物に予測関数を適用して、第２の規模の１つまたは複数の供試生物に関する第２の規模の予測性能データを生成するものである。

図１は、本開示の実施形態を実装するためのクライアント−サーバのコンピュータシステムを示す図である。

図２Ａは、本開示の実施形態による、測定されたバイオリアクター（大規模なタンク）の値対個々の株のプレート（小規模）の値の比較を示す図である。

図２Ｂは、本開示の実施形態による一例の、バイオリアクター（タンク）に関する、実際のタンク収率値と線形予測されたタンク収率値の比較を示す図である。

図３は、タイプ１の外れ値の株Ｎが除去されたこと以外は、図２Ｂと等価なプロットである。

図４は、４つのタイプ１の外れ値および１つのタイプ２の外れ値が除去されたこと以外は、図２Ｂと等価なプロットである。

図５は、本開示の実施形態により、図４のすべての株に対して、ある特定の遺伝子改変を有するか否かということに基づく補正を適用した結果を表す図である。

図６は、本開示の実施形態による、図５に示されたモデルの回帰プロットである。

図７は、本開示の実施形態による、遺伝因子に関する補正のない生産性モデルを示す図である。

図８は、本開示の実施形態による、遺伝因子に関する補正後の図７の生産性モデルを示す図である。

図９は、図８のものと同一のプロモータースワップを含む株について、高スループット生産性モデルの性能における改善（ｘ軸）対低スループットバイオリアクター（たとえばタンク）内の実際の生産性における改善（ｙ軸）を示す図である。

図１０は、本開示の実施形態による伝達関数開発ツールのユーザインターフェースを示す図である。

図１１は、本開示の実施形態によるユーザインターフェースを示す図である。

図１２は、本開示の実施形態による、プレート−タンク相関の伝達関数を表示するユーザインターフェースを示す図である。

図１３は、本開示の実施形態により、ユーザによって選択された外れ値をモデルから除去した伝達関数を基に、最高の予測性能を有する１０の株を提示するユーザインターフェースを示す図である。

図１４は、本開示の実施形態による、ユーザによって選択された外れ値をモデルから除去した後の、選択された伝達関数のグラフ表示を示す図である。

図１５は、本開示の実施形態により、ユーザが、データベースに対して、除去された株に関する品質スコアを提出することを可能にするインターフェースを示す図である。

図１６は、本開示の実施形態によるクラウドコンピューティング環境を示す図である。

図１７は、本開示の実施形態を実装するためのプログラムコードを実行するように使用され得るコンピュータシステムの一例を示す図である。

図１８は、本開示の実施形態によって行われた実験に由来するプレート値対タンク値のグラフである。

図１９は、本開示の実施形態によって行われた実験に由来するプレート値対タンク値のグラフである。

図２０は、本開示の実施形態によって行われた実験に由来するプレート値対タンク値のグラフである。

図２１は、本開示の実施形態によって行われた実験に由来するプレート値対タンク値のグラフである。

図２２は、本開示の実施形態によって行われた実験に由来するプレート値対タンク値のグラフである。

図２３は、本開示の実施形態によって行われた実験に由来する、観測されたタンク値対予測されたタンク値のグラフである。

図２４は、本開示の実施形態によって行われた実験に由来する、観測されたタンク値対予測されたタンク値のグラフである。

図２５は、本開示の実施形態によって行われた実験に由来する、第１のタンク値対第２のタンク値をプロットしたグラフである。

図２６は、本開示の実施形態によって行われた実験に由来する、観測されたタンク値対予測されたタンク値のグラフである。

図２７は、本開示の実施形態に基づく仮想例（ｐｒｏｐｈｅｔｉｃｅｘａｍｐｌｅ）による、糖濃度（Ｃｓ）、生成物濃度（Ｃｐ）およびバイオマス濃度（Ｃｘ）を時間にわたって推定したプロットである。

図２８は、本開示の実施形態に基づく仮想例による、生成物濃度対発酵槽生成物収率のグラフである。

図２９は、本開示の実施形態に基づく仮想例による、糖濃度対発酵槽生成物収率のグラフである。

図３０は、本開示の実施形態に基づく仮想例による、バイオマス濃度対発酵槽生成物収率のグラフである。

図３１は、本開示の実施形態に基づく仮想例による、プレートにおける生成物収率対発酵槽生成物収率のグラフである。

本説明では、様々な例示の実施形態を示す添付図面が参照される。しかしながら、多くの異なる例示の実施形態が使用されてもよく、したがって、説明は、本明細書で明らかにされた例示の実施形態に限定されるものと解釈されるべきでない。むしろ、これら例示の実施形態は、本開示が十分な完結したものになるように提供される。当業者には例示の実施形態に対する様々な修正形態が容易に明らかになるはずであり、本明細書で定義された一般的な原理は、本開示の趣旨および範囲から逸脱することなく、他の実施形態および用途に適用され得る。したがって、本開示は、示された実施形態に限定されるように意図されたものではなく、本明細書で開示された原理および特徴（ｆｅａｔｕｒｅ）と一致する最も広い範囲が与えられるべきである。

図１は、本開示の実施形態の分散システム１００を示す。ユーザインターフェース１０２は、テキストエディタまたはグラフィカルユーザインターフェース（ＧＵＩ）などのクライアント側インターフェースを含む。ユーザインターフェース１０２は、ノートパソコンまたはデスクトップコンピュータなどのクライアント側コンピューティングデバイス１０３に存在し得る。クライアント側コンピューティングデバイス１０３は、インターネットなどのネットワーク１０６を通じて１つまたは複数のサーバ１０８に結合されている。

サーバ（複数可）１０８に対してローカルまたはリモートに結合された１つまたは複数のデータベース１１０は、ゲノムデータ、遺伝子改変データ（たとえばプロモーターラダー）、プロセス条件データ、株の環境データ、ならびに遺伝子改変に応答して小規模と大規模の両方の微生物株の性能を表し得る表現型の性能データなどのデータを含むライブラリの１つまたは複数のコーパスを含み得る。「微生物」は、本明細書では細菌、菌類、および酵母を含む。

実施形態では、サーバ（複数可）１０８は、少なくとも１つのプロセッサ１０７と、命令を記憶している少なくとも１つのメモリ１０９とを含み、命令は、プロセッサ１０７によって実行されたとき、予測関数を生成することによって、本開示の実施形態による予測エンジンとして働く。あるいは、予測エンジンのためのソフトウェアおよび関連するハードウェアは、サーバ（複数可）１０８の代わりにクライアント１０３にローカルに存在してよく、またはクライアント１０３とサーバ（複数可）１０８の両方の間に分散してもよい。実施形態では、予測エンジンのすべてまたは一部分は、図１６にさらに表されたクラウドベースのサービスとして実行され得る。

データベース（複数可）１１０は、公開データベース、ならびに、たとえばユーザまたはサードパーティ寄与者により行われた発酵実験によって生成された分子を含むデータベースといった、ユーザまたは他者によって生成されたカスタムデータベースを含み得る。データベース（複数可）１１０は、クライアント１０３に対してローカルまたはリモートに存在してよく、あるいはローカル分散とリモート分散の両方が可能である。

本開示は、とりわけ化学的標的の大量生産のための生物の代謝の最適化の技術分野において、小規模かつ高スループットの測定値を基に、より大規模で低スループットの条件において重要な微生物の性能指標（たとえば収率、生産性、力価）の値を確実に予測するための頑健な方法を提供するものである。実施形態は、予測のために最適化された統計モデルを採用し得る。さらに、本開示が提供する伝達関数開発ツールは、再現可能なやり方でモデルを生成し、決定を記録し、予測値を得、予測値と共に働くための高速で簡単な機構をもたらすものである。

本開示では、伝達関数は、１つの状況における性能を別の状況における性能に基づいて予測するための統計モデルであり、主要目的は、大規模な試料の性能を小規模な試料の性能から予測することである。実施形態において、伝達関数は、本発明者が発見した最適化と併せて、簡単な、小規模値と大規模値の間の、１因子線形回帰を包含するものである。他の実施形態では、伝達関数は重回帰を採用し得る。

これらの回帰モデルを構築するために、本開示の実施形態は、入力モデルを使用して、高スループットの状況（たとえばプレートモデル）における株の性能を要約し、次いで、より低いスループットの状況での複数の実行にわたって株の性能を予測するために、個別のモデル（たとえば伝達関数）を使用する。プレートモデルは、たとえば、９６ウェルのプレートにおける同一の株の複数の反復の性能（たとえば収率、生産性、生存度）をモデル化するために使用され得る。本開示の実施形態によれば、予測エンジンは、入力モデルを生成し、伝達関数を生成し、入力モデルの出力に伝達関数を適用して性能を予測し、あるいはそれらの任意の組合せを行う。

より高いスループットの状況における性能から、より低いスループットの状況における性能を予測するための、伝達関数と要約モデルの両方において、また、より複雑な非線形の機械学習モデルの構築において、以下の最適化の検討項目が考慮に入れられ得る。
・プレートとプレート上の位置（たとえば行−列の位置、エッジの位置）の両方によるバイアスの説明
・培地のタイプ／ロット、シェーカー位置のバイアスなどのプレート特性
・ウェルに接種するのに使用されたグリセロールストックの使用回数、より低いスループットのステップとより高いスループットのステップとの両方において使用された機械のタイプ（たとえばインキュベータ、発酵槽、計測器）のようなプロセス特性
・試料特性（細胞系統または公知の遺伝マーカーの有／無など）

小規模で高スループットの測定値を基に、より大きな規模における重要な性能指標を正確に予測するための頑健で確実な伝達関数を構築するための手法が、いくつかの決定を記録するとともにプロセスを再現可能かつ高速にする伝達関数開発ツールと併せて、以下に提示される。

本開示は、最初に、本開示の実施形態による基本的な線形モデルを提示する。本開示は、次いで、本開示の実施形態によるアルゴリズムで実装される最適化を提示する。実施形態によれば、伝達関数開発ツールは、データが受容可能なフォーマットになった後にさらなる最適化を実装するためのインフラストラクチャを含む。以下の例は、個々の株について、（より小規模でより高いスループットの）９６ウェルのプレートの、それぞれ２４時間および９６時間におけるアミノ酸の力価を基に、（より大規模でより低いスループットの）バイオリアクターのアミノ酸の生産性（ｇ／Ｌ／ｈ）および収率（ｗｔ％）を予測する問題に基づくものである。

基本的な伝達関数（プレート−タンク相関）

伝達関数の最も基本的な形態はｙ＝ｍｘ＋ｂという形態の単一因子の線形回帰であり、ここでｘは小規模かつ高スループットのスクリーニングで得られた値であり、ｙは大規模かつ低スループットのスクリーニングで得られた値であり、ｍは適合線の傾きであって、ｂは適合線のｙ切片である。実施形態はまた、複数の独立変数ｘ_ｉに基づいて従属変数ｙを予測するために重回帰を採用してよい。２つの規模の単一のｘ値とｙ値の間の相関は、この基本的手法がどれほど有効かということの測度として使用され得、したがって「プレート−タンク相関」と呼ばれることがある。

伝達関数のこの基本的な形態さえ、独創的な最適化を組み込むものである。より低いスループット値に関連づけるために高スループットのスクリーニングから単純に株の平均性能を使用して株に関する単一値を得るのではなく、本開示の実施形態は、いくつかある因子の中でも特にプレート位置バイアスを補正する線形モデルを採用するものである。他の実施形態は、非線形モデルを採用してプレートモデルの他の態様を説明する。

プレート−タンク相関関数（すなわち伝達関数）は、より低いスループットでより大規模の試験がされていない試料の性能を予測するばかりでない。それは、プレートモデルの有効性を評価するためにも使用され得る。プレートモデルは、高スループットの小規模において得られた値から、大規模において得られる値をできるだけ予測し得るように設計された培地およびプロセスの制約の集合である。とりわけ、プレート−タンク相関関数の相関係数は、プレートモデルがその目的をいかに良く満たしているかを示すものである。プレートモデルには、それだけではないが、
・培地の処方および調製（たとえば培地ロット）
・希釈剤のタイプ
・接種容量
・実験器具
・振盪時間、温度および湿度
などの（プレートモデルにおいて独立変数として機能し得る）物理的特徴が組み込まれ得る。

本開示の実施形態では、プレートモデルを最適化するためにプレート−タンク相関関数が使用される。実施形態では、プレートモデルは、タンク規模における微生物発酵プロセスを模倣するものであり、それは、プレートにおける実装によってタンク性能を物理的にモデル化するものである。

プレートモデル

本開示の実施形態によれば、高スループットの状況（たとえば小規模のプレート環境）における株の性能は最小二乗平均（ＬＳ平均）法によって決定され得る。ＬＳ平均は２ステップの処理であり、最初に線形回帰が適合され、次いで、その適合モデルが、すべてのカテゴリの特徴のデカルトセットにわたる性能と、すべての数的特徴の平均値とを予測する。モデルの特徴は、統計的プレートモデルに物理的プレートモデルを関連づけ、実験が行われた条件を説明するものであり、上記に列記された最適化（たとえばプレート上の位置、プレート特性、プロセス特性、試料特性）を含む。

第１のステップのモデル形態は次式となる。
ｔｉｔｅｒ_ｉ＝β_ｓ［ｉ］＋Σ_ｆβ_ｆｘ_ｆ［ｉ］

株の効果（この例では力価）に関して推測された追加の係数β_ｓと、次いでモデルにおいて使用されるそれぞれの追加の特徴とがある。初項β_ｓは、インデックスｉを付けられた、株の複製の効果（ここでは力価）である。次に、それぞれの追加項β_ｆは特徴ｆ（たとえばプレート位置）に割り当てられた重み付けであり、ｘ_ｆ［ｉ］は、インデックスｉを付けられた、株の複製の特徴値である。

一例として、そのようなモデルの１つは次式であり得る。
ｔｉｔｅｒ_ｉ＝β_ｓ［ｉ］＋β_{ｐｌａｔｅ}ｐｌａｔｅ_ｉ

このモデルでは、特徴は株を成長させる特定のプレートである。このモデルは、各株の係数β_{ｐｌａｔｅ}および特定の実験においてインデックスｉを付けられた各プレートを含む。モデルは、数値安定性を改善するためのペナルティを伴うリッジ回帰を使用して適合され得る。

第２のステップでは、株が各シナリオにおいて実行されると何が生じるかをシミュレートするために、因子（たとえば、すべての株に関する特定のプレートおよびプレート上の位置）の可能なすべての組合せを再び用い、プレートモデルの式を使用してそれらの合成値を予測し、最後に、株によるシナリオの平均性能を得る。これはプレート性能（たとえば図２Ａのｘ軸のプレート性能値）に関連した最終ポイントの推定であり、タンク性能（たとえば図２Ａのｙ軸のタンク性能値）の概要に互いに関連するものである。

本開示の実施形態による相関の一例が図２Ａに示されている。図２Ａは、測定されたバイオリアクター（大規模なタンク）の値対個々の株のプレート（小規模）の値の比較を示すものである。このデータセットは、（収率を決定するためにプレートモデルを使用した）高スループットの測定値、およびアミノ酸を生成するための関連するバイオリアクターの測定値（たとえば収率）を含む。ｘ軸は株ごとの平均のプレート力価（推定されたプレートバイアスを組み込んでいる）であり、ｙ軸はバイオリアクター（たとえば発酵槽であるタンク）の株ごとの平均収率（ｗｔ％）である。各ポイント（文字）が単一の株に対応する。

予測のために、そのようなグラフは、モデルの予測性能が実際の性能といかに良く調和するかということに関して調査されてよく、簡単な事例について、スケールを変更されたｘ軸を伴う回帰プロットが図に示されている。図２Ｂは、バイオリアクター（タンク）に関して、簡単な線形予測された収率値の実際の収率値に対する比較を示す。点線の水平線は実際のタンク値の全体的な平均値であり、点線の対角線は適合線の実際の位置の９５％信頼区間を表す。予測されたＰ、ＲＳｑ、およびＲＭＳＥは、ここではモデル性能の１次メトリックであり、予測されたＰは適合のＰ値であり、ＲＳｑは相関のＲ^２であって、ＲＭＳＥは予測の二乗平均平方根誤差である。これらのうち、ＲＭＳＥは、予測精度の最も直接的な測度であるので、最適化のために最も有効である。

最適化

外れ値

上記のプロットを調査する際に、いくつかの株は他のものと非常に異なって挙動し、空間的に離れている。これらの外れ値は、ｙ軸の性能（たとえば収率）における極値を表すタイプ１の外れ値と、ｘ軸における極値を表す、「レバレッジの高いポイント」とも称されるタイプ２の外れ値との、２つのタイプに分類され得る。タイプ１の外れ値は、適合線から遠く離れた株であり、すなわち、うまく予測されない（図２Ｂの右下象限においてＮと標識された株が一例である）。そのような株はモデルの適合に影響を及ぼし、それ自体がうまく予測されない一方で、すべての他の株の予測性を損なう可能性がある。最適化の１つには、モデルの全体的な予測力を改善するためにそのような株を除去するものがある。別の最適化には、伝達関数モデル、または株性能をより高いスループットレベルで要約するモデル（たとえばプレート位置バイアスまたは遺伝因子を組み込むプレートモデル）に因子を追加するものがある。

タイプ２の外れ値は、適合線上またはその近くにあるが、他の株から依然として遠く離れているものである（左下隅においてＡと標識された株は、図２Ｂにおける一例である）。距離は、他の株の図心からの距離、または最も近い他の株に対する距離を含む複数のやり方で測定され得る。タイプ２の外れ値は、簡単な線形モデルに対して特大の影響を及ぼす。モデルの目的は、残りの株の性能をできるだけ正確に予測することである。したがって、本開示の実施形態は、タイプ２の外れ値に関して、（一般的な統計的実践に従って）それらを除去することにより、あるいは予測因子を追加してモデルを最適化することによって、最適化するものである。

外れ値を除去することによって最適化する場合には、本開示の実施形態は、除去するべき外れ値として株を標識するために、少なくとも以下２つの手法を提供するものである。

第１の手法は、株が外れ値として繰り返して出現することと、株の異常な特性または株のより大きい規模における性能に基づく意味のある論理的根拠を有することとに基づいて、株の大部分を代表するものでないとして除外するものである。たとえば、図２ＢにおけるＡの株は、モデルにおける他の株の祖先であるが、遺伝子的に、また規模を拡大した性能において、それらからむしろ遠く離れている。Ｎの株は、プレートにおいて優れた結果を示すことが公知である改変を有するが、大規模では十分なグルコース消費ができない。

第２の外れ値標識方法は、各株に「レバレッジメトリック」を割り当てて、その株を除去することによるメトリックの変化が所定のカットオフ（「レバレッジの閾値」）を超える場合、それを外れ値と見なすものである。たとえば、レバレッジメトリックは、モデルにおける株の有／無のＲＭＳＥにおける百分率の差を表すものでよく、カットオフは１０％の改善でよい。この場合、Ｎの株を除去した結果が図３に表されている。

図３は、タイプ１の外れ値の株Ｎが除去されたこと以外は、図２Ｂと等価なプロットである。Ｎの株を除去すると、ＲＭＳＥが２．４３から２．０９へと１４％減少し、現在使用されている１０％のカットオフよりも大きい。したがって、予測エンジンは、除去する外れ値を特定することになる。

外れ値の株を除去する際には（たとえば外れ値カットオフの設定が低すぎる）過剰適合の危険性があるので注意するべきであり、すなわち、株の小さいサブセットなら非常にうまく予測するが、より広範な集団に対して使用されたときうまく予測できないモデルを構築しないように注意するべきである。これを防ぐやり方の１つには、モデルにおける候補の株の数または分率によって重み付けされたカットオフを使用するものがある。たとえば、基準カットオフが１０％で、モデルに１００の株が含まれ得る場合には、第１の株を除去するためのカットオフは０．１／０．９９、第２の株を除去するためのカットオフは０．１／０．９８、第３の株を除去するためのカットオフは０．１／０．９７などであり得る。

図３の適合は、タイプ２の外れ値を１つ除去してタイプ１の外れ値を４つ除去すると、図４に示されたものになる。図４は、４つのタイプ１の外れ値および１つのタイプ２の外れ値が除去されたこと以外は、図２Ｂと等価なプロットである。図４では、図２Ｂのモデルに対して、ＲＳｑが約６％、またＲＭＳＥが約２１％だけ改善されていることに留意されたい。

遺伝因子および他の因子

とりわけ、高スループットのプレートモデルだけでは、試料がより大きい規模で受ける条件を完全に繰り返す（ｒｅｃａｐｉｔｕｌａｔｅ）見込みのないことを考慮すると、試料の遺伝特性または他の特性（株を成長させるために使用された培地のロット番号などのプロセス態様を含む）が、伝達関数の因子として予測力を改善するのにも有効であり得る。代謝工学の場合には、特に、５リットルまたはそれよりも大きいバイオリアクターにおける、流体力学の影響、せん断応力の影響、ならびに酸素および栄養物質の拡散の影響などの条件を、プレートにおける２００μＬのウェルにおいて再現することはできない。培地の組成、培地調製の方法、測定された化合物、および測定のタイミングなどの因子に基づいて物理的プレートモデルの改善を目指す作業には、時間がかかって高価であるという不利な面があり、場合により、新規のプレートモデルで実行された試料を古いプレートモデルで実行された試料と比較するのが困難になる。したがって、本開示の実施形態は、予測を改善するために、プレートモデルの他の予測因子を識別して使用するものである。本開示の実施形態によれば、それらの他の因子のうちいくつかには以下が含まれる。
・プレート上の株の位置によるバイアスの説明
・培地のタイプ／ロット、シェーカー位置のバイアスのようなプレート特性
・ウェルに接種するために使用されるグリセロールストックが使用された回数、より低いスループットのステップとより高いスループットのステップの両方で使用された機械のタイプなどのプロセス特性
・試料特性（細胞系統または公知の遺伝マーカーの有／無など）

本発明者は、たとえば遺伝子調節における差異をもたらす変化に関する情報を組み込むことといった、代謝的に操作される株に関する伝達関数を改善するのに特に有効な遺伝因子を発見した。

図５は、図４のすべての株に対して、ある特定の遺伝子改変（たとえば特定の遺伝子における開始コドンスワップ）をそれらが有するか否かに基づき補正を適用した結果を表すものである。一例として、重回帰伝達関数モデルについては、開始コドンスワップの存在または非存在を説明する調整／補正は、伝達関数によって予測された株の平均タンク収率性能に、それぞれ性能コンポーネントｍ_ｉｘ_ｉまたは性能コンポーネントｍ_ｊｘ_ｊを追加する形態をとり得る。（重みｍは負の値をとり得ることに留意されたい。）実施形態では、ｍ_ｉは単一の値をとり得、ｘは、改変が存在するか否かに応じて、＋１または−１である。他の実施形態では、ｍ_ｉは単一の値をとり得、ｘは＋１または０である。

図５は、ａｃｅＥ遺伝子における開始コドンスワップの存在または非存在に関する補正係数を含む以外は図４と等価である。この補正によって、ＲＳｑが０．７１から０．７９に増加し、ＲＭＳＥが１．９から１．６に（１６％）減少した。

図６は、図５に示されたモデルの回帰プロットである。回帰プロット（図６）は、基本的に２つの回帰線が、改変の存（上の回帰線）否（下の回帰線）に依存して使用されることを示す。

図７は、遺伝因子に関する補正のない生産性モデルを示すものである。遺伝的性質に関する補正の結果は、生産性モデルにおいてさらにいっそう顕著である。プレートモデルが繰り返すことができない遺伝子変化（たとえばプロモータースワップ）に関する補正なしでは、モデルは図７に示されるようなものとなる。

この改変の存在または非存在に関する補正を含めることにより、図８に示されるモデルがもたらされる。図８は、遺伝因子に関する補正（たとえば特定のプロモータースワップ）後の、図７の生産性モデルを示すものである。プロモータースワップは、プロモーターの挿入、削除、または交換を含むプロモーターの改変である。

モデル（たとえば重回帰モデル）にこの因子を含めると、ＲＳｑが０．４５から０．７３に増加して、ＲＭＳＥが０．５３から０．３７に（３０％）減少し、これは予測力における影響力のある増加である。実際には、株に関して、プレート性能における改善（「ｈｔｓ＿ｐｒｏｄ＿ｄｉｆｆｅｒｅｎｃｅ」）対バイオリアクター（タンク）性能における改善（ｔａｎｋ＿ｐｒｏｄ＿ｄｉｆｆｅｒｅｎｃｅ）の調査は、この改変（２つの外れ値を除去したこと）を含み、それらをラインに当てはめると図９になる。

図９は、図８のものと同一のプロモータースワップを含む株について、高スループットの生産性モデルの性能における改善（ｘ軸）対低スループットのバイオリアクター（たとえばタンク）内の実際の生産性における改善（ｙ軸）を示すものである。

適合線の式は１９＋１．９×ｈｔｓ＿ｐｒｏｄ＿ｄｉｆｆｅｒｅｎｃｅであり、プレートモデルでは親との区別が不可能なこの変化を含む株が、規模を拡大すると親よりも約２０％優れた性能を示すと期待され得ることを意味し、これはプレートモデルだけでは正確に予測することができない大きな改善である。プレートモデル単独ではプレートレベルにおいて親よりも悪いと予測される（図９のプロットのＤおよびＥのような）株さえ、実際には、タンク規模においては親よりもはるかに優れている。この変化に関する因子をモデルに含めると、新しい株におけるこれらの効果を正確に予測し、そのような株を偽陰性として失うのを防止する。

遺伝因子の群はまた、組合せにおける２つまたはそれよりも多くの改変の効果が、独立した改変の相加効果から予期されるものと異なるエピスタティックな相互作用の結果として、予測において有効であり得る。エピスタティックな効果のより詳細な説明については、参照によって全体が本明細書に組み込まれている２０１６年１２月７日出願のＰＣＴ出願、ＰＣＴ／ＵＳ１６／６５４６５号を参照されたい。

別の因子には系統がある。系統は、遺伝的であることにおいて遺伝因子と似ているが、他の系統における他の株と比較して、株の中にある公知の遺伝子変化と未知の遺伝子変化を両方とも考慮に入れる。本開示の実施形態は、株の祖先の有向非巡回グラフを構築するための因子として系統を採用して、それらの有用性について、接続が最多のノード（すなわちさらなる遺伝子改変のための標的として最も頻繁に使用されたかまたは最大数の子孫を有する祖先株）を予測因子として試験する。

伝達関数の出力に対する改変

伝達関数の出力を使用するための最も簡単なやり方は、規模を拡大した性能の予測として出力を使用することである。別の手法には、親の実際の大規模性能に、親株と娘株の間の伝達予測におけるパーセント変化を適用するもの（すなわち、予測＝ｐａｒｅｎｔ＿ｐｅｒｆｏｒｍａｎｃｅ＿ａｔ＿ｓｃａｌｅ＋ｐａｒｅｎｔ＿ｐｅｒｆｏｒｍａｎｃｅ＿ａｔ＿ｓｃａｌｅ×（ＴＦ＿ｏｕｔｐｕｔ（ｄａｕｇｈｔｅｒ）−ＴＦ＿ｏｕｔｐｕｔ（ｐａｒｅｎｔ））／ＴＦ＿ｏｕｔｐｕｔ（ｐａｒｅｎｔ））があり、ここでｐａｒｅｎｔ＿ｐｅｒｆｏｒｍａｎｃｅ＿ａｔ＿ｓｃａｌｅは、規模を拡大した（すなわち、より大きい規模の）親株の観測された性能であり、ＴＦ＿ｏｕｔｐｕｔ（ｓｔｒａｉｎ）は、伝達関数を適用することによる株「ｓｔｒａｉｎ」の予測性能であって、娘株は、１つまたは複数の遺伝子改変によって改変されたものとしての親株のバージョンである。これは、規模を拡大した娘の性能に対する親の影響に関連したノイズを除去する利点を有するが、そのような影響が存在すること、すなわち、娘の性能の予測における伝達関数の誤差が、親の性能の予測における誤差とほぼ同一の大きさおよび符号になるはずである、ということを前提としている。

他の統計モデル

上記は、伝達関数が簡単な線形の重回帰モデルを使用すると想定するものであるが、本開示の実施形態では、リッジ回帰またはラッソ回帰などのより高度な線形モデルも採用され得る。加えて、実施形態では、多項式（たとえば２次）適合もしくはロジスティック適合を含む非線形モデル、またはＫ近傍法もしくはランダムフォレストなどの非線形の機械学習モデルが採用され得る。過剰適合を回避するために、より高度な交差検証手法が使用されることがある。

アルゴリズムの例

実施形態では、再現性を保証し、改善のためのできるだけ多くの可能性を探るとともに、潜在的バイアスの影響を低減するために、アルゴリズムにおいて、予測力を改善するために、どの試料（株）を含めるか、どの試料を外れ値として除外するか、どの潜在因子を含めるか、についての決定が実装される。種々の手法が採用され得、以下に提示されるそのような循環／反復プロセスの一例では、小規模かつ高スループットの環境はプレート環境に対応し得、大規模かつ低スループットの環境はタンク環境に対応し得る。
１．一連の株から始めて、予測モデル（たとえば線形回帰）を開発するための唯一の因子（複数可）として性能測定値（複数可）（たとえばアミノ酸力価）を使用する。
ａ．これらは、実際のプレート性能データおよびタンク性能データが公知の株である。
２．伝達関数モデルから除去することによってモデルのＲＭＳＥを大部分改善する株（「外れ値」）を識別する。
ａ．あるいは、モデルからの潜在的除去のために、最大の予測誤差（株に関する予測された性能対測定された性能）を有する株を識別する。
３．株を除去することによるＲＭＳＥの改善が所定のカットオフよりも大きければステップ４へ進み、そうでなければステップ１０へ行く。
４．（すべての株において等価な因子は全体的な予測力にとって有用ではないため）モデルが含むすべての他の株に今のところ存在せず、因子としてモデルにまだ含まれていない、外れ値に適用する潜在的予測因子を識別する。必要に応じて、アルゴリズムは、上記の条件を満たしたまま、少なくとも１つの他の株に存在する因子を識別してもよい。
ａ．外れ値株の特性である因子には、たとえば、行われたことが公知である遺伝子変化、系統（株の祖先の履歴）、表現型の特性、成長速度が含まれ得る。
ｂ．因子がたった１つの株に存在する場合には、アルゴリズムは、その単一の株に関してモデルを補正するように調整してよいが、通常は、単一の株を説明するためにモデルを改変することは、期待される目標ではない場合があることに留意されたい。また、すべての他の株にその因子が存在している場合、それは予測上の価値を有しない。
ｃ．実施形態が採用し得る機械学習モデルは、この機能を自動的に行うことになるが、モデルに関する因子を識別すると、機械学習モデルに対するリソース負荷を軽減し得ることに留意されたい。
５．ステップ４からのリストが空であれば、モデルから外れ値を除外してステップ２へ行く。
６．そうでなければ、モデルにおいて、ステップ４からの因子を一時的に適用する。
ａ．前述のように、実施形態は、ｙ＝ｍ_１ｘ_１＋ｂなどの単純線形回帰伝達関数を採用し得、ここでｘ_１はプレート上の株の性能であり、ｍ_１はｘ_１に適用された重み（傾き）である。実施形態では、モデルは、ｙ＝ｍ_１ｘ_１＋ｍ_２ｘ_２＋．．．＋ｍ_Ｎｘ_Ｎ＋ｂという形態の重回帰モデルを生成するために、重み付けされた因子（回帰係数）を追加することによって改良され得、ここでｘ_１はプレート上の株の性能であり、他のｘ_ｉ（ｉ≠１）は性能ｘ_１以外の因子を表し、ｍ_１はｘ_１に適用された重みであって、ｍ_ｉは因子ｘ_ｉに適用された重みである。実施形態では、ｘ_１はプレートモデルの出力を表し得る。実施形態では、すべてのｘ_ｉがプレートモデルの出力を表し得る。
ｂ．実施形態では、因子は１度に１つ追加されてよく、重み付けは、次の因子を追加する前に誤差（またはＰ値）が十分な量だけ減少するまで調整されてよい。
７．因子が、モデルの誤差を誤差閾値だけ改善しない場合、またはＰ値閾値よりも大きいＰ値を有する場合、アルゴリズムはその因子（たとえば重回帰式におけるｘ値）を除去してよい。たとえば、本開示の実施形態によれば、特定の遺伝因子（すなわち、株において行われたことが公知である遺伝子改変）は、誤差を誤差閾値だけ改善しない場合またはＰ値閾値よりも大きいＰ値を有する場合には、回帰モデル（予測関数）から除去され得る。
８．本開示の実施形態によれば、いずれかの残りの遺伝因子が大きな分散拡大因子（たとえば＞３、因子間の共線性を表す）を有する群の一部分である場合、予測エンジンは各群の内部で最低のＰ値を有する遺伝因子のみを維持してよい。分散拡大が大きいことは、因子間の相関が高いことを示す。相関の高い諸因子を含めると、予測の価値はそれほど期待できず、過剰適合の原因となり得る。本開示の実施形態によれば、予測エンジンは、因子間の相関を測定するために分散拡大因子を使用してよく、相関の高い諸因子を除去することから始めて、十分な分散拡大因子（ａｓａｔｉｓｆａｃｔｏｒｙａｓａｔｉｓｆａｃｔｏｒｙｖａｒｉａｎｃｅｉｎｆｌａｔｉｏｎｆａｃｔｏｒ）に達するまで継続してよい。
９．ステップ４からの遺伝子変化がこの時点においてすべて除去されている場合には、モデルから外れ値株を除去してステップ２へ戻る。
ａ．条件が真である場合、アルゴリズムは、外れ値を除去しなければアルゴリズムが十分に改善され得ないと決定している。
１０．ステップ２〜９を反復した後、またはステップ３からここへジャンプした後に、残りの株のいずれにも適用しないかまたはすべてに適用する因子を除去する。必要に応じて、１つの系統にのみ適用するあらゆる遺伝因子を除去する。

上記のアルゴリズムの結果は、いくつかの外れ値を除去して改善されたモデルであり得、より多くの因子を説明するように調整されたものである。出力は、モデルを開発するために使用される株と、モデルにおいて使用される重み付き因子とを含む。

本開示の実施形態によれば、予測エンジンは、複数の予測関数について性能誤差メトリックを比較し、少なくともこの比較に基づいて予測関数をランク付けし得る。上記のアルゴリズムを参照して、予測エンジンは、異なる反復（たとえば、異なる外れ値が除去され、異なる因子が追加される）によって生成されたモデルの予測性能を比較してよい。実施形態によれば、予測エンジンは、たとえばリッジ回帰、重回帰、ランダムフォレストといった別々の技法によって生成されたモデルの予測性能を比較し得る。

本開示の実施形態は、伝達関数の新バージョンを試験して、大規模における株の実際の性能を測定することにより、その性能を監視する。新規の伝達関数の予測は、伝達関数の他のバージョンに対してバックテストされ、履歴データに対する性能を比較されてよい。次いで、伝達関数は、新規のデータに対して、他のバージョンと並行してフォワードテストされてよい。性能が低下し始めたら迅速に改善するように、性能のメトリック（ＲＭＳＥなど）が時間にわたって監視されてよい。（プレートモデルの改善および監視のために類似のプロセスが使用され得、これら２つのプロセスはまた、改善のための努力が伝達関数とプレートモデルのどちらに的を絞るべきかということに関する決定ポイントを含めるように組み合わされ得る。）

実施形態では、伝達関数がバイオリアクターの規模では株性能を正確に予測できない場合には、物理的プレート培養モデルが物理的に調整されてよい。数理モデルのパラメータ／重みに対する調整と同様に、目的の表現型を基に、物理的プレートモデルを物理的に変化させてよい。どの物理的プレートモデルが最高の伝達関数をもたらすかを決定するために、いくつかの変更がなされて評価され得る。変更の例は、それだけではないが、培地組成、培養時間、測定される化合物、および接種容量を含む。

実験の例

以下の２つの例は、異なる生物の中に、目的の、異なる生成物を生成するために、本開示の実施形態を使用することを示すものである。

（実施例１）

より小さい規模（たとえばプレート）を基に、より大きい規模（たとえばタンク）における微生物の性能を予測するために、統計モデルを適合させるとき、本開示の実施形態は、モデルを適合させるために、複数のメトリックならびに標準的な統計的技法を使用する。これらの実験では、予測エンジンは１枚のプレートごとに複数のプレートの測定値を使用して予測関数を得、プレート値は、未処理の測定された物理的プレートデータにそれ自体が基づく統計的プレートモデルに基づくものである。この実施例１は、サッカロポリスポラ属の菌によって生成されたポリケチドである１つの主生成物を対象として含む。

以下の議論では、本開示の実施形態は、標準的な調整済みＲ^２、一連の試験株に関する二乗平均平方根誤差（ＲＭＳＥ）、および１個抜き交差検証（「ＬＯＯＣＶ」）メトリックを使用する。

ＲＭＳＥ：モデルを適合させるために（「ｔｒａｉｎ」と示された）一連の訓練株が使用された。次いで、予測エンジンは、プレートにおいて多くの新しい株（モデルを訓練するために使用される株ではない）をスクリーニングし、それらの株のサブセットをタンクに推奨した（すなわち、優れた統計を有するそれらの株をタンクの中でより大規模に生成するように選択した）。予測エンジンは、この一連の試験株に関して
を計算しており、ここでｎは試験株の数であり、変数ｔａｎｋはタンク規模における目的の性能メトリック（たとえば収率、生産性）である。

ＬＯＯＣＶ：本開示の実施形態により、予測エンジンは、任意の新規のモデルについて、一連の訓練株を通してＬＯＯＣＶを反復した。各ステップにおいて、予測エンジンは、訓練データから１つの株を除去し、残りの訓練データを使用してモデルを適合させ、試験株として除去された前者の訓練株に関するＲＭＳＥを計算した（ＲＭＳＥの以前の議論を参照されたい）。予測エンジンは、ＲＭＳＥ_ｉを、ｉ番目の株を除去したＲＭＳＥとなるように設定した。次いで、予測エンジンは、ＲＭＳＥ値のこのセットの平均値を
と計算しており、ここでｍは訓練セットにおける株の総数である。

図１８は、目的の１次メトリックに関するプレート値対タンク値のグラフである。この図は適切な線形関係を示す。予測エンジンがｔｒａｉｎと示された微生物に対して簡単な線形モデルｔａｎｋ＝ｂ＋ｍ_１×ｐｌａｔｅ＿ｖａｌｕｅ_１を適合させ、ここでｂ＝−３．０１３７、ｍ_１＝０．００９６、かつｐｌａｔｅ＿ｖａｌｕｅ_１は統計的プレートモデルによって処理されたポリケチド値（ｍｇ／Ｌ）である場合、調整済みＲ^２は０．６５であり、１個抜きＣＶは２．６５であり、試験セットのＲＭＳＥは５．２１５２である。

予測エンジンが代わりに線形回帰モデルｔａｎｋ＝ｂ＋ｍ_１×ｐｌａｔｅ＿ｖａｌｕｅ_１＋ｍ_２×ｐｌａｔｅ＿ｖａｌｕｅ_１×ｐｌａｔｅ＿ｖａｌｕｅ_２を適合させ、ここでｂ＝０．７７２８、ｍ_１＝０．０３２５、ｍ_２＝０．００００６４６、かつ両方のｐｌａｔｅ＿ｖａｌｕｅ（ｍｇ／Ｌ）が統計的プレートモデルによって処理された２つの異なるポリケチドに関するものである場合、予測エンジンは、図１９に示されるように、はるかに予測力の勝る伝達関数をもたらす。プレート値ｐｌａｔｅ＿ｖａｌｕｅ_１、ｐｌａｔｅ＿ｖａｌｕｅ_２などは、同一のプレート上のアッセイを表し、たとえば目的のすべての生成物のアッセイ（たとえば収率）、あるいは代わりに目的の生成物およびバイオマスまたはグルコース消費などの別のアッセイといった、プレート上の同一または異なるアッセイであり得ることに留意されたい。本開示の実施形態によれば、プレート値またはタンク値は、それぞれプレートまたはタンクに関する所与の値の平均量を表し得る。

この伝達関数は、２．２５のＬＯＯＣＶ、０．７７の調整済みＲ^２を有するが、最も重要なのは試験セットに対するＲＭＳＥが４．３６に低下することである。

より多くのデータを得てプレートデータおよびタンクデータを更新した後の、目的の１次メトリックのプレート値対タンク値が図２０に示されている。

簡単な線形モデルｔａｎｋ＝ｂ＋ｍ_１×ｐｌａｔｅ＿ｖａｌｕｅ_１はこれらのデータに対しては混在した結果を示し、ここでｂ＝２．７３５５４４、ｍ_１＝０．００９７６８である。ＬＯＯＣＶは３．１６であり、調整済みＲ^２は０．４９である。以前の反復よりもＬＯＯＣＶが悪化し、調整済みＲ^２も大幅に悪化したが、試験セットに対するＲＭＳＥは２．８へと有意に低下した。

予測エンジンは、上記の形態の加重最小二乗法モデルｔａｎｋ＝ｂ＋ｍ_１×ｐｌａｔｅ＿ｖａｌｕｅ_１＋ｍ_２×ｐｌａｔｅ＿ｖａｌｕｅ_１×ｐｌａｔｅ＿ｖａｌｕｅ_２を用いて実行されたが、回帰係数ｍ_ｉはタンク規模における反復の数に依存し、ここで同一の２つのポリケチド（以前と同様にｍｇ／Ｌの単位）で、ｂ＝６．９９６、ｍ１＝０．０１８７６、ｍ２＝０．０００２３７である。ここで、図２１に示されるように、ＬＯＯＣＶ以外のすべてのメトリックによって改善されたモデルが得られた。（プレート値は統計的プレートモデルによって与えられた。）これらの統計量は、ＬＯＯＣＶ＝３．１４、調整済みＲ^２＝０．７９、試験セットに対するＲＭＳＥ＝２．９９である。タンク規模の反復の数を重みｍ_ｉへと因数に分解するための予備知識として、重みベクトルは、ｙ＝Ｘｍ＋ｅ（ここでｙは観測されたタンク値のベクトルであり、Ｘはプレート値の行列である）を解くことにより、最小二乗法を使用して決定される。重みベクトルはｍ＝（Ｘ^ＴＸ）^−１Ｘ^Ｔ×ｙとして計算される。この定式化は、誤差（確率変数である）の分散がすべて同一であると想定している。しかしながら、この想定は、一般に実験には当てはまらず、タンクにおける反復の数が分散計算に大きな影響を及ぼし、一般的には株が等しい分散を有することはなく、そのため、この定式化におけるそれらの誤差も等しくなることはない。誤差が異なることを許容して上記のモデルを適合させると、代わりにｍ＝（Ｘ^ＴＷＸ）^−１Ｘ^ＴＷｙが得られ、ここでＷは対角行列であり、対角成分は「重み」である。重みはｗ_ｉ＝１／ｓｉｇｍａ_ｉ ^２と解釈され、ｓｉｇｍａ_ｉ ^２はｉ番目の誤差の分散である。これは、分散が小さい観測にはより大きい重み（適合におけるより大きい影響も）が与えられ、分散が大きい観測にはより小さい重み（影響）が与えられることを事実上意味する。本開示の実施形態により、本発明者らはｗ_ｉ＝タンク反復の数を用い、そこで、より多くの観測を有する株はそれらの観測値において全体的に誤差がより小さいことが予期されるので、観測値が多い株ほど適合において、より大きい重みを有する。

別の試みでは、予測エンジンは別の予測関数（伝達関数）を生成し、アッセイを行う時間を変更して、訓練株の新規のセットを使用した。この関数に関する試験データはまだない。上記と同一のポリケチドに関する以前の加重最小二乗法を使用して、式ｔａｎｋ＝ｂ＋ｍ_１×ｐｌａｔｅ＿ｖａｌｕｅ_２＋ｍ_２×ｐｌａｔｅ＿ｖａｌｕｅ_２×ｐｌａｔｅ＿ｖａｌｕｅ_３を用い、ここでｂ＝−４．４８２、ｍ_１＝０．０５２４７、ｍ_２＝０．０００１９９４において、調整済みＲ^２は０．９３に急上昇したが、ＬＯＯＣＶは７．４４と大きく、いくつかの大きいレバレッジポイントがあることを示唆している。

このモデルに対する追加のプレート値が、引き続き加重最小二乗法を使用するが、式ｂ＋ｍ_１×ｐｌａｔｅ＿ｖａｌｕｅ_２＋ｍ_２×ｐｌａｔｅ＿ｖａｌｕｅ_２×ｐｌａｔｅ＿ｖａｌｕｅ_３＋ｍ_３×ｐｌａｔｅ＿ｖａｌｕｅ_４を用いて試験した（ここでｂ＝−１．８１０、ｍ_１＝０．０５６３、ｍ_２＝０．０００１５２４、ｍ_３＝０．５８９７であり、ｐｌａｔｅ＿ｖａｌｕｅ_２およびｐｌａｔｅ＿ｖａｌｕｅ_３は上記と同様に同一の２つのポリケチドに関するｍｇ／Ｌのメトリックであって、ｐｌａｔｅ＿ｖａｌｕｅ_４は光学密度（ＯＤ６００）で測定されたバイオマスである）。ＬＯＯＣＶは６．２２に低下し、依然として以前のものよりも大きいが、前回値よりもはるかに低く、調整済みＲ^２は今や０．９５である。もちろん、この伝達関数の正確な試験は、新規の株に対するその予測力を試験するものである。
（実施例２）

実施例２は、タンク性能のより精細な推定を適合させようとするために、プレートごとに追加のプレート測定値（たとえば収率、バイオマスなど、異なるタイプの測定値）を連続的に含む伝達関数のセットを適合させたという点で、実施例１のいくつかの態様を反映するものである。この実施例２は、コリネバクテリアによって生成されたアミノ酸である１つの主生成物を対象として含む。加えて、実施例２は、異なるタンク変数測定値（ここでは「ｔａｎｋ＿ｖａｌｕｅ_２」と呼ばれる）に対して伝達関数を適合させる場合を示す。

１つのタンク測定値、複数のプレート測定値

モデル１

第１のモデルでは、本開示の実施形態により、ｔａｎｋ＿ｖａｌｕｅ_１〜１＋ｐｌａｔｅ＿ｖａｌｕｅ_１を想定した簡易モデルが適合された。「〜」は、「線形回帰または重回帰などの予測モデルによる関数」を指すことに留意されたい。図２２の基礎となるプロットは、観測されたタンク値に対する（統計的プレートモデルで表された）プレート値の間の関係を示すものである。

プロットから理解されるように、プレートメトリックのうち１つに関してタンク値出力をモデル化すると、両者の間に潜在的な線形関係がある。

もう一歩進んで、予測エンジンは、モデルの性能を得るために、１つを除いたすべての株について訓練し、次いでその１つの値に対する適合を試験することにより、ＬＯＯＣＶ（１個抜き交差検証）を行った。そこで、ＬＯＯＣＶスコアは、各データポイントが取り除かれたときに得られたすべての試験メトリックの平均である。

これによって以下の性能がもたらされた。
＃＃ＲＭＳＥＭＡＥ
＃＃１３．２６２８７２２．５３２２９２

詳細には、予測エンジンは、ＲＭＳＥを用いて、平均アウトカムに対する誤差の大きさを得るためにＲＭＳＥの平均タンク性能に対する比を計算した。
＃＃［１］５．４１６７９８

この結果は、タンク性能の平均値に対して推定上の約５％の誤差があることを示すものである。

モデル２

ここでベースラインを得たので、性能を比較するために、モデルに対して同一のプレートからの別の測定値を追加したところ、ｔａｎｋ＿ｖａｌｕｅ_１〜ｐｌａｔｅ＿ｖａｌｕｅ_１＋ｐｌａｔｅ＿ｖａｌｕｅ_２という形態の予測関数がもたらされ、以下の統計量が得られた。
＃＃ＲＭＳＥＭＡＥ
＃＃１３．３７６２５４２．５９８０８

ＲＭＳＥおよびＭＡＥが少し大きくなったので、この場合、性能が少し劣化したように見える。図２３を参照されたい。

モデル３

最後に、このプロセスの第３の例では、モデルがｔａｎｋ＿ｖａｌｕｅ_１〜ｐｌａｔｅ＿ｖａｌｕｅ_１＋ｐｌａｔｅ＿ｖａｌｕｅ_２＋ｐｌａｔｅ＿ｖａｌｕｅ_３となるように、別の因子がさらに追加された。

図２４を参照すると、このモデルではＲＭＳＥメトリックを使用するＬＯＯＣＶが少し小さくなっているので、第１のモデルよりも適合が少し優っている。
＃＃ＲＭＳＥＭＡＥ
＃＃１３．２２４９９７２．５１１５２

それゆえに、相対的な百分率誤差はオリジナルモデルよりも少し小さい。
＃＃［１］５．３５３９２１

複数のタンク測定値

参照されたように、同一のタンクに関する複数のアウトカムを予測するために伝達関数が適用され得る。たとえば、予測エンジンは、以前にはｔａｎｋ＿ｖａｌｕｅ_１〜ｐｌａｔｅ＿ｖａｌｕｅ_１という形態のモデルを適合させたが、別の試みでは、予測エンジンは、異なる出力（たとえば生産性の代わりに収率）に対して別のモデルｔａｎｋ＿ｖａｌｕｅ_２〜ｐｌａｔｅ＿ｖａｌｕｅ_１を適合させた。図２５は、測定された２つのタンク値を互いにプロットしたものである。

図２６を参照して、予測エンジンは、ｔａｎｋ＿ｖａｌｕｅ_２〜ｐｌａｔｅ＿ｖａｌｕｅ_１という形態のモデルを適合させ、ｔａｎｋ＿ｖａｌｕｅ_２に関して観測される測定値は、ｔａｎｋ＿ｖａｌｕｅ_１に関するものよりもはるかに変動しやすいことが先験的に知られている。したがって、このモデルに関するメトリックは上記のものほど優れたものではないことが、先験的に予期されよう。予測エンジンはこのモデルを適合させて、次のＲＭＳＥおよびＭＡＥをもたらした。
＃＃ＲＭＳＥＭＡＥ
＃＃１０．６３１５１６５０．５０１５５３

ＲＭＳＥを実際の値と比較すると、次のような誤差の大きさが得られる。
＃＃［１］１９．８８４３４

必要に応じて、モデルのＬＯＯＣＶ性能を基に、特徴を追加するかまたは除去するために、反復手法が前述のように繰り返されてよい。

微生物の成長特性を説明する予測モデル

本明細書の「他の統計モデル」の段落は、種々の予測モデルを参照する。本開示の実施形態によれば、予測エンジンは微生物の成長特性を説明する。本開示の実施形態によれば、予測エンジンは、複数のプレートベースの測定値を、伝達関数に用いる少数の微生物に関連するパラメータ（たとえばバイオマス収率、生成物収率、成長速度、バイオマスに固有の糖取り込み速度、バイオマスに固有の生産性、容積測定の糖取り込み速度、容積測定の生産性）へと組み合わせる。

本開示の実施形態によれば、伝達関数は、１つまたは複数のプレートベースの実験で得られた測定値を基にバイオリアクターの性能を予測する数学的方程式である。本開示の実施形態によれば、予測エンジンは、プレートで得られた測定値を、たとえば
ＰＢＰ＝ａ＋ｂ×ＰＭ１＋ｃ×ＰＭ２．．．ｎ×ＰＭｎ
といった数学的方程式へと組み合わせ、この式で
ＰＢＰ＝予測されたバイオリアクターの性能（たとえば本明細書における他の例ではｙ）であり、
ＰＭｉ＝ｉ番目のプレートデータ変数（たとえば本明細書における他の例では第１の規模の性能データ変数ｘ_ｉ）であり、測定値、または測定値の組合せもしくは測定値の統計関数（たとえば統計的プレートモデル）などの測定値の関数であり得、
ａ、ｂ、ｃ、．．．ｎは、本明細書の他の例と同様にｍ_ｉとして表され得る。

上記の方程式は１次方程式である。本開示の実施形態によれば、予測エンジンはまた、以下の形態の伝達関数を採用し得る。
・２次方程式（たとえばＰＢＰ＝ａ＋ｂ×ＰＭ１^２＋ｃ×ＰＭ２^２）
・交互作用方程式（たとえばＰＢＰ＝ａ＋ｂ×ＰＭ１＋ｃ×ＰＭ２＋ｄ×ＰＭ１×ＰＭ２）
・異なる方程式の組合せ

本開示の実施形態によれば、予測エンジンは、微生物の成長特性を説明する伝達関数を採用する。１次方程式を、２次方程式、多項式方程式、または交互作用方程式と組み合わせると、適合させるべき多くのパラメータ（たとえばａ、ｂ、ｃ、ｄ、ｎ）がもたらされ得る。詳細には、ほんのわずかな「はしご形株（ｌａｄｄｅｒｓｔｒａｉｎ）」（異なる公知の性能を有する多様な一連の株）に対してモデルを較正すると、データの過剰適合や不十分な予測値をもたらす可能性がある。

したがって、予測エンジンは、微生物成長ダイナミクスに基づき、測定値とパラメータの間の選択された減算、割り算、自然対数および乗算を使用して、複数の測定値を、微生物に関連する少数のパラメータ（たとえばバイオマス収率、生成物収率、成長速度、バイオマスに固有の糖取り込み速度、バイオマスに固有の生産性、容積測定の糖取り込み速度、容積測定の生産性）へと組み合わせる数学的フレームワークを採用し得る。（この手法は、仮想例に関してさらに論じられる。）

一般に、本開示の実施形態の予測エンジンは、以下の２つのタイプのプレートベースの測定値を考慮に入れる。
・変換収率を評価するために使用され得る開始ポイント測定値および終了ポイント測定値
・変換率および収率を評価するために使用され得る中間ポイント測定値

開始ポイント測定値および終了ポイント測定値ならびに微生物パラメータの計算

一般的な測定値

（たとえば光学密度（「ＯＤ」）によって測定された）バイオマス濃度（Ｃｘ）

本培養の開始ポイントにおけるバイオマス濃度は、以下のいずれかであり得る。
・種培養の終了ポイントでバイオマスを測定して、移動量（ｔｒａｎｓｆｅｒｖｏｌｕｍｅ）および本培養の量を補正することから推定されたもの。すなわち、本培養の開始ポイントにおけるバイオマス濃度＝種培養の終了ポイントにおけるバイオマス濃度×（種培養から本培養への移動量）／（本培養の開始量）。種培養は、冷凍状態から一連の株を復活させるためのワークフローを含む。「本」培養は株の性能を試験するためのワークフローを含む。
・開発実験から定数として推定されたもの（たとえば、すべての株が０．１〜０．１５のＯＤの開始バイオマス濃度を有するとき、平均がプロキシとして使用できる）。一般的には、（特定の条件下で微生物を成長させる）培養の終了におけるバイオマス濃度は、開始における濃度よりもはるかに高く、開始におけるバイオマス濃度は、（たとえばバイオマス収率を測定するとき、最終的なバイオマス濃度が初期濃度の１０倍よりも高ければ）いくつかの方程式から数学的に除外され得る。

生成物濃度（Ｃｐ）

注：目的の副生成物に関して、生成物濃度に関する同一の測定および計算が行われ得る。

開始における生成物濃度は、以下のいずれかであり得る。
・種培養の終了における生成物を測定して、移動量および本培養の量を補正することから推定されたもの。すなわち、本培養の開始における生成物濃度＝（種培養の最後における生成物濃度）×（移動量）／（本培養の開始量）。
・開発実験から定数として推定されたもの（たとえば、すべての株が０．１〜０．１５ｇ／Ｌの開始生成物濃度を有するとき、平均がプロキシとして使用できる）。一般的には、培養の終了における生成物濃度は開始における生成物濃度よりもはるかに高く、開始における生成物濃度は数学的に除外され得ることに留意されたい。

糖濃度（Ｃｓ）

開始における糖濃度は培地調製から公知のパラメータである。

培養の最後での糖濃度は大抵の場合ゼロであるが、必要な場合測定することができる。

微生物に関連するパラメータの計算

バイオマス収率（糖１グラム当たりの細胞のグラム（Ｙｓｘ））

すなわち、バイオマス収率＝（終了におけるバイオマス濃度−開始におけるバイオマス濃度）／（開始における糖濃度−終了における糖濃度）

生成物（または副生成物）収率（糖１グラム当たりの生成物のグラム（Ｙｓｐ））

生成物（または副生成物）収率＝（終了における生成物濃度−開始における生成物濃度）／（開始における糖濃度−終了における糖濃度）

中間ポイントの測定値および微生物パラメータの計算

一般的な測定値

たとえばｔ１およびｔ２といった時間

注：ｔ１は本培養の開始であり得る。培養の開始におけるＣｘおよびＣｐを推定するためのやり方については上記を参照されたい。

（たとえば光学密度によって測定された）バイオマス濃度（Ｃｘ）

本開示の実施形態によれば、ｔ１またはｔ２におけるバイオマス濃度は、可能であれば培養液組成を考慮して測定される。

生成物濃度（Ｃｐ）

本開示の実施形態によれば、ｔ１およびｔ２における生成物濃度が測定される。

糖濃度（Ｃｓ）

本開示の実施形態によれば、ｔ１またはｔ２における糖濃度が測定される。

開始における糖濃度は培地調製からの公知のパラメータである。

計算

すなわち、バイオマス収率＝（ｔ２におけるバイオマス濃度−ｔ１におけるバイオマス濃度）／（ｔ１における糖濃度−ｔ２における糖濃度）

生成物収率（糖１グラム当たりの生成物のグラム（Ｙｓｐ））

すなわち、生成物収率＝（ｔ２における生成物濃度−ｔ１における生成物濃度）／（ｔ１における糖濃度−ｔ２における糖濃度）

指数成長速度（ｍｕ、毎時）

すなわち、ｍｕ＝ｌｎ（ｔ２におけるバイオマス濃度／ｔ１におけるバイオマス濃度）／（時間ｔ２−時間ｔ１）

指数成長に基づき：Ｃｘ（ｔ２）＝Ｃｘ（ｔ１）×ｅｘｐ（ｍｕ×（ｔ２−ｔ１））

バイオマスに固有の糖取り込み速度（１時間当たりの、細胞１グラム当たりの糖のグラム（ｑｓ））

すなわち、ｑｓ＝［ｌｎ（ｔ２におけるバイオマス濃度／ｔ１におけるバイオマス濃度）×（ｔ１における糖濃度−ｔ２における糖濃度）］／［（ｔ２におけるバイオマス濃度−ｔ１におけるバイオマス濃度）×（時間ｔ２−時間ｔ１）］

これは以下に基づく。

ｄＣｘ／ｄｔ＝ｍｕ×Ｃｘ

ｄＣｘ／ｄｔ＝ｑｓ×Ｙｓｘ×Ｃｘ

ｑｓ＝ｍｕ／Ｙｓｘ

ｍｕ＝ｌｎ（Ｃｘ（ｔ２）／Ｃｘ（ｔ１））／（ｔ２−ｔ１）

Ｙｓｘ＝（Ｃｘ（ｔ２）−Ｃｘ（ｔ１）／（Ｃｓ（ｔ１）−Ｃｓ（ｔ２）

バイオマスに固有の生産性（１時間当たりの、細胞１グラム当たりの生成物のグラム（ｑｐ））

ｑｐ＝［ｌｎ（ｔ２におけるバイオマス濃度／ｔ１におけるバイオマス濃度）×（ｔ２における生成物濃度−ｔ１における生成物濃度）］／［（ｔ２におけるバイオマス濃度−ｔ１におけるバイオマス濃度）×（時間ｔ２−時間ｔ１）］

これは以下に基づく。

ｑｐ＝ｑｓ×Ｙｓｐ

ｑｐ＝［（（ｍｕ／バイオマス収率））］×［（ｔ２における生成物濃度−ｔ１における生成物濃度）／（ｔ１における糖濃度−ｔ２における糖濃度）］

ｑｐ＝（ｌｎ（ｔ２におけるバイオマス濃度／ｔ１におけるバイオマス濃度）／（時間ｔ２−時間ｔ１）／［（ｔ２におけるバイオマス濃度−ｔ１におけるバイオマス濃度）／（ｔ１における糖濃度−ｔ２における糖濃度）］）×［（ｔ２における生成物濃度−ｔ１における生成物濃度）／（ｔ１における糖濃度−ｔ２における糖濃度）］

ｑｐ＝ｌｎ（Ｃｘｔ２／Ｃｘｔ１）／（ｔ２−ｔ１）／Ｃｘｔ２−Ｃｘｔ１／Ｃｓｔ２−Ｃｓｔ１×Ｃｐｔ２−Ｃｐｔ１／Ｃｓｔ１−Ｃｓｔ２

Ｃｓを除去して次のように簡素化する。

ｑｐ＝ｌｎ（Ｃｘｔ２／Ｃｘｔ１）／（ｔ２−ｔ１）／（（Ｃｘｔ２−Ｃｘｔ１）×（Ｃｐｔ２−Ｃｐｔ１））

以下のパラメータＲｓおよびＲｐはプロセス速度パラメータであり、上記の微生物速度パラメータ（ｑｓおよびｑｐ）と区別される。違いの１つは、微生物速度パラメータが細胞ごとのメトリックであるのに対して、プロセスパラメータは細胞の数に依存する集合的な速度パラメータである（たとえばＲｓ＝ｑｓＣｘ）ということがある。

容積測定の糖変換（１時間当たりの、１リットル当たりの糖のｍｍｏｌ（Ｒｓ））

Ｒｓ＝（ｔ１における糖濃度−ｔ２における糖濃度）／（時間ｔ２−時間ｔ１）

容積測定の生産性（１時間当たりの、１リットル当たりの生成物のｍｍｏｌ（Ｒｐ））

Ｒｐ＝（ｔ２における生成物濃度−ｔ１における生成物濃度）／（時間ｔ２−時間ｔ１）

仮想例

以下は微生物の指数成長挙動を説明する仮想例である。

以下の動的な成長モデルの式を使用して、種々の糖取り込み速度、バイオマス収率および生成物収率を伴う微生物に関するグルコース消費、バイオマス形成および生成物形成がモデル化された。

糖濃度に依存する、バイオマスに固有の糖取り込み速度（ｑｓ）：
ｑｓ＝ｑｓ，ｍａｘ×Ｃｓ／（Ｋｓ＋Ｃｓ）

バイオマスに固有の糖取り込み速度およびバイオマス濃度と、糖供給速度とに依存する、時間間隔（ｄｔ）当たりの糖消費（ｄＣｓ）：
ｄＣｓ／ｄｔ＝−ｑｓ×Ｃｘ＋Ｆｓ

バイオマスに固有の糖取り込み速度、維持のための糖異化、バイオマス濃度、およびバイオマス収率に依存する時間間隔（ｄｔ）当たりのバイオマス生産（ｄＣｘ）：
ｄＣｘ／ｄｔ＝ｑｓ×Ｃｘ×Ｙｓｘ，ｍａｘ

バイオマスに固有の糖取り込み速度、維持のための糖異化、バイオマス濃度、および生成物収率に依存する時間間隔（ｄｔ）当たりの生成物形成（ｄＣｘ）：
ｄＣｘ／ｄｔ＝ｑｓ×Ｃｘ×Ｙｓｐ

いくつかのパラメータは以下のように割り当てられる。

モデルに対する入力パラメータは、可変の糖取り込み速度、可変のバイオマス収率（Ｙｓｘ）、可変の生成物収率（Ｙｓｐ）、およびいくつかの定数パラメータである。

以下の表Ａは、仮説のシナリオＡ〜Ｇにおいて使用される可変の（最大の）糖取り込み速度（ｑｓ）を示すものである。

以下の表Ｂは、仮説のシナリオ１〜９において使用される可変のバイオマス収率（Ｙｓｘ）と可変の生成物収率（Ｙｓｐ）（トレードオフ値）を示すものである。

以下の表Ｃは、例として使用される定数パラメータを示すものである。

図２７は、動的成長モデルを使用して経時的に推定された、糖濃度（Ｃｓ）２７０２、生成物濃度（Ｃｐ）２７０４、およびバイオマス濃度（Ｃｘ）２７０６のプロットである。糖取り込み速度が０．５ｇ糖／ｇ細胞／ｈ、バイオマス収率が０．１３５５ｇバイオマス／ｇ糖、生成物収率が０．５４４ｇ生成物／ｇ糖の一例について、表Ｄを参照されたい。

以下の表Ｄに示されるように、試料は、異なる時点における動的な成長モデルを、異なるシナリオＡ〜Ｇと１〜９の組合せに対して使用して、（０．３％の低レベルのノイズを含めて）シミュレートされた。２０時間の培養後の、モデル化された糖濃度、生成物濃度およびバイオマス濃度について、下記を参照されたい。これらの値は、微生物の生成物収率（Ｙｓｐ）と同一であると想定される発酵における株の生成物収率（Ｙｓｐ−ｆｅｒｍ）と比較された。
表Ｄ

次に、図２８に示されるような、

発酵槽収率（目的の重要な性能指標（「ＫＰＩ」））とプレートにおける２０時間後のＣｐ（弱い相関）の間の相関が計算され、以下の結果となった。

Ｒスクエア（ＲＳｑｕａｒｅ）０．１６０９６

調整済みＲスクエア０．１４７２０５

二乗平均平方根誤差０．０４４６８７

図２９に示されるような、発酵槽収率（目的のＫＰＩ）とプレートにおける２０時間後のＣｓ（弱い相関）では、以下の結果となった。

Ｒスクエア０．３２５４６９

調整済みＲスクエア０．３１４４１１

二乗平均平方根誤差０．０４００６８

図３０に示されるような、発酵槽収率（目的のＫＰＩ）とプレートにおける２０時間後のＣｘ（弱い相関）では、以下の結果となった。

Ｒスクエア０．６７８１３３

調整済みＲスクエア０．６７２８５７

二乗平均平方根誤差０．０２７６７８

上記に示されたように、この仮想例によれば、異なる糖取り込み速度、バイオマス収率および生成物収率を有する種々の株を扱うとき、培養半ばの測定値、糖、生成物およびバイオマスの個々の測定値を用いても、発酵槽収率との相関は良くない。

図３１に示されるように、発酵槽（たとえばタンク）収率（目的のＫＰＩ）と、プレートにおける２０時間後のＣｐとＣｓの両方の関数（たとえば商（ｑｕｏｔｉｅｎｔ））に基づくプレートにおける２０時間後の生成物収率の計算とに関する統計量も計算され、以下のように優れた相関をもたらした。

Ｙｓｐ＝Ｃｐ／（最初の２０時間に供給された糖の合計−Ｃｓ）

Ｒスクエア０．９８２４４２

調整済みＲスクエア０．９８２１５４

二乗平均平方根誤差０．００６４６４

上記に示されたように、（形成された生成物を消費された糖で割った）商によって生成物収率を推定すると、発酵槽収率との、はるかに優れた相関をもたらす。微生物測定値のこの比は、微生物の特質の推定である。微生物の特質の他の例には、糖消費速度、バイオマス収率、生成物収率（Ｙｓｐ）、成長速度、および細胞に固有の生成物形成速度がある。

前述のように、予測関数は変数の加重和として表され得る：
ＰＢＰ＝ａ＋ｂ×ＰＭ１＋ｃ×ＰＭ２．．．ｎ×ＰＭｎ
ここにおいて、
ＰＢＰ＝予測されたバイオリアクターの性能（たとえば本明細書における他の例ではｙ）であり、
ＰＭｉ＝ｉ番目のプレートデータ変数（たとえば本明細書における他の例では第１の規模の性能データ変数ｘ_ｉ）であり、測定値、または測定値の組合せもしくは測定値の統計関数（たとえば統計的プレートモデル）などの測定値の関数であり得、
ａ、ｂ、ｃ、．．．ｎは、本明細書では他の例と同様にｍ_ｉとして表され得る。

この仮想例の結果は、予測エンジンが、本開示の実施形態により、ＣｐおよびＣｓなどの測定値をプレートデータ変数ＰＭｉとして直接使用する代わりに、測定値の商または他の組合せなど微生物測定値に由来する１つまたは複数の微生物の特質でＰＭｉを置換し得ることを示す。

伝達関数開発ツール

伝達関数開発ツールは、所与の実験のため、またモデルから除去された株を記録するための伝達関数を構築する、再現可能かつ頑健な方法を提供するものである。伝達関数の開発ツールを得ることは、より高いスループットの性能から、より低いスループットの性能を予測するための統計モデルを得ることの最適化に依拠するものであり、それ自体が最適化である。そのような製品により、すべての最適化が１つのパッケージにまとめられ、科学者が伝達関数および伝達関数のすべての最適化を利用するのが簡単になる。

本開示の実施形態によれば、未処理のプレート−タンク相関伝達関数は、外れ値の除去および遺伝因子の包含などの最適化と併せて、伝達関数開発ツール（以下で詳述される）で実行するように削減される。本開示の実施形態では、伝達関数開発ツールは、さらなる最適化を組み込むことができ、他の統計モデル、伝達関数出力に対する改変、およびプレートモデルに関する検討項目を含み得る。

伝達関数開発ツールは、本開示の実施形態では、特定のプログラム、実験、および目的の測定値向けに高スループットかつ小規模の性能データを得て、適切なモデルを学習し、次の規模の業務のための予測を生成するものである。図１０〜図１５は、このツールのユーザインターフェースの一実施形態に関する一連のスクリーンショットを示すものである。

図１０は、プロジェクト名、実験ＩＤ、選択されたプレート要約モデル（ここではＬＳ平均モデル）、および使用される伝達関数モデル（ここでは線形回帰のプレート−タンク相関モデル）のユーザ登録用のボックスを有するユーザインターフェースを示す。

グラフィカルユーザインターフェースのアドレスバー１０５０におけるＵＲＬラインに注目されたい。これによって、ユーザは、プロセスを通じて進渉を辿り、実装したい伝達関数に関する正確な情報を確実に得ることができる。この設定は、データモデルのフロントエンド上、およびワークフローのインフラストラクチャの中にある。

図１１に示されるように、ユーザは、プロジェクト、実験、およびモデルの選択を入力した後に、たとえばこの例におけるアミノ酸収率（「Ｃｏｍｐｏｕｎｄ」によって表されている）といった関心がある測定値を選択してよい。

図１２は、本開示の実施形態による、タンク規模におけるアミノ酸性能を予測するように開発された後のプレート−タンク相関伝達関数に関するユーザインターフェースを示す。この例では、伝達関数は線形適合線（ｌｉｎｅａｒｆｉｔｌｉｎｅ）である。この図のツールにより、外れ値評価が促進される。ユーザインターフェースは、ユーザが伝達関数モデルから除去する株を選択することを可能にするチェックボックスと併せて、株ＩＤによって特定される株のリスト１２０２（「異常株ＩＤ」）を用意する。

図１３において、ユーザインターフェースは、ユーザによって選択された外れ値をモデルから除去した伝達関数を基に、最高の予測性能を有する１０の株を提示する。本開示の実施形態は、株の予測性能に基づく、遺伝子製造システムにおいて、製造用の株を選択することおよび株を製造することを含む。そのような遺伝子生産システムは、２０１７年４月２６日出願の国際出願ＰＣＴ／ＵＳ２０１７／０２９７２５号（国際公開ＷＯ２０１７１８９７８４号）に説明されており、これは、２０１６年４月２７日出願の米国非仮出願第１５／１４０，２９６号に対する優先権の利益を主張しており、これらは両方とも参照によって全体が本明細書に組み込まれる。

図１４を参照して、伝達関数開発ツールは、ユーザが選択した外れ値がモデルから除去された後に、選択された伝達関数のグラフ表示を生じ、また、（図１５を参照して）除去された株に関する品質スコアをデータベースに提出するための機構を提供し、このようにして、最終結果を再現可能にするとともに、ユーザが既存のプレートモデルに対して正常に機能しない株を追跡するための機構を提供するものである。

機械学習

本開示の実施形態は、異なる規模における微生物性能の間の関係を学習するために、遺伝因子などの特徴を考慮に入れて機械学習（「ＭＬ」）技法を適用し得るものである。この枠組みでは、実施形態は、特徴の重要性を決定するために、たとえば決定木といった標準的なＭＬモデルを使用し得る。いくつかの特徴は、相関付けられ得るかまたは冗長であり得て、曖昧なモデル適合および特徴検査をもたらし得る。この問題に対処するために、主成分分析により、入力特徴に対する次元縮小が行われてよい。あるいは、特徴トリミングが行われてよい。

一般に、機械学習は、限られた数の標識付けされたデータの例を使用して、（分類または回帰などの）情報タスクの性能における、たとえばパラメータ、技法、または他の特徴といった性能基準を最適化し、次いで、未知のデータに対して同一のタスクを行うものと説明され得る。線形回帰を採用する手法などの教師付き機械学習では、機械（たとえばコンピューティングデバイス）は、たとえば、訓練データによって示されたパターン、カテゴリ、統計的な関係、または他の属性を特定することによって学習する。次いで、学習の結果は、新規のデータが同一のパターン、カテゴリ、統計的な関係、または他の属性を示すかどうかを予測するために使用される。

本開示の実施形態は、訓練データが利用可能なときには、他の教師付き機械学習技法を採用し得る。訓練データがないとき、実施形態は教師無し機械学習を採用し得る。あるいは、実施形態は、少量の標識付けされたデータおよび大量の標識付けされていないデータを使用する準教師付き機械学習を採用してもよい。実施形態は、機械学習モデルの性能を最適化するために、最適な特徴のサブセットを選択するための特徴選択を採用してもよい。実施形態は、選択された機械学習手法のタイプに依存して、線形回帰に加えて、またはその代わりに、たとえば、ロジスティック回帰、ニューラルネットワーク、サポートベクタマシン（ＳＶＭ）、決定木、隠れマルコフモデル、ベイジアンネットワーク、グラムシュミット、強化ベースの学習、階層的クラスタ分割を含むクラスタベースの学習、遺伝的アルゴリズム、および当技術において公知の何らかの他の適切な学習機械を採用し得る。詳細には、実施形態は、分類自体とともに分類の確率をもたらすためにロジスティック回帰を採用し得る。たとえば、Ｓｈｅｖａｄｅ，Ａｓｉｍｐｌｅａｎｄｅｆｆｉｃｉｅｎｔａｌｇｏｒｉｔｈｍｆｏｒｇｅｎｅｓｅｌｅｃｔｉｏｎｕｓｉｎｇｓｐａｒｓｅｌｏｇｉｓｔｉｃｒｅｇｒｅｓｓｉｏｎ，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，Ｖｏｌ．１９，Ｎｏ．１７２００３，ｐｐ．２２４６−２２５３、Ｌｅｎｇ，ｅｔａｌ．，Ｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｆｕｎｃｔｉｏｎａｌｄａｔａａｎａｌｙｓｉｓｆｏｒｔｅｍｐｏｒａｌｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａ，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，Ｖｏｌ．２２，Ｎｏ．１，ＯｘｆｏｒｄＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ（２００６），ｐｐ．６８−７６が参照され、これらの全体が参照によって本明細書に組み込まれる。

実施形態は、機械学習タスクを行う際に人気が高まっている、特に深層ニューラルネットワーク（ＤＮＮ）として公知の形態の、グラフィック処理ユニット（ＧＰＵ）で加速されるアーキテクチャを採用し得る。本開示の実施形態は、ＧＰＵ−ＢａｓｅｄＤｅｅｐＬｅａｒｎｉｎｇＩｎｆｅｒｅｎｃｅ：ＡＰｅｒｆｏｒｍａｎｃｅａｎｄＰｏｗｅｒＡｎａｌｙｓｉｓ，ＮＶｉｄｉａＷｈｉｔｅｐａｐｅｒ，Ｎｏｖｅｍｂｅｒ２０１５、Ｄａｈｌ，ｅｔａｌ．，Ｍｕｌｔｉ−ｔａｓｋＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒＱＳＡＲＰｒｅｄｉｃｔｉｏｎｓ，Ｄｅｐｔ．ｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，Ｕｎｉｖ．ｏｆＴｏｒｏｎｔｏ，Ｊｕｎｅ２０１４（ａｒＸｉｖ：１４０６．１２３１［ｓｔａｔ．ＭＬ］）、において説明されているものなど、ＧＰＵベースの機械学習を採用し得、これらの全体が参照によって本明細書に組み込まれる。本開示の実施形態に適用可能な機械学習技法は、とりわけ、Ｌｉｂｂｒｅｃｈｔ，ｅｔａｌ．，Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｐｐｌｉｃａｔｉｏｎｓｉｎｇｅｎｅｔｉｃｓａｎｄｇｅｎｏｍｉｃｓ，ＮａｔｕｒｅＲｅｖｉｅｗｓ：Ｇｅｎｅｔｉｃｓ，Ｖｏｌ．１６，Ｊｕｎｅ２０１５、Ｋａｓｈｙａｐ，ｅｔａｌ．，ＢｉｇＤａｔａＡｎａｌｙｔｉｃｓｉｎＢｉｏｉｎｆｏｒｍａｔｉｃｓ：ＡＭａｃｈｉｎｅＬｅａｒｎｉｎｇＰｅｒｓｐｅｃｔｉｖｅ，ＪｏｕｒｎａｌｏｆＬａｔｅｘＣｌａｓｓＦｉｌｅｓ，Ｖｏｌ．１３，Ｎｏ．９，Ｓｅｐｔ．２０１４、Ｐｒｏｍｐｒａｍｏｔｅ，ｅｔａｌ．，ＭａｃｈｉｎｅＬｅａｒｎｉｎｇｉｎＢｉｏｉｎｆｏｒｍａｔｉｃｓ，Ｃｈａｐｔｅｒ５ｏｆＢｉｏｉｎｆｏｒｍａｔｉｃｓＴｅｃｈｎｏｌｏｇｉｅｓ，ｐｐ．１１７−１５３，ＳｐｒｉｎｇｅｒＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ２００５、といった参考文献にも見いだされ得、これらの全体が参照によって本明細書に組み込まれる。

コンピューティング環境

図１６は、本開示の実施形態によるクラウドコンピューティング環境を示すものである。本開示の実施形態では、予測エンジンソフトウェア１０１０は、複数のユーザが本開示の実施形態によって伝達関数を生成して適用することを可能にするために、クラウドコンピューティングシステム１００２において実装され得る。図１７に示されたものなどのクライアントコンピュータ１００６は、インターネットなどのネットワーク１００８を通じてシステムにアクセスする。システムは、図１７に示されたタイプの１つまたは複数のプロセッサを使用している１つまたは複数のコンピューティングシステムを採用し得る。クラウドコンピューティングシステム自体が、ネットワーク１００８を通じてクライアントコンピュータ１００６に対するソフトウェア１０１０のインターフェースをとるためのネットワークインターフェース１０１２を含む。ネットワークインターフェース１０１２は、クライアントコンピュータ１００６におけるクライアントアプリケーションがシステムソフトウェア１０１０にアクセスすることを可能にするためのアプリケーションプログラミングインターフェース（ＡＰＩ）を含み得る。詳細には、クライアントコンピュータ１００６はＡＰＩを通じて予測エンジンにアクセスし得る。

サービス型ソフトウェア（ＳａａＳ）のソフトウェアモジュール１０１４はクライアントコンピュータ１００６に対するサービスとしてシステムソフトウェア１０１０を提供する。クラウド管理モジュール１０１１０は、クライアントコンピュータ１００６によるシステム１０１０へのアクセスを管理する。クラウド管理モジュール１０１６は、複数のユーザにサーブするために、マルチテナントアプリケーション、仮想化または当技術において公知の他のアーキテクチャを採用するクラウドアーキテクチャを可能にし得る。

図１７は、本開示の実施形態によって、非一時的コンピュータ可読媒体（たとえばメモリ）に記憶されたプログラムコードを実行するために使用され得るコンピュータシステム１１００の一例を示すものである。コンピュータシステムは、アプリケーションに依存して人間のユーザおよび／または他のコンピュータシステムとインターフェースをとるために使用され得る入出力サブシステム１１０２を含む。Ｉ／Ｏサブシステム１１０２は、入力のための、たとえばキーボード、マウス、グラフィカルユーザインターフェース、タッチスクリーン、または他のインターフェースと、出力のための、たとえばＬＥＤもしくは他のフラットスクリーンディスプレイ、または他のインターフェースとを含み得、これにはアプリケーションプログラムインターフェース（ＡＰＩ）が含まれる。本開示の実施形態の予測エンジンなどの他のエレメントは、コンピュータシステム１１００のようなコンピュータシステムを用いて実装され得る。

プログラムコードは、二次メモリ１１１０もしくは主メモリ１１０８または両方におけるパーシステントストレージなどの非一時的媒体に記憶され得る。主メモリ１１０８は、ランダムアクセスメモリ（ＲＡＭ）など揮発性メモリまたは読取り専用メモリ（ＲＯＭ）などの不揮発性メモリ、ならびに命令およびデータに対するより高速のアクセスのための異なるレベルのキャッシュメモリを含み得る。二次メモリは、ソリッドステートドライブ、ハードディスクドライブまたは光ディスクなどのパーシステントストレージを含み得る。１つまたは複数のプロセッサ１１０４は、１つまたは複数の非一時的媒体からプログラムコードを読み取って、コンピュータシステムが本明細書の実施形態によって行われる方法を達成するのを可能にするためのコードを実行する。当業者なら、プロセッサ（複数可）は、ソースコードを取り込み、プロセッサ（複数可）１１０４のハードウェアゲートレベルにおいて意味が通じるマシンコードへとソースコードを解釈またはコンパイルし得ることを理解する。プロセッサ１１０４（複数可）は、計算集約型タスクを扱うためのグラフィック処理ユニット（ＧＰＵ）を含み得る。

プロセッサ１１０４（複数可）は、ネットワークインターフェースカード、Ｗｉ−Ｆｉトランシーバなどの１つまたは複数の通信インターフェース１１０７を介して外部ネットワークと通信してよい。バス１１０５は、Ｉ／Ｏサブシステム１１０２、プロセッサ（複数可）１１０４、周辺デバイス１１０６、通信インターフェース１１０７、メモリ１１０８、およびパーシステントストレージ１１１０と通信可能に結合する。本開示の実施形態は、この代表的なアーキテクチャに限定されるわけではない。代替実施形態は、たとえば入出力コンポーネントおよびメモリサブシステム用の個別のバスといった、異なる構成およびタイプのコンポーネントを採用し得る。

当業者なら、本開示の実施形態のエレメントのいくつかまたはすべて、およびそれに伴う動作は、全体的または部分的に、コンピュータシステム１１００のような、１つまたは複数のプロセッサおよび１つまたは複数のメモリシステムを含む１つまたは複数のコンピュータシステムによって実施され得ることを理解する。詳細には、本明細書で説明された予測エンジンおよび任意の他の自動システムまたはデバイスのエレメントは、コンピュータ実装され得る。たとえば、いくつかのエレメントおよび機能性はローカルに実装されてよく、他のものは、たとえばクライアント−サーバのやり方で、異なるサーバを介してネットワークにわたって分散させるやり方で実装されてよい。詳細には、サーバ側の動作は、図１６に示されるように、サービス型ソフトウェア（ＳａａＳ）のやり方において複数のクライアントに利用可能にされ得る。

いくつかの実施形態では、本明細書で説明された動作のうちのいくつかは、人間の実装によって、または自動化と手動手段の組合せによって行われ得ることを当業者なら認識する。動作が完全には自動化されていないとき、予測エンジンの適切なコンポーネントは、たとえばそれ自体の運用能力によって結果を生成するのではなく、人間が行った動作の結果を受け取ることができる。

参照による組込み

本明細書で引用されたすべての参考文献、論文、出版物、特許、特許公報、および特許出願は、すべての目的のためにその全体が参照によって組み込まれる。しかしながら、本明細書で引用されたあらゆる参考文献、論文、出版物、特許、特許公報、および特許出願への言及は、それらが、実証された従来技術を構成する、もしくはいずれかの国における通常の一般常識の部分を形成する、または必須のことを開示するものであることの確認または何らかの形の暗示ではなく、そのように解釈されるべきではない。

本開示が、本明細書で説明されたいくつかの実施形態または特徴が本明細書で説明された他の実施形態または特徴と組み合わされ得ることを明確に開示していなくても、本開示は、当業者なら実装できるはずのあらゆるそのような組合せを記述しているものと解釈されたい。本開示における「または」の使用（ｕｓｅｒｏｆ）は、本明細書で別様に示されなければ、非網羅的、すなわち「および／または」を意味するものと理解されたい。

以下の請求項において、「請求項ｘから続く先行する請求項のうちいずれか一項」と列挙する請求項ｎは、請求項ｘから直前の請求項（請求項ｎ−１）までのいずれか一項を指すものとする。たとえば、「請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム」と記述する請求項３５は、請求項２８から３４のいずれか一項に記載のシステムを指す。

伝達関数の出力を使用するための最も簡単なやり方は、規模を拡大した性能の予測として出力を使用することである。別の手法には、親の実際の大規模性能に、親株と娘株の間の伝達予測におけるパーセント変化を適用するもの（すなわち、予測＝ｐａｒｅｎｔ＿ｐｅｒｆｏｒｍａｎｃｅ＿ａｔ＿ｓｃａｌｅ＋ｐａｒｅｎｔ＿ｐｅｒｆｏｒｍａｎｃｅ＿ａｔ＿ｓｃａｌｅ×（ＴＦ＿ｏｕｔｐｕｔ（ｄａｕｇｈｔｅｒ）−ＴＦ＿ｏｕｔｐｕｔ（ｐａｒｅｎｔ））／ＴＦ＿ｏｕｔｐｕｔ（ｐａｒｅｎｔ））があり、ここでｐａｒｅｎｔ＿ｐｅｒｆｏｒｍａｎｃｅ＿ａｔ＿ｓｃａｌｅは、規模を拡大した（すなわち、より大きい規模の）親株の観測された性能であり、ＴＦ＿ｏｕｔｐｕｔ（ｓｔｒａｉｎ）は、伝達関数を適用することによる「ｓｔｒａｉｎ」の予測性能であって、娘株は、１つまたは複数の遺伝子改変によって改変されたものとしての親株のバージョンである。これは、規模を拡大した娘の性能に対する親の影響に関連したノイズを除去する利点を有するが、そのような影響が存在すること、すなわち、娘の性能の予測における伝達関数の誤差が、親の性能の予測における誤差とほぼ同一の大きさおよび符号になるはずである、ということを前提としている。

実施形態では、再現性を保証し、改善のためのできるだけ多くの可能性を探るとともに、潜在的バイアスの影響を低減するために、アルゴリズムにおいて、予測力を改善するために、どの試料（株）を含めるか、どの試料を外れ値として除外するか、どの潜在因子を含めるか、についての決定が実装される。種々の手法が採用され得、以下に提示されるそのような循環／反復プロセスの一例では、小規模かつ高スループットの環境はプレート環境に対応し得、大規模かつ低スループットの環境はタンク環境に対応し得る。
１．一連の株から始めて、予測モデル（たとえば線形回帰）を開発するための唯一の因子（複数可）として性能測定値（複数可）（たとえばアミノ酸力価）を使用する。
ａ．これらは、実際のプレート性能データおよびタンク性能データが公知の株である。２．伝達関数モデルから除去することによってモデルのＲＭＳＥを大部分改善する株（「外れ値」）を識別する。
ａ．あるいは、モデルからの潜在的除去のために、最大の予測誤差（株に関する予測された性能対測定された性能）を有する株を識別する。
３．株を除去することによるＲＭＳＥの改善が所定のカットオフよりも大きければステップ４へ進み、そうでなければステップ１０へ行く。
４．（すべての株において等価な因子は全体的な予測力にとって有用ではないため）モデルが含むすべての他の株に今のところ存在せず、因子としてモデルにまだ含まれていない、外れ値に適用する潜在的予測因子を識別する。必要に応じて、アルゴリズムは、上記の条件を満たしたまま、少なくとも１つの他の株に存在する因子を識別してもよい。
ａ．外れ値株の特性である因子には、たとえば、行われたことが公知である遺伝子変化、系統（株の祖先の履歴）、表現型の特性、成長速度が含まれ得る。
ｂ．因子がたった１つの株に存在する場合には、アルゴリズムは、その単一の株に関してモデルを補正するように調整してよいが、通常は、単一の株を説明するためにモデルを改変することは、期待される目標ではない場合があることに留意されたい。また、すべての他の株にその因子が存在している場合、それは予測上の価値を有しない。
ｃ．実施形態が採用し得る機械学習モデルは、この機能を自動的に行うことになるが、モデルに関する因子を識別すると、機械学習モデルに対するリソース負荷を軽減し得ることに留意されたい。
５．ステップ４からのリストが空であれば、モデルから外れ値を除外してステップ２へ行く。
６．そうでなければ、モデルにおいて、ステップ４からの因子を一時的に適用する。
ａ．前述のように、実施形態は、ｙ＝ｍ_１ｘ_１＋ｂなどの単純線形回帰伝達関数を採用し得、ここでｘ_１はプレート上の株の性能であり、ｍ_１はｘ_１に適用された重み（傾き）である。実施形態では、モデルは、ｙ＝ｍ_１ｘ_１＋ｍ_２ｘ_２＋．．．＋ｍ_Ｎｘ_Ｎ＋ｂという形態の重回帰モデルを生成するために、重み付けされた因子（回帰係数）を追加することによって改良され得、ここでｘ_１はプレート上の株の性能であり、他のｘ_ｉ（ｉ≠１）は性能ｘ_１以外の因子を表し、ｍ_１はｘ_１に適用された重みであって、ｍ_ｉは因子ｘ_ｉに適用された重みである。実施形態では、ｘ_１はプレートモデルの出力を表し得る。実施形態では、すべてのｘ_ｉがプレートモデルの出力を表し得る。
ｂ．実施形態では、因子は１度に１つ追加されてよく、重み付けは、次の因子を追加する前に誤差（またはＰ値）が十分な量だけ減少するまで調整されてよい。
７．因子が、モデルの誤差を誤差閾値だけ改善しない場合、またはＰ値閾値よりも大きいＰ値を有する場合、アルゴリズムはその因子（たとえば重回帰式におけるｘ値）を除去してよい。たとえば、本開示の実施形態によれば、特定の遺伝因子（すなわち、株において行われたことが公知である遺伝子改変）は、誤差を誤差閾値だけ改善しない場合またはＰ値閾値よりも大きいＰ値を有する場合には、回帰モデル（予測関数）から除去され得る。８．本開示の実施形態によれば、いずれかの残りの遺伝因子が大きな分散拡大因子（たとえば＞３、因子間の共線性を表す）を有する群の一部分である場合、予測エンジンは各群の内部で最低のＰ値を有する遺伝因子のみを維持してよい。分散拡大が大きいことは、因子間の相関が高いことを示す。相関の高い諸因子を含めると、予測の価値はそれほど期待できず、過剰適合の原因となり得る。本開示の実施形態によれば、予測エンジンは、因子間の相関を測定するために分散拡大因子を使用してよく、相関の高い諸因子を除去することから始めて、十分な分散拡大因子に達するまで継続してよい。
９．ステップ４からの遺伝子変化がこの時点においてすべて除去されている場合には、モデルから外れ値株を除去してステップ２へ戻る。
ａ．条件が真である場合、アルゴリズムは、外れ値を除去しなければアルゴリズムが十分に改善され得ないと決定している。
１０．ステップ２〜９を反復した後、またはステップ３からここへジャンプした後に、残りの株のいずれにも適用しないかまたはすべてに適用する因子を除去する。必要に応じて、１つの系統にのみ適用するあらゆる遺伝因子を除去する。

予測エンジンは、上記の形態の加重最小二乗法モデルｔａｎｋ＝ｂ＋ｍ_１×ｐｌａｔｅ＿ｖａｌｕｅ_１＋ｍ_２×ｐｌａｔｅ＿ｖａｌｕｅ_１×ｐｌａｔｅ＿ｖａｌｕｅ_２を用いて実行されたが、回帰係数ｍ_ｉはタンク規模における反復の数に依存し、ここで同一の２つのポリケチド（以前と同様にｍｇ／Ｌの単位）で、ｂ＝６．９９６、ｍ１＝０．０１８７６、ｍ_２＝０．０００２３７である。ここで、図２１に示されるように、ＬＯＯＣＶ以外のすべてのメトリックによって改善されたモデルが得られた。（プレート値は統計的プレートモデルによって与えられた。）これらの統計量は、ＬＯＯＣＶ＝３．１４、調整済みＲ^２＝０．７９、試験セットに対するＲＭＳＥ＝２．９９である。タンク規模の反復の数を重みｍ_ｉへと因数に分解するための予備知識として、重みベクトルは、ｙ＝Ｘｍ＋ｅ（ここでｙは観測されたタンク値のベクトルであり、Ｘはプレート値の行列である）を解くことにより、最小二乗法を使用して決定される。重みベクトルはｍ＝（Ｘ^ＴＸ）^−１Ｘ^Ｔ×ｙとして計算される。この定式化は、誤差（確率変数である）の分散がすべて同一であると想定している。しかしながら、この想定は、一般に実験には当てはまらず、タンクにおける反復の数が分散計算に大きな影響を及ぼし、一般的には株が等しい分散を有することはなく、そのため、この定式化におけるそれらの誤差も等しくなることはない。誤差が異なることを許容して上記のモデルを適合させると、代わりにｍ＝（Ｘ^ＴＷＸ）^−１Ｘ^ＴＷｙが得られ、ここでＷは対角行列であり、対角成分は「重み」である。重みはｗ_ｉ＝１／ｓｉｇｍａ_ｉ ^２と解釈され、ｓｉｇｍａ_ｉ ^２はｉ番目の誤差の分散である。これは、分散が小さい観測にはより大きい重み（適合におけるより大きい影響も）が与えられ、分散が大きい観測にはより小さい重み（影響）が与えられることを事実上意味する。本開示の実施形態により、本発明者らはｗ_ｉ＝タンク反復の数を用い、そこで、より多くの観測を有する株はそれらの観測値において全体的に誤差がより小さいことが予期されるので、観測値が多い株ほど適合において、より大きい重みを有する。

サービス型ソフトウェア（ＳａａＳ）のソフトウェアモジュール１０１４はクライアントコンピュータ１００６に対するサービスとしてシステムソフトウェア１０１０を提供する。クラウド管理モジュール１０１６は、クライアントコンピュータ１００６によるシステム１０１０へのアクセスを管理する。クラウド管理モジュール１０１６は、複数のユーザにサーブするために、マルチテナントアプリケーション、仮想化または当技術において公知の他のアーキテクチャを採用するクラウドアーキテクチャを可能にし得る。

本開示が、本明細書で説明されたいくつかの実施形態または特徴が本明細書で説明された他の実施形態または特徴と組み合わされ得ることを明確に開示していなくても、本開示は、当業者なら実装できるはずのあらゆるそのような組合せを記述しているものと解釈されたい。本開示における「または」の使用は、本明細書で別様に示されなければ、非網羅的、すなわち「および／または」を意味するものと理解されたい。

以下の請求項において、「請求項ｘから続く先行する請求項のうちいずれか一項」と列挙する請求項ｎは、請求項ｘから直前の請求項（請求項ｎ−１）までのいずれか一項を指すものとする。たとえば、「請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム」と記述する請求項３５は、請求項２８から３４のいずれか一項に記載のシステムを指す。
本発明は、例えば、以下の項目を提供する。
(項目１)
第１の規模の測定値を基に第２の規模の目的の表現型に関する生物の性能を改善するための、コンピュータ実装方法であって、
ａ．第１の規模の１つまたは複数の第１の生物の観測された第１の性能に少なくとも部分的に基づく第１の規模の性能データと、前記第１の規模よりも大きい第２の規模の１つまたは複数の第２の生物の観測された第２の性能に少なくとも部分的に基づく第２の規模の性能データとにアクセスするステップであって、前記第１の規模の性能データが第１の規模の統計モデルに少なくとも部分的に基づくものであるステップと、
ｂ．前記第１の規模の性能データに対する前記第２の規模の性能データの関係性に少なくとも部分的に基づいて予測関数を生成するステップであって、前記第２の規模の１つまたは複数の供試生物についての第２の規模の予測性能データを生成するために、前記第１の規模の前記目的の表現型に関して前記１つまたは複数の供試生物についての観測された性能データに対して前記予測関数が適用可能であるステップと
を含む方法。
(項目２)
前記予測関数が、１つまたは複数の第１の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第１の規模の性能変数のうち少なくとも１つが、生物性能の２つまたはそれよりも多くの測定値の組合せに基づくものである、項目１に記載の方法。
(項目３)
前記第１の規模の統計モデルが前記第１の規模の生物体の特徴を表す、先行する項目のうちいずれか一項に記載の方法。
(項目４)
前記生物体の特徴が、プロセス条件、培地条件、または遺伝因子を含む、先行する項目のうちいずれか一項に記載の方法。
(項目５)
少なくとも１つの生物体の特徴が生物位置に関連している、先行する項目のうちいずれか一項に記載の方法。
(項目６)
前記予測関数を生成するステップが、１つまたは複数の外れ値生物に関する前記第１の規模の性能データおよび前記第２の規模の性能データを検討項目から除去するステップをさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目７)
前記予測関数を生成するステップが、前記予測関数の誤差を低減するために１つまたは複数の因子を組み込むステップをさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目８)
前記予測関数を生成するステップが、少なくとも１つの遺伝因子に関して調整するステップをさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目９)
ａ．因子のセットからの１つまたは複数の因子によって前記予測関数を改変するステップと、
ｂ．前記予測関数を生成する際の検討項目から第１の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第１の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記改変された予測関数をもたらすことになるステップと
をさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目１０)
ａ．因子のセットからの１つまたは複数の因子によって前記予測関数を改変するステップと、
ｂ．第１の候補の外れ値生物に関して前記改変された予測関数のレバレッジメトリックがレバレッジ条件を満たす場合には、前記改変された予測関数を前記予測関数として使用するステップと
をさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目１１)
前記第１の候補の外れ値生物が、前記予測関数を生成する際に除外する場合、前記改変された予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす生物である、先行する項目のうちいずれか一項に記載の方法。
(項目１２)
ｉ．前記第１の候補の外れ値生物を除外して前記予測関数を生成する際に検討項目から除外する場合、前記予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす第２の生物を、第２の候補の外れ値生物であると識別するステップと、
ｉｉ．因子のセットからの１つまたは複数の因子によって前記予測関数を改変して、第２の改変された予測関数を生成するステップと、
ｉｉｉ．前記予測関数を生成する際の検討項目から前記第２の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第２の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記第２の改変された予測関数をもたらすことになるステップと
をさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目１３)
第１の候補の外れ値生物が前記第１の規模の性能データおよび前記第２の規模の性能データで表され、前記１つまたは複数の供試生物が前記第１の候補の外れ値生物を含み、前記第２の規模の予測性能データが、前記第１の候補の外れ値生物の前記第２の規模の予測性能を表す、先行する項目のうちいずれか一項に記載の方法。
(項目１４)
前記予測関数を改変するステップが、前記１つまたは複数の因子を前記予測関数に組み込むステップまたは前記予測関数から除去するステップを含む、先行する項目のうちいずれか一項に記載の方法。
(項目１５)
前記１つまたは複数の因子が遺伝因子を含む、先行する項目のうちいずれか一項に記載の方法。
(項目１６)
前記予測関数を生成するステップが、前記第１の規模の性能データおよび前記第２の規模の性能データを使用して機械学習モデルを訓練するステップを含む、先行する項目のうちいずれか一項に記載の方法。
(項目１７)
前記予測関数を生成するステップが、前記１つまたは複数の因子によって前記予測関数を改変するプロセスにおいて機械学習を適用するステップを含む、先行する項目のうちいずれか一項に記載の方法。
(項目１８)
ａ．複数の予測関数に関する性能誤差メトリックを比較するステップと、
ｂ．少なくとも前記比較に基づいて前記予測関数にランク付けするステップと
をさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目１９)
前記１つまたは複数の第１の生物に関する前記第１の規模の性能データが、第１の規模の統計モデルの出力を表し、前記方法が、
ａ．前記第２の規模の前記１つまたは複数の第１の生物に関する予測性能を前記第２の規模の性能データと比較するステップと、
ｂ．前記比較に少なくとも部分的に基づいて前記第１の規模の統計モデルのパラメータを調整するステップと
をさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目２０)
前記第１の規模がプレート規模であり、前記第２の規模がタンク規模である、先行する項目のうちいずれか一項に記載の方法。
(項目２１)
前記１つまたは複数の第２の生物が前記１つまたは複数の第１の生物のサブセットである、先行する項目のうちいずれか一項に記載の方法。
(項目２２)
前記表現型が化合物の生産を含む、先行する項目のうちいずれか一項に記載の方法。
(項目２３)
前記生物が微生物株である、先行する項目のうちいずれか一項に記載の方法。
(項目２４)
前記第２の規模の前記１つまたは複数の供試生物についての前記第２の規模の予測性能データを生成するために、前記第１の規模の目的の表現型に関して前記１つまたは複数の供試生物についての観測された性能データに対して前記予測関数を適用するステップをさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目２５)
前記第２の規模の予測性能に少なくとも部分的に基づいて、前記１つまたは複数の供試生物のうち少なくとも１つを製造するステップをさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目２６)
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、先行する項目のうちいずれか一項に記載の方法。
(項目２７)
先行する項目のうちいずれか一項に記載の方法を使用して識別される、前記第２の規模の供試生物。
(項目２８)
第１の規模の測定値を基に第２の規模の目的の表現型に関する生物の性能を改善するためのシステムであって、
１つまたは複数のプロセッサと、
命令を記憶している１つまたは複数のメモリであって、前記命令が、前記１つまたは複数のプロセッサのうち少なくとも１つによって実行されたとき、前記システムに、
ａ．第１の規模の１つまたは複数の第１の生物の観測された第１の性能に少なくとも部分的に基づく第１の規模の性能データと、前記第１の規模よりも大きい第２の規模の１つまたは複数の第２の生物の観測された第２の性能に少なくとも部分的に基づく第２の規模の性能データとにアクセスさせるステップであって、ここで前記第１の規模の性能データが第１の規模の統計モデルに少なくとも部分的に基づくものであるステップと、
ｂ．前記第１の規模の性能データに対する前記第２の規模の性能データの関係性に少なくとも部分的に基づいて予測関数を生成させるステップであって、ここで前記第２の規模の１つまたは複数の供試生物についての第２の規模の予測性能データを生成するために、前記第１の規模の前記目的の表現型に関して前記１つまたは複数の供試生物についての観測された性能データに対して前記予測関数が適用可能であるステップと
を行う、１つまたは複数のメモリと
を備えるシステム。
(項目２９)
前記予測関数が、１つまたは複数の第１の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第１の規模の性能変数のうち少なくとも１つが、生物性能の２つまたはそれよりも多くの測定値の組合せに基づくものである、項目２８に記載のシステム。
(項目３０)
前記第１の規模の統計モデルが前記第１の規模の生物体の特徴を表す、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目３１)
前記生物体の特徴が、プロセス条件、培地条件、または遺伝因子を含む、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目３２)
少なくとも１つの生物体の特徴が生物位置に関連している、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目３３)
前記予測関数を生成するステップが、１つまたは複数の外れ値生物に関する前記第１の規模の性能データおよび前記第２の規模の性能データを検討項目から除去するステップをさらに含む、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目３４)
前記予測関数を生成するステップが、前記予測関数の誤差を低減するために１つまたは複数の因子を組み込むステップをさらに含む、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目３５)
前記予測関数を生成するステップが、少なくとも１つの遺伝因子に関して調整するステップをさらに含む、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目３６)
前記１つまたは複数のメモリが、
ｃ．因子のセットからの１つまたは複数の因子によって前記予測関数を改変するステップと、
ｄ．前記予測関数を生成する際の検討項目から第１の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第１の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記改変された予測関数をもたらすことになるステップと
のためのさらなる命令を記憶している、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目３７)
前記１つまたは複数のメモリが、
ｅ．因子のセットからの１つまたは複数の因子によって前記予測関数を改変するステップと、
ｆ．第１の候補の外れ値生物に関して前記改変された予測関数のレバレッジメトリックがレバレッジ条件を満たす場合には、前記改変された予測関数を前記予測関数として使用するステップと
のためのさらなる命令を記憶している、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目３８)
前記第１の候補の外れ値生物が、前記予測関数を生成する際に除外する場合、前記改変された予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす生物である、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目３９)
前記１つまたは複数のメモリが、
ｉ．前記第１の候補の外れ値生物を除外して前記予測関数を生成する際に検討項目から除外する場合、前記予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす第２の生物を、第２の候補の外れ値生物であると識別するステップと、
ｉｉ．因子のセットからの１つまたは複数の因子によって前記予測関数を改変して、第２の改変された予測関数を生成するステップと、
ｉｉｉ．前記予測関数を生成する際の検討項目から前記第２の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第２の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記第２の改変された予測関数をもたらすことになるステップと
のためのさらなる命令を記憶している、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目４０)
第１の候補の外れ値生物が前記第１の規模の性能データおよび前記第２の規模の性能データで表され、前記１つまたは複数の供試生物が前記第１の候補の外れ値生物を含み、前記第２の規模の予測性能データが、前記第１の候補の外れ値生物の前記第２の規模の予測性能を表す、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目４１)
前記予測関数を改変するステップが、前記１つまたは複数の因子を前記予測関数に組み込むステップまたは前記予測関数から除去するステップを含む、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目４２)
前記１つまたは複数の因子が遺伝因子を含む、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目４３)
前記予測関数を生成するステップが、前記第１の規模の性能データおよび前記第２の規模の性能データを使用して機械学習モデルを訓練するステップを含む、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目４４)
前記予測関数を生成するステップが、前記１つまたは複数の因子によって前記予測関数を改変する前記プロセスにおいて機械学習を適用するステップを含む、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目４５)
前記１つまたは複数のメモリが、
ｇ．複数の予測関数に関する性能誤差メトリックを比較するステップと、
ｈ．少なくとも前記比較に基づいて前記予測関数にランク付けするステップと
のためのさらなる命令を記憶している、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目４６)
前記１つまたは複数の第１の生物に関する前記第１の規模の性能データが第１の規模の統計モデルの出力を表し、前記１つまたは複数のメモリが、
ｉ．前記第２の規模の前記１つまたは複数の第１の生物に関する予測性能を前記第２の規模の性能データと比較するステップと、
ｊ．前記比較に少なくとも部分的に基づいて前記第１の規模の統計モデルのパラメータを調整するステップと
のためのさらなる命令を記憶している、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目４７)
前記第１の規模がプレート規模であり、前記第２の規模がタンク規模である、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目４８)
前記１つまたは複数の第２の生物が前記１つまたは複数の第１の生物のサブセットである、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目４９)
前記表現型が化合物の生産を含む、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目５０)
前記生物が微生物株である、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目５１)
前記１つまたは複数のメモリが、前記第２の規模の前記１つまたは複数の供試生物についての前記第２の規模の予測性能データを生成するために、前記第１の規模の目的の表現型に関して前記１つまたは複数の供試生物についての観測された性能データに対して前記予測関数を適用するステップのためのさらなる命令を記憶している、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目５２)
前記１つまたは複数のメモリが、前記第２の規模の予測性能に少なくとも部分的に基づいて、前記１つまたは複数の供試生物のうち少なくとも１つを製造するステップのためのさらなる命令を記憶している、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目５３)
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、項目２８から続く先行する項目のうちいずれか一項に記載のシステム。
(項目５４)
第１の規模の測定値を基に第２の規模の目的の表現型に関する生物の性能を改善するための命令を記憶している１つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が１つまたは複数のコンピューティングデバイスによって実行されたとき、前記１つまたは複数のコンピューティングデバイスのうち少なくとも１つに、
ａ．第１の規模の１つまたは複数の第１の生物の観測された第１の性能に少なくとも部分的に基づく第１の規模の性能データと、前記第１の規模よりも大きい第２の規模の１つまたは複数の第２の生物の観測された第２の性能に少なくとも部分的に基づく第２の規模の性能データとにアクセスさせるステップであって、ここで前記第１の規模の性能データが第１の規模の統計モデルに少なくとも部分的に基づくものであるステップと、
ｂ．前記第１の規模の性能データに対する前記第２の規模の性能データの関係性に少なくとも部分的に基づいて予測関数を生成させるステップであって、ここで前記第２の規模の１つまたは複数の供試生物についての第２の規模の予測性能データを生成するために、前記第１の規模の前記目的の表現型に関して前記１つまたは複数の供試生物についての観測された性能データに対して前記予測関数が適用可能であるステップと
を行う、１つまたは複数の非一時的コンピュータ可読媒体。
(項目５５)
前記予測関数が、１つまたは複数の第１の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第１の規模の性能変数のうち少なくとも１つが、生物性能の２つまたはそれよりも多くの測定値の組合せに基づくものである、項目５４に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目５６)
前記第１の規模の統計モデルが前記第１の規模の生物体の特徴を表す、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目５７)
前記生物体の特徴が、プロセス条件、培地条件、または遺伝因子を含む、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目５８)
少なくとも１つの生物体の特徴が生物位置に関連している、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目５９)
前記予測関数を生成するステップが、１つまたは複数の外れ値生物に関する前記第１の規模の性能データおよび前記第２の規模の性能データを検討項目から除去するステップをさらに含む、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目６０)
前記予測関数を生成するステップが、前記予測関数の誤差を低減するために１つまたは複数の因子を組み込むステップをさらに含む、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目６１)
前記予測関数を生成するステップが、少なくとも１つの遺伝因子に関して調整するステップをさらに含む、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目６２)
ａ．因子のセットからの１つまたは複数の因子によって前記予測関数を改変するステップと、
ｂ．前記予測関数を生成する際の検討項目から第１の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第１の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記改変された予測関数をもたらすことになるステップと
のためのさらなる命令を記憶している、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目６３)
ａ．因子のセットからの１つまたは複数の因子によって前記予測関数を改変するステップと、
ｂ．第１の候補の外れ値生物に関して前記改変された予測関数のレバレッジメトリックがレバレッジ条件を満たす場合には、前記改変された予測関数を前記予測関数として使用するステップと
のためのさらなる命令を記憶している、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目６４)
前記第１の候補の外れ値生物が、前記予測関数を生成する際に除外する場合、前記改変された予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす生物である、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目６５)
ｉ．前記第１の候補の外れ値生物を除外して前記予測関数を生成する際に検討項目から除外する場合、前記予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす第２の生物を、第２の候補の外れ値生物であると識別するステップと、
ｉｉ．因子のセットからの１つまたは複数の因子によって前記予測関数を改変して、第２の改変された予測関数を生成するステップと、
ｉｉｉ．前記予測関数を生成する際の検討項目から前記第２の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第２の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記第２の改変された予測関数をもたらすことになるステップと
のためのさらなる命令を記憶している、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目６６)
第１の候補の外れ値生物が前記第１の規模の性能データおよび前記第２の規模の性能データで表され、前記１つまたは複数の供試生物が前記第１の候補の外れ値生物を含み、前記第２の規模の予測性能データが、前記第１の候補の外れ値生物の前記第２の規模の予測性能を表す、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目６７)
前記予測関数を改変するステップが、前記１つまたは複数の因子を前記予測関数に組み込むステップまたは前記予測関数から除去するステップを含む、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目６８)
前記１つまたは複数の因子が遺伝因子を含む、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目６９)
前記予測関数を生成するステップが、前記第１の規模の性能データおよび前記第２の規模の性能データを使用して機械学習モデルを訓練するステップを含む、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目７０)
前記予測関数を生成するステップが、前記１つまたは複数の因子によって前記予測関数を改変する前記プロセスにおいて機械学習を適用するステップを含む、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目７１)
ａ．複数の予測関数に関する性能誤差メトリックを比較するステップと、
ｂ．少なくとも前記比較に基づいて前記予測関数にランク付けするステップと
のためのさらなる命令を記憶している、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目７２)
前記１つまたは複数の第１の生物に関する前記第１の規模の性能データが第１の規模の統計モデルの出力を表し、前記１つまたは複数の非一時的コンピュータ可読媒体が、
ａ．前記第２の規模の前記１つまたは複数の第１の生物に関する予測性能を前記第２の規模の性能データと比較するステップと、
ｂ．前記比較に少なくとも部分的に基づいて前記第１の規模の統計モデルのパラメータを調整するステップと
のためのさらなる命令を記憶している、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目７３)
前記第１の規模がプレート規模であり、前記第２の規模がタンク規模である、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目７４)
前記１つまたは複数の第２の生物が前記１つまたは複数の第１の生物のサブセットである、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目７５)
前記表現型が化合物の生産を含む、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目７６)
前記生物が微生物株である、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目７７)
前記第２の規模の前記１つまたは複数の供試生物についての前記第２の規模の予測性能データを生成するために、前記第１の規模の目的の表現型に関して前記１つまたは複数の供試生物についての観測された性能データに対して前記予測関数を適用するステップのためのさらなる命令を記憶している、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目７８)
前記第２の規模の予測性能に少なくとも部分的に基づいて前記１つまたは複数の供試生物のうち少なくとも１つを製造するステップのためのさらなる命令を記憶している、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目７９)
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、項目５４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目８０)
第２の規模の目的の表現型に関する生物の性能を、前記第２の規模よりも小さい第１の規模の生物の観測された性能に基づいて改善するためのコンピュータ実装方法であって、
ａ．予測関数にアクセスするステップであって、前記予測関数が、第１の規模の性能データに対する第２の規模の性能データの関係性に少なくとも部分的に基づくものであり、前記第１の規模の性能データが、第１の規模の統計モデルおよび第１の規模の１つまたは複数の第１の生物の観測された第１の性能に少なくとも部分的に基づくものであり、前記第２の規模の性能データが、前記第１の規模よりも大きい第２の規模の１つまたは複数の第２の生物の観測された第２の性能に少なくとも部分的に基づくものであるステップと、
ｂ．前記第１の規模の１つまたは複数の供試生物に前記予測関数を適用して、前記第２の規模の前記１つまたは複数の供試生物に関する第２の規模の予測性能データを生成するステップと
を含む方法。
(項目８１)
前記予測関数が、１つまたは複数の第１の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第１の規模の性能変数のうち少なくとも１つが、生物性能の２つまたはそれよりも多くの測定値の組合せに基づくものである、項目８０に記載の方法。
(項目８２)
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、項目８０から続く先行する項目のうちいずれか一項に記載の方法。
(項目８３)
前記予測関数が、１つまたは複数の外れ値生物に関する前記第１の規模の性能データおよび前記第２の規模の性能データによる影響を除外する、項目８０から続く先行する項目のうちいずれか一項に記載の方法。
(項目８４)
前記予測関数が前記予測関数の誤差を低減するために１つまたは複数の遺伝因子を組み込む、項目８０から続く先行する項目のうちいずれか一項に記載の方法。
(項目８５)
前記予測関数が第１の候補の外れ値生物による影響を除外するものであり、前記予測関数を生成する際に前記影響が含まれている場合、レバレッジ条件を満たさないレバレッジメトリックを有する改変された予測関数をもたらすことになり、前記改変された予測関数は１つまたは複数の因子による前記予測関数への改変を組み込んでいる、項目８０から続く先行する項目のうちいずれか一項に記載の方法。
(項目８６)
前記予測関数が、前記第１の規模の性能データおよび前記第２の規模の性能データを使用して機械学習モデルを訓練することによって生成される、項目８０から続く先行する項目のうちいずれか一項に記載の方法。
(項目８７)
前記第１の規模がプレート規模であり、前記第２の規模がタンク規模である、項目８０から続く先行する項目のうちいずれか一項に記載の方法。
(項目８８)
前記１つまたは複数の第２の生物が前記１つまたは複数の第１の生物のサブセットである、項目８０から続く先行する項目のうちいずれか一項に記載の方法。
(項目８９)
前記表現型が化合物の生産を含む、項目８０から続く先行する項目のうちいずれか一項に記載の方法。
(項目９０)
前記生物が微生物株である、項目８０から続く先行する項目のうちいずれか一項に記載の方法。
(項目９１)
前記第２の規模の予測性能に少なくとも部分的に基づいて前記１つまたは複数の供試生物のうち少なくとも１つを製造するステップをさらに含む、項目８０から続く先行する項目のうちいずれか一項に記載の方法。
(項目９２)
第２の規模の目的の表現型に関する生物の性能を、前記第２の規模よりも小さい第１の規模の生物の観測された性能に基づいて改善するためのシステムであって、
１つまたは複数のプロセッサと、
命令を記憶している１つまたは複数のメモリであって、前記命令が、前記１つまたは複数のプロセッサのうち少なくとも１つによって実行されたとき、前記システムに、
ａ．予測関数にアクセスさせるステップであって、ここで、前記予測関数が、第１の規模の性能データに対する第２の規模の性能データの関係性に少なくとも部分的に基づくものであり、前記第１の規模の性能データが、第１の規模の統計モデルおよび第１の規模の１つまたは複数の第１の生物の観測された第１の性能に少なくとも部分的に基づくものであり、前記第２の規模の性能データが、前記第１の規模よりも大きい第２の規模の１つまたは複数の第２の生物の観測された第２の性能を表すステップと、
ｂ．前記第１の規模の１つまたは複数の供試生物に前記予測関数を適用して、前記第２の規模の前記１つまたは複数の供試生物に関する第２の規模の予測性能データを生成させるステップと
を行う、１つまたは複数のメモリと
を備えるシステム。
(項目９３)
前記予測関数が、１つまたは複数の第１の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第１の規模の性能変数のうち少なくとも１つが、生物性能の２つまたはそれよりも多くの測定値の組合せに基づくものである、項目９２に記載のシステム。
(項目９４)
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、項目９２から続く先行する項目のうちいずれか一項に記載のシステム。
(項目９５)
前記予測関数が、１つまたは複数の外れ値生物に関する前記第１の規模の性能データおよび前記第２の規模の性能データによる影響を除外する、項目９２から続く先行する項目のうちいずれか一項に記載のシステム。
(項目９６)
前記予測関数が前記予測関数の誤差を低減するために１つまたは複数の遺伝因子を組み込む、項目９２から続く先行する項目のうちいずれか一項に記載のシステム。
(項目９７)
前記予測関数が第１の候補の外れ値生物による影響を除外するものであり、前記予測関数を生成する際に前記影響が含まれている場合、レバレッジ条件を満たさないレバレッジメトリックを有する改変された予測関数をもたらすことになり、前記改変された予測関数は１つまたは複数の因子による前記予測関数への改変を組み込んでいる、項目９２から続く先行する項目のうちいずれか一項に記載のシステム。
(項目９８)
前記予測関数が、前記第１の規模の性能データおよび前記第２の規模の性能データを使用して機械学習モデルを訓練することによって生成される、項目９２から続く先行する項目のうちいずれか一項に記載のシステム。
(項目９９)
前記第１の規模がプレート規模であり、前記第２の規模がタンク規模である、項目９２から続く先行する項目のうちいずれか一項に記載のシステム。
(項目１００)
前記１つまたは複数の第２の生物が前記１つまたは複数の第１の生物のサブセットである、項目９２から続く先行する項目のうちいずれか一項に記載のシステム。
(項目１０１)
前記表現型が化合物の生産を含む、項目９２から続く先行する項目のうちいずれか一項に記載のシステム。
(項目１０２)
前記生物が微生物株である、項目９２から続く先行する項目のうちいずれか一項に記載のシステム。
(項目１０３)
前記１つまたは複数のメモリが、前記第２の規模の予測性能に少なくとも部分的に基づいて前記１つまたは複数の供試生物のうち少なくとも１つを製造するステップのためのさらなる命令を記憶している、項目９２から続く先行する項目のうちいずれか一項に記載のシステム。
(項目１０４)
第２の規模の目的の表現型に関する生物の性能を、前記第２の規模よりも小さい第１の規模の観測された生物の性能を基に改善するための命令を記憶している１つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が１つまたは複数のコンピューティングデバイスによって実行されたとき、前記１つまたは複数のコンピューティングデバイスのうち少なくとも１つに、
ａ．予測関数にアクセスさせるステップであって、ここで前記予測関数が、第１の規模の性能データに対する第２の規模の性能データの関係性に少なくとも部分的に基づくものであり、前記第１の規模の性能データが、第１の規模の統計モデルおよび第１の規模の１つまたは複数の第１の生物の観測された第１の性能に少なくとも部分的に基づくものであり、前記第２の規模の性能データが、前記第１の規模よりも大きい第２の規模の１つまたは複数の第２の生物の観測された第２の性能を表すステップと、
ｂ．前記第１の規模の１つまたは複数の供試生物に前記予測関数を適用して、前記第２の規模の前記１つまたは複数の供試生物に関する第２の規模の予測性能データを生成させるステップと
を行う、１つまたは複数の非一時的コンピュータ可読媒体。
(項目１０５)
前記予測関数が、１つまたは複数の第１の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第１の規模の性能変数のうち少なくとも１つが、生物性能の２つまたはそれよりも多くの測定値の組合せに基づくものである、項目１０４に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目１０６)
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、項目１０４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目１０７)
前記予測関数が、１つまたは複数の外れ値生物に関する前記第１の規模の性能データおよび前記第２の規模の性能データによる影響を除外する、項目１０４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目１０８)
前記予測関数が前記予測関数の誤差を低減するために１つまたは複数の遺伝因子を組み込む、項目１０４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目１０９)
前記予測関数が第１の候補の外れ値生物による影響を除外するものであり、前記予測関数を生成する際に前記影響が含まれている場合、レバレッジ条件を満たさないレバレッジメトリックを有する改変された予測関数をもたらすことになり、前記改変された予測関数は１つまたは複数の因子による前記予測関数への改変を組み込んでいる、項目１０４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目１１０)
前記予測関数が、前記第１の規模の性能データおよび前記第２の規模の性能データを使用して機械学習モデルを訓練することによって生成される、項目１０４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目１１１)
前記第１の規模がプレート規模であり、前記第２の規模がタンク規模である、項目１０４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目１１２)
前記１つまたは複数の第２の生物が前記１つまたは複数の第１の生物のサブセットである、項目１０４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目１１３)
前記目的の表現型が化合物の生産を含む、項目１０４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目１１４)
前記生物が微生物株である、項目１０４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目１１５)
前記第２の規模の予測性能に少なくとも部分的に基づいて前記１つまたは複数の供試生物のうち少なくとも１つを製造するステップのためのさらなる命令を記憶している、項目１０４から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目１１６)
第２の規模の目的の表現型に関する生物の性能を、前記第２の規模よりも小さい第１の規模の観測された性能に基づいて改善するためのコンピュータ実装方法であって、
ａ．前記第１の規模の生物体の特徴を表す第１の規模の統計モデルの選択を表す第１のユーザ入力を受け取るステップと、
ｂ．予測関数の選択を表す第２のユーザ入力を受け取るステップと、
ｃ．前記目的の表現型に関する性能データのタイプの選択を表す第３のユーザ入力を受け取るステップと、
ｄ．グラフィックディスプレイに対して予測関数を供給するステップであって、前記予測関数が、前記第１の規模の１つまたは複数の供試生物について観測された性能データに対して前記予測関数を適用することに基づいて前記第２の規模の１つまたは複数の供試生物に関する前記選択されたタイプの第２の規模の予測性能データをもたらすためのものであるステップと
を含む方法。
(項目１１７)
グラフィックディスプレイに対して、前記第２の規模の１つまたは複数の供試生物に関する前記第２の規模の予測性能データを供給するステップをさらに含む項目１１６に記載の方法。
(項目１１８)
前記第１の規模の性能データが前記第１の規模の統計モデルを使用して生成される、項目１１６から続く先行する項目のうちいずれか一項に記載の方法。
(項目１１９)
前記予測関数を生成する際に検討項目から除去される１つまたは複数の外れ値生物のユーザ選択を表すユーザ入力を受け取るステップをさらに含む、項目１１６から続く先行する項目のうちいずれか一項に記載の方法。
(項目１２０)
前記予測関数を生成する際に使用される１つまたは複数の因子のユーザ選択を表すユーザ入力を受け取るステップをさらに含む、項目１１６から続く先行する項目のうちいずれか一項に記載の方法。
(項目１２１)
前記１つまたは複数の因子が１つまたは複数の遺伝因子を含む、項目１１６から続く先行する項目のうちいずれか一項に記載の方法。
(項目１２２)
前記１つまたは複数の供試生物のうち少なくとも１つを生成するステップをさらに含む、項目１１６から続く先行する項目のうちいずれか一項に記載の方法。
(項目１２３)
項目１１６から続く先行する項目のうちいずれか一項に記載の方法を使用して識別される、前記第２の規模の供試生物。
(項目１２４)
第２の規模の目的の表現型に関する生物の性能を、前記第２の規模よりも小さい第１の規模の観測された性能に基づいて改善するためのシステムであって、
１つまたは複数のプロセッサと、
命令を記憶している１つまたは複数のメモリであって、前記命令が、前記１つまたは複数のプロセッサのうち少なくとも１つによって実行されたとき、前記システムに、
ａ．前記第１の規模の生物体の特徴を表す第１の規模の統計モデルの選択を表す第１のユーザ入力を受け取らせるステップと、
ｂ．予測関数の選択を表す第２のユーザ入力を受け取らせるステップと、
ｃ．前記目的の表現型に関する性能データのタイプの選択を表す第３のユーザ入力を受け取らせるステップと、
ｄ．グラフィックディスプレイに対して予測関数を供給させるステップであって、前記予測関数が、前記第１の規模の１つまたは複数の供試生物について観測された性能データに対して前記予測関数を適用することを基に、前記第２の規模の１つまたは複数の供試生物に関する前記選択されたタイプの第２の規模の予測性能データをもたらすためのものであるステップと
を行う、１つまたは複数のメモリと
を備えるシステム。
(項目１２５)
前記１つまたは複数のメモリが、グラフィックディスプレイに対して前記第２の規模の１つまたは複数の供試生物に関する前記第２の規模の予測性能データを供給するためのさらなる命令を記憶している、項目１２４に記載のシステム。
(項目１２６)
前記第１の規模の性能データが前記第１の規模の統計モデルを使用して生成される、項目１２４から続く先行する項目のうちいずれか一項に記載のシステム。
(項目１２７)
前記１つまたは複数のメモリが、前記予測関数を生成する際に検討項目から除去される１つまたは複数の外れ値生物のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、項目１２４から続く先行する項目のうちいずれか一項に記載のシステム。
(項目１２８)
前記１つまたは複数のメモリが、前記予測関数を生成する際に使用される１つまたは複数の因子のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、項目１２４から続く先行する項目のうちいずれか一項に記載のシステム。
(項目１２９)
前記１つまたは複数の因子が１つまたは複数の遺伝因子を含む、項目１２４から続く先行する項目のうちいずれか一項に記載のシステム。
(項目１３０)
前記１つまたは複数のメモリが、前記１つまたは複数の供試生物のうち少なくとも１つを生成するステップのためのさらなる命令を記憶している、項目１２４から続く先行する項目のうちいずれか一項に記載のシステム。
(項目１３１)
第２の規模の目的の表現型に関する生物の性能を、前記第２の規模よりも小さい第１の規模の観測された性能を基に改善するための命令を記憶している１つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が１つまたは複数のコンピューティングデバイスによって実行されたとき、前記１つまたは複数のコンピューティングデバイスのうち少なくとも１つに、
ａ．前記第１の規模の生物体の特徴を表す第１の規模の統計モデルの選択を表す第１のユーザ入力を受け取らせるステップと、
ｂ．予測関数の選択を表す第２のユーザ入力を受け取らせるステップと、
ｃ．前記目的の表現型に関する性能データのタイプの選択を表す第３のユーザ入力を受け取らせるステップと、
ｄ．グラフィックディスプレイに対して予測関数を供給させるステップであって、前記予測関数が、前記第１の規模の１つまたは複数の供試生物について観測された性能データに対して前記予測関数を適用することを基に、前記第２の規模の１つまたは複数の供試生物に関する前記選択されたタイプの第２の規模の予測性能データをもたらすためのものであるステップと
を行う、１つまたは複数の非一時的コンピュータ可読媒体。
(項目１３２)
グラフィックディスプレイに対して前記第２の規模の１つまたは複数の供試生物に関する前記第２の規模の予測性能データを供給するためのさらなる命令を記憶している、項目１３１に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目１３３)
前記第１の規模の性能データが前記第１の規模の統計モデルを使用して生成される、項目１３１から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目１３４)
前記予測関数を生成する際に検討項目から除去される１つまたは複数の外れ値生物のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、項目１３１から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目１３５)
前記予測関数を生成する際に使用される１つまたは複数の因子のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、項目１３１から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目１３６)
前記１つまたは複数の因子が１つまたは複数の遺伝因子を含む、項目１３１から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
(項目１３７)
前記１つまたは複数の供試生物のうち少なくとも１つを生成するステップのためのさらなる命令を記憶している、項目１３１から続く先行する項目のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。

Claims

第１の規模の測定値を基に第２の規模の目的の表現型に関する生物の性能を改善するための、コンピュータ実装方法であって、
ａ．第１の規模の１つまたは複数の第１の生物の観測された第１の性能に少なくとも部分的に基づく第１の規模の性能データと、前記第１の規模よりも大きい第２の規模の１つまたは複数の第２の生物の観測された第２の性能に少なくとも部分的に基づく第２の規模の性能データとにアクセスするステップであって、前記第１の規模の性能データが第１の規模の統計モデルに少なくとも部分的に基づくものであるステップと、
ｂ．前記第１の規模の性能データに対する前記第２の規模の性能データの関係性に少なくとも部分的に基づいて予測関数を生成するステップであって、前記第２の規模の１つまたは複数の供試生物についての第２の規模の予測性能データを生成するために、前記第１の規模の前記目的の表現型に関して前記１つまたは複数の供試生物についての観測された性能データに対して前記予測関数が適用可能であるステップと
を含む方法。
前記予測関数が、１つまたは複数の第１の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第１の規模の性能変数のうち少なくとも１つが、生物性能の２つまたはそれよりも多くの測定値の組合せに基づくものである、請求項１に記載の方法。
前記第１の規模の統計モデルが前記第１の規模の生物体の特徴を表す、先行する請求項のうちいずれか一項に記載の方法。
前記生物体の特徴が、プロセス条件、培地条件、または遺伝因子を含む、先行する請求項のうちいずれか一項に記載の方法。
少なくとも１つの生物体の特徴が生物位置に関連している、先行する請求項のうちいずれか一項に記載の方法。
前記予測関数を生成するステップが、１つまたは複数の外れ値生物に関する前記第１の規模の性能データおよび前記第２の規模の性能データを検討項目から除去するステップをさらに含む、先行する請求項のうちいずれか一項に記載の方法。
前記予測関数を生成するステップが、前記予測関数の誤差を低減するために１つまたは複数の因子を組み込むステップをさらに含む、先行する請求項のうちいずれか一項に記載の方法。
前記予測関数を生成するステップが、少なくとも１つの遺伝因子に関して調整するステップをさらに含む、先行する請求項のうちいずれか一項に記載の方法。
ａ．因子のセットからの１つまたは複数の因子によって前記予測関数を改変するステップと、
ｂ．前記予測関数を生成する際の検討項目から第１の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第１の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記改変された予測関数をもたらすことになるステップと
をさらに含む、先行する請求項のうちいずれか一項に記載の方法。
ａ．因子のセットからの１つまたは複数の因子によって前記予測関数を改変するステップと、
ｂ．第１の候補の外れ値生物に関して前記改変された予測関数のレバレッジメトリックがレバレッジ条件を満たす場合には、前記改変された予測関数を前記予測関数として使用するステップと
をさらに含む、先行する請求項のうちいずれか一項に記載の方法。
前記第１の候補の外れ値生物が、前記予測関数を生成する際に除外する場合、前記改変された予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす生物である、先行する請求項のうちいずれか一項に記載の方法。
ｉ．前記第１の候補の外れ値生物を除外して前記予測関数を生成する際に検討項目から除外する場合、前記予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす第２の生物を、第２の候補の外れ値生物であると識別するステップと、
ｉｉ．因子のセットからの１つまたは複数の因子によって前記予測関数を改変して、第２の改変された予測関数を生成するステップと、
ｉｉｉ．前記予測関数を生成する際の検討項目から前記第２の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第２の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記第２の改変された予測関数をもたらすことになるステップと
をさらに含む、先行する請求項のうちいずれか一項に記載の方法。
第１の候補の外れ値生物が前記第１の規模の性能データおよび前記第２の規模の性能データで表され、前記１つまたは複数の供試生物が前記第１の候補の外れ値生物を含み、前記第２の規模の予測性能データが、前記第１の候補の外れ値生物の前記第２の規模の予測性能を表す、先行する請求項のうちいずれか一項に記載の方法。
前記予測関数を改変するステップが、前記１つまたは複数の因子を前記予測関数に組み込むステップまたは前記予測関数から除去するステップを含む、先行する請求項のうちいずれか一項に記載の方法。
前記１つまたは複数の因子が遺伝因子を含む、先行する請求項のうちいずれか一項に記載の方法。
前記予測関数を生成するステップが、前記第１の規模の性能データおよび前記第２の規模の性能データを使用して機械学習モデルを訓練するステップを含む、先行する請求項のうちいずれか一項に記載の方法。
前記予測関数を生成するステップが、前記１つまたは複数の因子によって前記予測関数を改変するプロセスにおいて機械学習を適用するステップを含む、先行する請求項のうちいずれか一項に記載の方法。
ａ．複数の予測関数に関する性能誤差メトリックを比較するステップと、
ｂ．少なくとも前記比較に基づいて前記予測関数にランク付けするステップと
をさらに含む、先行する請求項のうちいずれか一項に記載の方法。
前記１つまたは複数の第１の生物に関する前記第１の規模の性能データが、第１の規模の統計モデルの出力を表し、前記方法が、
ａ．前記第２の規模の前記１つまたは複数の第１の生物に関する予測性能を前記第２の規模の性能データと比較するステップと、
ｂ．前記比較に少なくとも部分的に基づいて前記第１の規模の統計モデルのパラメータを調整するステップと
をさらに含む、先行する請求項のうちいずれか一項に記載の方法。
前記第１の規模がプレート規模であり、前記第２の規模がタンク規模である、先行する請求項のうちいずれか一項に記載の方法。
前記１つまたは複数の第２の生物が前記１つまたは複数の第１の生物のサブセットである、先行する請求項のうちいずれか一項に記載の方法。
前記表現型が化合物の生産を含む、先行する請求項のうちいずれか一項に記載の方法。
前記生物が微生物株である、先行する請求項のうちいずれか一項に記載の方法。
前記第２の規模の前記１つまたは複数の供試生物についての前記第２の規模の予測性能データを生成するために、前記第１の規模の目的の表現型に関して前記１つまたは複数の供試生物についての観測された性能データに対して前記予測関数を適用するステップをさらに含む、先行する請求項のうちいずれか一項に記載の方法。
前記第２の規模の予測性能に少なくとも部分的に基づいて、前記１つまたは複数の供試生物のうち少なくとも１つを製造するステップをさらに含む、先行する請求項のうちいずれか一項に記載の方法。
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、先行する請求項のうちいずれか一項に記載の方法。
先行する請求項のうちいずれか一項に記載の方法を使用して識別される、前記第２の規模の供試生物。
第１の規模の測定値を基に第２の規模の目的の表現型に関する生物の性能を改善するためのシステムであって、
１つまたは複数のプロセッサと、
命令を記憶している１つまたは複数のメモリであって、前記命令が、前記１つまたは複数のプロセッサのうち少なくとも１つによって実行されたとき、前記システムに、
ａ．第１の規模の１つまたは複数の第１の生物の観測された第１の性能に少なくとも部分的に基づく第１の規模の性能データと、前記第１の規模よりも大きい第２の規模の１つまたは複数の第２の生物の観測された第２の性能に少なくとも部分的に基づく第２の規模の性能データとにアクセスさせるステップであって、ここで前記第１の規模の性能データが第１の規模の統計モデルに少なくとも部分的に基づくものであるステップと、
ｂ．前記第１の規模の性能データに対する前記第２の規模の性能データの関係性に少なくとも部分的に基づいて予測関数を生成させるステップであって、ここで前記第２の規模の１つまたは複数の供試生物についての第２の規模の予測性能データを生成するために、前記第１の規模の前記目的の表現型に関して前記１つまたは複数の供試生物についての観測された性能データに対して前記予測関数が適用可能であるステップと
を行う、１つまたは複数のメモリと
を備えるシステム。
前記予測関数が、１つまたは複数の第１の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第１の規模の性能変数のうち少なくとも１つが、生物性能の２つまたはそれよりも多くの測定値の組合せに基づくものである、請求項２８に記載のシステム。
前記第１の規模の統計モデルが前記第１の規模の生物体の特徴を表す、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記生物体の特徴が、プロセス条件、培地条件、または遺伝因子を含む、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
少なくとも１つの生物体の特徴が生物位置に関連している、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記予測関数を生成するステップが、１つまたは複数の外れ値生物に関する前記第１の規模の性能データおよび前記第２の規模の性能データを検討項目から除去するステップをさらに含む、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記予測関数を生成するステップが、前記予測関数の誤差を低減するために１つまたは複数の因子を組み込むステップをさらに含む、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記予測関数を生成するステップが、少なくとも１つの遺伝因子に関して調整するステップをさらに含む、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記１つまたは複数のメモリが、
ｃ．因子のセットからの１つまたは複数の因子によって前記予測関数を改変するステップと、
ｄ．前記予測関数を生成する際の検討項目から第１の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第１の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記改変された予測関数をもたらすことになるステップと
のためのさらなる命令を記憶している、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記１つまたは複数のメモリが、
ｅ．因子のセットからの１つまたは複数の因子によって前記予測関数を改変するステップと、
ｆ．第１の候補の外れ値生物に関して前記改変された予測関数のレバレッジメトリックがレバレッジ条件を満たす場合には、前記改変された予測関数を前記予測関数として使用するステップと
のためのさらなる命令を記憶している、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記第１の候補の外れ値生物が、前記予測関数を生成する際に除外する場合、前記改変された予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす生物である、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記１つまたは複数のメモリが、
ｉ．前記第１の候補の外れ値生物を除外して前記予測関数を生成する際に検討項目から除外する場合、前記予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす第２の生物を、第２の候補の外れ値生物であると識別するステップと、
ｉｉ．因子のセットからの１つまたは複数の因子によって前記予測関数を改変して、第２の改変された予測関数を生成するステップと、
ｉｉｉ．前記予測関数を生成する際の検討項目から前記第２の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第２の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記第２の改変された予測関数をもたらすことになるステップと
のためのさらなる命令を記憶している、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
第１の候補の外れ値生物が前記第１の規模の性能データおよび前記第２の規模の性能データで表され、前記１つまたは複数の供試生物が前記第１の候補の外れ値生物を含み、前記第２の規模の予測性能データが、前記第１の候補の外れ値生物の前記第２の規模の予測性能を表す、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記予測関数を改変するステップが、前記１つまたは複数の因子を前記予測関数に組み込むステップまたは前記予測関数から除去するステップを含む、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記１つまたは複数の因子が遺伝因子を含む、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記予測関数を生成するステップが、前記第１の規模の性能データおよび前記第２の規模の性能データを使用して機械学習モデルを訓練するステップを含む、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記予測関数を生成するステップが、前記１つまたは複数の因子によって前記予測関数を改変する前記プロセスにおいて機械学習を適用するステップを含む、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記１つまたは複数のメモリが、
ｇ．複数の予測関数に関する性能誤差メトリックを比較するステップと、
ｈ．少なくとも前記比較に基づいて前記予測関数にランク付けするステップと
のためのさらなる命令を記憶している、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記１つまたは複数の第１の生物に関する前記第１の規模の性能データが第１の規模の統計モデルの出力を表し、前記１つまたは複数のメモリが、
ｉ．前記第２の規模の前記１つまたは複数の第１の生物に関する予測性能を前記第２の規模の性能データと比較するステップと、
ｊ．前記比較に少なくとも部分的に基づいて前記第１の規模の統計モデルのパラメータを調整するステップと
のためのさらなる命令を記憶している、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記第１の規模がプレート規模であり、前記第２の規模がタンク規模である、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記１つまたは複数の第２の生物が前記１つまたは複数の第１の生物のサブセットである、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記表現型が化合物の生産を含む、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記生物が微生物株である、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記１つまたは複数のメモリが、前記第２の規模の前記１つまたは複数の供試生物についての前記第２の規模の予測性能データを生成するために、前記第１の規模の目的の表現型に関して前記１つまたは複数の供試生物についての観測された性能データに対して前記予測関数を適用するステップのためのさらなる命令を記憶している、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記１つまたは複数のメモリが、前記第２の規模の予測性能に少なくとも部分的に基づいて、前記１つまたは複数の供試生物のうち少なくとも１つを製造するステップのためのさらなる命令を記憶している、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、請求項２８から続く先行する請求項のうちいずれか一項に記載のシステム。
第１の規模の測定値を基に第２の規模の目的の表現型に関する生物の性能を改善するための命令を記憶している１つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が１つまたは複数のコンピューティングデバイスによって実行されたとき、前記１つまたは複数のコンピューティングデバイスのうち少なくとも１つに、
ａ．第１の規模の１つまたは複数の第１の生物の観測された第１の性能に少なくとも部分的に基づく第１の規模の性能データと、前記第１の規模よりも大きい第２の規模の１つまたは複数の第２の生物の観測された第２の性能に少なくとも部分的に基づく第２の規模の性能データとにアクセスさせるステップであって、ここで前記第１の規模の性能データが第１の規模の統計モデルに少なくとも部分的に基づくものであるステップと、
ｂ．前記第１の規模の性能データに対する前記第２の規模の性能データの関係性に少なくとも部分的に基づいて予測関数を生成させるステップであって、ここで前記第２の規模の１つまたは複数の供試生物についての第２の規模の予測性能データを生成するために、前記第１の規模の前記目的の表現型に関して前記１つまたは複数の供試生物についての観測された性能データに対して前記予測関数が適用可能であるステップと
を行う、１つまたは複数の非一時的コンピュータ可読媒体。
前記予測関数が、１つまたは複数の第１の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第１の規模の性能変数のうち少なくとも１つが、生物性能の２つまたはそれよりも多くの測定値の組合せに基づくものである、請求項５４に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記第１の規模の統計モデルが前記第１の規模の生物体の特徴を表す、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記生物体の特徴が、プロセス条件、培地条件、または遺伝因子を含む、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
少なくとも１つの生物体の特徴が生物位置に関連している、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記予測関数を生成するステップが、１つまたは複数の外れ値生物に関する前記第１の規模の性能データおよび前記第２の規模の性能データを検討項目から除去するステップをさらに含む、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記予測関数を生成するステップが、前記予測関数の誤差を低減するために１つまたは複数の因子を組み込むステップをさらに含む、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記予測関数を生成するステップが、少なくとも１つの遺伝因子に関して調整するステップをさらに含む、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
ａ．因子のセットからの１つまたは複数の因子によって前記予測関数を改変するステップと、
ｂ．前記予測関数を生成する際の検討項目から第１の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第１の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記改変された予測関数をもたらすことになるステップと
のためのさらなる命令を記憶している、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
ａ．因子のセットからの１つまたは複数の因子によって前記予測関数を改変するステップと、
ｂ．第１の候補の外れ値生物に関して前記改変された予測関数のレバレッジメトリックがレバレッジ条件を満たす場合には、前記改変された予測関数を前記予測関数として使用するステップと
のためのさらなる命令を記憶している、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記第１の候補の外れ値生物が、前記予測関数を生成する際に除外する場合、前記改変された予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす生物である、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
ｉ．前記第１の候補の外れ値生物を除外して前記予測関数を生成する際に検討項目から除外する場合、前記予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす第２の生物を、第２の候補の外れ値生物であると識別するステップと、
ｉｉ．因子のセットからの１つまたは複数の因子によって前記予測関数を改変して、第２の改変された予測関数を生成するステップと、
ｉｉｉ．前記予測関数を生成する際の検討項目から前記第２の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第２の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記第２の改変された予測関数をもたらすことになるステップと
のためのさらなる命令を記憶している、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
第１の候補の外れ値生物が前記第１の規模の性能データおよび前記第２の規模の性能データで表され、前記１つまたは複数の供試生物が前記第１の候補の外れ値生物を含み、前記第２の規模の予測性能データが、前記第１の候補の外れ値生物の前記第２の規模の予測性能を表す、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記予測関数を改変するステップが、前記１つまたは複数の因子を前記予測関数に組み込むステップまたは前記予測関数から除去するステップを含む、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記１つまたは複数の因子が遺伝因子を含む、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記予測関数を生成するステップが、前記第１の規模の性能データおよび前記第２の規模の性能データを使用して機械学習モデルを訓練するステップを含む、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記予測関数を生成するステップが、前記１つまたは複数の因子によって前記予測関数を改変する前記プロセスにおいて機械学習を適用するステップを含む、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
ａ．複数の予測関数に関する性能誤差メトリックを比較するステップと、
ｂ．少なくとも前記比較に基づいて前記予測関数にランク付けするステップと
のためのさらなる命令を記憶している、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記１つまたは複数の第１の生物に関する前記第１の規模の性能データが第１の規模の統計モデルの出力を表し、前記１つまたは複数の非一時的コンピュータ可読媒体が、
ａ．前記第２の規模の前記１つまたは複数の第１の生物に関する予測性能を前記第２の規模の性能データと比較するステップと、
ｂ．前記比較に少なくとも部分的に基づいて前記第１の規模の統計モデルのパラメータを調整するステップと
のためのさらなる命令を記憶している、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記第１の規模がプレート規模であり、前記第２の規模がタンク規模である、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記１つまたは複数の第２の生物が前記１つまたは複数の第１の生物のサブセットである、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記表現型が化合物の生産を含む、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記生物が微生物株である、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記第２の規模の前記１つまたは複数の供試生物についての前記第２の規模の予測性能データを生成するために、前記第１の規模の目的の表現型に関して前記１つまたは複数の供試生物についての観測された性能データに対して前記予測関数を適用するステップのためのさらなる命令を記憶している、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記第２の規模の予測性能に少なくとも部分的に基づいて前記１つまたは複数の供試生物のうち少なくとも１つを製造するステップのためのさらなる命令を記憶している、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、請求項５４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
第２の規模の目的の表現型に関する生物の性能を、前記第２の規模よりも小さい第１の規模の生物の観測された性能に基づいて改善するためのコンピュータ実装方法であって、
ａ．予測関数にアクセスするステップであって、前記予測関数が、第１の規模の性能データに対する第２の規模の性能データの関係性に少なくとも部分的に基づくものであり、前記第１の規模の性能データが、第１の規模の統計モデルおよび第１の規模の１つまたは複数の第１の生物の観測された第１の性能に少なくとも部分的に基づくものであり、前記第２の規模の性能データが、前記第１の規模よりも大きい第２の規模の１つまたは複数の第２の生物の観測された第２の性能に少なくとも部分的に基づくものであるステップと、
ｂ．前記第１の規模の１つまたは複数の供試生物に前記予測関数を適用して、前記第２の規模の前記１つまたは複数の供試生物に関する第２の規模の予測性能データを生成するステップと
を含む方法。
前記予測関数が、１つまたは複数の第１の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第１の規模の性能変数のうち少なくとも１つが、生物性能の２つまたはそれよりも多くの測定値の組合せに基づくものである、請求項８０に記載の方法。
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、請求項８０から続く先行する請求項のうちいずれか一項に記載の方法。
前記予測関数が、１つまたは複数の外れ値生物に関する前記第１の規模の性能データおよび前記第２の規模の性能データによる影響を除外する、請求項８０から続く先行する請求項のうちいずれか一項に記載の方法。
前記予測関数が前記予測関数の誤差を低減するために１つまたは複数の遺伝因子を組み込む、請求項８０から続く先行する請求項のうちいずれか一項に記載の方法。
前記予測関数が第１の候補の外れ値生物による影響を除外するものであり、前記予測関数を生成する際に前記影響が含まれている場合、レバレッジ条件を満たさないレバレッジメトリックを有する改変された予測関数をもたらすことになり、前記改変された予測関数は１つまたは複数の因子による前記予測関数への改変を組み込んでいる、請求項８０から続く先行する請求項のうちいずれか一項に記載の方法。
前記予測関数が、前記第１の規模の性能データおよび前記第２の規模の性能データを使用して機械学習モデルを訓練することによって生成される、請求項８０から続く先行する請求項のうちいずれか一項に記載の方法。
前記第１の規模がプレート規模であり、前記第２の規模がタンク規模である、請求項８０から続く先行する請求項のうちいずれか一項に記載の方法。
前記１つまたは複数の第２の生物が前記１つまたは複数の第１の生物のサブセットである、請求項８０から続く先行する請求項のうちいずれか一項に記載の方法。
前記表現型が化合物の生産を含む、請求項８０から続く先行する請求項のうちいずれか一項に記載の方法。
前記生物が微生物株である、請求項８０から続く先行する請求項のうちいずれか一項に記載の方法。
前記第２の規模の予測性能に少なくとも部分的に基づいて前記１つまたは複数の供試生物のうち少なくとも１つを製造するステップをさらに含む、請求項８０から続く先行する請求項のうちいずれか一項に記載の方法。
第２の規模の目的の表現型に関する生物の性能を、前記第２の規模よりも小さい第１の規模の生物の観測された性能に基づいて改善するためのシステムであって、
１つまたは複数のプロセッサと、
命令を記憶している１つまたは複数のメモリであって、前記命令が、前記１つまたは複数のプロセッサのうち少なくとも１つによって実行されたとき、前記システムに、
ａ．予測関数にアクセスさせるステップであって、ここで、前記予測関数が、第１の規模の性能データに対する第２の規模の性能データの関係性に少なくとも部分的に基づくものであり、前記第１の規模の性能データが、第１の規模の統計モデルおよび第１の規模の１つまたは複数の第１の生物の観測された第１の性能に少なくとも部分的に基づくものであり、前記第２の規模の性能データが、前記第１の規模よりも大きい第２の規模の１つまたは複数の第２の生物の観測された第２の性能を表すステップと、
ｂ．前記第１の規模の１つまたは複数の供試生物に前記予測関数を適用して、前記第２の規模の前記１つまたは複数の供試生物に関する第２の規模の予測性能データを生成させるステップと
を行う、１つまたは複数のメモリと
を備えるシステム。
前記予測関数が、１つまたは複数の第１の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第１の規模の性能変数のうち少なくとも１つが、生物性能の２つまたはそれよりも多くの測定値の組合せに基づくものである、請求項９２に記載のシステム。
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、請求項９２から続く先行する請求項のうちいずれか一項に記載のシステム。
前記予測関数が、１つまたは複数の外れ値生物に関する前記第１の規模の性能データおよび前記第２の規模の性能データによる影響を除外する、請求項９２から続く先行する請求項のうちいずれか一項に記載のシステム。
前記予測関数が前記予測関数の誤差を低減するために１つまたは複数の遺伝因子を組み込む、請求項９２から続く先行する請求項のうちいずれか一項に記載のシステム。
前記予測関数が第１の候補の外れ値生物による影響を除外するものであり、前記予測関数を生成する際に前記影響が含まれている場合、レバレッジ条件を満たさないレバレッジメトリックを有する改変された予測関数をもたらすことになり、前記改変された予測関数は１つまたは複数の因子による前記予測関数への改変を組み込んでいる、請求項９２から続く先行する請求項のうちいずれか一項に記載のシステム。
前記予測関数が、前記第１の規模の性能データおよび前記第２の規模の性能データを使用して機械学習モデルを訓練することによって生成される、請求項９２から続く先行する請求項のうちいずれか一項に記載のシステム。
前記第１の規模がプレート規模であり、前記第２の規模がタンク規模である、請求項９２から続く先行する請求項のうちいずれか一項に記載のシステム。
前記１つまたは複数の第２の生物が前記１つまたは複数の第１の生物のサブセットである、請求項９２から続く先行する請求項のうちいずれか一項に記載のシステム。
前記表現型が化合物の生産を含む、請求項９２から続く先行する請求項のうちいずれか一項に記載のシステム。
前記生物が微生物株である、請求項９２から続く先行する請求項のうちいずれか一項に記載のシステム。
前記１つまたは複数のメモリが、前記第２の規模の予測性能に少なくとも部分的に基づいて前記１つまたは複数の供試生物のうち少なくとも１つを製造するステップのためのさらなる命令を記憶している、請求項９２から続く先行する請求項のうちいずれか一項に記載のシステム。
第２の規模の目的の表現型に関する生物の性能を、前記第２の規模よりも小さい第１の規模の観測された生物の性能を基に改善するための命令を記憶している１つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が１つまたは複数のコンピューティングデバイスによって実行されたとき、前記１つまたは複数のコンピューティングデバイスのうち少なくとも１つに、
ａ．予測関数にアクセスさせるステップであって、ここで前記予測関数が、第１の規模の性能データに対する第２の規模の性能データの関係性に少なくとも部分的に基づくものであり、前記第１の規模の性能データが、第１の規模の統計モデルおよび第１の規模の１つまたは複数の第１の生物の観測された第１の性能に少なくとも部分的に基づくものであり、前記第２の規模の性能データが、前記第１の規模よりも大きい第２の規模の１つまたは複数の第２の生物の観測された第２の性能を表すステップと、
ｂ．前記第１の規模の１つまたは複数の供試生物に前記予測関数を適用して、前記第２の規模の前記１つまたは複数の供試生物に関する第２の規模の予測性能データを生成させるステップと
を行う、１つまたは複数の非一時的コンピュータ可読媒体。
前記予測関数が、１つまたは複数の第１の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第１の規模の性能変数のうち少なくとも１つが、生物性能の２つまたはそれよりも多くの測定値の組合せに基づくものである、請求項１０４に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、請求項１０４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記予測関数が、１つまたは複数の外れ値生物に関する前記第１の規模の性能データおよび前記第２の規模の性能データによる影響を除外する、請求項１０４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記予測関数が前記予測関数の誤差を低減するために１つまたは複数の遺伝因子を組み込む、請求項１０４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記予測関数が第１の候補の外れ値生物による影響を除外するものであり、前記予測関数を生成する際に前記影響が含まれている場合、レバレッジ条件を満たさないレバレッジメトリックを有する改変された予測関数をもたらすことになり、前記改変された予測関数は１つまたは複数の因子による前記予測関数への改変を組み込んでいる、請求項１０４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記予測関数が、前記第１の規模の性能データおよび前記第２の規模の性能データを使用して機械学習モデルを訓練することによって生成される、請求項１０４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記第１の規模がプレート規模であり、前記第２の規模がタンク規模である、請求項１０４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記１つまたは複数の第２の生物が前記１つまたは複数の第１の生物のサブセットである、請求項１０４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記目的の表現型が化合物の生産を含む、請求項１０４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記生物が微生物株である、請求項１０４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記第２の規模の予測性能に少なくとも部分的に基づいて前記１つまたは複数の供試生物のうち少なくとも１つを製造するステップのためのさらなる命令を記憶している、請求項１０４から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
第２の規模の目的の表現型に関する生物の性能を、前記第２の規模よりも小さい第１の規模の観測された性能に基づいて改善するためのコンピュータ実装方法であって、
ａ．前記第１の規模の生物体の特徴を表す第１の規模の統計モデルの選択を表す第１のユーザ入力を受け取るステップと、
ｂ．予測関数の選択を表す第２のユーザ入力を受け取るステップと、
ｃ．前記目的の表現型に関する性能データのタイプの選択を表す第３のユーザ入力を受け取るステップと、
ｄ．グラフィックディスプレイに対して予測関数を供給するステップであって、前記予測関数が、前記第１の規模の１つまたは複数の供試生物について観測された性能データに対して前記予測関数を適用することに基づいて前記第２の規模の１つまたは複数の供試生物に関する前記選択されたタイプの第２の規模の予測性能データをもたらすためのものであるステップと
を含む方法。
グラフィックディスプレイに対して、前記第２の規模の１つまたは複数の供試生物に関する前記第２の規模の予測性能データを供給するステップをさらに含む請求項１１６に記載の方法。
前記第１の規模の性能データが前記第１の規模の統計モデルを使用して生成される、請求項１１６から続く先行する請求項のうちいずれか一項に記載の方法。
前記予測関数を生成する際に検討項目から除去される１つまたは複数の外れ値生物のユーザ選択を表すユーザ入力を受け取るステップをさらに含む、請求項１１６から続く先行する請求項のうちいずれか一項に記載の方法。
前記予測関数を生成する際に使用される１つまたは複数の因子のユーザ選択を表すユーザ入力を受け取るステップをさらに含む、請求項１１６から続く先行する請求項のうちいずれか一項に記載の方法。
前記１つまたは複数の因子が１つまたは複数の遺伝因子を含む、請求項１１６から続く先行する請求項のうちいずれか一項に記載の方法。
前記１つまたは複数の供試生物のうち少なくとも１つを生成するステップをさらに含む、請求項１１６から続く先行する請求項のうちいずれか一項に記載の方法。
請求項１１６から続く先行する請求項のうちいずれか一項に記載の方法を使用して識別される、前記第２の規模の供試生物。
第２の規模の目的の表現型に関する生物の性能を、前記第２の規模よりも小さい第１の規模の観測された性能に基づいて改善するためのシステムであって、
１つまたは複数のプロセッサと、
命令を記憶している１つまたは複数のメモリであって、前記命令が、前記１つまたは複数のプロセッサのうち少なくとも１つによって実行されたとき、前記システムに、
ａ．前記第１の規模の生物体の特徴を表す第１の規模の統計モデルの選択を表す第１のユーザ入力を受け取らせるステップと、
ｂ．予測関数の選択を表す第２のユーザ入力を受け取らせるステップと、
ｃ．前記目的の表現型に関する性能データのタイプの選択を表す第３のユーザ入力を受け取らせるステップと、
ｄ．グラフィックディスプレイに対して予測関数を供給させるステップであって、前記予測関数が、前記第１の規模の１つまたは複数の供試生物について観測された性能データに対して前記予測関数を適用することを基に、前記第２の規模の１つまたは複数の供試生物に関する前記選択されたタイプの第２の規模の予測性能データをもたらすためのものであるステップと
を行う、１つまたは複数のメモリと
を備えるシステム。
前記１つまたは複数のメモリが、グラフィックディスプレイに対して前記第２の規模の１つまたは複数の供試生物に関する前記第２の規模の予測性能データを供給するためのさらなる命令を記憶している、請求項１２４に記載のシステム。
前記第１の規模の性能データが前記第１の規模の統計モデルを使用して生成される、請求項１２４から続く先行する請求項のうちいずれか一項に記載のシステム。
前記１つまたは複数のメモリが、前記予測関数を生成する際に検討項目から除去される１つまたは複数の外れ値生物のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、請求項１２４から続く先行する請求項のうちいずれか一項に記載のシステム。
前記１つまたは複数のメモリが、前記予測関数を生成する際に使用される１つまたは複数の因子のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、請求項１２４から続く先行する請求項のうちいずれか一項に記載のシステム。
前記１つまたは複数の因子が１つまたは複数の遺伝因子を含む、請求項１２４から続く先行する請求項のうちいずれか一項に記載のシステム。
前記１つまたは複数のメモリが、前記１つまたは複数の供試生物のうち少なくとも１つを生成するステップのためのさらなる命令を記憶している、請求項１２４から続く先行する請求項のうちいずれか一項に記載のシステム。
第２の規模の目的の表現型に関する生物の性能を、前記第２の規模よりも小さい第１の規模の観測された性能を基に改善するための命令を記憶している１つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が１つまたは複数のコンピューティングデバイスによって実行されたとき、前記１つまたは複数のコンピューティングデバイスのうち少なくとも１つに、
ａ．前記第１の規模の生物体の特徴を表す第１の規模の統計モデルの選択を表す第１のユーザ入力を受け取らせるステップと、
ｂ．予測関数の選択を表す第２のユーザ入力を受け取らせるステップと、
ｃ．前記目的の表現型に関する性能データのタイプの選択を表す第３のユーザ入力を受け取らせるステップと、
ｄ．グラフィックディスプレイに対して予測関数を供給させるステップであって、前記予測関数が、前記第１の規模の１つまたは複数の供試生物について観測された性能データに対して前記予測関数を適用することを基に、前記第２の規模の１つまたは複数の供試生物に関する前記選択されたタイプの第２の規模の予測性能データをもたらすためのものであるステップと
を行う、１つまたは複数の非一時的コンピュータ可読媒体。
グラフィックディスプレイに対して前記第２の規模の１つまたは複数の供試生物に関する前記第２の規模の予測性能データを供給するためのさらなる命令を記憶している、請求項１３１に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記第１の規模の性能データが前記第１の規模の統計モデルを使用して生成される、請求項１３１から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記予測関数を生成する際に検討項目から除去される１つまたは複数の外れ値生物のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、請求項１３１から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記予測関数を生成する際に使用される１つまたは複数の因子のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、請求項１３１から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記１つまたは複数の因子が１つまたは複数の遺伝因子を含む、請求項１３１から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。
前記１つまたは複数の供試生物のうち少なくとも１つを生成するステップのためのさらなる命令を記憶している、請求項１３１から続く先行する請求項のうちいずれか一項に記載の１つまたは複数の非一時的コンピュータ可読媒体。