JP2021502084A - 小規模条件の性能に基づく大規模条件の性能のための生物の最適化 - Google Patents

小規模条件の性能に基づく大規模条件の性能のための生物の最適化 Download PDF

Info

Publication number
JP2021502084A
JP2021502084A JP2020524820A JP2020524820A JP2021502084A JP 2021502084 A JP2021502084 A JP 2021502084A JP 2020524820 A JP2020524820 A JP 2020524820A JP 2020524820 A JP2020524820 A JP 2020524820A JP 2021502084 A JP2021502084 A JP 2021502084A
Authority
JP
Japan
Prior art keywords
scale
performance
performance data
organism
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2020524820A
Other languages
English (en)
Inventor
コック, ステファン デ
コック, ステファン デ
ピーター エンヤート,
ピーター エンヤート,
リチャード ハンセン,
リチャード ハンセン,
トレント ホーク,
トレント ホーク,
ザカリア サーバー,
ザカリア サーバー,
アメリア テイラー,
アメリア テイラー,
トーマス トレイナー,
トーマス トレイナー,
クリスティーナ タイナー,
クリスティーナ タイナー,
サラ リーダー,
サラ リーダー,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zymergen Inc
Original Assignee
Zymergen Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zymergen Inc filed Critical Zymergen Inc
Publication of JP2021502084A publication Critical patent/JP2021502084A/ja
Ceased legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M41/00Means for regulation, monitoring, measurement or control, e.g. flow regulation
    • C12M41/48Automatic or computerized control
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Sustainable Development (AREA)
  • Genetics & Genomics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Probability & Statistics with Applications (AREA)

Abstract

第1の規模の測定値に基づいて第2の規模の目的の表現型に関する生物の性能を改善するための、システムと、方法と、実行可能命令を記憶するコンピュータ可読媒体とが提供される。第1の規模の第1の生物の観測された第1の性能に少なくとも部分的に基づく第1の規模の性能データと、第1の規模よりも大きい第2の規模の第2の生物の観測された第2の性能に少なくとも部分的に基づく第2の規模の性能データとがアクセスされる。第1の規模の性能データに対する第2の規模の性能データの関係に少なくとも部分的に基づく予測関数が生成される。第2の規模の供試生物についての第2の規模の予測性能データを生成するために、第1の規模の目的の表現型に関して供試生物についての観測された性能データに対して予測関数が適用され得る。

Description

関連出願の相互参照
本願は、全体が参照によって本明細書に組み込まれている2017年11月9日出願の米国仮出願第62/583,961号に対する優先権の利益を主張するものである。
開示の分野
本開示は一般に代謝工学およびゲノム工学の分野に関し、より詳細には大規模環境における化学的標的の生産のための生物の代謝の最適化の分野に関する。
背景技術の節で論じられる主題は、単に背景技術の節において言及される結果として従来技術であると決めてかかるべきではない。同様に、背景技術の節において言及される問題または背景技術の節の主題に関連する問題は、従来技術において以前に認知されたものと想定されるべきではない。背景技術の節における主題は単に様々な手法を表し、それ自体がまた、特許請求される技術の実装形態に対応し得るものである。
生細胞など、理解が不十分なシステムの性能を最適化するための最高の手法は、大抵の場合、できるだけ多くの異なる改変を試験して、最良の性能を発揮するものを実験的に決定することである。工業生産にとって適切な規模で改変を試験することは、一般的には高価で時間がかかるため、規模を拡大して改変を試験することのスループットは非常に低い。したがって、多数の改変の中から性能に関して最高の候補を迅速に識別するために、小規模かつ高スループットのスクリーニング手法が使用されている。しかしながら、この手法が成功するためには、小規模性能から大規模性能を予測する確実な手段が必要である。例として、規模は、多くのウェル(たとえば1つのウェル当たり200μL)を有する小さいプレートから、より少ないウェルを有するより大きいプレート、ベンチ規模のタンク(たとえば5リットルまたはそれよりも大きい)、工業サイズのタンク(たとえば100〜500,000リットル)まである。
医薬品工業の技術分野では、新規の有効な薬物を識別するために、そのような手法が広く適用されている。最初に、数千もの候補分子が、in vivo活性に関する予測上の代用物であると期待されるアッセイにおける活性に関してin vitroでスクリーニングされ得る。最高のパフォーマを決定するために統計的手法(たとえば、Malo et al. ”Statistical practice in high−throughput screening data analysis.” Nat Biotechnol 24: 167−175 (2006)を参照されたい)が適用され、次いで、最高のパフォーマは、より費用がかかるより大規模な実験(マウスおよび人間におけるin vivo試験を含み得る)に使用される。
しかしながら、これらの手法は、より低いスループットの実験に関する将来の決定のためのランキング性能とは対照的に、二者択一の判断(たとえば、有効か有効でないか)を対象とするものである。さらに、これらの手法は、試験される試料の大部分が同一の値を有し、目的のものではないと想定する。目的の特定の生成物を、大規模に生成するために、細胞の遺伝経路が最適化される代謝工学の分野では、これらの想定は成り立たない。詳細には、複数の株の系統を反復して改善を加えるとき、測定された値がはなはだしく変動する可能性があり、改善したものと思われる試料が、より低いスループットで大規模に合理的にスクリーニングすることができる試料数よりもはるかに多くなってしまうことがあり、そのため、性能の明瞭なランキングが必要とされる。言い換えれば、どの試料がより優れているかを決定するのでは不十分であり、次のレベルの規模において、どの試料が最良か、好ましくはその程度も知ることが重要である。
Malo et al. "Statistical practice in high−throughput screening data analysis." Nat Biotechnol 24: 167−175 (2006)
従来の予測モデリングでは、モデルの予測誤差を低減するために、一般的には訓練データセットから統計的外れ値が除去される。しかしながら、本発明者は、ゲノム工学の分野では、より小規模の条件から、より大規模の条件における性能を予測するための最適なモデルを達成するのに、そのような外れ値の棄却は不要であり得ることを認識した。代わりに、外れ値を除去する必要性を軽減するために、モデルに対してさらなる特徴が追加され得る。
本開示は、とりわけ化学的標的の大量生産のための生物の代謝の最適化の技術分野において、小規模かつ高スループットの測定値を基に、大規模かつ低スループットの条件において重要な性能指標(たとえば収率、生産性、力価)の値を確実に予測するための頑健な方法を提供するものである。本開示の実施形態は、予測のために最適化された統計モデルを採用し得る。さらに、本開示が提供する伝達関数開発ツールは、再現可能なやり方でモデルを生成し、決定を記録し、予測値を得、予測値と共に働くための高速で簡単な機構をもたらすものである。
本開示の状況では、伝達関数は、1つの状況における性能を別の状況における性能に基づいて予測するための統計モデルであり、主要目的は、大規模の試料の性能を小規模の試料の性能から予測することである。実施形態において、伝達関数は、本発明者が発見した最適化と併せて、小規模値および大規模値を考慮に入れる1因子線形回帰を採用するものである。他の実施形態では、伝達関数は重回帰を採用し得る。
これらの回帰モデルを構築するために、本開示の一部の実施形態は、モデルを使用して、高スループットの状況(たとえばプレートモデル)における株の性能を要約し、次いで、より低いスループットの状況での複数の実施にわたって株の性能を予測するために、個別のモデル(たとえば伝達関数)を使用する。
特に伝達関数に線形モデルを採用する実施形態では、いくつかの株を検討項目(consideration)から除去するとモデルの予測力が改善することが認められ、この反復プロセスはそれ自体の最適化であった。実施形態では、上記に列記された試料特性を使用する方法は、特性(遺伝子改変の存在、系統など)を反復して識別するための機構をもたらし、高スループット性能を予測する因子としてこの機構を含有すると、予測力がさらに改善され得る一方で、そうでなければ除去されかねない株も、モデルの中に維持され得る。そのような技法により、予測性能を計算する際の処理負荷が軽くなる。
本開示の実施形態は、第1の規模の測定値を基に、第2の規模の目的の表現型に関して生物の性能を改善するための、システムと、方法と、実行可能命令を記憶するコンピュータ可読媒体とを提供するものである。本開示の実施形態は、(a)第1の規模の1つまたは複数の第1の生物の観測された第1の性能を表す第1の規模の性能データと、第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能を表す第2の規模の性能データとにアクセスして、(b)第1の規模の性能データに対する第2の規模の性能データの関係に少なくとも部分的に基づき、予測関数を生成するものである。本開示の実施形態によれば、第2の規模の1つまたは複数の供試生物についての第2の規模の予測性能データを生成するために、第1の規模の目的の表現型に関して1つまたは複数の供試生物についての観測された性能データに対して予測関数が適用される。本開示の実施形態は、第2の規模の予測性能に少なくとも部分的に基づいて、1つまたは複数の供試生物のうち少なくとも1つを製造することをさらに含む。
本開示の実施形態によれば、第1の規模はプレート規模であり、第2の規模はタンク規模である。1つまたは複数の第2の生物は、1つまたは複数の第1の生物のサブセットでよい。表現型は化合物の生成を含み得る。生物は微生物株でよい。
本開示の実施形態によれば、第1の規模の統計モデルを使用して、1つまたは複数の第1の生物に関する第1の規模の性能データが生成される。第1の規模の統計モデルは第1の規模の生物体の特徴(organism feature)を表し得る。生物体の特徴は、プロセス条件、培地条件、または遺伝因子を含み得る。生物体の特徴は生物位置に関連し得る。本開示の実施形態によれば、予測関数は、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づき、第1の規模の性能変数のうち少なくとも1つは、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである(「1つまたは複数の変数の合計」は、1つの変数だけが合計されるときには単に変数自体であることが理解される)。本開示の実施形態によれば、組合せは、生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである。
本開示の実施形態によれば、予測関数を生成することは、1つまたは複数の外れ値生物に関する第1の規模の性能データおよび第2の規模の性能データを検討項目から除去することを含み得る。本開示の実施形態によれば、予測関数を生成することは、予測関数の誤差(たとえば、レバレッジメトリック)を低減するために1つまたは複数の因子(たとえば遺伝因子)を組み込むことを含み得る。
本開示の実施形態は、因子のセットからの1つまたは複数の因子によって予測関数を改変して、第1の候補の外れ値生物を検討項目から除外して(すなわち、第1の候補の外れ値生物について観測された性能データを除外して)予測関数を生成してよく、この性能データを含めて予測関数を生成すると、レバレッジ条件を満たさないレバレッジメトリックを有する改変された予測関数をもたらすことになる。本開示の実施形態によれば、「レバレッジ」は、一般に、株が、モデルの予測能力の誤差に及ぼす影響を含めて、予測モデルの出力(たとえば予測性能)に及ぼす影響の量を指し得る。本開示の実施形態によれば、第1の候補の外れ値生物に関して改変された予測関数のレバレッジメトリックがレバレッジ条件を満たす場合には、そのような実施形態は、改変された予測関数を予測関数として使用し得る。
本開示の実施形態によれば、第1の候補の外れ値生物は、予測関数を生成する際に検討項目から除外する場合、改変される予測関数のレバレッジメトリックにおいて最大の改善をもたらす生物である。本開示の実施形態は、(a)第1の候補の外れ値生物も除外した条件で予測関数を生成する際に、検討項目から除外する場合、予測関数のレバレッジメトリックにおいて最大の改善をもたらす生物を、第2の候補の外れ値生物であると識別し、(b)因子のセットからの1つまたは複数の因子によって予測関数を改変して、第2の改変された予測関数を生成し、(c)予測関数を生成する際の検討項目から第2の候補の外れ値生物を除外するものであり、予測関数を生成する際に第2の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する第2の改変された予測関数をもたらすことになる。
本開示の実施形態によれば、第1の候補の外れ値生物は、第1の規模の性能データおよび第2の規模の性能データで表され、1つまたは複数の供試生物が第1の候補の外れ値生物を含み、第2の規模の予測性能データは、第1の候補の外れ値生物の第2の規模の予測性能を表す。
本開示の実施形態によれば、予測関数を改変することは、1つまたは複数の因子を予測関数に組み込むこと、またはその予測関数から除去することを含む。本開示の実施形態によれば、予測関数を生成することは、第1の規模の性能データおよび第2の規模の性能データを使用して機械学習モデルを訓練することを含む。本開示の実施形態によれば、予測関数を生成することは、1つまたは複数の因子によって予測関数を改変するプロセスにおいて機械学習を適用することを含む。
本開示の実施形態は、複数の予測関数について性能誤差メトリックを比較し、少なくともこの比較に基づいて予測関数をランク付けする。
本開示の実施形態によれば、1つまたは複数の第1の生物に関する第1の規模の性能データは、第1の規模の統計モデルの出力を表し、そのような実施形態は、1つまたは複数の第1の生物に関する第2の規模の予測性能を第2の規模の性能データと比較して、この比較に少なくとも部分的に基づいて、第1の規模の統計モデルのパラメータを調整する。
本開示の実施形態は、目的の表現型の改善された性能を伴う生物を第2の規模において提供するものであり、この生物は、本明細書に開示された方法のうち任意のものを使用して識別される。
本開示の実施形態が提供する伝達関数開発ツールは、ユーザが、生物に関する第2の規模の予測モデルの開発を、第2の規模よりも小さい第1の規模で観測されたデータに基づいて制御するためのユーザインターフェースをもたらすものである。実施形態によれば、このツールは、第2の規模の生物性能を予測するための予測関数にも適合する。
本開示の実施形態は予測関数にアクセスし、予測関数は、第1の規模の性能データと第2の規模の性能データの関係に少なくとも部分的に基づくものであり、本明細書で説明されたように、遺伝因子などの因子の外れ値の除去および組込みなどの最適化を含み得る。第1の規模の性能データは、第1の規模の1つまたは複数の第1の生物の観測された第1の性能を表し、第2の規模の性能データは、第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能を表す。そのような実施形態は、第1の規模の1つまたは複数の供試生物に予測関数を適用して、第2の規模の1つまたは複数の供試生物に関する第2の規模の予測性能データを生成するものである。
図1は、本開示の実施形態を実装するためのクライアント−サーバのコンピュータシステムを示す図である。
図2Aは、本開示の実施形態による、測定されたバイオリアクター(大規模なタンク)の値対個々の株のプレート(小規模)の値の比較を示す図である。
図2Bは、本開示の実施形態による一例の、バイオリアクター(タンク)に関する、実際のタンク収率値と線形予測されたタンク収率値の比較を示す図である。
図3は、タイプ1の外れ値の株Nが除去されたこと以外は、図2Bと等価なプロットである。
図4は、4つのタイプ1の外れ値および1つのタイプ2の外れ値が除去されたこと以外は、図2Bと等価なプロットである。
図5は、本開示の実施形態により、図4のすべての株に対して、ある特定の遺伝子改変を有するか否かということに基づく補正を適用した結果を表す図である。
図6は、本開示の実施形態による、図5に示されたモデルの回帰プロットである。
図7は、本開示の実施形態による、遺伝因子に関する補正のない生産性モデルを示す図である。
図8は、本開示の実施形態による、遺伝因子に関する補正後の図7の生産性モデルを示す図である。
図9は、図8のものと同一のプロモータースワップを含む株について、高スループット生産性モデルの性能における改善(x軸)対低スループットバイオリアクター(たとえばタンク)内の実際の生産性における改善(y軸)を示す図である。
図10は、本開示の実施形態による伝達関数開発ツールのユーザインターフェースを示す図である。
図11は、本開示の実施形態によるユーザインターフェースを示す図である。
図12は、本開示の実施形態による、プレート−タンク相関の伝達関数を表示するユーザインターフェースを示す図である。
図13は、本開示の実施形態により、ユーザによって選択された外れ値をモデルから除去した伝達関数を基に、最高の予測性能を有する10の株を提示するユーザインターフェースを示す図である。
図14は、本開示の実施形態による、ユーザによって選択された外れ値をモデルから除去した後の、選択された伝達関数のグラフ表示を示す図である。
図15は、本開示の実施形態により、ユーザが、データベースに対して、除去された株に関する品質スコアを提出することを可能にするインターフェースを示す図である。
図16は、本開示の実施形態によるクラウドコンピューティング環境を示す図である。
図17は、本開示の実施形態を実装するためのプログラムコードを実行するように使用され得るコンピュータシステムの一例を示す図である。
図18は、本開示の実施形態によって行われた実験に由来するプレート値対タンク値のグラフである。
図19は、本開示の実施形態によって行われた実験に由来するプレート値対タンク値のグラフである。
図20は、本開示の実施形態によって行われた実験に由来するプレート値対タンク値のグラフである。
図21は、本開示の実施形態によって行われた実験に由来するプレート値対タンク値のグラフである。
図22は、本開示の実施形態によって行われた実験に由来するプレート値対タンク値のグラフである。
図23は、本開示の実施形態によって行われた実験に由来する、観測されたタンク値対予測されたタンク値のグラフである。
図24は、本開示の実施形態によって行われた実験に由来する、観測されたタンク値対予測されたタンク値のグラフである。
図25は、本開示の実施形態によって行われた実験に由来する、第1のタンク値対第2のタンク値をプロットしたグラフである。
図26は、本開示の実施形態によって行われた実験に由来する、観測されたタンク値対予測されたタンク値のグラフである。
図27は、本開示の実施形態に基づく仮想例(prophetic example)による、糖濃度(Cs)、生成物濃度(Cp)およびバイオマス濃度(Cx)を時間にわたって推定したプロットである。
図28は、本開示の実施形態に基づく仮想例による、生成物濃度対発酵槽生成物収率のグラフである。
図29は、本開示の実施形態に基づく仮想例による、糖濃度対発酵槽生成物収率のグラフである。
図30は、本開示の実施形態に基づく仮想例による、バイオマス濃度対発酵槽生成物収率のグラフである。
図31は、本開示の実施形態に基づく仮想例による、プレートにおける生成物収率対発酵槽生成物収率のグラフである。
本説明では、様々な例示の実施形態を示す添付図面が参照される。しかしながら、多くの異なる例示の実施形態が使用されてもよく、したがって、説明は、本明細書で明らかにされた例示の実施形態に限定されるものと解釈されるべきでない。むしろ、これら例示の実施形態は、本開示が十分な完結したものになるように提供される。当業者には例示の実施形態に対する様々な修正形態が容易に明らかになるはずであり、本明細書で定義された一般的な原理は、本開示の趣旨および範囲から逸脱することなく、他の実施形態および用途に適用され得る。したがって、本開示は、示された実施形態に限定されるように意図されたものではなく、本明細書で開示された原理および特徴(feature)と一致する最も広い範囲が与えられるべきである。
図1は、本開示の実施形態の分散システム100を示す。ユーザインターフェース102は、テキストエディタまたはグラフィカルユーザインターフェース(GUI)などのクライアント側インターフェースを含む。ユーザインターフェース102は、ノートパソコンまたはデスクトップコンピュータなどのクライアント側コンピューティングデバイス103に存在し得る。クライアント側コンピューティングデバイス103は、インターネットなどのネットワーク106を通じて1つまたは複数のサーバ108に結合されている。
サーバ(複数可)108に対してローカルまたはリモートに結合された1つまたは複数のデータベース110は、ゲノムデータ、遺伝子改変データ(たとえばプロモーターラダー)、プロセス条件データ、株の環境データ、ならびに遺伝子改変に応答して小規模と大規模の両方の微生物株の性能を表し得る表現型の性能データなどのデータを含むライブラリの1つまたは複数のコーパスを含み得る。「微生物」は、本明細書では細菌、菌類、および酵母を含む。
実施形態では、サーバ(複数可)108は、少なくとも1つのプロセッサ107と、命令を記憶している少なくとも1つのメモリ109とを含み、命令は、プロセッサ107によって実行されたとき、予測関数を生成することによって、本開示の実施形態による予測エンジンとして働く。あるいは、予測エンジンのためのソフトウェアおよび関連するハードウェアは、サーバ(複数可)108の代わりにクライアント103にローカルに存在してよく、またはクライアント103とサーバ(複数可)108の両方の間に分散してもよい。実施形態では、予測エンジンのすべてまたは一部分は、図16にさらに表されたクラウドベースのサービスとして実行され得る。
データベース(複数可)110は、公開データベース、ならびに、たとえばユーザまたはサードパーティ寄与者により行われた発酵実験によって生成された分子を含むデータベースといった、ユーザまたは他者によって生成されたカスタムデータベースを含み得る。データベース(複数可)110は、クライアント103に対してローカルまたはリモートに存在してよく、あるいはローカル分散とリモート分散の両方が可能である。
本開示は、とりわけ化学的標的の大量生産のための生物の代謝の最適化の技術分野において、小規模かつ高スループットの測定値を基に、より大規模で低スループットの条件において重要な微生物の性能指標(たとえば収率、生産性、力価)の値を確実に予測するための頑健な方法を提供するものである。実施形態は、予測のために最適化された統計モデルを採用し得る。さらに、本開示が提供する伝達関数開発ツールは、再現可能なやり方でモデルを生成し、決定を記録し、予測値を得、予測値と共に働くための高速で簡単な機構をもたらすものである。
本開示では、伝達関数は、1つの状況における性能を別の状況における性能に基づいて予測するための統計モデルであり、主要目的は、大規模な試料の性能を小規模な試料の性能から予測することである。実施形態において、伝達関数は、本発明者が発見した最適化と併せて、簡単な、小規模値と大規模値の間の、1因子線形回帰を包含するものである。他の実施形態では、伝達関数は重回帰を採用し得る。
これらの回帰モデルを構築するために、本開示の実施形態は、入力モデルを使用して、高スループットの状況(たとえばプレートモデル)における株の性能を要約し、次いで、より低いスループットの状況での複数の実行にわたって株の性能を予測するために、個別のモデル(たとえば伝達関数)を使用する。プレートモデルは、たとえば、96ウェルのプレートにおける同一の株の複数の反復の性能(たとえば収率、生産性、生存度)をモデル化するために使用され得る。本開示の実施形態によれば、予測エンジンは、入力モデルを生成し、伝達関数を生成し、入力モデルの出力に伝達関数を適用して性能を予測し、あるいはそれらの任意の組合せを行う。
より高いスループットの状況における性能から、より低いスループットの状況における性能を予測するための、伝達関数と要約モデルの両方において、また、より複雑な非線形の機械学習モデルの構築において、以下の最適化の検討項目が考慮に入れられ得る。
・プレートとプレート上の位置(たとえば行−列の位置、エッジの位置)の両方によるバイアスの説明
・培地のタイプ/ロット、シェーカー位置のバイアスなどのプレート特性
・ウェルに接種するのに使用されたグリセロールストックの使用回数、より低いスループットのステップとより高いスループットのステップとの両方において使用された機械のタイプ(たとえばインキュベータ、発酵槽、計測器)のようなプロセス特性
・試料特性(細胞系統または公知の遺伝マーカーの有/無など)
小規模で高スループットの測定値を基に、より大きな規模における重要な性能指標を正確に予測するための頑健で確実な伝達関数を構築するための手法が、いくつかの決定を記録するとともにプロセスを再現可能かつ高速にする伝達関数開発ツールと併せて、以下に提示される。
本開示は、最初に、本開示の実施形態による基本的な線形モデルを提示する。本開示は、次いで、本開示の実施形態によるアルゴリズムで実装される最適化を提示する。実施形態によれば、伝達関数開発ツールは、データが受容可能なフォーマットになった後にさらなる最適化を実装するためのインフラストラクチャを含む。以下の例は、個々の株について、(より小規模でより高いスループットの)96ウェルのプレートの、それぞれ24時間および96時間におけるアミノ酸の力価を基に、(より大規模でより低いスループットの)バイオリアクターのアミノ酸の生産性(g/L/h)および収率(wt%)を予測する問題に基づくものである。
基本的な伝達関数(プレート−タンク相関)
伝達関数の最も基本的な形態はy=mx+bという形態の単一因子の線形回帰であり、ここでxは小規模かつ高スループットのスクリーニングで得られた値であり、yは大規模かつ低スループットのスクリーニングで得られた値であり、mは適合線の傾きであって、bは適合線のy切片である。実施形態はまた、複数の独立変数xに基づいて従属変数yを予測するために重回帰を採用してよい。2つの規模の単一のx値とy値の間の相関は、この基本的手法がどれほど有効かということの測度として使用され得、したがって「プレート−タンク相関」と呼ばれることがある。
伝達関数のこの基本的な形態さえ、独創的な最適化を組み込むものである。より低いスループット値に関連づけるために高スループットのスクリーニングから単純に株の平均性能を使用して株に関する単一値を得るのではなく、本開示の実施形態は、いくつかある因子の中でも特にプレート位置バイアスを補正する線形モデルを採用するものである。他の実施形態は、非線形モデルを採用してプレートモデルの他の態様を説明する。
プレート−タンク相関関数(すなわち伝達関数)は、より低いスループットでより大規模の試験がされていない試料の性能を予測するばかりでない。それは、プレートモデルの有効性を評価するためにも使用され得る。プレートモデルは、高スループットの小規模において得られた値から、大規模において得られる値をできるだけ予測し得るように設計された培地およびプロセスの制約の集合である。とりわけ、プレート−タンク相関関数の相関係数は、プレートモデルがその目的をいかに良く満たしているかを示すものである。プレートモデルには、それだけではないが、
・培地の処方および調製(たとえば培地ロット)
・希釈剤のタイプ
・接種容量
・実験器具
・振盪時間、温度および湿度
などの(プレートモデルにおいて独立変数として機能し得る)物理的特徴が組み込まれ得る。
本開示の実施形態では、プレートモデルを最適化するためにプレート−タンク相関関数が使用される。実施形態では、プレートモデルは、タンク規模における微生物発酵プロセスを模倣するものであり、それは、プレートにおける実装によってタンク性能を物理的にモデル化するものである。
プレートモデル
本開示の実施形態によれば、高スループットの状況(たとえば小規模のプレート環境)における株の性能は最小二乗平均(LS平均)法によって決定され得る。LS平均は2ステップの処理であり、最初に線形回帰が適合され、次いで、その適合モデルが、すべてのカテゴリの特徴のデカルトセットにわたる性能と、すべての数的特徴の平均値とを予測する。モデルの特徴は、統計的プレートモデルに物理的プレートモデルを関連づけ、実験が行われた条件を説明するものであり、上記に列記された最適化(たとえばプレート上の位置、プレート特性、プロセス特性、試料特性)を含む。
第1のステップのモデル形態は次式となる。
titer=βs[i]+Σβf[i]
株の効果(この例では力価)に関して推測された追加の係数βと、次いでモデルにおいて使用されるそれぞれの追加の特徴とがある。初項βは、インデックスiを付けられた、株の複製の効果(ここでは力価)である。次に、それぞれの追加項βは特徴f(たとえばプレート位置)に割り当てられた重み付けであり、xf[i]は、インデックスiを付けられた、株の複製の特徴値である。
一例として、そのようなモデルの1つは次式であり得る。
titer=βs[i]+βplateplate
このモデルでは、特徴は株を成長させる特定のプレートである。このモデルは、各株の係数βplateおよび特定の実験においてインデックスiを付けられた各プレートを含む。モデルは、数値安定性を改善するためのペナルティを伴うリッジ回帰を使用して適合され得る。
第2のステップでは、株が各シナリオにおいて実行されると何が生じるかをシミュレートするために、因子(たとえば、すべての株に関する特定のプレートおよびプレート上の位置)の可能なすべての組合せを再び用い、プレートモデルの式を使用してそれらの合成値を予測し、最後に、株によるシナリオの平均性能を得る。これはプレート性能(たとえば図2Aのx軸のプレート性能値)に関連した最終ポイントの推定であり、タンク性能(たとえば図2Aのy軸のタンク性能値)の概要に互いに関連するものである。
本開示の実施形態による相関の一例が図2Aに示されている。図2Aは、測定されたバイオリアクター(大規模なタンク)の値対個々の株のプレート(小規模)の値の比較を示すものである。このデータセットは、(収率を決定するためにプレートモデルを使用した)高スループットの測定値、およびアミノ酸を生成するための関連するバイオリアクターの測定値(たとえば収率)を含む。x軸は株ごとの平均のプレート力価(推定されたプレートバイアスを組み込んでいる)であり、y軸はバイオリアクター(たとえば発酵槽であるタンク)の株ごとの平均収率(wt%)である。各ポイント(文字)が単一の株に対応する。
予測のために、そのようなグラフは、モデルの予測性能が実際の性能といかに良く調和するかということに関して調査されてよく、簡単な事例について、スケールを変更されたx軸を伴う回帰プロットが図に示されている。図2Bは、バイオリアクター(タンク)に関して、簡単な線形予測された収率値の実際の収率値に対する比較を示す。点線の水平線は実際のタンク値の全体的な平均値であり、点線の対角線は適合線の実際の位置の95%信頼区間を表す。予測されたP、RSq、およびRMSEは、ここではモデル性能の1次メトリックであり、予測されたPは適合のP値であり、RSqは相関のRであって、RMSEは予測の二乗平均平方根誤差である。これらのうち、RMSEは、予測精度の最も直接的な測度であるので、最適化のために最も有効である。
最適化
外れ値
上記のプロットを調査する際に、いくつかの株は他のものと非常に異なって挙動し、空間的に離れている。これらの外れ値は、y軸の性能(たとえば収率)における極値を表すタイプ1の外れ値と、x軸における極値を表す、「レバレッジの高いポイント」とも称されるタイプ2の外れ値との、2つのタイプに分類され得る。タイプ1の外れ値は、適合線から遠く離れた株であり、すなわち、うまく予測されない(図2Bの右下象限においてNと標識された株が一例である)。そのような株はモデルの適合に影響を及ぼし、それ自体がうまく予測されない一方で、すべての他の株の予測性を損なう可能性がある。最適化の1つには、モデルの全体的な予測力を改善するためにそのような株を除去するものがある。別の最適化には、伝達関数モデル、または株性能をより高いスループットレベルで要約するモデル(たとえばプレート位置バイアスまたは遺伝因子を組み込むプレートモデル)に因子を追加するものがある。
タイプ2の外れ値は、適合線上またはその近くにあるが、他の株から依然として遠く離れているものである(左下隅においてAと標識された株は、図2Bにおける一例である)。距離は、他の株の図心からの距離、または最も近い他の株に対する距離を含む複数のやり方で測定され得る。タイプ2の外れ値は、簡単な線形モデルに対して特大の影響を及ぼす。モデルの目的は、残りの株の性能をできるだけ正確に予測することである。したがって、本開示の実施形態は、タイプ2の外れ値に関して、(一般的な統計的実践に従って)それらを除去することにより、あるいは予測因子を追加してモデルを最適化することによって、最適化するものである。
外れ値を除去することによって最適化する場合には、本開示の実施形態は、除去するべき外れ値として株を標識するために、少なくとも以下2つの手法を提供するものである。
第1の手法は、株が外れ値として繰り返して出現することと、株の異常な特性または株のより大きい規模における性能に基づく意味のある論理的根拠を有することとに基づいて、株の大部分を代表するものでないとして除外するものである。たとえば、図2BにおけるAの株は、モデルにおける他の株の祖先であるが、遺伝子的に、また規模を拡大した性能において、それらからむしろ遠く離れている。Nの株は、プレートにおいて優れた結果を示すことが公知である改変を有するが、大規模では十分なグルコース消費ができない。
第2の外れ値標識方法は、各株に「レバレッジメトリック」を割り当てて、その株を除去することによるメトリックの変化が所定のカットオフ(「レバレッジの閾値」)を超える場合、それを外れ値と見なすものである。たとえば、レバレッジメトリックは、モデルにおける株の有/無のRMSEにおける百分率の差を表すものでよく、カットオフは10%の改善でよい。この場合、Nの株を除去した結果が図3に表されている。
図3は、タイプ1の外れ値の株Nが除去されたこと以外は、図2Bと等価なプロットである。Nの株を除去すると、RMSEが2.43から2.09へと14%減少し、現在使用されている10%のカットオフよりも大きい。したがって、予測エンジンは、除去する外れ値を特定することになる。
外れ値の株を除去する際には(たとえば外れ値カットオフの設定が低すぎる)過剰適合の危険性があるので注意するべきであり、すなわち、株の小さいサブセットなら非常にうまく予測するが、より広範な集団に対して使用されたときうまく予測できないモデルを構築しないように注意するべきである。これを防ぐやり方の1つには、モデルにおける候補の株の数または分率によって重み付けされたカットオフを使用するものがある。たとえば、基準カットオフが10%で、モデルに100の株が含まれ得る場合には、第1の株を除去するためのカットオフは0.1/0.99、第2の株を除去するためのカットオフは0.1/0.98、第3の株を除去するためのカットオフは0.1/0.97などであり得る。
図3の適合は、タイプ2の外れ値を1つ除去してタイプ1の外れ値を4つ除去すると、図4に示されたものになる。図4は、4つのタイプ1の外れ値および1つのタイプ2の外れ値が除去されたこと以外は、図2Bと等価なプロットである。図4では、図2Bのモデルに対して、RSqが約6%、またRMSEが約21%だけ改善されていることに留意されたい。
遺伝因子および他の因子
とりわけ、高スループットのプレートモデルだけでは、試料がより大きい規模で受ける条件を完全に繰り返す(recapitulate)見込みのないことを考慮すると、試料の遺伝特性または他の特性(株を成長させるために使用された培地のロット番号などのプロセス態様を含む)が、伝達関数の因子として予測力を改善するのにも有効であり得る。代謝工学の場合には、特に、5リットルまたはそれよりも大きいバイオリアクターにおける、流体力学の影響、せん断応力の影響、ならびに酸素および栄養物質の拡散の影響などの条件を、プレートにおける200μLのウェルにおいて再現することはできない。培地の組成、培地調製の方法、測定された化合物、および測定のタイミングなどの因子に基づいて物理的プレートモデルの改善を目指す作業には、時間がかかって高価であるという不利な面があり、場合により、新規のプレートモデルで実行された試料を古いプレートモデルで実行された試料と比較するのが困難になる。したがって、本開示の実施形態は、予測を改善するために、プレートモデルの他の予測因子を識別して使用するものである。本開示の実施形態によれば、それらの他の因子のうちいくつかには以下が含まれる。
・プレート上の株の位置によるバイアスの説明
・培地のタイプ/ロット、シェーカー位置のバイアスのようなプレート特性
・ウェルに接種するために使用されるグリセロールストックが使用された回数、より低いスループットのステップとより高いスループットのステップの両方で使用された機械のタイプなどのプロセス特性
・試料特性(細胞系統または公知の遺伝マーカーの有/無など)
本発明者は、たとえば遺伝子調節における差異をもたらす変化に関する情報を組み込むことといった、代謝的に操作される株に関する伝達関数を改善するのに特に有効な遺伝因子を発見した。
図5は、図4のすべての株に対して、ある特定の遺伝子改変(たとえば特定の遺伝子における開始コドンスワップ)をそれらが有するか否かに基づき補正を適用した結果を表すものである。一例として、重回帰伝達関数モデルについては、開始コドンスワップの存在または非存在を説明する調整/補正は、伝達関数によって予測された株の平均タンク収率性能に、それぞれ性能コンポーネントmまたは性能コンポーネントmを追加する形態をとり得る。(重みmは負の値をとり得ることに留意されたい。)実施形態では、mは単一の値をとり得、xは、改変が存在するか否かに応じて、+1または−1である。他の実施形態では、mは単一の値をとり得、xは+1または0である。
図5は、aceE遺伝子における開始コドンスワップの存在または非存在に関する補正係数を含む以外は図4と等価である。この補正によって、RSqが0.71から0.79に増加し、RMSEが1.9から1.6に(16%)減少した。
図6は、図5に示されたモデルの回帰プロットである。回帰プロット(図6)は、基本的に2つの回帰線が、改変の存(上の回帰線)否(下の回帰線)に依存して使用されることを示す。
図7は、遺伝因子に関する補正のない生産性モデルを示すものである。遺伝的性質に関する補正の結果は、生産性モデルにおいてさらにいっそう顕著である。プレートモデルが繰り返すことができない遺伝子変化(たとえばプロモータースワップ)に関する補正なしでは、モデルは図7に示されるようなものとなる。
この改変の存在または非存在に関する補正を含めることにより、図8に示されるモデルがもたらされる。図8は、遺伝因子に関する補正(たとえば特定のプロモータースワップ)後の、図7の生産性モデルを示すものである。プロモータースワップは、プロモーターの挿入、削除、または交換を含むプロモーターの改変である。
モデル(たとえば重回帰モデル)にこの因子を含めると、RSqが0.45から0.73に増加して、RMSEが0.53から0.37に(30%)減少し、これは予測力における影響力のある増加である。実際には、株に関して、プレート性能における改善(「hts_prod_difference」)対バイオリアクター(タンク)性能における改善(tank_prod_difference)の調査は、この改変(2つの外れ値を除去したこと)を含み、それらをラインに当てはめると図9になる。
図9は、図8のものと同一のプロモータースワップを含む株について、高スループットの生産性モデルの性能における改善(x軸)対低スループットのバイオリアクター(たとえばタンク)内の実際の生産性における改善(y軸)を示すものである。
適合線の式は19+1.9×hts_prod_differenceであり、プレートモデルでは親との区別が不可能なこの変化を含む株が、規模を拡大すると親よりも約20%優れた性能を示すと期待され得ることを意味し、これはプレートモデルだけでは正確に予測することができない大きな改善である。プレートモデル単独ではプレートレベルにおいて親よりも悪いと予測される(図9のプロットのDおよびEのような)株さえ、実際には、タンク規模においては親よりもはるかに優れている。この変化に関する因子をモデルに含めると、新しい株におけるこれらの効果を正確に予測し、そのような株を偽陰性として失うのを防止する。
遺伝因子の群はまた、組合せにおける2つまたはそれよりも多くの改変の効果が、独立した改変の相加効果から予期されるものと異なるエピスタティックな相互作用の結果として、予測において有効であり得る。エピスタティックな効果のより詳細な説明については、参照によって全体が本明細書に組み込まれている2016年12月7日出願のPCT出願、PCT/US16/65465号を参照されたい。
別の因子には系統がある。系統は、遺伝的であることにおいて遺伝因子と似ているが、他の系統における他の株と比較して、株の中にある公知の遺伝子変化と未知の遺伝子変化を両方とも考慮に入れる。本開示の実施形態は、株の祖先の有向非巡回グラフを構築するための因子として系統を採用して、それらの有用性について、接続が最多のノード(すなわちさらなる遺伝子改変のための標的として最も頻繁に使用されたかまたは最大数の子孫を有する祖先株)を予測因子として試験する。
伝達関数の出力に対する改変
伝達関数の出力を使用するための最も簡単なやり方は、規模を拡大した性能の予測として出力を使用することである。別の手法には、親の実際の大規模性能に、親株と娘株の間の伝達予測におけるパーセント変化を適用するもの(すなわち、予測=parent_performance_at_scale+parent_performance_at_scale×(TF_output(daughter)−TF_output(parent))/TF_output(parent))があり、ここでparent_performance_at_scaleは、規模を拡大した(すなわち、より大きい規模の)親株の観測された性能であり、TF_output(strain)は、伝達関数を適用することによる株「strain」の予測性能であって、娘株は、1つまたは複数の遺伝子改変によって改変されたものとしての親株のバージョンである。これは、規模を拡大した娘の性能に対する親の影響に関連したノイズを除去する利点を有するが、そのような影響が存在すること、すなわち、娘の性能の予測における伝達関数の誤差が、親の性能の予測における誤差とほぼ同一の大きさおよび符号になるはずである、ということを前提としている。
他の統計モデル
上記は、伝達関数が簡単な線形の重回帰モデルを使用すると想定するものであるが、本開示の実施形態では、リッジ回帰またはラッソ回帰などのより高度な線形モデルも採用され得る。加えて、実施形態では、多項式(たとえば2次)適合もしくはロジスティック適合を含む非線形モデル、またはK近傍法もしくはランダムフォレストなどの非線形の機械学習モデルが採用され得る。過剰適合を回避するために、より高度な交差検証手法が使用されることがある。
アルゴリズムの例
実施形態では、再現性を保証し、改善のためのできるだけ多くの可能性を探るとともに、潜在的バイアスの影響を低減するために、アルゴリズムにおいて、予測力を改善するために、どの試料(株)を含めるか、どの試料を外れ値として除外するか、どの潜在因子を含めるか、についての決定が実装される。種々の手法が採用され得、以下に提示されるそのような循環/反復プロセスの一例では、小規模かつ高スループットの環境はプレート環境に対応し得、大規模かつ低スループットの環境はタンク環境に対応し得る。
1.一連の株から始めて、予測モデル(たとえば線形回帰)を開発するための唯一の因子(複数可)として性能測定値(複数可)(たとえばアミノ酸力価)を使用する。
a.これらは、実際のプレート性能データおよびタンク性能データが公知の株である。
2.伝達関数モデルから除去することによってモデルのRMSEを大部分改善する株(「外れ値」)を識別する。
a.あるいは、モデルからの潜在的除去のために、最大の予測誤差(株に関する予測された性能対測定された性能)を有する株を識別する。
3.株を除去することによるRMSEの改善が所定のカットオフよりも大きければステップ4へ進み、そうでなければステップ10へ行く。
4.(すべての株において等価な因子は全体的な予測力にとって有用ではないため)モデルが含むすべての他の株に今のところ存在せず、因子としてモデルにまだ含まれていない、外れ値に適用する潜在的予測因子を識別する。必要に応じて、アルゴリズムは、上記の条件を満たしたまま、少なくとも1つの他の株に存在する因子を識別してもよい。
a.外れ値株の特性である因子には、たとえば、行われたことが公知である遺伝子変化、系統(株の祖先の履歴)、表現型の特性、成長速度が含まれ得る。
b.因子がたった1つの株に存在する場合には、アルゴリズムは、その単一の株に関してモデルを補正するように調整してよいが、通常は、単一の株を説明するためにモデルを改変することは、期待される目標ではない場合があることに留意されたい。また、すべての他の株にその因子が存在している場合、それは予測上の価値を有しない。
c.実施形態が採用し得る機械学習モデルは、この機能を自動的に行うことになるが、モデルに関する因子を識別すると、機械学習モデルに対するリソース負荷を軽減し得ることに留意されたい。
5.ステップ4からのリストが空であれば、モデルから外れ値を除外してステップ2へ行く。
6.そうでなければ、モデルにおいて、ステップ4からの因子を一時的に適用する。
a.前述のように、実施形態は、y=m+bなどの単純線形回帰伝達関数を採用し得、ここでxはプレート上の株の性能であり、mはxに適用された重み(傾き)である。実施形態では、モデルは、y=m+m+...+m+bという形態の重回帰モデルを生成するために、重み付けされた因子(回帰係数)を追加することによって改良され得、ここでxはプレート上の株の性能であり、他のx(i≠1)は性能x以外の因子を表し、mはxに適用された重みであって、mは因子xに適用された重みである。実施形態では、xはプレートモデルの出力を表し得る。実施形態では、すべてのxがプレートモデルの出力を表し得る。
b.実施形態では、因子は1度に1つ追加されてよく、重み付けは、次の因子を追加する前に誤差(またはP値)が十分な量だけ減少するまで調整されてよい。
7.因子が、モデルの誤差を誤差閾値だけ改善しない場合、またはP値閾値よりも大きいP値を有する場合、アルゴリズムはその因子(たとえば重回帰式におけるx値)を除去してよい。たとえば、本開示の実施形態によれば、特定の遺伝因子(すなわち、株において行われたことが公知である遺伝子改変)は、誤差を誤差閾値だけ改善しない場合またはP値閾値よりも大きいP値を有する場合には、回帰モデル(予測関数)から除去され得る。
8.本開示の実施形態によれば、いずれかの残りの遺伝因子が大きな分散拡大因子(たとえば>3、因子間の共線性を表す)を有する群の一部分である場合、予測エンジンは各群の内部で最低のP値を有する遺伝因子のみを維持してよい。分散拡大が大きいことは、因子間の相関が高いことを示す。相関の高い諸因子を含めると、予測の価値はそれほど期待できず、過剰適合の原因となり得る。本開示の実施形態によれば、予測エンジンは、因子間の相関を測定するために分散拡大因子を使用してよく、相関の高い諸因子を除去することから始めて、十分な分散拡大因子(a satisfactory a satisfactory variance inflation factor)に達するまで継続してよい。
9.ステップ4からの遺伝子変化がこの時点においてすべて除去されている場合には、モデルから外れ値株を除去してステップ2へ戻る。
a.条件が真である場合、アルゴリズムは、外れ値を除去しなければアルゴリズムが十分に改善され得ないと決定している。
10.ステップ2〜9を反復した後、またはステップ3からここへジャンプした後に、残りの株のいずれにも適用しないかまたはすべてに適用する因子を除去する。必要に応じて、1つの系統にのみ適用するあらゆる遺伝因子を除去する。
上記のアルゴリズムの結果は、いくつかの外れ値を除去して改善されたモデルであり得、より多くの因子を説明するように調整されたものである。出力は、モデルを開発するために使用される株と、モデルにおいて使用される重み付き因子とを含む。
本開示の実施形態によれば、予測エンジンは、複数の予測関数について性能誤差メトリックを比較し、少なくともこの比較に基づいて予測関数をランク付けし得る。上記のアルゴリズムを参照して、予測エンジンは、異なる反復(たとえば、異なる外れ値が除去され、異なる因子が追加される)によって生成されたモデルの予測性能を比較してよい。実施形態によれば、予測エンジンは、たとえばリッジ回帰、重回帰、ランダムフォレストといった別々の技法によって生成されたモデルの予測性能を比較し得る。
本開示の実施形態は、伝達関数の新バージョンを試験して、大規模における株の実際の性能を測定することにより、その性能を監視する。新規の伝達関数の予測は、伝達関数の他のバージョンに対してバックテストされ、履歴データに対する性能を比較されてよい。次いで、伝達関数は、新規のデータに対して、他のバージョンと並行してフォワードテストされてよい。性能が低下し始めたら迅速に改善するように、性能のメトリック(RMSEなど)が時間にわたって監視されてよい。(プレートモデルの改善および監視のために類似のプロセスが使用され得、これら2つのプロセスはまた、改善のための努力が伝達関数とプレートモデルのどちらに的を絞るべきかということに関する決定ポイントを含めるように組み合わされ得る。)
実施形態では、伝達関数がバイオリアクターの規模では株性能を正確に予測できない場合には、物理的プレート培養モデルが物理的に調整されてよい。数理モデルのパラメータ/重みに対する調整と同様に、目的の表現型を基に、物理的プレートモデルを物理的に変化させてよい。どの物理的プレートモデルが最高の伝達関数をもたらすかを決定するために、いくつかの変更がなされて評価され得る。変更の例は、それだけではないが、培地組成、培養時間、測定される化合物、および接種容量を含む。
実験の例
以下の2つの例は、異なる生物の中に、目的の、異なる生成物を生成するために、本開示の実施形態を使用することを示すものである。
(実施例1)
より小さい規模(たとえばプレート)を基に、より大きい規模(たとえばタンク)における微生物の性能を予測するために、統計モデルを適合させるとき、本開示の実施形態は、モデルを適合させるために、複数のメトリックならびに標準的な統計的技法を使用する。これらの実験では、予測エンジンは1枚のプレートごとに複数のプレートの測定値を使用して予測関数を得、プレート値は、未処理の測定された物理的プレートデータにそれ自体が基づく統計的プレートモデルに基づくものである。この実施例1は、サッカロポリスポラ属の菌によって生成されたポリケチドである1つの主生成物を対象として含む。
以下の議論では、本開示の実施形態は、標準的な調整済みR、一連の試験株に関する二乗平均平方根誤差(RMSE)、および1個抜き交差検証(「LOOCV」)メトリックを使用する。
RMSE:モデルを適合させるために(「train」と示された)一連の訓練株が使用された。次いで、予測エンジンは、プレートにおいて多くの新しい株(モデルを訓練するために使用される株ではない)をスクリーニングし、それらの株のサブセットをタンクに推奨した(すなわち、優れた統計を有するそれらの株をタンクの中でより大規模に生成するように選択した)。予測エンジンは、この一連の試験株に関して
を計算しており、ここでnは試験株の数であり、変数tankはタンク規模における目的の性能メトリック(たとえば収率、生産性)である。
LOOCV:本開示の実施形態により、予測エンジンは、任意の新規のモデルについて、一連の訓練株を通してLOOCVを反復した。各ステップにおいて、予測エンジンは、訓練データから1つの株を除去し、残りの訓練データを使用してモデルを適合させ、試験株として除去された前者の訓練株に関するRMSEを計算した(RMSEの以前の議論を参照されたい)。予測エンジンは、RMSEを、i番目の株を除去したRMSEとなるように設定した。次いで、予測エンジンは、RMSE値のこのセットの平均値を
と計算しており、ここでmは訓練セットにおける株の総数である。
図18は、目的の1次メトリックに関するプレート値対タンク値のグラフである。この図は適切な線形関係を示す。予測エンジンがtrainと示された微生物に対して簡単な線形モデルtank=b+m×plate_valueを適合させ、ここでb=−3.0137、m=0.0096、かつplate_valueは統計的プレートモデルによって処理されたポリケチド値(mg/L)である場合、調整済みRは0.65であり、1個抜きCVは2.65であり、試験セットのRMSEは5.2152である。
予測エンジンが代わりに線形回帰モデルtank=b+m×plate_value+m×plate_value×plate_valueを適合させ、ここでb=0.7728、m=0.0325、m=0.0000646、かつ両方のplate_value(mg/L)が統計的プレートモデルによって処理された2つの異なるポリケチドに関するものである場合、予測エンジンは、図19に示されるように、はるかに予測力の勝る伝達関数をもたらす。プレート値plate_value、plate_valueなどは、同一のプレート上のアッセイを表し、たとえば目的のすべての生成物のアッセイ(たとえば収率)、あるいは代わりに目的の生成物およびバイオマスまたはグルコース消費などの別のアッセイといった、プレート上の同一または異なるアッセイであり得ることに留意されたい。本開示の実施形態によれば、プレート値またはタンク値は、それぞれプレートまたはタンクに関する所与の値の平均量を表し得る。
この伝達関数は、2.25のLOOCV、0.77の調整済みRを有するが、最も重要なのは試験セットに対するRMSEが4.36に低下することである。
より多くのデータを得てプレートデータおよびタンクデータを更新した後の、目的の1次メトリックのプレート値対タンク値が図20に示されている。
簡単な線形モデルtank=b+m×plate_valueはこれらのデータに対しては混在した結果を示し、ここでb=2.735544、m=0.009768である。LOOCVは3.16であり、調整済みRは0.49である。以前の反復よりもLOOCVが悪化し、調整済みRも大幅に悪化したが、試験セットに対するRMSEは2.8へと有意に低下した。
予測エンジンは、上記の形態の加重最小二乗法モデルtank=b+m×plate_value+m×plate_value×plate_valueを用いて実行されたが、回帰係数mはタンク規模における反復の数に依存し、ここで同一の2つのポリケチド(以前と同様にmg/Lの単位)で、b=6.996、m1=0.01876、m2=0.000237である。ここで、図21に示されるように、LOOCV以外のすべてのメトリックによって改善されたモデルが得られた。(プレート値は統計的プレートモデルによって与えられた。)これらの統計量は、LOOCV=3.14、調整済みR=0.79、試験セットに対するRMSE=2.99である。タンク規模の反復の数を重みmへと因数に分解するための予備知識として、重みベクトルは、y=Xm+e(ここでyは観測されたタンク値のベクトルであり、Xはプレート値の行列である)を解くことにより、最小二乗法を使用して決定される。重みベクトルはm=(XX)−1×yとして計算される。この定式化は、誤差(確率変数である)の分散がすべて同一であると想定している。しかしながら、この想定は、一般に実験には当てはまらず、タンクにおける反復の数が分散計算に大きな影響を及ぼし、一般的には株が等しい分散を有することはなく、そのため、この定式化におけるそれらの誤差も等しくなることはない。誤差が異なることを許容して上記のモデルを適合させると、代わりにm=(XWX)−1Wyが得られ、ここでWは対角行列であり、対角成分は「重み」である。重みはw=1/sigma と解釈され、sigma はi番目の誤差の分散である。これは、分散が小さい観測にはより大きい重み(適合におけるより大きい影響も)が与えられ、分散が大きい観測にはより小さい重み(影響)が与えられることを事実上意味する。本開示の実施形態により、本発明者らはw=タンク反復の数を用い、そこで、より多くの観測を有する株はそれらの観測値において全体的に誤差がより小さいことが予期されるので、観測値が多い株ほど適合において、より大きい重みを有する。
別の試みでは、予測エンジンは別の予測関数(伝達関数)を生成し、アッセイを行う時間を変更して、訓練株の新規のセットを使用した。この関数に関する試験データはまだない。上記と同一のポリケチドに関する以前の加重最小二乗法を使用して、式tank=b+m×plate_value+m×plate_value×plate_valueを用い、ここでb=−4.482、m=0.05247、m=0.0001994において、調整済みRは0.93に急上昇したが、LOOCVは7.44と大きく、いくつかの大きいレバレッジポイントがあることを示唆している。
このモデルに対する追加のプレート値が、引き続き加重最小二乗法を使用するが、式b+m×plate_value+m×plate_value×plate_value+m×plate_valueを用いて試験した(ここでb=−1.810、m=0.0563、m=0.0001524、m=0.5897であり、plate_valueおよびplate_valueは上記と同様に同一の2つのポリケチドに関するmg/Lのメトリックであって、plate_valueは光学密度(OD600)で測定されたバイオマスである)。LOOCVは6.22に低下し、依然として以前のものよりも大きいが、前回値よりもはるかに低く、調整済みRは今や0.95である。もちろん、この伝達関数の正確な試験は、新規の株に対するその予測力を試験するものである。
(実施例2)
実施例2は、タンク性能のより精細な推定を適合させようとするために、プレートごとに追加のプレート測定値(たとえば収率、バイオマスなど、異なるタイプの測定値)を連続的に含む伝達関数のセットを適合させたという点で、実施例1のいくつかの態様を反映するものである。この実施例2は、コリネバクテリアによって生成されたアミノ酸である1つの主生成物を対象として含む。加えて、実施例2は、異なるタンク変数測定値(ここでは「tank_value」と呼ばれる)に対して伝達関数を適合させる場合を示す。
1つのタンク測定値、複数のプレート測定値
モデル1
第1のモデルでは、本開示の実施形態により、tank_value〜1+plate_valueを想定した簡易モデルが適合された。「〜」は、「線形回帰または重回帰などの予測モデルによる関数」を指すことに留意されたい。図22の基礎となるプロットは、観測されたタンク値に対する(統計的プレートモデルで表された)プレート値の間の関係を示すものである。
プロットから理解されるように、プレートメトリックのうち1つに関してタンク値出力をモデル化すると、両者の間に潜在的な線形関係がある。
もう一歩進んで、予測エンジンは、モデルの性能を得るために、1つを除いたすべての株について訓練し、次いでその1つの値に対する適合を試験することにより、LOOCV(1個抜き交差検証)を行った。そこで、LOOCVスコアは、各データポイントが取り除かれたときに得られたすべての試験メトリックの平均である。
これによって以下の性能がもたらされた。
## RMSE MAE
## 1 3.262872 2.532292
詳細には、予測エンジンは、RMSEを用いて、平均アウトカムに対する誤差の大きさを得るためにRMSEの平均タンク性能に対する比を計算した。
## [1] 5.416798
この結果は、タンク性能の平均値に対して推定上の約5%の誤差があることを示すものである。
モデル2
ここでベースラインを得たので、性能を比較するために、モデルに対して同一のプレートからの別の測定値を追加したところ、tank_value〜plate_value+plate_valueという形態の予測関数がもたらされ、以下の統計量が得られた。
## RMSE MAE
## 1 3.376254 2.59808
RMSEおよびMAEが少し大きくなったので、この場合、性能が少し劣化したように見える。図23を参照されたい。
モデル3
最後に、このプロセスの第3の例では、モデルがtank_value〜plate_value+plate_value+plate_valueとなるように、別の因子がさらに追加された。
図24を参照すると、このモデルではRMSEメトリックを使用するLOOCVが少し小さくなっているので、第1のモデルよりも適合が少し優っている。
## RMSE MAE
## 1 3.224997 2.51152
それゆえに、相対的な百分率誤差はオリジナルモデルよりも少し小さい。
## [1] 5.353921
複数のタンク測定値
参照されたように、同一のタンクに関する複数のアウトカムを予測するために伝達関数が適用され得る。たとえば、予測エンジンは、以前にはtank_value〜plate_valueという形態のモデルを適合させたが、別の試みでは、予測エンジンは、異なる出力(たとえば生産性の代わりに収率)に対して別のモデルtank_value〜plate_valueを適合させた。図25は、測定された2つのタンク値を互いにプロットしたものである。
図26を参照して、予測エンジンは、tank_value〜plate_valueという形態のモデルを適合させ、tank_valueに関して観測される測定値は、tank_valueに関するものよりもはるかに変動しやすいことが先験的に知られている。したがって、このモデルに関するメトリックは上記のものほど優れたものではないことが、先験的に予期されよう。予測エンジンはこのモデルを適合させて、次のRMSEおよびMAEをもたらした。
## RMSE MAE
## 1 0.6315165 0.501553
RMSEを実際の値と比較すると、次のような誤差の大きさが得られる。
## [1] 19.88434
必要に応じて、モデルのLOOCV性能を基に、特徴を追加するかまたは除去するために、反復手法が前述のように繰り返されてよい。
微生物の成長特性を説明する予測モデル
本明細書の「他の統計モデル」の段落は、種々の予測モデルを参照する。本開示の実施形態によれば、予測エンジンは微生物の成長特性を説明する。本開示の実施形態によれば、予測エンジンは、複数のプレートベースの測定値を、伝達関数に用いる少数の微生物に関連するパラメータ(たとえばバイオマス収率、生成物収率、成長速度、バイオマスに固有の糖取り込み速度、バイオマスに固有の生産性、容積測定の糖取り込み速度、容積測定の生産性)へと組み合わせる。
本開示の実施形態によれば、伝達関数は、1つまたは複数のプレートベースの実験で得られた測定値を基にバイオリアクターの性能を予測する数学的方程式である。本開示の実施形態によれば、予測エンジンは、プレートで得られた測定値を、たとえば
PBP=a+b×PM1+c×PM2...n×PMn
といった数学的方程式へと組み合わせ、この式で
PBP=予測されたバイオリアクターの性能(たとえば本明細書における他の例ではy)であり、
PMi=i番目のプレートデータ変数(たとえば本明細書における他の例では第1の規模の性能データ変数x)であり、測定値、または測定値の組合せもしくは測定値の統計関数(たとえば統計的プレートモデル)などの測定値の関数であり得、
a、b、c、...nは、本明細書の他の例と同様にmとして表され得る。
上記の方程式は1次方程式である。本開示の実施形態によれば、予測エンジンはまた、以下の形態の伝達関数を採用し得る。
・2次方程式(たとえばPBP=a+b×PM1+c×PM2
・交互作用方程式(たとえばPBP=a+b×PM1+c×PM2+d×PM1×PM2)
・異なる方程式の組合せ
本開示の実施形態によれば、予測エンジンは、微生物の成長特性を説明する伝達関数を採用する。1次方程式を、2次方程式、多項式方程式、または交互作用方程式と組み合わせると、適合させるべき多くのパラメータ(たとえばa、b、c、d、n)がもたらされ得る。詳細には、ほんのわずかな「はしご形株(ladder strain)」(異なる公知の性能を有する多様な一連の株)に対してモデルを較正すると、データの過剰適合や不十分な予測値をもたらす可能性がある。
したがって、予測エンジンは、微生物成長ダイナミクスに基づき、測定値とパラメータの間の選択された減算、割り算、自然対数および乗算を使用して、複数の測定値を、微生物に関連する少数のパラメータ(たとえばバイオマス収率、生成物収率、成長速度、バイオマスに固有の糖取り込み速度、バイオマスに固有の生産性、容積測定の糖取り込み速度、容積測定の生産性)へと組み合わせる数学的フレームワークを採用し得る。(この手法は、仮想例に関してさらに論じられる。)
一般に、本開示の実施形態の予測エンジンは、以下の2つのタイプのプレートベースの測定値を考慮に入れる。
・変換収率を評価するために使用され得る開始ポイント測定値および終了ポイント測定値
・変換率および収率を評価するために使用され得る中間ポイント測定値
開始ポイント測定値および終了ポイント測定値ならびに微生物パラメータの計算
一般的な測定値
(たとえば光学密度(「OD」)によって測定された)バイオマス濃度(Cx)
本培養の開始ポイントにおけるバイオマス濃度は、以下のいずれかであり得る。
・種培養の終了ポイントでバイオマスを測定して、移動量(transfer volume)および本培養の量を補正することから推定されたもの。すなわち、本培養の開始ポイントにおけるバイオマス濃度=種培養の終了ポイントにおけるバイオマス濃度×(種培養から本培養への移動量)/(本培養の開始量)。種培養は、冷凍状態から一連の株を復活させるためのワークフローを含む。「本」培養は株の性能を試験するためのワークフローを含む。
・開発実験から定数として推定されたもの(たとえば、すべての株が0.1〜0.15のODの開始バイオマス濃度を有するとき、平均がプロキシとして使用できる)。一般的には、(特定の条件下で微生物を成長させる)培養の終了におけるバイオマス濃度は、開始における濃度よりもはるかに高く、開始におけるバイオマス濃度は、(たとえばバイオマス収率を測定するとき、最終的なバイオマス濃度が初期濃度の10倍よりも高ければ)いくつかの方程式から数学的に除外され得る。
生成物濃度(Cp)
注:目的の副生成物に関して、生成物濃度に関する同一の測定および計算が行われ得る。
開始における生成物濃度は、以下のいずれかであり得る。
・種培養の終了における生成物を測定して、移動量および本培養の量を補正することから推定されたもの。すなわち、本培養の開始における生成物濃度=(種培養の最後における生成物濃度)×(移動量)/(本培養の開始量)。
・開発実験から定数として推定されたもの(たとえば、すべての株が0.1〜0.15g/Lの開始生成物濃度を有するとき、平均がプロキシとして使用できる)。一般的には、培養の終了における生成物濃度は開始における生成物濃度よりもはるかに高く、開始における生成物濃度は数学的に除外され得ることに留意されたい。
糖濃度(Cs)
開始における糖濃度は培地調製から公知のパラメータである。
培養の最後での糖濃度は大抵の場合ゼロであるが、必要な場合測定することができる。
微生物に関連するパラメータの計算
バイオマス収率(糖1グラム当たりの細胞のグラム(Ysx))
すなわち、バイオマス収率=(終了におけるバイオマス濃度−開始におけるバイオマス濃度)/(開始における糖濃度−終了における糖濃度)
生成物(または副生成物)収率(糖1グラム当たりの生成物のグラム(Ysp))
生成物(または副生成物)収率=(終了における生成物濃度−開始における生成物濃度)/(開始における糖濃度−終了における糖濃度)
中間ポイントの測定値および微生物パラメータの計算
一般的な測定値
たとえばt1およびt2といった時間
注:t1は本培養の開始であり得る。培養の開始におけるCxおよびCpを推定するためのやり方については上記を参照されたい。
(たとえば光学密度によって測定された)バイオマス濃度(Cx)
本開示の実施形態によれば、t1またはt2におけるバイオマス濃度は、可能であれば培養液組成を考慮して測定される。
生成物濃度(Cp)
本開示の実施形態によれば、t1およびt2における生成物濃度が測定される。
糖濃度(Cs)
本開示の実施形態によれば、t1またはt2における糖濃度が測定される。
開始における糖濃度は培地調製からの公知のパラメータである。
計算
バイオマス収率(糖1グラム当たりの細胞のグラム(Ysx))
すなわち、バイオマス収率=(t2におけるバイオマス濃度−t1におけるバイオマス濃度)/(t1における糖濃度−t2における糖濃度)
生成物収率(糖1グラム当たりの生成物のグラム(Ysp))
すなわち、生成物収率=(t2における生成物濃度−t1における生成物濃度)/(t1における糖濃度−t2における糖濃度)
指数成長速度(mu、毎時)
すなわち、mu=ln(t2におけるバイオマス濃度/t1におけるバイオマス濃度)/(時間t2−時間t1)
指数成長に基づき:Cx(t2)=Cx(t1)×exp(mu×(t2−t1))
バイオマスに固有の糖取り込み速度(1時間当たりの、細胞1グラム当たりの糖のグラム(qs))
すなわち、qs=[ln(t2におけるバイオマス濃度/t1におけるバイオマス濃度)×(t1における糖濃度−t2における糖濃度)]/[(t2におけるバイオマス濃度−t1におけるバイオマス濃度)×(時間t2−時間t1)]
これは以下に基づく。
dCx/dt=mu×Cx
dCx/dt=qs×Ysx×Cx
qs=mu/Ysx
mu=ln(Cx(t2)/Cx(t1))/(t2−t1)
Ysx=(Cx(t2)−Cx(t1)/(Cs(t1)−Cs(t2)
バイオマスに固有の生産性(1時間当たりの、細胞1グラム当たりの生成物のグラム(qp))
qp=[ln(t2におけるバイオマス濃度/t1におけるバイオマス濃度)×(t2における生成物濃度−t1における生成物濃度)]/[(t2におけるバイオマス濃度−t1におけるバイオマス濃度)×(時間t2−時間t1)]
これは以下に基づく。
qp=qs×Ysp
qp=[((mu/バイオマス収率))]×[(t2における生成物濃度−t1における生成物濃度)/(t1における糖濃度−t2における糖濃度)]
qp=(ln(t2におけるバイオマス濃度/t1におけるバイオマス濃度)/(時間t2−時間t1)/[(t2におけるバイオマス濃度−t1におけるバイオマス濃度)/(t1における糖濃度−t2における糖濃度)])×[(t2における生成物濃度−t1における生成物濃度)/(t1における糖濃度−t2における糖濃度)]
qp=ln(Cxt2/Cxt1)/(t2−t1)/Cxt2−Cxt1/Cst2−Cst1×Cpt2−Cpt1/Cst1−Cst2
Csを除去して次のように簡素化する。
qp=ln(Cxt2/Cxt1)/(t2−t1)/((Cxt2−Cxt1)×(Cpt2−Cpt1))
以下のパラメータRsおよびRpはプロセス速度パラメータであり、上記の微生物速度パラメータ(qsおよびqp)と区別される。違いの1つは、微生物速度パラメータが細胞ごとのメトリックであるのに対して、プロセスパラメータは細胞の数に依存する集合的な速度パラメータである(たとえばRs=qsCx)ということがある。
容積測定の糖変換(1時間当たりの、1リットル当たりの糖のmmol(Rs))
Rs=(t1における糖濃度−t2における糖濃度)/(時間t2−時間t1)
容積測定の生産性(1時間当たりの、1リットル当たりの生成物のmmol(Rp))
Rp=(t2における生成物濃度−t1における生成物濃度)/(時間t2−時間t1)
仮想例
以下は微生物の指数成長挙動を説明する仮想例である。
以下の動的な成長モデルの式を使用して、種々の糖取り込み速度、バイオマス収率および生成物収率を伴う微生物に関するグルコース消費、バイオマス形成および生成物形成がモデル化された。
糖濃度に依存する、バイオマスに固有の糖取り込み速度(qs):
qs=qs,max×Cs/(Ks+Cs)
バイオマスに固有の糖取り込み速度およびバイオマス濃度と、糖供給速度とに依存する、時間間隔(dt)当たりの糖消費(dCs):
dCs/dt=−qs×Cx+Fs
バイオマスに固有の糖取り込み速度、維持のための糖異化、バイオマス濃度、およびバイオマス収率に依存する時間間隔(dt)当たりのバイオマス生産(dCx):
dCx/dt=qs×Cx×Ysx,max
バイオマスに固有の糖取り込み速度、維持のための糖異化、バイオマス濃度、および生成物収率に依存する時間間隔(dt)当たりの生成物形成(dCx):
dCx/dt=qs×Cx×Ysp
いくつかのパラメータは以下のように割り当てられる。
モデルに対する入力パラメータは、可変の糖取り込み速度、可変のバイオマス収率(Ysx)、可変の生成物収率(Ysp)、およびいくつかの定数パラメータである。
以下の表Aは、仮説のシナリオA〜Gにおいて使用される可変の(最大の)糖取り込み速度(qs)を示すものである。
以下の表Bは、仮説のシナリオ1〜9において使用される可変のバイオマス収率(Ysx)と可変の生成物収率(Ysp)(トレードオフ値)を示すものである。
以下の表Cは、例として使用される定数パラメータを示すものである。
図27は、動的成長モデルを使用して経時的に推定された、糖濃度(Cs)2702、生成物濃度(Cp)2704、およびバイオマス濃度(Cx)2706のプロットである。糖取り込み速度が0.5g糖/g細胞/h、バイオマス収率が0.1355gバイオマス/g糖、生成物収率が0.544g生成物/g糖の一例について、表Dを参照されたい。
以下の表Dに示されるように、試料は、異なる時点における動的な成長モデルを、異なるシナリオA〜Gと1〜9の組合せに対して使用して、(0.3%の低レベルのノイズを含めて)シミュレートされた。20時間の培養後の、モデル化された糖濃度、生成物濃度およびバイオマス濃度について、下記を参照されたい。これらの値は、微生物の生成物収率(Ysp)と同一であると想定される発酵における株の生成物収率(Ysp−ferm)と比較された。
表D
次に、図28に示されるような、
発酵槽収率(目的の重要な性能指標(「KPI」))とプレートにおける20時間後のCp(弱い相関)の間の相関が計算され、以下の結果となった。
Rスクエア(RSquare) 0.16096
調整済みRスクエア 0.147205
二乗平均平方根誤差 0.044687
図29に示されるような、発酵槽収率(目的のKPI)とプレートにおける20時間後のCs(弱い相関)では、以下の結果となった。
Rスクエア 0.325469
調整済みRスクエア 0.314411
二乗平均平方根誤差 0.040068
図30に示されるような、発酵槽収率(目的のKPI)とプレートにおける20時間後のCx(弱い相関)では、以下の結果となった。
Rスクエア 0.678133
調整済みRスクエア 0.672857
二乗平均平方根誤差 0.027678
上記に示されたように、この仮想例によれば、異なる糖取り込み速度、バイオマス収率および生成物収率を有する種々の株を扱うとき、培養半ばの測定値、糖、生成物およびバイオマスの個々の測定値を用いても、発酵槽収率との相関は良くない。
図31に示されるように、発酵槽(たとえばタンク)収率(目的のKPI)と、プレートにおける20時間後のCpとCsの両方の関数(たとえば商(quotient))に基づくプレートにおける20時間後の生成物収率の計算とに関する統計量も計算され、以下のように優れた相関をもたらした。
Ysp=Cp/(最初の20時間に供給された糖の合計−Cs)
Rスクエア 0.982442
調整済みRスクエア 0.982154
二乗平均平方根誤差 0.006464
上記に示されたように、(形成された生成物を消費された糖で割った)商によって生成物収率を推定すると、発酵槽収率との、はるかに優れた相関をもたらす。微生物測定値のこの比は、微生物の特質の推定である。微生物の特質の他の例には、糖消費速度、バイオマス収率、生成物収率(Ysp)、成長速度、および細胞に固有の生成物形成速度がある。
前述のように、予測関数は変数の加重和として表され得る:
PBP=a+b×PM1+c×PM2...n×PMn
ここにおいて、
PBP=予測されたバイオリアクターの性能(たとえば本明細書における他の例ではy)であり、
PMi=i番目のプレートデータ変数(たとえば本明細書における他の例では第1の規模の性能データ変数x)であり、測定値、または測定値の組合せもしくは測定値の統計関数(たとえば統計的プレートモデル)などの測定値の関数であり得、
a、b、c、...nは、本明細書では他の例と同様にmとして表され得る。
この仮想例の結果は、予測エンジンが、本開示の実施形態により、CpおよびCsなどの測定値をプレートデータ変数PMiとして直接使用する代わりに、測定値の商または他の組合せなど微生物測定値に由来する1つまたは複数の微生物の特質でPMiを置換し得ることを示す。
伝達関数開発ツール
伝達関数開発ツールは、所与の実験のため、またモデルから除去された株を記録するための伝達関数を構築する、再現可能かつ頑健な方法を提供するものである。伝達関数の開発ツールを得ることは、より高いスループットの性能から、より低いスループットの性能を予測するための統計モデルを得ることの最適化に依拠するものであり、それ自体が最適化である。そのような製品により、すべての最適化が1つのパッケージにまとめられ、科学者が伝達関数および伝達関数のすべての最適化を利用するのが簡単になる。
本開示の実施形態によれば、未処理のプレート−タンク相関伝達関数は、外れ値の除去および遺伝因子の包含などの最適化と併せて、伝達関数開発ツール(以下で詳述される)で実行するように削減される。本開示の実施形態では、伝達関数開発ツールは、さらなる最適化を組み込むことができ、他の統計モデル、伝達関数出力に対する改変、およびプレートモデルに関する検討項目を含み得る。
伝達関数開発ツールは、本開示の実施形態では、特定のプログラム、実験、および目的の測定値向けに高スループットかつ小規模の性能データを得て、適切なモデルを学習し、次の規模の業務のための予測を生成するものである。図10〜図15は、このツールのユーザインターフェースの一実施形態に関する一連のスクリーンショットを示すものである。
図10は、プロジェクト名、実験ID、選択されたプレート要約モデル(ここではLS平均モデル)、および使用される伝達関数モデル(ここでは線形回帰のプレート−タンク相関モデル)のユーザ登録用のボックスを有するユーザインターフェースを示す。
グラフィカルユーザインターフェースのアドレスバー1050におけるURLラインに注目されたい。これによって、ユーザは、プロセスを通じて進渉を辿り、実装したい伝達関数に関する正確な情報を確実に得ることができる。この設定は、データモデルのフロントエンド上、およびワークフローのインフラストラクチャの中にある。
図11に示されるように、ユーザは、プロジェクト、実験、およびモデルの選択を入力した後に、たとえばこの例におけるアミノ酸収率(「Compound」によって表されている)といった関心がある測定値を選択してよい。
図12は、本開示の実施形態による、タンク規模におけるアミノ酸性能を予測するように開発された後のプレート−タンク相関伝達関数に関するユーザインターフェースを示す。この例では、伝達関数は線形適合線(linear fit line)である。この図のツールにより、外れ値評価が促進される。ユーザインターフェースは、ユーザが伝達関数モデルから除去する株を選択することを可能にするチェックボックスと併せて、株IDによって特定される株のリスト1202(「異常株ID」)を用意する。
図13において、ユーザインターフェースは、ユーザによって選択された外れ値をモデルから除去した伝達関数を基に、最高の予測性能を有する10の株を提示する。本開示の実施形態は、株の予測性能に基づく、遺伝子製造システムにおいて、製造用の株を選択することおよび株を製造することを含む。そのような遺伝子生産システムは、2017年4月26日出願の国際出願PCT/US2017/029725号(国際公開WO2017189784号)に説明されており、これは、2016年4月27日出願の米国非仮出願第15/140,296号に対する優先権の利益を主張しており、これらは両方とも参照によって全体が本明細書に組み込まれる。
図14を参照して、伝達関数開発ツールは、ユーザが選択した外れ値がモデルから除去された後に、選択された伝達関数のグラフ表示を生じ、また、(図15を参照して)除去された株に関する品質スコアをデータベースに提出するための機構を提供し、このようにして、最終結果を再現可能にするとともに、ユーザが既存のプレートモデルに対して正常に機能しない株を追跡するための機構を提供するものである。
機械学習
本開示の実施形態は、異なる規模における微生物性能の間の関係を学習するために、遺伝因子などの特徴を考慮に入れて機械学習(「ML」)技法を適用し得るものである。この枠組みでは、実施形態は、特徴の重要性を決定するために、たとえば決定木といった標準的なMLモデルを使用し得る。いくつかの特徴は、相関付けられ得るかまたは冗長であり得て、曖昧なモデル適合および特徴検査をもたらし得る。この問題に対処するために、主成分分析により、入力特徴に対する次元縮小が行われてよい。あるいは、特徴トリミングが行われてよい。
一般に、機械学習は、限られた数の標識付けされたデータの例を使用して、(分類または回帰などの)情報タスクの性能における、たとえばパラメータ、技法、または他の特徴といった性能基準を最適化し、次いで、未知のデータに対して同一のタスクを行うものと説明され得る。線形回帰を採用する手法などの教師付き機械学習では、機械(たとえばコンピューティングデバイス)は、たとえば、訓練データによって示されたパターン、カテゴリ、統計的な関係、または他の属性を特定することによって学習する。次いで、学習の結果は、新規のデータが同一のパターン、カテゴリ、統計的な関係、または他の属性を示すかどうかを予測するために使用される。
本開示の実施形態は、訓練データが利用可能なときには、他の教師付き機械学習技法を採用し得る。訓練データがないとき、実施形態は教師無し機械学習を採用し得る。あるいは、実施形態は、少量の標識付けされたデータおよび大量の標識付けされていないデータを使用する準教師付き機械学習を採用してもよい。実施形態は、機械学習モデルの性能を最適化するために、最適な特徴のサブセットを選択するための特徴選択を採用してもよい。実施形態は、選択された機械学習手法のタイプに依存して、線形回帰に加えて、またはその代わりに、たとえば、ロジスティック回帰、ニューラルネットワーク、サポートベクタマシン(SVM)、決定木、隠れマルコフモデル、ベイジアンネットワーク、グラムシュミット、強化ベースの学習、階層的クラスタ分割を含むクラスタベースの学習、遺伝的アルゴリズム、および当技術において公知の何らかの他の適切な学習機械を採用し得る。詳細には、実施形態は、分類自体とともに分類の確率をもたらすためにロジスティック回帰を採用し得る。たとえば、Shevade, A simple and efficient algorithm for gene selection using sparse logistic regression, Bioinformatics, Vol.19, No.17 2003, pp. 2246−2253、Leng, et al., Classification using functional data analysis for temporal gene expression data, Bioinformatics, Vol. 22, No. 1, Oxford University Press (2006), pp. 68−76が参照され、これらの全体が参照によって本明細書に組み込まれる。
実施形態は、機械学習タスクを行う際に人気が高まっている、特に深層ニューラルネットワーク(DNN)として公知の形態の、グラフィック処理ユニット(GPU)で加速されるアーキテクチャを採用し得る。本開示の実施形態は、GPU−Based Deep Learning Inference: A Performance and Power Analysis, NVidia Whitepaper, November 2015、Dahl, et al., Multi−task Neural Networks for QSAR Predictions, Dept. of Computer Science, Univ. of Toronto, June 2014 (arXiv: 1406.1231 [stat.ML])、において説明されているものなど、GPUベースの機械学習を採用し得、これらの全体が参照によって本明細書に組み込まれる。本開示の実施形態に適用可能な機械学習技法は、とりわけ、Libbrecht, et al., Machine learning applications in genetics and genomics, Nature Reviews: Genetics, Vol. 16, June 2015、Kashyap, et al., Big Data Analytics in Bioinformatics: A Machine Learning Perspective, Journal of Latex Class Files, Vol. 13, No. 9, Sept. 2014、Prompramote, et al., Machine Learning in Bioinformatics, Chapter 5 of Bioinformatics Technologies, pp. 117−153, Springer Berlin Heidelberg 2005、といった参考文献にも見いだされ得、これらの全体が参照によって本明細書に組み込まれる。
コンピューティング環境
図16は、本開示の実施形態によるクラウドコンピューティング環境を示すものである。本開示の実施形態では、予測エンジンソフトウェア1010は、複数のユーザが本開示の実施形態によって伝達関数を生成して適用することを可能にするために、クラウドコンピューティングシステム1002において実装され得る。図17に示されたものなどのクライアントコンピュータ1006は、インターネットなどのネットワーク1008を通じてシステムにアクセスする。システムは、図17に示されたタイプの1つまたは複数のプロセッサを使用している1つまたは複数のコンピューティングシステムを採用し得る。クラウドコンピューティングシステム自体が、ネットワーク1008を通じてクライアントコンピュータ1006に対するソフトウェア1010のインターフェースをとるためのネットワークインターフェース1012を含む。ネットワークインターフェース1012は、クライアントコンピュータ1006におけるクライアントアプリケーションがシステムソフトウェア1010にアクセスすることを可能にするためのアプリケーションプログラミングインターフェース(API)を含み得る。詳細には、クライアントコンピュータ1006はAPIを通じて予測エンジンにアクセスし得る。
サービス型ソフトウェア(SaaS)のソフトウェアモジュール1014はクライアントコンピュータ1006に対するサービスとしてシステムソフトウェア1010を提供する。クラウド管理モジュール10110は、クライアントコンピュータ1006によるシステム1010へのアクセスを管理する。クラウド管理モジュール1016は、複数のユーザにサーブするために、マルチテナントアプリケーション、仮想化または当技術において公知の他のアーキテクチャを採用するクラウドアーキテクチャを可能にし得る。
図17は、本開示の実施形態によって、非一時的コンピュータ可読媒体(たとえばメモリ)に記憶されたプログラムコードを実行するために使用され得るコンピュータシステム1100の一例を示すものである。コンピュータシステムは、アプリケーションに依存して人間のユーザおよび/または他のコンピュータシステムとインターフェースをとるために使用され得る入出力サブシステム1102を含む。I/Oサブシステム1102は、入力のための、たとえばキーボード、マウス、グラフィカルユーザインターフェース、タッチスクリーン、または他のインターフェースと、出力のための、たとえばLEDもしくは他のフラットスクリーンディスプレイ、または他のインターフェースとを含み得、これにはアプリケーションプログラムインターフェース(API)が含まれる。本開示の実施形態の予測エンジンなどの他のエレメントは、コンピュータシステム1100のようなコンピュータシステムを用いて実装され得る。
プログラムコードは、二次メモリ1110もしくは主メモリ1108または両方におけるパーシステント ストレージなどの非一時的媒体に記憶され得る。主メモリ1108は、ランダムアクセスメモリ(RAM)など揮発性メモリまたは読取り専用メモリ(ROM)などの不揮発性メモリ、ならびに命令およびデータに対するより高速のアクセスのための異なるレベルのキャッシュメモリを含み得る。二次メモリは、ソリッドステートドライブ、ハードディスクドライブまたは光ディスクなどのパーシステント ストレージを含み得る。1つまたは複数のプロセッサ1104は、1つまたは複数の非一時的媒体からプログラムコードを読み取って、コンピュータシステムが本明細書の実施形態によって行われる方法を達成するのを可能にするためのコードを実行する。当業者なら、プロセッサ(複数可)は、ソースコードを取り込み、プロセッサ(複数可)1104のハードウェアゲートレベルにおいて意味が通じるマシンコードへとソースコードを解釈またはコンパイルし得ることを理解する。プロセッサ1104(複数可)は、計算集約型タスクを扱うためのグラフィック処理ユニット(GPU)を含み得る。
プロセッサ1104(複数可)は、ネットワークインターフェースカード、Wi−Fiトランシーバなどの1つまたは複数の通信インターフェース1107を介して外部ネットワークと通信してよい。バス1105は、I/Oサブシステム1102、プロセッサ(複数可)1104、周辺デバイス1106、通信インターフェース1107、メモリ1108、およびパーシステント ストレージ1110と通信可能に結合する。本開示の実施形態は、この代表的なアーキテクチャに限定されるわけではない。代替実施形態は、たとえば入出力コンポーネントおよびメモリサブシステム用の個別のバスといった、異なる構成およびタイプのコンポーネントを採用し得る。
当業者なら、本開示の実施形態のエレメントのいくつかまたはすべて、およびそれに伴う動作は、全体的または部分的に、コンピュータシステム1100のような、1つまたは複数のプロセッサおよび1つまたは複数のメモリシステムを含む1つまたは複数のコンピュータシステムによって実施され得ることを理解する。詳細には、本明細書で説明された予測エンジンおよび任意の他の自動システムまたはデバイスのエレメントは、コンピュータ実装され得る。たとえば、いくつかのエレメントおよび機能性はローカルに実装されてよく、他のものは、たとえばクライアント−サーバのやり方で、異なるサーバを介してネットワークにわたって分散させるやり方で実装されてよい。詳細には、サーバ側の動作は、図16に示されるように、サービス型ソフトウェア(SaaS)のやり方において複数のクライアントに利用可能にされ得る。
いくつかの実施形態では、本明細書で説明された動作のうちのいくつかは、人間の実装によって、または自動化と手動手段の組合せによって行われ得ることを当業者なら認識する。動作が完全には自動化されていないとき、予測エンジンの適切なコンポーネントは、たとえばそれ自体の運用能力によって結果を生成するのではなく、人間が行った動作の結果を受け取ることができる。
参照による組込み
本明細書で引用されたすべての参考文献、論文、出版物、特許、特許公報、および特許出願は、すべての目的のためにその全体が参照によって組み込まれる。しかしながら、本明細書で引用されたあらゆる参考文献、論文、出版物、特許、特許公報、および特許出願への言及は、それらが、実証された従来技術を構成する、もしくはいずれかの国における通常の一般常識の部分を形成する、または必須のことを開示するものであることの確認または何らかの形の暗示ではなく、そのように解釈されるべきではない。
本開示が、本明細書で説明されたいくつかの実施形態または特徴が本明細書で説明された他の実施形態または特徴と組み合わされ得ることを明確に開示していなくても、本開示は、当業者なら実装できるはずのあらゆるそのような組合せを記述しているものと解釈されたい。本開示における「または」の使用(user of)は、本明細書で別様に示されなければ、非網羅的、すなわち「および/または」を意味するものと理解されたい。
以下の請求項において、「請求項xから続く先行する請求項のうちいずれか一項」と列挙する請求項nは、請求項xから直前の請求項(請求項n−1)までのいずれか一項を指すものとする。たとえば、「請求項28から続く先行する請求項のうちいずれか一項に記載のシステム」と記述する請求項35は、請求項28から34のいずれか一項に記載のシステムを指す。
伝達関数の出力を使用するための最も簡単なやり方は、規模を拡大した性能の予測として出力を使用することである。別の手法には、親の実際の大規模性能に、親株と娘株の間の伝達予測におけるパーセント変化を適用するもの(すなわち、予測=parent_performance_at_scale+parent_performance_at_scale×(TF_output(daughter)−TF_output(parent))/TF_output(parent))があり、ここでparent_performance_at_scaleは、規模を拡大した(すなわち、より大きい規模の)親株の観測された性能であり、TF_output(strain)は、伝達関数を適用することによる「strain」の予測性能であって、娘株は、1つまたは複数の遺伝子改変によって改変されたものとしての親株のバージョンである。これは、規模を拡大した娘の性能に対する親の影響に関連したノイズを除去する利点を有するが、そのような影響が存在すること、すなわち、娘の性能の予測における伝達関数の誤差が、親の性能の予測における誤差とほぼ同一の大きさおよび符号になるはずである、ということを前提としている。
実施形態では、再現性を保証し、改善のためのできるだけ多くの可能性を探るとともに、潜在的バイアスの影響を低減するために、アルゴリズムにおいて、予測力を改善するために、どの試料(株)を含めるか、どの試料を外れ値として除外するか、どの潜在因子を含めるか、についての決定が実装される。種々の手法が採用され得、以下に提示されるそのような循環/反復プロセスの一例では、小規模かつ高スループットの環境はプレート環境に対応し得、大規模かつ低スループットの環境はタンク環境に対応し得る。
1.一連の株から始めて、予測モデル(たとえば線形回帰)を開発するための唯一の因子(複数可)として性能測定値(複数可)(たとえばアミノ酸力価)を使用する。
a.これらは、実際のプレート性能データおよびタンク性能データが公知の株である。2.伝達関数モデルから除去することによってモデルのRMSEを大部分改善する株(「外れ値」)を識別する。
a.あるいは、モデルからの潜在的除去のために、最大の予測誤差(株に関する予測された性能対測定された性能)を有する株を識別する。
3.株を除去することによるRMSEの改善が所定のカットオフよりも大きければステップ4へ進み、そうでなければステップ10へ行く。
4.(すべての株において等価な因子は全体的な予測力にとって有用ではないため)モデルが含むすべての他の株に今のところ存在せず、因子としてモデルにまだ含まれていない、外れ値に適用する潜在的予測因子を識別する。必要に応じて、アルゴリズムは、上記の条件を満たしたまま、少なくとも1つの他の株に存在する因子を識別してもよい。
a.外れ値株の特性である因子には、たとえば、行われたことが公知である遺伝子変化、系統(株の祖先の履歴)、表現型の特性、成長速度が含まれ得る。
b.因子がたった1つの株に存在する場合には、アルゴリズムは、その単一の株に関してモデルを補正するように調整してよいが、通常は、単一の株を説明するためにモデルを改変することは、期待される目標ではない場合があることに留意されたい。また、すべての他の株にその因子が存在している場合、それは予測上の価値を有しない。
c.実施形態が採用し得る機械学習モデルは、この機能を自動的に行うことになるが、モデルに関する因子を識別すると、機械学習モデルに対するリソース負荷を軽減し得ることに留意されたい。
5.ステップ4からのリストが空であれば、モデルから外れ値を除外してステップ2へ行く。
6.そうでなければ、モデルにおいて、ステップ4からの因子を一時的に適用する。
a.前述のように、実施形態は、y=m+bなどの単純線形回帰伝達関数を採用し得、ここでxはプレート上の株の性能であり、mはxに適用された重み(傾き)である。実施形態では、モデルは、y=m+m+...+m+bという形態の重回帰モデルを生成するために、重み付けされた因子(回帰係数)を追加することによって改良され得、ここでxはプレート上の株の性能であり、他のx(i≠1)は性能x以外の因子を表し、mはxに適用された重みであって、mは因子xに適用された重みである。実施形態では、xはプレートモデルの出力を表し得る。実施形態では、すべてのxがプレートモデルの出力を表し得る。
b.実施形態では、因子は1度に1つ追加されてよく、重み付けは、次の因子を追加する前に誤差(またはP値)が十分な量だけ減少するまで調整されてよい。
7.因子が、モデルの誤差を誤差閾値だけ改善しない場合、またはP値閾値よりも大きいP値を有する場合、アルゴリズムはその因子(たとえば重回帰式におけるx値)を除去してよい。たとえば、本開示の実施形態によれば、特定の遺伝因子(すなわち、株において行われたことが公知である遺伝子改変)は、誤差を誤差閾値だけ改善しない場合またはP値閾値よりも大きいP値を有する場合には、回帰モデル(予測関数)から除去され得る。8.本開示の実施形態によれば、いずれかの残りの遺伝因子が大きな分散拡大因子(たとえば>3、因子間の共線性を表す)を有する群の一部分である場合、予測エンジンは各群の内部で最低のP値を有する遺伝因子のみを維持してよい。分散拡大が大きいことは、因子間の相関が高いことを示す。相関の高い諸因子を含めると、予測の価値はそれほど期待できず、過剰適合の原因となり得る。本開示の実施形態によれば、予測エンジンは、因子間の相関を測定するために分散拡大因子を使用してよく、相関の高い諸因子を除去することから始めて、十分な分散拡大因子に達するまで継続してよい。
9.ステップ4からの遺伝子変化がこの時点においてすべて除去されている場合には、モデルから外れ値株を除去してステップ2へ戻る。
a.条件が真である場合、アルゴリズムは、外れ値を除去しなければアルゴリズムが十分に改善され得ないと決定している。
10.ステップ2〜9を反復した後、またはステップ3からここへジャンプした後に、残りの株のいずれにも適用しないかまたはすべてに適用する因子を除去する。必要に応じて、1つの系統にのみ適用するあらゆる遺伝因子を除去する。
予測エンジンは、上記の形態の加重最小二乗法モデルtank=b+m×plate_value+m×plate_value×plate_valueを用いて実行されたが、回帰係数mはタンク規模における反復の数に依存し、ここで同一の2つのポリケチド(以前と同様にmg/Lの単位)で、b=6.996、m1=0.01876、m =0.000237である。ここで、図21に示されるように、LOOCV以外のすべてのメトリックによって改善されたモデルが得られた。(プレート値は統計的プレートモデルによって与えられた。)これらの統計量は、LOOCV=3.14、調整済みR=0.79、試験セットに対するRMSE=2.99である。タンク規模の反復の数を重みmへと因数に分解するための予備知識として、重みベクトルは、y=Xm+e(ここでyは観測されたタンク値のベクトルであり、Xはプレート値の行列である)を解くことにより、最小二乗法を使用して決定される。重みベクトルはm=(XX)−1×yとして計算される。この定式化は、誤差(確率変数である)の分散がすべて同一であると想定している。しかしながら、この想定は、一般に実験には当てはまらず、タンクにおける反復の数が分散計算に大きな影響を及ぼし、一般的には株が等しい分散を有することはなく、そのため、この定式化におけるそれらの誤差も等しくなることはない。誤差が異なることを許容して上記のモデルを適合させると、代わりにm=(XWX)−1Wyが得られ、ここでWは対角行列であり、対角成分は「重み」である。重みはw=1/sigma と解釈され、sigma はi番目の誤差の分散である。これは、分散が小さい観測にはより大きい重み(適合におけるより大きい影響も)が与えられ、分散が大きい観測にはより小さい重み(影響)が与えられることを事実上意味する。本開示の実施形態により、本発明者らはw=タンク反復の数を用い、そこで、より多くの観測を有する株はそれらの観測値において全体的に誤差がより小さいことが予期されるので、観測値が多い株ほど適合において、より大きい重みを有する。
サービス型ソフトウェア(SaaS)のソフトウェアモジュール1014はクライアントコンピュータ1006に対するサービスとしてシステムソフトウェア1010を提供する。クラウド管理モジュール1016は、クライアントコンピュータ1006によるシステム1010へのアクセスを管理する。クラウド管理モジュール1016は、複数のユーザにサーブするために、マルチテナントアプリケーション、仮想化または当技術において公知の他のアーキテクチャを採用するクラウドアーキテクチャを可能にし得る。
本開示が、本明細書で説明されたいくつかの実施形態または特徴が本明細書で説明された他の実施形態または特徴と組み合わされ得ることを明確に開示していなくても、本開示は、当業者なら実装できるはずのあらゆるそのような組合せを記述しているものと解釈されたい。本開示における「または」の使用は、本明細書で別様に示されなければ、非網羅的、すなわち「および/または」を意味するものと理解されたい。
以下の請求項において、「請求項xから続く先行する請求項のうちいずれか一項」と列挙する請求項nは、請求項xから直前の請求項(請求項n−1)までのいずれか一項を指すものとする。たとえば、「請求項28から続く先行する請求項のうちいずれか一項に記載のシステム」と記述する請求項35は、請求項28から34のいずれか一項に記載のシステムを指す。
本発明は、例えば、以下の項目を提供する。
(項目1)
第1の規模の測定値を基に第2の規模の目的の表現型に関する生物の性能を改善するための、コンピュータ実装方法であって、
a.第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づく第1の規模の性能データと、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能に少なくとも部分的に基づく第2の規模の性能データとにアクセスするステップであって、前記第1の規模の性能データが第1の規模の統計モデルに少なくとも部分的に基づくものであるステップと、
b.前記第1の規模の性能データに対する前記第2の規模の性能データの関係性に少なくとも部分的に基づいて予測関数を生成するステップであって、前記第2の規模の1つまたは複数の供試生物についての第2の規模の予測性能データを生成するために、前記第1の規模の前記目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数が適用可能であるステップと
を含む方法。
(項目2)
前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、項目1に記載の方法。
(項目3)
前記第1の規模の統計モデルが前記第1の規模の生物体の特徴を表す、先行する項目のうちいずれか一項に記載の方法。
(項目4)
前記生物体の特徴が、プロセス条件、培地条件、または遺伝因子を含む、先行する項目のうちいずれか一項に記載の方法。
(項目5)
少なくとも1つの生物体の特徴が生物位置に関連している、先行する項目のうちいずれか一項に記載の方法。
(項目6)
前記予測関数を生成するステップが、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データを検討項目から除去するステップをさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目7)
前記予測関数を生成するステップが、前記予測関数の誤差を低減するために1つまたは複数の因子を組み込むステップをさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目8)
前記予測関数を生成するステップが、少なくとも1つの遺伝因子に関して調整するステップをさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目9)
a.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
b.前記予測関数を生成する際の検討項目から第1の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第1の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記改変された予測関数をもたらすことになるステップと
をさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目10)
a.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
b.第1の候補の外れ値生物に関して前記改変された予測関数のレバレッジメトリックがレバレッジ条件を満たす場合には、前記改変された予測関数を前記予測関数として使用するステップと
をさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目11)
前記第1の候補の外れ値生物が、前記予測関数を生成する際に除外する場合、前記改変された予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす生物である、先行する項目のうちいずれか一項に記載の方法。
(項目12)
i.前記第1の候補の外れ値生物を除外して前記予測関数を生成する際に検討項目から除外する場合、前記予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす第2の生物を、第2の候補の外れ値生物であると識別するステップと、
ii.因子のセットからの1つまたは複数の因子によって前記予測関数を改変して、第2の改変された予測関数を生成するステップと、
iii.前記予測関数を生成する際の検討項目から前記第2の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第2の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記第2の改変された予測関数をもたらすことになるステップと
をさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目13)
第1の候補の外れ値生物が前記第1の規模の性能データおよび前記第2の規模の性能データで表され、前記1つまたは複数の供試生物が前記第1の候補の外れ値生物を含み、前記第2の規模の予測性能データが、前記第1の候補の外れ値生物の前記第2の規模の予測性能を表す、先行する項目のうちいずれか一項に記載の方法。
(項目14)
前記予測関数を改変するステップが、前記1つまたは複数の因子を前記予測関数に組み込むステップまたは前記予測関数から除去するステップを含む、先行する項目のうちいずれか一項に記載の方法。
(項目15)
前記1つまたは複数の因子が遺伝因子を含む、先行する項目のうちいずれか一項に記載の方法。
(項目16)
前記予測関数を生成するステップが、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練するステップを含む、先行する項目のうちいずれか一項に記載の方法。
(項目17)
前記予測関数を生成するステップが、前記1つまたは複数の因子によって前記予測関数を改変するプロセスにおいて機械学習を適用するステップを含む、先行する項目のうちいずれか一項に記載の方法。
(項目18)
a.複数の予測関数に関する性能誤差メトリックを比較するステップと、
b.少なくとも前記比較に基づいて前記予測関数にランク付けするステップと
をさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目19)
前記1つまたは複数の第1の生物に関する前記第1の規模の性能データが、第1の規模の統計モデルの出力を表し、前記方法が、
a.前記第2の規模の前記1つまたは複数の第1の生物に関する予測性能を前記第2の規模の性能データと比較するステップと、
b.前記比較に少なくとも部分的に基づいて前記第1の規模の統計モデルのパラメータを調整するステップと
をさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目20)
前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、先行する項目のうちいずれか一項に記載の方法。
(項目21)
前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、先行する項目のうちいずれか一項に記載の方法。
(項目22)
前記表現型が化合物の生産を含む、先行する項目のうちいずれか一項に記載の方法。
(項目23)
前記生物が微生物株である、先行する項目のうちいずれか一項に記載の方法。
(項目24)
前記第2の規模の前記1つまたは複数の供試生物についての前記第2の規模の予測性能データを生成するために、前記第1の規模の目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数を適用するステップをさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目25)
前記第2の規模の予測性能に少なくとも部分的に基づいて、前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップをさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目26)
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、先行する項目のうちいずれか一項に記載の方法。
(項目27)
先行する項目のうちいずれか一項に記載の方法を使用して識別される、前記第2の規模の供試生物。
(項目28)
第1の規模の測定値を基に第2の規模の目的の表現型に関する生物の性能を改善するためのシステムであって、
1つまたは複数のプロセッサと、
命令を記憶している1つまたは複数のメモリであって、前記命令が、前記1つまたは複数のプロセッサのうち少なくとも1つによって実行されたとき、前記システムに、
a.第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づく第1の規模の性能データと、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能に少なくとも部分的に基づく第2の規模の性能データとにアクセスさせるステップであって、ここで前記第1の規模の性能データが第1の規模の統計モデルに少なくとも部分的に基づくものであるステップと、
b.前記第1の規模の性能データに対する前記第2の規模の性能データの関係性に少なくとも部分的に基づいて予測関数を生成させるステップであって、ここで前記第2の規模の1つまたは複数の供試生物についての第2の規模の予測性能データを生成するために、前記第1の規模の前記目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数が適用可能であるステップと
を行う、1つまたは複数のメモリと
を備えるシステム。
(項目29)
前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、項目28に記載のシステム。
(項目30)
前記第1の規模の統計モデルが前記第1の規模の生物体の特徴を表す、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目31)
前記生物体の特徴が、プロセス条件、培地条件、または遺伝因子を含む、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目32)
少なくとも1つの生物体の特徴が生物位置に関連している、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目33)
前記予測関数を生成するステップが、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データを検討項目から除去するステップをさらに含む、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目34)
前記予測関数を生成するステップが、前記予測関数の誤差を低減するために1つまたは複数の因子を組み込むステップをさらに含む、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目35)
前記予測関数を生成するステップが、少なくとも1つの遺伝因子に関して調整するステップをさらに含む、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目36)
前記1つまたは複数のメモリが、
c.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
d.前記予測関数を生成する際の検討項目から第1の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第1の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記改変された予測関数をもたらすことになるステップと
のためのさらなる命令を記憶している、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目37)
前記1つまたは複数のメモリが、
e.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
f.第1の候補の外れ値生物に関して前記改変された予測関数のレバレッジメトリックがレバレッジ条件を満たす場合には、前記改変された予測関数を前記予測関数として使用するステップと
のためのさらなる命令を記憶している、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目38)
前記第1の候補の外れ値生物が、前記予測関数を生成する際に除外する場合、前記改変された予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす生物である、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目39)
前記1つまたは複数のメモリが、
i.前記第1の候補の外れ値生物を除外して前記予測関数を生成する際に検討項目から除外する場合、前記予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす第2の生物を、第2の候補の外れ値生物であると識別するステップと、
ii.因子のセットからの1つまたは複数の因子によって前記予測関数を改変して、第2の改変された予測関数を生成するステップと、
iii.前記予測関数を生成する際の検討項目から前記第2の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第2の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記第2の改変された予測関数をもたらすことになるステップと
のためのさらなる命令を記憶している、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目40)
第1の候補の外れ値生物が前記第1の規模の性能データおよび前記第2の規模の性能データで表され、前記1つまたは複数の供試生物が前記第1の候補の外れ値生物を含み、前記第2の規模の予測性能データが、前記第1の候補の外れ値生物の前記第2の規模の予測性能を表す、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目41)
前記予測関数を改変するステップが、前記1つまたは複数の因子を前記予測関数に組み込むステップまたは前記予測関数から除去するステップを含む、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目42)
前記1つまたは複数の因子が遺伝因子を含む、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目43)
前記予測関数を生成するステップが、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練するステップを含む、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目44)
前記予測関数を生成するステップが、前記1つまたは複数の因子によって前記予測関数を改変する前記プロセスにおいて機械学習を適用するステップを含む、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目45)
前記1つまたは複数のメモリが、
g.複数の予測関数に関する性能誤差メトリックを比較するステップと、
h.少なくとも前記比較に基づいて前記予測関数にランク付けするステップと
のためのさらなる命令を記憶している、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目46)
前記1つまたは複数の第1の生物に関する前記第1の規模の性能データが第1の規模の統計モデルの出力を表し、前記1つまたは複数のメモリが、
i.前記第2の規模の前記1つまたは複数の第1の生物に関する予測性能を前記第2の規模の性能データと比較するステップと、
j.前記比較に少なくとも部分的に基づいて前記第1の規模の統計モデルのパラメータを調整するステップと
のためのさらなる命令を記憶している、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目47)
前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目48)
前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目49)
前記表現型が化合物の生産を含む、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目50)
前記生物が微生物株である、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目51)
前記1つまたは複数のメモリが、前記第2の規模の前記1つまたは複数の供試生物についての前記第2の規模の予測性能データを生成するために、前記第1の規模の目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数を適用するステップのためのさらなる命令を記憶している、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目52)
前記1つまたは複数のメモリが、前記第2の規模の予測性能に少なくとも部分的に基づいて、前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップのためのさらなる命令を記憶している、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目53)
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目54)
第1の規模の測定値を基に第2の規模の目的の表現型に関する生物の性能を改善するための命令を記憶している1つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスのうち少なくとも1つに、
a.第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づく第1の規模の性能データと、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能に少なくとも部分的に基づく第2の規模の性能データとにアクセスさせるステップであって、ここで前記第1の規模の性能データが第1の規模の統計モデルに少なくとも部分的に基づくものであるステップと、
b.前記第1の規模の性能データに対する前記第2の規模の性能データの関係性に少なくとも部分的に基づいて予測関数を生成させるステップであって、ここで前記第2の規模の1つまたは複数の供試生物についての第2の規模の予測性能データを生成するために、前記第1の規模の前記目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数が適用可能であるステップと
を行う、1つまたは複数の非一時的コンピュータ可読媒体。
(項目55)
前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、項目54に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目56)
前記第1の規模の統計モデルが前記第1の規模の生物体の特徴を表す、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目57)
前記生物体の特徴が、プロセス条件、培地条件、または遺伝因子を含む、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目58)
少なくとも1つの生物体の特徴が生物位置に関連している、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目59)
前記予測関数を生成するステップが、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データを検討項目から除去するステップをさらに含む、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目60)
前記予測関数を生成するステップが、前記予測関数の誤差を低減するために1つまたは複数の因子を組み込むステップをさらに含む、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目61)
前記予測関数を生成するステップが、少なくとも1つの遺伝因子に関して調整するステップをさらに含む、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目62)
a.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
b.前記予測関数を生成する際の検討項目から第1の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第1の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記改変された予測関数をもたらすことになるステップと
のためのさらなる命令を記憶している、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目63)
a.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
b.第1の候補の外れ値生物に関して前記改変された予測関数のレバレッジメトリックがレバレッジ条件を満たす場合には、前記改変された予測関数を前記予測関数として使用するステップと
のためのさらなる命令を記憶している、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目64)
前記第1の候補の外れ値生物が、前記予測関数を生成する際に除外する場合、前記改変された予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす生物である、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目65)
i.前記第1の候補の外れ値生物を除外して前記予測関数を生成する際に検討項目から除外する場合、前記予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす第2の生物を、第2の候補の外れ値生物であると識別するステップと、
ii.因子のセットからの1つまたは複数の因子によって前記予測関数を改変して、第2の改変された予測関数を生成するステップと、
iii.前記予測関数を生成する際の検討項目から前記第2の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第2の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記第2の改変された予測関数をもたらすことになるステップと
のためのさらなる命令を記憶している、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目66)
第1の候補の外れ値生物が前記第1の規模の性能データおよび前記第2の規模の性能データで表され、前記1つまたは複数の供試生物が前記第1の候補の外れ値生物を含み、前記第2の規模の予測性能データが、前記第1の候補の外れ値生物の前記第2の規模の予測性能を表す、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目67)
前記予測関数を改変するステップが、前記1つまたは複数の因子を前記予測関数に組み込むステップまたは前記予測関数から除去するステップを含む、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目68)
前記1つまたは複数の因子が遺伝因子を含む、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目69)
前記予測関数を生成するステップが、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練するステップを含む、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目70)
前記予測関数を生成するステップが、前記1つまたは複数の因子によって前記予測関数を改変する前記プロセスにおいて機械学習を適用するステップを含む、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目71)
a.複数の予測関数に関する性能誤差メトリックを比較するステップと、
b.少なくとも前記比較に基づいて前記予測関数にランク付けするステップと
のためのさらなる命令を記憶している、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目72)
前記1つまたは複数の第1の生物に関する前記第1の規模の性能データが第1の規模の統計モデルの出力を表し、前記1つまたは複数の非一時的コンピュータ可読媒体が、
a.前記第2の規模の前記1つまたは複数の第1の生物に関する予測性能を前記第2の規模の性能データと比較するステップと、
b.前記比較に少なくとも部分的に基づいて前記第1の規模の統計モデルのパラメータを調整するステップと
のためのさらなる命令を記憶している、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目73)
前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目74)
前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目75)
前記表現型が化合物の生産を含む、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目76)
前記生物が微生物株である、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目77)
前記第2の規模の前記1つまたは複数の供試生物についての前記第2の規模の予測性能データを生成するために、前記第1の規模の目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数を適用するステップのためのさらなる命令を記憶している、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目78)
前記第2の規模の予測性能に少なくとも部分的に基づいて前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップのためのさらなる命令を記憶している、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目79)
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目80)
第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の生物の観測された性能に基づいて改善するためのコンピュータ実装方法であって、
a.予測関数にアクセスするステップであって、前記予測関数が、第1の規模の性能データに対する第2の規模の性能データの関係性に少なくとも部分的に基づくものであり、前記第1の規模の性能データが、第1の規模の統計モデルおよび第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づくものであり、前記第2の規模の性能データが、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能に少なくとも部分的に基づくものであるステップと、
b.前記第1の規模の1つまたは複数の供試生物に前記予測関数を適用して、前記第2の規模の前記1つまたは複数の供試生物に関する第2の規模の予測性能データを生成するステップと
を含む方法。
(項目81)
前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、項目80に記載の方法。
(項目82)
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、項目80から続く先行する項目のうちいずれか一項に記載の方法。
(項目83)
前記予測関数が、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データによる影響を除外する、項目80から続く先行する項目のうちいずれか一項に記載の方法。
(項目84)
前記予測関数が前記予測関数の誤差を低減するために1つまたは複数の遺伝因子を組み込む、項目80から続く先行する項目のうちいずれか一項に記載の方法。
(項目85)
前記予測関数が第1の候補の外れ値生物による影響を除外するものであり、前記予測関数を生成する際に前記影響が含まれている場合、レバレッジ条件を満たさないレバレッジメトリックを有する改変された予測関数をもたらすことになり、前記改変された予測関数は1つまたは複数の因子による前記予測関数への改変を組み込んでいる、項目80から続く先行する項目のうちいずれか一項に記載の方法。
(項目86)
前記予測関数が、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練することによって生成される、項目80から続く先行する項目のうちいずれか一項に記載の方法。
(項目87)
前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、項目80から続く先行する項目のうちいずれか一項に記載の方法。
(項目88)
前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、項目80から続く先行する項目のうちいずれか一項に記載の方法。
(項目89)
前記表現型が化合物の生産を含む、項目80から続く先行する項目のうちいずれか一項に記載の方法。
(項目90)
前記生物が微生物株である、項目80から続く先行する項目のうちいずれか一項に記載の方法。
(項目91)
前記第2の規模の予測性能に少なくとも部分的に基づいて前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップをさらに含む、項目80から続く先行する項目のうちいずれか一項に記載の方法。
(項目92)
第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の生物の観測された性能に基づいて改善するためのシステムであって、
1つまたは複数のプロセッサと、
命令を記憶している1つまたは複数のメモリであって、前記命令が、前記1つまたは複数のプロセッサのうち少なくとも1つによって実行されたとき、前記システムに、
a.予測関数にアクセスさせるステップであって、ここで、前記予測関数が、第1の規模の性能データに対する第2の規模の性能データの関係性に少なくとも部分的に基づくものであり、前記第1の規模の性能データが、第1の規模の統計モデルおよび第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づくものであり、前記第2の規模の性能データが、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能を表すステップと、
b.前記第1の規模の1つまたは複数の供試生物に前記予測関数を適用して、前記第2の規模の前記1つまたは複数の供試生物に関する第2の規模の予測性能データを生成させるステップと
を行う、1つまたは複数のメモリと
を備えるシステム。
(項目93)
前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、項目92に記載のシステム。
(項目94)
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、項目92から続く先行する項目のうちいずれか一項に記載のシステム。
(項目95)
前記予測関数が、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データによる影響を除外する、項目92から続く先行する項目のうちいずれか一項に記載のシステム。
(項目96)
前記予測関数が前記予測関数の誤差を低減するために1つまたは複数の遺伝因子を組み込む、項目92から続く先行する項目のうちいずれか一項に記載のシステム。
(項目97)
前記予測関数が第1の候補の外れ値生物による影響を除外するものであり、前記予測関数を生成する際に前記影響が含まれている場合、レバレッジ条件を満たさないレバレッジメトリックを有する改変された予測関数をもたらすことになり、前記改変された予測関数は1つまたは複数の因子による前記予測関数への改変を組み込んでいる、項目92から続く先行する項目のうちいずれか一項に記載のシステム。
(項目98)
前記予測関数が、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練することによって生成される、項目92から続く先行する項目のうちいずれか一項に記載のシステム。
(項目99)
前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、項目92から続く先行する項目のうちいずれか一項に記載のシステム。
(項目100)
前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、項目92から続く先行する項目のうちいずれか一項に記載のシステム。
(項目101)
前記表現型が化合物の生産を含む、項目92から続く先行する項目のうちいずれか一項に記載のシステム。
(項目102)
前記生物が微生物株である、項目92から続く先行する項目のうちいずれか一項に記載のシステム。
(項目103)
前記1つまたは複数のメモリが、前記第2の規模の予測性能に少なくとも部分的に基づいて前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップのためのさらなる命令を記憶している、項目92から続く先行する項目のうちいずれか一項に記載のシステム。
(項目104)
第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の観測された生物の性能を基に改善するための命令を記憶している1つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスのうち少なくとも1つに、
a.予測関数にアクセスさせるステップであって、ここで前記予測関数が、第1の規模の性能データに対する第2の規模の性能データの関係性に少なくとも部分的に基づくものであり、前記第1の規模の性能データが、第1の規模の統計モデルおよび第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づくものであり、前記第2の規模の性能データが、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能を表すステップと、
b.前記第1の規模の1つまたは複数の供試生物に前記予測関数を適用して、前記第2の規模の前記1つまたは複数の供試生物に関する第2の規模の予測性能データを生成させるステップと
を行う、1つまたは複数の非一時的コンピュータ可読媒体。
(項目105)
前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、項目104に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目106)
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、項目104から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目107)
前記予測関数が、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データによる影響を除外する、項目104から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目108)
前記予測関数が前記予測関数の誤差を低減するために1つまたは複数の遺伝因子を組み込む、項目104から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目109)
前記予測関数が第1の候補の外れ値生物による影響を除外するものであり、前記予測関数を生成する際に前記影響が含まれている場合、レバレッジ条件を満たさないレバレッジメトリックを有する改変された予測関数をもたらすことになり、前記改変された予測関数は1つまたは複数の因子による前記予測関数への改変を組み込んでいる、項目104から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目110)
前記予測関数が、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練することによって生成される、項目104から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目111)
前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、項目104から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目112)
前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、項目104から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目113)
前記目的の表現型が化合物の生産を含む、項目104から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目114)
前記生物が微生物株である、項目104から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目115)
前記第2の規模の予測性能に少なくとも部分的に基づいて前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップのためのさらなる命令を記憶している、項目104から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目116)
第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の観測された性能に基づいて改善するためのコンピュータ実装方法であって、
a.前記第1の規模の生物体の特徴を表す第1の規模の統計モデルの選択を表す第1のユーザ入力を受け取るステップと、
b.予測関数の選択を表す第2のユーザ入力を受け取るステップと、
c.前記目的の表現型に関する性能データのタイプの選択を表す第3のユーザ入力を受け取るステップと、
d.グラフィックディスプレイに対して予測関数を供給するステップであって、前記予測関数が、前記第1の規模の1つまたは複数の供試生物について観測された性能データに対して前記予測関数を適用することに基づいて前記第2の規模の1つまたは複数の供試生物に関する前記選択されたタイプの第2の規模の予測性能データをもたらすためのものであるステップと
を含む方法。
(項目117)
グラフィックディスプレイに対して、前記第2の規模の1つまたは複数の供試生物に関する前記第2の規模の予測性能データを供給するステップをさらに含む項目116に記載の方法。
(項目118)
前記第1の規模の性能データが前記第1の規模の統計モデルを使用して生成される、項目116から続く先行する項目のうちいずれか一項に記載の方法。
(項目119)
前記予測関数を生成する際に検討項目から除去される1つまたは複数の外れ値生物のユーザ選択を表すユーザ入力を受け取るステップをさらに含む、項目116から続く先行する項目のうちいずれか一項に記載の方法。
(項目120)
前記予測関数を生成する際に使用される1つまたは複数の因子のユーザ選択を表すユーザ入力を受け取るステップをさらに含む、項目116から続く先行する項目のうちいずれか一項に記載の方法。
(項目121)
前記1つまたは複数の因子が1つまたは複数の遺伝因子を含む、項目116から続く先行する項目のうちいずれか一項に記載の方法。
(項目122)
前記1つまたは複数の供試生物のうち少なくとも1つを生成するステップをさらに含む、項目116から続く先行する項目のうちいずれか一項に記載の方法。
(項目123)
項目116から続く先行する項目のうちいずれか一項に記載の方法を使用して識別される、前記第2の規模の供試生物。
(項目124)
第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の観測された性能に基づいて改善するためのシステムであって、
1つまたは複数のプロセッサと、
命令を記憶している1つまたは複数のメモリであって、前記命令が、前記1つまたは複数のプロセッサのうち少なくとも1つによって実行されたとき、前記システムに、
a.前記第1の規模の生物体の特徴を表す第1の規模の統計モデルの選択を表す第1のユーザ入力を受け取らせるステップと、
b.予測関数の選択を表す第2のユーザ入力を受け取らせるステップと、
c.前記目的の表現型に関する性能データのタイプの選択を表す第3のユーザ入力を受け取らせるステップと、
d.グラフィックディスプレイに対して予測関数を供給させるステップであって、前記予測関数が、前記第1の規模の1つまたは複数の供試生物について観測された性能データに対して前記予測関数を適用することを基に、前記第2の規模の1つまたは複数の供試生物に関する前記選択されたタイプの第2の規模の予測性能データをもたらすためのものであるステップと
を行う、1つまたは複数のメモリと
を備えるシステム。
(項目125)
前記1つまたは複数のメモリが、グラフィックディスプレイに対して前記第2の規模の1つまたは複数の供試生物に関する前記第2の規模の予測性能データを供給するためのさらなる命令を記憶している、項目124に記載のシステム。
(項目126)
前記第1の規模の性能データが前記第1の規模の統計モデルを使用して生成される、項目124から続く先行する項目のうちいずれか一項に記載のシステム。
(項目127)
前記1つまたは複数のメモリが、前記予測関数を生成する際に検討項目から除去される1つまたは複数の外れ値生物のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、項目124から続く先行する項目のうちいずれか一項に記載のシステム。
(項目128)
前記1つまたは複数のメモリが、前記予測関数を生成する際に使用される1つまたは複数の因子のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、項目124から続く先行する項目のうちいずれか一項に記載のシステム。
(項目129)
前記1つまたは複数の因子が1つまたは複数の遺伝因子を含む、項目124から続く先行する項目のうちいずれか一項に記載のシステム。
(項目130)
前記1つまたは複数のメモリが、前記1つまたは複数の供試生物のうち少なくとも1つを生成するステップのためのさらなる命令を記憶している、項目124から続く先行する項目のうちいずれか一項に記載のシステム。
(項目131)
第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の観測された性能を基に改善するための命令を記憶している1つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスのうち少なくとも1つに、
a.前記第1の規模の生物体の特徴を表す第1の規模の統計モデルの選択を表す第1のユーザ入力を受け取らせるステップと、
b.予測関数の選択を表す第2のユーザ入力を受け取らせるステップと、
c.前記目的の表現型に関する性能データのタイプの選択を表す第3のユーザ入力を受け取らせるステップと、
d.グラフィックディスプレイに対して予測関数を供給させるステップであって、前記予測関数が、前記第1の規模の1つまたは複数の供試生物について観測された性能データに対して前記予測関数を適用することを基に、前記第2の規模の1つまたは複数の供試生物に関する前記選択されたタイプの第2の規模の予測性能データをもたらすためのものであるステップと
を行う、1つまたは複数の非一時的コンピュータ可読媒体。
(項目132)
グラフィックディスプレイに対して前記第2の規模の1つまたは複数の供試生物に関する前記第2の規模の予測性能データを供給するためのさらなる命令を記憶している、項目131に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目133)
前記第1の規模の性能データが前記第1の規模の統計モデルを使用して生成される、項目131から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目134)
前記予測関数を生成する際に検討項目から除去される1つまたは複数の外れ値生物のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、項目131から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目135)
前記予測関数を生成する際に使用される1つまたは複数の因子のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、項目131から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目136)
前記1つまたは複数の因子が1つまたは複数の遺伝因子を含む、項目131から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目137)
前記1つまたは複数の供試生物のうち少なくとも1つを生成するステップのためのさらなる命令を記憶している、項目131から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。

Claims (137)

  1. 第1の規模の測定値を基に第2の規模の目的の表現型に関する生物の性能を改善するための、コンピュータ実装方法であって、
    a.第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づく第1の規模の性能データと、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能に少なくとも部分的に基づく第2の規模の性能データとにアクセスするステップであって、前記第1の規模の性能データが第1の規模の統計モデルに少なくとも部分的に基づくものであるステップと、
    b.前記第1の規模の性能データに対する前記第2の規模の性能データの関係性に少なくとも部分的に基づいて予測関数を生成するステップであって、前記第2の規模の1つまたは複数の供試生物についての第2の規模の予測性能データを生成するために、前記第1の規模の前記目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数が適用可能であるステップと
    を含む方法。
  2. 前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、請求項1に記載の方法。
  3. 前記第1の規模の統計モデルが前記第1の規模の生物体の特徴を表す、先行する請求項のうちいずれか一項に記載の方法。
  4. 前記生物体の特徴が、プロセス条件、培地条件、または遺伝因子を含む、先行する請求項のうちいずれか一項に記載の方法。
  5. 少なくとも1つの生物体の特徴が生物位置に関連している、先行する請求項のうちいずれか一項に記載の方法。
  6. 前記予測関数を生成するステップが、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データを検討項目から除去するステップをさらに含む、先行する請求項のうちいずれか一項に記載の方法。
  7. 前記予測関数を生成するステップが、前記予測関数の誤差を低減するために1つまたは複数の因子を組み込むステップをさらに含む、先行する請求項のうちいずれか一項に記載の方法。
  8. 前記予測関数を生成するステップが、少なくとも1つの遺伝因子に関して調整するステップをさらに含む、先行する請求項のうちいずれか一項に記載の方法。
  9. a.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
    b.前記予測関数を生成する際の検討項目から第1の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第1の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記改変された予測関数をもたらすことになるステップと
    をさらに含む、先行する請求項のうちいずれか一項に記載の方法。
  10. a.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
    b.第1の候補の外れ値生物に関して前記改変された予測関数のレバレッジメトリックがレバレッジ条件を満たす場合には、前記改変された予測関数を前記予測関数として使用するステップと
    をさらに含む、先行する請求項のうちいずれか一項に記載の方法。
  11. 前記第1の候補の外れ値生物が、前記予測関数を生成する際に除外する場合、前記改変された予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす生物である、先行する請求項のうちいずれか一項に記載の方法。
  12. i.前記第1の候補の外れ値生物を除外して前記予測関数を生成する際に検討項目から除外する場合、前記予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす第2の生物を、第2の候補の外れ値生物であると識別するステップと、
    ii.因子のセットからの1つまたは複数の因子によって前記予測関数を改変して、第2の改変された予測関数を生成するステップと、
    iii.前記予測関数を生成する際の検討項目から前記第2の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第2の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記第2の改変された予測関数をもたらすことになるステップと
    をさらに含む、先行する請求項のうちいずれか一項に記載の方法。
  13. 第1の候補の外れ値生物が前記第1の規模の性能データおよび前記第2の規模の性能データで表され、前記1つまたは複数の供試生物が前記第1の候補の外れ値生物を含み、前記第2の規模の予測性能データが、前記第1の候補の外れ値生物の前記第2の規模の予測性能を表す、先行する請求項のうちいずれか一項に記載の方法。
  14. 前記予測関数を改変するステップが、前記1つまたは複数の因子を前記予測関数に組み込むステップまたは前記予測関数から除去するステップを含む、先行する請求項のうちいずれか一項に記載の方法。
  15. 前記1つまたは複数の因子が遺伝因子を含む、先行する請求項のうちいずれか一項に記載の方法。
  16. 前記予測関数を生成するステップが、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練するステップを含む、先行する請求項のうちいずれか一項に記載の方法。
  17. 前記予測関数を生成するステップが、前記1つまたは複数の因子によって前記予測関数を改変するプロセスにおいて機械学習を適用するステップを含む、先行する請求項のうちいずれか一項に記載の方法。
  18. a.複数の予測関数に関する性能誤差メトリックを比較するステップと、
    b.少なくとも前記比較に基づいて前記予測関数にランク付けするステップと
    をさらに含む、先行する請求項のうちいずれか一項に記載の方法。
  19. 前記1つまたは複数の第1の生物に関する前記第1の規模の性能データが、第1の規模の統計モデルの出力を表し、前記方法が、
    a.前記第2の規模の前記1つまたは複数の第1の生物に関する予測性能を前記第2の規模の性能データと比較するステップと、
    b.前記比較に少なくとも部分的に基づいて前記第1の規模の統計モデルのパラメータを調整するステップと
    をさらに含む、先行する請求項のうちいずれか一項に記載の方法。
  20. 前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、先行する請求項のうちいずれか一項に記載の方法。
  21. 前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、先行する請求項のうちいずれか一項に記載の方法。
  22. 前記表現型が化合物の生産を含む、先行する請求項のうちいずれか一項に記載の方法。
  23. 前記生物が微生物株である、先行する請求項のうちいずれか一項に記載の方法。
  24. 前記第2の規模の前記1つまたは複数の供試生物についての前記第2の規模の予測性能データを生成するために、前記第1の規模の目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数を適用するステップをさらに含む、先行する請求項のうちいずれか一項に記載の方法。
  25. 前記第2の規模の予測性能に少なくとも部分的に基づいて、前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップをさらに含む、先行する請求項のうちいずれか一項に記載の方法。
  26. 前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、先行する請求項のうちいずれか一項に記載の方法。
  27. 先行する請求項のうちいずれか一項に記載の方法を使用して識別される、前記第2の規模の供試生物。
  28. 第1の規模の測定値を基に第2の規模の目的の表現型に関する生物の性能を改善するためのシステムであって、
    1つまたは複数のプロセッサと、
    命令を記憶している1つまたは複数のメモリであって、前記命令が、前記1つまたは複数のプロセッサのうち少なくとも1つによって実行されたとき、前記システムに、
    a.第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づく第1の規模の性能データと、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能に少なくとも部分的に基づく第2の規模の性能データとにアクセスさせるステップであって、ここで前記第1の規模の性能データが第1の規模の統計モデルに少なくとも部分的に基づくものであるステップと、
    b.前記第1の規模の性能データに対する前記第2の規模の性能データの関係性に少なくとも部分的に基づいて予測関数を生成させるステップであって、ここで前記第2の規模の1つまたは複数の供試生物についての第2の規模の予測性能データを生成するために、前記第1の規模の前記目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数が適用可能であるステップと
    を行う、1つまたは複数のメモリと
    を備えるシステム。
  29. 前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、請求項28に記載のシステム。
  30. 前記第1の規模の統計モデルが前記第1の規模の生物体の特徴を表す、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  31. 前記生物体の特徴が、プロセス条件、培地条件、または遺伝因子を含む、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  32. 少なくとも1つの生物体の特徴が生物位置に関連している、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  33. 前記予測関数を生成するステップが、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データを検討項目から除去するステップをさらに含む、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  34. 前記予測関数を生成するステップが、前記予測関数の誤差を低減するために1つまたは複数の因子を組み込むステップをさらに含む、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  35. 前記予測関数を生成するステップが、少なくとも1つの遺伝因子に関して調整するステップをさらに含む、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  36. 前記1つまたは複数のメモリが、
    c.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
    d.前記予測関数を生成する際の検討項目から第1の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第1の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記改変された予測関数をもたらすことになるステップと
    のためのさらなる命令を記憶している、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  37. 前記1つまたは複数のメモリが、
    e.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
    f.第1の候補の外れ値生物に関して前記改変された予測関数のレバレッジメトリックがレバレッジ条件を満たす場合には、前記改変された予測関数を前記予測関数として使用するステップと
    のためのさらなる命令を記憶している、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  38. 前記第1の候補の外れ値生物が、前記予測関数を生成する際に除外する場合、前記改変された予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす生物である、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  39. 前記1つまたは複数のメモリが、
    i.前記第1の候補の外れ値生物を除外して前記予測関数を生成する際に検討項目から除外する場合、前記予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす第2の生物を、第2の候補の外れ値生物であると識別するステップと、
    ii.因子のセットからの1つまたは複数の因子によって前記予測関数を改変して、第2の改変された予測関数を生成するステップと、
    iii.前記予測関数を生成する際の検討項目から前記第2の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第2の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記第2の改変された予測関数をもたらすことになるステップと
    のためのさらなる命令を記憶している、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  40. 第1の候補の外れ値生物が前記第1の規模の性能データおよび前記第2の規模の性能データで表され、前記1つまたは複数の供試生物が前記第1の候補の外れ値生物を含み、前記第2の規模の予測性能データが、前記第1の候補の外れ値生物の前記第2の規模の予測性能を表す、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  41. 前記予測関数を改変するステップが、前記1つまたは複数の因子を前記予測関数に組み込むステップまたは前記予測関数から除去するステップを含む、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  42. 前記1つまたは複数の因子が遺伝因子を含む、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  43. 前記予測関数を生成するステップが、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練するステップを含む、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  44. 前記予測関数を生成するステップが、前記1つまたは複数の因子によって前記予測関数を改変する前記プロセスにおいて機械学習を適用するステップを含む、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  45. 前記1つまたは複数のメモリが、
    g.複数の予測関数に関する性能誤差メトリックを比較するステップと、
    h.少なくとも前記比較に基づいて前記予測関数にランク付けするステップと
    のためのさらなる命令を記憶している、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  46. 前記1つまたは複数の第1の生物に関する前記第1の規模の性能データが第1の規模の統計モデルの出力を表し、前記1つまたは複数のメモリが、
    i.前記第2の規模の前記1つまたは複数の第1の生物に関する予測性能を前記第2の規模の性能データと比較するステップと、
    j.前記比較に少なくとも部分的に基づいて前記第1の規模の統計モデルのパラメータを調整するステップと
    のためのさらなる命令を記憶している、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  47. 前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  48. 前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  49. 前記表現型が化合物の生産を含む、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  50. 前記生物が微生物株である、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  51. 前記1つまたは複数のメモリが、前記第2の規模の前記1つまたは複数の供試生物についての前記第2の規模の予測性能データを生成するために、前記第1の規模の目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数を適用するステップのためのさらなる命令を記憶している、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  52. 前記1つまたは複数のメモリが、前記第2の規模の予測性能に少なくとも部分的に基づいて、前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップのためのさらなる命令を記憶している、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  53. 前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
  54. 第1の規模の測定値を基に第2の規模の目的の表現型に関する生物の性能を改善するための命令を記憶している1つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスのうち少なくとも1つに、
    a.第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づく第1の規模の性能データと、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能に少なくとも部分的に基づく第2の規模の性能データとにアクセスさせるステップであって、ここで前記第1の規模の性能データが第1の規模の統計モデルに少なくとも部分的に基づくものであるステップと、
    b.前記第1の規模の性能データに対する前記第2の規模の性能データの関係性に少なくとも部分的に基づいて予測関数を生成させるステップであって、ここで前記第2の規模の1つまたは複数の供試生物についての第2の規模の予測性能データを生成するために、前記第1の規模の前記目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数が適用可能であるステップと
    を行う、1つまたは複数の非一時的コンピュータ可読媒体。
  55. 前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、請求項54に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  56. 前記第1の規模の統計モデルが前記第1の規模の生物体の特徴を表す、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  57. 前記生物体の特徴が、プロセス条件、培地条件、または遺伝因子を含む、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  58. 少なくとも1つの生物体の特徴が生物位置に関連している、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  59. 前記予測関数を生成するステップが、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データを検討項目から除去するステップをさらに含む、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  60. 前記予測関数を生成するステップが、前記予測関数の誤差を低減するために1つまたは複数の因子を組み込むステップをさらに含む、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  61. 前記予測関数を生成するステップが、少なくとも1つの遺伝因子に関して調整するステップをさらに含む、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  62. a.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
    b.前記予測関数を生成する際の検討項目から第1の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第1の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記改変された予測関数をもたらすことになるステップと
    のためのさらなる命令を記憶している、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  63. a.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
    b.第1の候補の外れ値生物に関して前記改変された予測関数のレバレッジメトリックがレバレッジ条件を満たす場合には、前記改変された予測関数を前記予測関数として使用するステップと
    のためのさらなる命令を記憶している、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  64. 前記第1の候補の外れ値生物が、前記予測関数を生成する際に除外する場合、前記改変された予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす生物である、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  65. i.前記第1の候補の外れ値生物を除外して前記予測関数を生成する際に検討項目から除外する場合、前記予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす第2の生物を、第2の候補の外れ値生物であると識別するステップと、
    ii.因子のセットからの1つまたは複数の因子によって前記予測関数を改変して、第2の改変された予測関数を生成するステップと、
    iii.前記予測関数を生成する際の検討項目から前記第2の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第2の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記第2の改変された予測関数をもたらすことになるステップと
    のためのさらなる命令を記憶している、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  66. 第1の候補の外れ値生物が前記第1の規模の性能データおよび前記第2の規模の性能データで表され、前記1つまたは複数の供試生物が前記第1の候補の外れ値生物を含み、前記第2の規模の予測性能データが、前記第1の候補の外れ値生物の前記第2の規模の予測性能を表す、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  67. 前記予測関数を改変するステップが、前記1つまたは複数の因子を前記予測関数に組み込むステップまたは前記予測関数から除去するステップを含む、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  68. 前記1つまたは複数の因子が遺伝因子を含む、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  69. 前記予測関数を生成するステップが、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練するステップを含む、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  70. 前記予測関数を生成するステップが、前記1つまたは複数の因子によって前記予測関数を改変する前記プロセスにおいて機械学習を適用するステップを含む、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  71. a.複数の予測関数に関する性能誤差メトリックを比較するステップと、
    b.少なくとも前記比較に基づいて前記予測関数にランク付けするステップと
    のためのさらなる命令を記憶している、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  72. 前記1つまたは複数の第1の生物に関する前記第1の規模の性能データが第1の規模の統計モデルの出力を表し、前記1つまたは複数の非一時的コンピュータ可読媒体が、
    a.前記第2の規模の前記1つまたは複数の第1の生物に関する予測性能を前記第2の規模の性能データと比較するステップと、
    b.前記比較に少なくとも部分的に基づいて前記第1の規模の統計モデルのパラメータを調整するステップと
    のためのさらなる命令を記憶している、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  73. 前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  74. 前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  75. 前記表現型が化合物の生産を含む、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  76. 前記生物が微生物株である、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  77. 前記第2の規模の前記1つまたは複数の供試生物についての前記第2の規模の予測性能データを生成するために、前記第1の規模の目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数を適用するステップのためのさらなる命令を記憶している、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  78. 前記第2の規模の予測性能に少なくとも部分的に基づいて前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップのためのさらなる命令を記憶している、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  79. 前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  80. 第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の生物の観測された性能に基づいて改善するためのコンピュータ実装方法であって、
    a.予測関数にアクセスするステップであって、前記予測関数が、第1の規模の性能データに対する第2の規模の性能データの関係性に少なくとも部分的に基づくものであり、前記第1の規模の性能データが、第1の規模の統計モデルおよび第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づくものであり、前記第2の規模の性能データが、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能に少なくとも部分的に基づくものであるステップと、
    b.前記第1の規模の1つまたは複数の供試生物に前記予測関数を適用して、前記第2の規模の前記1つまたは複数の供試生物に関する第2の規模の予測性能データを生成するステップと
    を含む方法。
  81. 前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、請求項80に記載の方法。
  82. 前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、請求項80から続く先行する請求項のうちいずれか一項に記載の方法。
  83. 前記予測関数が、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データによる影響を除外する、請求項80から続く先行する請求項のうちいずれか一項に記載の方法。
  84. 前記予測関数が前記予測関数の誤差を低減するために1つまたは複数の遺伝因子を組み込む、請求項80から続く先行する請求項のうちいずれか一項に記載の方法。
  85. 前記予測関数が第1の候補の外れ値生物による影響を除外するものであり、前記予測関数を生成する際に前記影響が含まれている場合、レバレッジ条件を満たさないレバレッジメトリックを有する改変された予測関数をもたらすことになり、前記改変された予測関数は1つまたは複数の因子による前記予測関数への改変を組み込んでいる、請求項80から続く先行する請求項のうちいずれか一項に記載の方法。
  86. 前記予測関数が、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練することによって生成される、請求項80から続く先行する請求項のうちいずれか一項に記載の方法。
  87. 前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、請求項80から続く先行する請求項のうちいずれか一項に記載の方法。
  88. 前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、請求項80から続く先行する請求項のうちいずれか一項に記載の方法。
  89. 前記表現型が化合物の生産を含む、請求項80から続く先行する請求項のうちいずれか一項に記載の方法。
  90. 前記生物が微生物株である、請求項80から続く先行する請求項のうちいずれか一項に記載の方法。
  91. 前記第2の規模の予測性能に少なくとも部分的に基づいて前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップをさらに含む、請求項80から続く先行する請求項のうちいずれか一項に記載の方法。
  92. 第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の生物の観測された性能に基づいて改善するためのシステムであって、
    1つまたは複数のプロセッサと、
    命令を記憶している1つまたは複数のメモリであって、前記命令が、前記1つまたは複数のプロセッサのうち少なくとも1つによって実行されたとき、前記システムに、
    a.予測関数にアクセスさせるステップであって、ここで、前記予測関数が、第1の規模の性能データに対する第2の規模の性能データの関係性に少なくとも部分的に基づくものであり、前記第1の規模の性能データが、第1の規模の統計モデルおよび第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づくものであり、前記第2の規模の性能データが、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能を表すステップと、
    b.前記第1の規模の1つまたは複数の供試生物に前記予測関数を適用して、前記第2の規模の前記1つまたは複数の供試生物に関する第2の規模の予測性能データを生成させるステップと
    を行う、1つまたは複数のメモリと
    を備えるシステム。
  93. 前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、請求項92に記載のシステム。
  94. 前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、請求項92から続く先行する請求項のうちいずれか一項に記載のシステム。
  95. 前記予測関数が、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データによる影響を除外する、請求項92から続く先行する請求項のうちいずれか一項に記載のシステム。
  96. 前記予測関数が前記予測関数の誤差を低減するために1つまたは複数の遺伝因子を組み込む、請求項92から続く先行する請求項のうちいずれか一項に記載のシステム。
  97. 前記予測関数が第1の候補の外れ値生物による影響を除外するものであり、前記予測関数を生成する際に前記影響が含まれている場合、レバレッジ条件を満たさないレバレッジメトリックを有する改変された予測関数をもたらすことになり、前記改変された予測関数は1つまたは複数の因子による前記予測関数への改変を組み込んでいる、請求項92から続く先行する請求項のうちいずれか一項に記載のシステム。
  98. 前記予測関数が、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練することによって生成される、請求項92から続く先行する請求項のうちいずれか一項に記載のシステム。
  99. 前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、請求項92から続く先行する請求項のうちいずれか一項に記載のシステム。
  100. 前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、請求項92から続く先行する請求項のうちいずれか一項に記載のシステム。
  101. 前記表現型が化合物の生産を含む、請求項92から続く先行する請求項のうちいずれか一項に記載のシステム。
  102. 前記生物が微生物株である、請求項92から続く先行する請求項のうちいずれか一項に記載のシステム。
  103. 前記1つまたは複数のメモリが、前記第2の規模の予測性能に少なくとも部分的に基づいて前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップのためのさらなる命令を記憶している、請求項92から続く先行する請求項のうちいずれか一項に記載のシステム。
  104. 第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の観測された生物の性能を基に改善するための命令を記憶している1つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスのうち少なくとも1つに、
    a.予測関数にアクセスさせるステップであって、ここで前記予測関数が、第1の規模の性能データに対する第2の規模の性能データの関係性に少なくとも部分的に基づくものであり、前記第1の規模の性能データが、第1の規模の統計モデルおよび第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づくものであり、前記第2の規模の性能データが、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能を表すステップと、
    b.前記第1の規模の1つまたは複数の供試生物に前記予測関数を適用して、前記第2の規模の前記1つまたは複数の供試生物に関する第2の規模の予測性能データを生成させるステップと
    を行う、1つまたは複数の非一時的コンピュータ可読媒体。
  105. 前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、請求項104に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  106. 前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、請求項104から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  107. 前記予測関数が、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データによる影響を除外する、請求項104から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  108. 前記予測関数が前記予測関数の誤差を低減するために1つまたは複数の遺伝因子を組み込む、請求項104から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  109. 前記予測関数が第1の候補の外れ値生物による影響を除外するものであり、前記予測関数を生成する際に前記影響が含まれている場合、レバレッジ条件を満たさないレバレッジメトリックを有する改変された予測関数をもたらすことになり、前記改変された予測関数は1つまたは複数の因子による前記予測関数への改変を組み込んでいる、請求項104から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  110. 前記予測関数が、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練することによって生成される、請求項104から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  111. 前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、請求項104から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  112. 前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、請求項104から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  113. 前記目的の表現型が化合物の生産を含む、請求項104から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  114. 前記生物が微生物株である、請求項104から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  115. 前記第2の規模の予測性能に少なくとも部分的に基づいて前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップのためのさらなる命令を記憶している、請求項104から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  116. 第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の観測された性能に基づいて改善するためのコンピュータ実装方法であって、
    a.前記第1の規模の生物体の特徴を表す第1の規模の統計モデルの選択を表す第1のユーザ入力を受け取るステップと、
    b.予測関数の選択を表す第2のユーザ入力を受け取るステップと、
    c.前記目的の表現型に関する性能データのタイプの選択を表す第3のユーザ入力を受け取るステップと、
    d.グラフィックディスプレイに対して予測関数を供給するステップであって、前記予測関数が、前記第1の規模の1つまたは複数の供試生物について観測された性能データに対して前記予測関数を適用することに基づいて前記第2の規模の1つまたは複数の供試生物に関する前記選択されたタイプの第2の規模の予測性能データをもたらすためのものであるステップと
    を含む方法。
  117. グラフィックディスプレイに対して、前記第2の規模の1つまたは複数の供試生物に関する前記第2の規模の予測性能データを供給するステップをさらに含む請求項116に記載の方法。
  118. 前記第1の規模の性能データが前記第1の規模の統計モデルを使用して生成される、請求項116から続く先行する請求項のうちいずれか一項に記載の方法。
  119. 前記予測関数を生成する際に検討項目から除去される1つまたは複数の外れ値生物のユーザ選択を表すユーザ入力を受け取るステップをさらに含む、請求項116から続く先行する請求項のうちいずれか一項に記載の方法。
  120. 前記予測関数を生成する際に使用される1つまたは複数の因子のユーザ選択を表すユーザ入力を受け取るステップをさらに含む、請求項116から続く先行する請求項のうちいずれか一項に記載の方法。
  121. 前記1つまたは複数の因子が1つまたは複数の遺伝因子を含む、請求項116から続く先行する請求項のうちいずれか一項に記載の方法。
  122. 前記1つまたは複数の供試生物のうち少なくとも1つを生成するステップをさらに含む、請求項116から続く先行する請求項のうちいずれか一項に記載の方法。
  123. 請求項116から続く先行する請求項のうちいずれか一項に記載の方法を使用して識別される、前記第2の規模の供試生物。
  124. 第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の観測された性能に基づいて改善するためのシステムであって、
    1つまたは複数のプロセッサと、
    命令を記憶している1つまたは複数のメモリであって、前記命令が、前記1つまたは複数のプロセッサのうち少なくとも1つによって実行されたとき、前記システムに、
    a.前記第1の規模の生物体の特徴を表す第1の規模の統計モデルの選択を表す第1のユーザ入力を受け取らせるステップと、
    b.予測関数の選択を表す第2のユーザ入力を受け取らせるステップと、
    c.前記目的の表現型に関する性能データのタイプの選択を表す第3のユーザ入力を受け取らせるステップと、
    d.グラフィックディスプレイに対して予測関数を供給させるステップであって、前記予測関数が、前記第1の規模の1つまたは複数の供試生物について観測された性能データに対して前記予測関数を適用することを基に、前記第2の規模の1つまたは複数の供試生物に関する前記選択されたタイプの第2の規模の予測性能データをもたらすためのものであるステップと
    を行う、1つまたは複数のメモリと
    を備えるシステム。
  125. 前記1つまたは複数のメモリが、グラフィックディスプレイに対して前記第2の規模の1つまたは複数の供試生物に関する前記第2の規模の予測性能データを供給するためのさらなる命令を記憶している、請求項124に記載のシステム。
  126. 前記第1の規模の性能データが前記第1の規模の統計モデルを使用して生成される、請求項124から続く先行する請求項のうちいずれか一項に記載のシステム。
  127. 前記1つまたは複数のメモリが、前記予測関数を生成する際に検討項目から除去される1つまたは複数の外れ値生物のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、請求項124から続く先行する請求項のうちいずれか一項に記載のシステム。
  128. 前記1つまたは複数のメモリが、前記予測関数を生成する際に使用される1つまたは複数の因子のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、請求項124から続く先行する請求項のうちいずれか一項に記載のシステム。
  129. 前記1つまたは複数の因子が1つまたは複数の遺伝因子を含む、請求項124から続く先行する請求項のうちいずれか一項に記載のシステム。
  130. 前記1つまたは複数のメモリが、前記1つまたは複数の供試生物のうち少なくとも1つを生成するステップのためのさらなる命令を記憶している、請求項124から続く先行する請求項のうちいずれか一項に記載のシステム。
  131. 第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の観測された性能を基に改善するための命令を記憶している1つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスのうち少なくとも1つに、
    a.前記第1の規模の生物体の特徴を表す第1の規模の統計モデルの選択を表す第1のユーザ入力を受け取らせるステップと、
    b.予測関数の選択を表す第2のユーザ入力を受け取らせるステップと、
    c.前記目的の表現型に関する性能データのタイプの選択を表す第3のユーザ入力を受け取らせるステップと、
    d.グラフィックディスプレイに対して予測関数を供給させるステップであって、前記予測関数が、前記第1の規模の1つまたは複数の供試生物について観測された性能データに対して前記予測関数を適用することを基に、前記第2の規模の1つまたは複数の供試生物に関する前記選択されたタイプの第2の規模の予測性能データをもたらすためのものであるステップと
    を行う、1つまたは複数の非一時的コンピュータ可読媒体。
  132. グラフィックディスプレイに対して前記第2の規模の1つまたは複数の供試生物に関する前記第2の規模の予測性能データを供給するためのさらなる命令を記憶している、請求項131に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  133. 前記第1の規模の性能データが前記第1の規模の統計モデルを使用して生成される、請求項131から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  134. 前記予測関数を生成する際に検討項目から除去される1つまたは複数の外れ値生物のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、請求項131から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  135. 前記予測関数を生成する際に使用される1つまたは複数の因子のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、請求項131から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  136. 前記1つまたは複数の因子が1つまたは複数の遺伝因子を含む、請求項131から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
  137. 前記1つまたは複数の供試生物のうち少なくとも1つを生成するステップのためのさらなる命令を記憶している、請求項131から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
JP2020524820A 2017-11-09 2018-11-09 小規模条件の性能に基づく大規模条件の性能のための生物の最適化 Ceased JP2021502084A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762583961P 2017-11-09 2017-11-09
US62/583,961 2017-11-09
PCT/US2018/060120 WO2019094787A1 (en) 2017-11-09 2018-11-09 Optimization of organisms for performance in larger-scale conditions based on performance in smaller-scale conditions

Publications (1)

Publication Number Publication Date
JP2021502084A true JP2021502084A (ja) 2021-01-28

Family

ID=64557150

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020524820A Ceased JP2021502084A (ja) 2017-11-09 2018-11-09 小規模条件の性能に基づく大規模条件の性能のための生物の最適化

Country Status (7)

Country Link
US (1) US20200357486A1 (ja)
EP (1) EP3707234A1 (ja)
JP (1) JP2021502084A (ja)
KR (1) KR20200084341A (ja)
CN (1) CN111886330A (ja)
CA (1) CA3079750A1 (ja)
WO (1) WO2019094787A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11669063B2 (en) * 2018-11-28 2023-06-06 ExxonMobil Technology and Engineering Company Surrogate model for a chemical production process
CN113795885A (zh) * 2019-05-08 2021-12-14 齐默尔根公司 缩小参数以设计在小规模下的微生物的实验及板模型以改进对在更大规模下的性能的预测
EP3831924A1 (en) * 2019-12-03 2021-06-09 Sartorius Stedim Data Analytics AB Adapting control of a cell culture in a production scale vessel with regard to a starting medium
EP4105312A1 (en) * 2021-06-17 2022-12-21 Bühler AG Method and system for the identification of optimized treatment conditions
CN117233274B (zh) * 2023-08-29 2024-03-15 江苏光质检测科技有限公司 一种土壤中半挥发性有机物含量检测校正方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003023687A2 (en) * 2001-09-12 2003-03-20 Aegis Analytical Corporation An advanced method for profile analysis of continuous data
CN101370926A (zh) * 2006-01-28 2009-02-18 Abb研究有限公司 一种在线预测发酵装置未来性能的方法
US9988624B2 (en) * 2015-12-07 2018-06-05 Zymergen Inc. Microbial strain improvement by a HTP genomic engineering platform
US11151497B2 (en) 2016-04-27 2021-10-19 Zymergen Inc. Microbial strain design system and methods for improved large-scale production of engineered nucleotide sequences
CN106843172B (zh) * 2016-12-29 2019-04-09 中国矿业大学 基于jy-kpls的复杂工业过程在线质量预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALIME OZLEM KIRDAR. ET AL.: "Appication of multivariate analysis toward biotech processes: case study of a cell-culture unit oper", BIOTECHNOLOGY PRIGRESS, vol. Vol.23, Issue 1, JPN6022040511, 2 February 2007 (2007-02-02), pages 61 - 67, ISSN: 0005122266 *
C.C.F. CUNHA, ET AL.: "An Assessment of seed quality and its influence on productivity estimation in an industrial antibiot", BIOTECHNOLOGY BIOENGINEERING, vol. Vol.78, Issue 6, JPN6022040510, 23 April 2002 (2002-04-23), pages 658 - 669, XP055554386, ISSN: 0005122267, DOI: 10.1002/bit.10258 *

Also Published As

Publication number Publication date
CA3079750A1 (en) 2019-05-16
KR20200084341A (ko) 2020-07-10
US20200357486A1 (en) 2020-11-12
WO2019094787A1 (en) 2019-05-16
CN111886330A (zh) 2020-11-03
EP3707234A1 (en) 2020-09-16

Similar Documents

Publication Publication Date Title
JP2021502084A (ja) 小規模条件の性能に基づく大規模条件の性能のための生物の最適化
Williams et al. How evolution modifies the variability of range expansion
Machado et al. Systematic evaluation of methods for integration of transcriptomic data into constraint-based models of metabolism
JP6956884B2 (ja) 細胞培養支援装置の作動プログラム、細胞培養支援装置、細胞培養支援装置の作動方法
Remli et al. An enhanced scatter search with combined opposition-based learning for parameter estimation in large-scale kinetic models of biochemical systems
Czajka et al. Integrated knowledge mining, genome-scale modeling, and machine learning for predicting Yarrowia lipolytica bioproduction
US20220328128A1 (en) Downscaling parameters to design experiments and plate models for micro-organisms at small scale to improve prediction of performance at larger scale
Gustafsson et al. Gene expression prediction by soft integration and the Elastic Net—Best performance of the DREAM3 gene expression challenge
US20200058376A1 (en) Bioreachable prediction tool for predicting properties of bioreachable molecules and related materials
Islam et al. Computational approaches on stoichiometric and kinetic modeling for efficient strain design
Choudhury et al. Generative machine learning produces kinetic models that accurately characterize intracellular metabolic states
JP2021505130A (ja) 外れ値検出に教師なしパラメータ学習を使用して産生のための生物を識別すること
Milias-Argeitis et al. Elucidation of genetic interactions in the yeast GATA-factor network using Bayesian model selection
WO2023178118A1 (en) Directed evolution of molecules by iterative experimentation and machine learning
Li et al. The discovery of transcriptional modules by a two-stage matrix decomposition approach
US20200168291A1 (en) Prioritization of genetic modifications to increase throughput of phenotypic optimization
US20230281362A1 (en) Parameter and state initialization for model training
Mailier et al. Identification of nested biological kinetic models using likelihood ratio tests
WO2023276449A1 (ja) 細胞数理モデルを作成する方法、細胞数理モデル作成プログラム、細胞数理モデル作成装置、細胞数理モデルの判定方法、細胞数理モデル判定プログラム、及び、細胞数理モデル判定装置
Li Application of machine learning in systems biology
US20230097018A1 (en) Kinetic learning
Wang et al. A hybrid modelling framework for dynamic modelling of bioprocesses
WO2023276450A1 (ja) 細胞の培養結果を予測する方法、培養結果予測プログラム、及び、培養結果予測装置
Cruz Blueprint: documenting the complexity of metabolic regulation by reconstruction of integrated metabolic-regulatory models
Ananda et al. A review of advances in integrating gene regulatory networks and metabolic networks for designing strain optimization

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200709

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221226

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230607

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230804

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231012

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240131

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240214

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20240621