JP2021502084A - 小規模条件の性能に基づく大規模条件の性能のための生物の最適化 - Google Patents
小規模条件の性能に基づく大規模条件の性能のための生物の最適化 Download PDFInfo
- Publication number
- JP2021502084A JP2021502084A JP2020524820A JP2020524820A JP2021502084A JP 2021502084 A JP2021502084 A JP 2021502084A JP 2020524820 A JP2020524820 A JP 2020524820A JP 2020524820 A JP2020524820 A JP 2020524820A JP 2021502084 A JP2021502084 A JP 2021502084A
- Authority
- JP
- Japan
- Prior art keywords
- scale
- performance
- performance data
- organism
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000005457 optimization Methods 0.000 title description 20
- 238000000034 method Methods 0.000 claims abstract description 165
- 238000005259 measurement Methods 0.000 claims abstract description 65
- 230000006870 function Effects 0.000 claims description 387
- 235000000346 sugar Nutrition 0.000 claims description 72
- 230000002068 genetic effect Effects 0.000 claims description 62
- 238000013179 statistical model Methods 0.000 claims description 55
- 230000015654 memory Effects 0.000 claims description 49
- 238000010801 machine learning Methods 0.000 claims description 41
- 230000000694 effects Effects 0.000 claims description 39
- 238000012360 testing method Methods 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 31
- 230000006872 improvement Effects 0.000 claims description 28
- 230000000813 microbial effect Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 25
- 230000004048 modification Effects 0.000 claims description 24
- 238000012986 modification Methods 0.000 claims description 24
- 238000004519 manufacturing process Methods 0.000 claims description 19
- 150000001875 compounds Chemical class 0.000 claims description 16
- 230000001052 transient effect Effects 0.000 claims description 5
- 238000012546 transfer Methods 0.000 description 86
- 239000000047 product Substances 0.000 description 74
- 239000002028 Biomass Substances 0.000 description 66
- 238000002474 experimental method Methods 0.000 description 24
- 238000004422 calculation algorithm Methods 0.000 description 18
- 238000011161 development Methods 0.000 description 16
- 244000005700 microbiome Species 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000012417 linear regression Methods 0.000 description 13
- 210000004027 cell Anatomy 0.000 description 10
- 238000012937 correction Methods 0.000 description 10
- 238000012239 gene modification Methods 0.000 description 9
- 230000005017 genetic modification Effects 0.000 description 9
- 235000013617 genetically modified food Nutrition 0.000 description 9
- 150000001413 amino acids Chemical class 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 6
- 238000013459 approach Methods 0.000 description 6
- 238000003556 assay Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 229930001119 polyketide Natural products 0.000 description 6
- 238000011218 seed culture Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000009472 formulation Methods 0.000 description 5
- 230000004077 genetic alteration Effects 0.000 description 5
- 231100000118 genetic alteration Toxicity 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 230000002596 correlated effect Effects 0.000 description 4
- 238000013537 high throughput screening Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 3
- 108091081024 Start codon Proteins 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000006227 byproduct Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005314 correlation function Methods 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000000855 fermentation Methods 0.000 description 3
- 230000004151 fermentation Effects 0.000 description 3
- 239000008103 glucose Substances 0.000 description 3
- 238000012804 iterative process Methods 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 238000011177 media preparation Methods 0.000 description 3
- 238000012269 metabolic engineering Methods 0.000 description 3
- 230000004060 metabolic process Effects 0.000 description 3
- 230000002085 persistent effect Effects 0.000 description 3
- 150000003881 polyketide derivatives Chemical class 0.000 description 3
- 125000000830 polyketide group Chemical group 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 241000233866 Fungi Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000003466 anti-cipated effect Effects 0.000 description 2
- 231100000704 bioconcentration Toxicity 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000002922 epistatic effect Effects 0.000 description 2
- 238000001727 in vivo Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000011081 inoculation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 239000013028 medium composition Substances 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 241000186216 Corynebacterium Species 0.000 description 1
- 210000000712 G cell Anatomy 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 238000004617 QSAR study Methods 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 101150013568 US16 gene Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 101150015189 aceE gene Proteins 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012517 data analytics Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 239000003085 diluting agent Substances 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000004816 latex Substances 0.000 description 1
- 229920000126 latex Polymers 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 235000015097 nutrients Nutrition 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 150000008163 sugars Chemical class 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 230000035899 viability Effects 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12M—APPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
- C12M41/00—Means for regulation, monitoring, measurement or control, e.g. flow regulation
- C12M41/48—Automatic or computerized control
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/20—Probabilistic models
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Analytical Chemistry (AREA)
- Organic Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- Epidemiology (AREA)
- Sustainable Development (AREA)
- Genetics & Genomics (AREA)
- Biochemistry (AREA)
- Computer Hardware Design (AREA)
- Biomedical Technology (AREA)
- Microbiology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
Abstract
Description
本願は、全体が参照によって本明細書に組み込まれている2017年11月9日出願の米国仮出願第62/583,961号に対する優先権の利益を主張するものである。
開示の分野
しかしながら、これらの手法は、より低いスループットの実験に関する将来の決定のためのランキング性能とは対照的に、二者択一の判断(たとえば、有効か有効でないか)を対象とするものである。さらに、これらの手法は、試験される試料の大部分が同一の値を有し、目的のものではないと想定する。目的の特定の生成物を、大規模に生成するために、細胞の遺伝経路が最適化される代謝工学の分野では、これらの想定は成り立たない。詳細には、複数の株の系統を反復して改善を加えるとき、測定された値がはなはだしく変動する可能性があり、改善したものと思われる試料が、より低いスループットで大規模に合理的にスクリーニングすることができる試料数よりもはるかに多くなってしまうことがあり、そのため、性能の明瞭なランキングが必要とされる。言い換えれば、どの試料がより優れているかを決定するのでは不十分であり、次のレベルの規模において、どの試料が最良か、好ましくはその程度も知ることが重要である。
・プレートとプレート上の位置(たとえば行−列の位置、エッジの位置)の両方によるバイアスの説明
・培地のタイプ/ロット、シェーカー位置のバイアスなどのプレート特性
・ウェルに接種するのに使用されたグリセロールストックの使用回数、より低いスループットのステップとより高いスループットのステップとの両方において使用された機械のタイプ(たとえばインキュベータ、発酵槽、計測器)のようなプロセス特性
・試料特性(細胞系統または公知の遺伝マーカーの有/無など)
・培地の処方および調製(たとえば培地ロット)
・希釈剤のタイプ
・接種容量
・実験器具
・振盪時間、温度および湿度
などの(プレートモデルにおいて独立変数として機能し得る)物理的特徴が組み込まれ得る。
titeri=βs[i]+Σfβfxf[i]
titeri=βs[i]+βplateplatei
・プレート上の株の位置によるバイアスの説明
・培地のタイプ/ロット、シェーカー位置のバイアスのようなプレート特性
・ウェルに接種するために使用されるグリセロールストックが使用された回数、より低いスループットのステップとより高いスループットのステップの両方で使用された機械のタイプなどのプロセス特性
・試料特性(細胞系統または公知の遺伝マーカーの有/無など)
1.一連の株から始めて、予測モデル(たとえば線形回帰)を開発するための唯一の因子(複数可)として性能測定値(複数可)(たとえばアミノ酸力価)を使用する。
a.これらは、実際のプレート性能データおよびタンク性能データが公知の株である。
2.伝達関数モデルから除去することによってモデルのRMSEを大部分改善する株(「外れ値」)を識別する。
a.あるいは、モデルからの潜在的除去のために、最大の予測誤差(株に関する予測された性能対測定された性能)を有する株を識別する。
3.株を除去することによるRMSEの改善が所定のカットオフよりも大きければステップ4へ進み、そうでなければステップ10へ行く。
4.(すべての株において等価な因子は全体的な予測力にとって有用ではないため)モデルが含むすべての他の株に今のところ存在せず、因子としてモデルにまだ含まれていない、外れ値に適用する潜在的予測因子を識別する。必要に応じて、アルゴリズムは、上記の条件を満たしたまま、少なくとも1つの他の株に存在する因子を識別してもよい。
a.外れ値株の特性である因子には、たとえば、行われたことが公知である遺伝子変化、系統(株の祖先の履歴)、表現型の特性、成長速度が含まれ得る。
b.因子がたった1つの株に存在する場合には、アルゴリズムは、その単一の株に関してモデルを補正するように調整してよいが、通常は、単一の株を説明するためにモデルを改変することは、期待される目標ではない場合があることに留意されたい。また、すべての他の株にその因子が存在している場合、それは予測上の価値を有しない。
c.実施形態が採用し得る機械学習モデルは、この機能を自動的に行うことになるが、モデルに関する因子を識別すると、機械学習モデルに対するリソース負荷を軽減し得ることに留意されたい。
5.ステップ4からのリストが空であれば、モデルから外れ値を除外してステップ2へ行く。
6.そうでなければ、モデルにおいて、ステップ4からの因子を一時的に適用する。
a.前述のように、実施形態は、y=m1x1+bなどの単純線形回帰伝達関数を採用し得、ここでx1はプレート上の株の性能であり、m1はx1に適用された重み(傾き)である。実施形態では、モデルは、y=m1x1+m2x2+...+mNxN+bという形態の重回帰モデルを生成するために、重み付けされた因子(回帰係数)を追加することによって改良され得、ここでx1はプレート上の株の性能であり、他のxi(i≠1)は性能x1以外の因子を表し、m1はx1に適用された重みであって、miは因子xiに適用された重みである。実施形態では、x1はプレートモデルの出力を表し得る。実施形態では、すべてのxiがプレートモデルの出力を表し得る。
b.実施形態では、因子は1度に1つ追加されてよく、重み付けは、次の因子を追加する前に誤差(またはP値)が十分な量だけ減少するまで調整されてよい。
7.因子が、モデルの誤差を誤差閾値だけ改善しない場合、またはP値閾値よりも大きいP値を有する場合、アルゴリズムはその因子(たとえば重回帰式におけるx値)を除去してよい。たとえば、本開示の実施形態によれば、特定の遺伝因子(すなわち、株において行われたことが公知である遺伝子改変)は、誤差を誤差閾値だけ改善しない場合またはP値閾値よりも大きいP値を有する場合には、回帰モデル(予測関数)から除去され得る。
8.本開示の実施形態によれば、いずれかの残りの遺伝因子が大きな分散拡大因子(たとえば>3、因子間の共線性を表す)を有する群の一部分である場合、予測エンジンは各群の内部で最低のP値を有する遺伝因子のみを維持してよい。分散拡大が大きいことは、因子間の相関が高いことを示す。相関の高い諸因子を含めると、予測の価値はそれほど期待できず、過剰適合の原因となり得る。本開示の実施形態によれば、予測エンジンは、因子間の相関を測定するために分散拡大因子を使用してよく、相関の高い諸因子を除去することから始めて、十分な分散拡大因子(a satisfactory a satisfactory variance inflation factor)に達するまで継続してよい。
9.ステップ4からの遺伝子変化がこの時点においてすべて除去されている場合には、モデルから外れ値株を除去してステップ2へ戻る。
a.条件が真である場合、アルゴリズムは、外れ値を除去しなければアルゴリズムが十分に改善され得ないと決定している。
10.ステップ2〜9を反復した後、またはステップ3からここへジャンプした後に、残りの株のいずれにも適用しないかまたはすべてに適用する因子を除去する。必要に応じて、1つの系統にのみ適用するあらゆる遺伝因子を除去する。
(実施例2)
## RMSE MAE
## 1 3.262872 2.532292
## [1] 5.416798
## RMSE MAE
## 1 3.376254 2.59808
## RMSE MAE
## 1 3.224997 2.51152
## [1] 5.353921
## RMSE MAE
## 1 0.6315165 0.501553
## [1] 19.88434
PBP=a+b×PM1+c×PM2...n×PMn
といった数学的方程式へと組み合わせ、この式で
PBP=予測されたバイオリアクターの性能(たとえば本明細書における他の例ではy)であり、
PMi=i番目のプレートデータ変数(たとえば本明細書における他の例では第1の規模の性能データ変数xi)であり、測定値、または測定値の組合せもしくは測定値の統計関数(たとえば統計的プレートモデル)などの測定値の関数であり得、
a、b、c、...nは、本明細書の他の例と同様にmiとして表され得る。
・2次方程式(たとえばPBP=a+b×PM12+c×PM22)
・交互作用方程式(たとえばPBP=a+b×PM1+c×PM2+d×PM1×PM2)
・異なる方程式の組合せ
・変換収率を評価するために使用され得る開始ポイント測定値および終了ポイント測定値
・変換率および収率を評価するために使用され得る中間ポイント測定値
・種培養の終了ポイントでバイオマスを測定して、移動量(transfer volume)および本培養の量を補正することから推定されたもの。すなわち、本培養の開始ポイントにおけるバイオマス濃度=種培養の終了ポイントにおけるバイオマス濃度×(種培養から本培養への移動量)/(本培養の開始量)。種培養は、冷凍状態から一連の株を復活させるためのワークフローを含む。「本」培養は株の性能を試験するためのワークフローを含む。
・開発実験から定数として推定されたもの(たとえば、すべての株が0.1〜0.15のODの開始バイオマス濃度を有するとき、平均がプロキシとして使用できる)。一般的には、(特定の条件下で微生物を成長させる)培養の終了におけるバイオマス濃度は、開始における濃度よりもはるかに高く、開始におけるバイオマス濃度は、(たとえばバイオマス収率を測定するとき、最終的なバイオマス濃度が初期濃度の10倍よりも高ければ)いくつかの方程式から数学的に除外され得る。
・種培養の終了における生成物を測定して、移動量および本培養の量を補正することから推定されたもの。すなわち、本培養の開始における生成物濃度=(種培養の最後における生成物濃度)×(移動量)/(本培養の開始量)。
・開発実験から定数として推定されたもの(たとえば、すべての株が0.1〜0.15g/Lの開始生成物濃度を有するとき、平均がプロキシとして使用できる)。一般的には、培養の終了における生成物濃度は開始における生成物濃度よりもはるかに高く、開始における生成物濃度は数学的に除外され得ることに留意されたい。
qs=qs,max×Cs/(Ks+Cs)
dCs/dt=−qs×Cx+Fs
dCx/dt=qs×Cx×Ysx,max
dCx/dt=qs×Cx×Ysp
表D
PBP=a+b×PM1+c×PM2...n×PMn
ここにおいて、
PBP=予測されたバイオリアクターの性能(たとえば本明細書における他の例ではy)であり、
PMi=i番目のプレートデータ変数(たとえば本明細書における他の例では第1の規模の性能データ変数xi)であり、測定値、または測定値の組合せもしくは測定値の統計関数(たとえば統計的プレートモデル)などの測定値の関数であり得、
a、b、c、...nは、本明細書では他の例と同様にmiとして表され得る。
1.一連の株から始めて、予測モデル(たとえば線形回帰)を開発するための唯一の因子(複数可)として性能測定値(複数可)(たとえばアミノ酸力価)を使用する。
a.これらは、実際のプレート性能データおよびタンク性能データが公知の株である。2.伝達関数モデルから除去することによってモデルのRMSEを大部分改善する株(「外れ値」)を識別する。
a.あるいは、モデルからの潜在的除去のために、最大の予測誤差(株に関する予測された性能対測定された性能)を有する株を識別する。
3.株を除去することによるRMSEの改善が所定のカットオフよりも大きければステップ4へ進み、そうでなければステップ10へ行く。
4.(すべての株において等価な因子は全体的な予測力にとって有用ではないため)モデルが含むすべての他の株に今のところ存在せず、因子としてモデルにまだ含まれていない、外れ値に適用する潜在的予測因子を識別する。必要に応じて、アルゴリズムは、上記の条件を満たしたまま、少なくとも1つの他の株に存在する因子を識別してもよい。
a.外れ値株の特性である因子には、たとえば、行われたことが公知である遺伝子変化、系統(株の祖先の履歴)、表現型の特性、成長速度が含まれ得る。
b.因子がたった1つの株に存在する場合には、アルゴリズムは、その単一の株に関してモデルを補正するように調整してよいが、通常は、単一の株を説明するためにモデルを改変することは、期待される目標ではない場合があることに留意されたい。また、すべての他の株にその因子が存在している場合、それは予測上の価値を有しない。
c.実施形態が採用し得る機械学習モデルは、この機能を自動的に行うことになるが、モデルに関する因子を識別すると、機械学習モデルに対するリソース負荷を軽減し得ることに留意されたい。
5.ステップ4からのリストが空であれば、モデルから外れ値を除外してステップ2へ行く。
6.そうでなければ、モデルにおいて、ステップ4からの因子を一時的に適用する。
a.前述のように、実施形態は、y=m1x1+bなどの単純線形回帰伝達関数を採用し得、ここでx1はプレート上の株の性能であり、m1はx1に適用された重み(傾き)である。実施形態では、モデルは、y=m1x1+m2x2+...+mNxN+bという形態の重回帰モデルを生成するために、重み付けされた因子(回帰係数)を追加することによって改良され得、ここでx1はプレート上の株の性能であり、他のxi(i≠1)は性能x1以外の因子を表し、m1はx1に適用された重みであって、miは因子xiに適用された重みである。実施形態では、x1はプレートモデルの出力を表し得る。実施形態では、すべてのxiがプレートモデルの出力を表し得る。
b.実施形態では、因子は1度に1つ追加されてよく、重み付けは、次の因子を追加する前に誤差(またはP値)が十分な量だけ減少するまで調整されてよい。
7.因子が、モデルの誤差を誤差閾値だけ改善しない場合、またはP値閾値よりも大きいP値を有する場合、アルゴリズムはその因子(たとえば重回帰式におけるx値)を除去してよい。たとえば、本開示の実施形態によれば、特定の遺伝因子(すなわち、株において行われたことが公知である遺伝子改変)は、誤差を誤差閾値だけ改善しない場合またはP値閾値よりも大きいP値を有する場合には、回帰モデル(予測関数)から除去され得る。8.本開示の実施形態によれば、いずれかの残りの遺伝因子が大きな分散拡大因子(たとえば>3、因子間の共線性を表す)を有する群の一部分である場合、予測エンジンは各群の内部で最低のP値を有する遺伝因子のみを維持してよい。分散拡大が大きいことは、因子間の相関が高いことを示す。相関の高い諸因子を含めると、予測の価値はそれほど期待できず、過剰適合の原因となり得る。本開示の実施形態によれば、予測エンジンは、因子間の相関を測定するために分散拡大因子を使用してよく、相関の高い諸因子を除去することから始めて、十分な分散拡大因子に達するまで継続してよい。
9.ステップ4からの遺伝子変化がこの時点においてすべて除去されている場合には、モデルから外れ値株を除去してステップ2へ戻る。
a.条件が真である場合、アルゴリズムは、外れ値を除去しなければアルゴリズムが十分に改善され得ないと決定している。
10.ステップ2〜9を反復した後、またはステップ3からここへジャンプした後に、残りの株のいずれにも適用しないかまたはすべてに適用する因子を除去する。必要に応じて、1つの系統にのみ適用するあらゆる遺伝因子を除去する。
本発明は、例えば、以下の項目を提供する。
(項目1)
第1の規模の測定値を基に第2の規模の目的の表現型に関する生物の性能を改善するための、コンピュータ実装方法であって、
a.第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づく第1の規模の性能データと、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能に少なくとも部分的に基づく第2の規模の性能データとにアクセスするステップであって、前記第1の規模の性能データが第1の規模の統計モデルに少なくとも部分的に基づくものであるステップと、
b.前記第1の規模の性能データに対する前記第2の規模の性能データの関係性に少なくとも部分的に基づいて予測関数を生成するステップであって、前記第2の規模の1つまたは複数の供試生物についての第2の規模の予測性能データを生成するために、前記第1の規模の前記目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数が適用可能であるステップと
を含む方法。
(項目2)
前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、項目1に記載の方法。
(項目3)
前記第1の規模の統計モデルが前記第1の規模の生物体の特徴を表す、先行する項目のうちいずれか一項に記載の方法。
(項目4)
前記生物体の特徴が、プロセス条件、培地条件、または遺伝因子を含む、先行する項目のうちいずれか一項に記載の方法。
(項目5)
少なくとも1つの生物体の特徴が生物位置に関連している、先行する項目のうちいずれか一項に記載の方法。
(項目6)
前記予測関数を生成するステップが、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データを検討項目から除去するステップをさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目7)
前記予測関数を生成するステップが、前記予測関数の誤差を低減するために1つまたは複数の因子を組み込むステップをさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目8)
前記予測関数を生成するステップが、少なくとも1つの遺伝因子に関して調整するステップをさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目9)
a.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
b.前記予測関数を生成する際の検討項目から第1の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第1の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記改変された予測関数をもたらすことになるステップと
をさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目10)
a.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
b.第1の候補の外れ値生物に関して前記改変された予測関数のレバレッジメトリックがレバレッジ条件を満たす場合には、前記改変された予測関数を前記予測関数として使用するステップと
をさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目11)
前記第1の候補の外れ値生物が、前記予測関数を生成する際に除外する場合、前記改変された予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす生物である、先行する項目のうちいずれか一項に記載の方法。
(項目12)
i.前記第1の候補の外れ値生物を除外して前記予測関数を生成する際に検討項目から除外する場合、前記予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす第2の生物を、第2の候補の外れ値生物であると識別するステップと、
ii.因子のセットからの1つまたは複数の因子によって前記予測関数を改変して、第2の改変された予測関数を生成するステップと、
iii.前記予測関数を生成する際の検討項目から前記第2の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第2の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記第2の改変された予測関数をもたらすことになるステップと
をさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目13)
第1の候補の外れ値生物が前記第1の規模の性能データおよび前記第2の規模の性能データで表され、前記1つまたは複数の供試生物が前記第1の候補の外れ値生物を含み、前記第2の規模の予測性能データが、前記第1の候補の外れ値生物の前記第2の規模の予測性能を表す、先行する項目のうちいずれか一項に記載の方法。
(項目14)
前記予測関数を改変するステップが、前記1つまたは複数の因子を前記予測関数に組み込むステップまたは前記予測関数から除去するステップを含む、先行する項目のうちいずれか一項に記載の方法。
(項目15)
前記1つまたは複数の因子が遺伝因子を含む、先行する項目のうちいずれか一項に記載の方法。
(項目16)
前記予測関数を生成するステップが、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練するステップを含む、先行する項目のうちいずれか一項に記載の方法。
(項目17)
前記予測関数を生成するステップが、前記1つまたは複数の因子によって前記予測関数を改変するプロセスにおいて機械学習を適用するステップを含む、先行する項目のうちいずれか一項に記載の方法。
(項目18)
a.複数の予測関数に関する性能誤差メトリックを比較するステップと、
b.少なくとも前記比較に基づいて前記予測関数にランク付けするステップと
をさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目19)
前記1つまたは複数の第1の生物に関する前記第1の規模の性能データが、第1の規模の統計モデルの出力を表し、前記方法が、
a.前記第2の規模の前記1つまたは複数の第1の生物に関する予測性能を前記第2の規模の性能データと比較するステップと、
b.前記比較に少なくとも部分的に基づいて前記第1の規模の統計モデルのパラメータを調整するステップと
をさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目20)
前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、先行する項目のうちいずれか一項に記載の方法。
(項目21)
前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、先行する項目のうちいずれか一項に記載の方法。
(項目22)
前記表現型が化合物の生産を含む、先行する項目のうちいずれか一項に記載の方法。
(項目23)
前記生物が微生物株である、先行する項目のうちいずれか一項に記載の方法。
(項目24)
前記第2の規模の前記1つまたは複数の供試生物についての前記第2の規模の予測性能データを生成するために、前記第1の規模の目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数を適用するステップをさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目25)
前記第2の規模の予測性能に少なくとも部分的に基づいて、前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップをさらに含む、先行する項目のうちいずれか一項に記載の方法。
(項目26)
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、先行する項目のうちいずれか一項に記載の方法。
(項目27)
先行する項目のうちいずれか一項に記載の方法を使用して識別される、前記第2の規模の供試生物。
(項目28)
第1の規模の測定値を基に第2の規模の目的の表現型に関する生物の性能を改善するためのシステムであって、
1つまたは複数のプロセッサと、
命令を記憶している1つまたは複数のメモリであって、前記命令が、前記1つまたは複数のプロセッサのうち少なくとも1つによって実行されたとき、前記システムに、
a.第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づく第1の規模の性能データと、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能に少なくとも部分的に基づく第2の規模の性能データとにアクセスさせるステップであって、ここで前記第1の規模の性能データが第1の規模の統計モデルに少なくとも部分的に基づくものであるステップと、
b.前記第1の規模の性能データに対する前記第2の規模の性能データの関係性に少なくとも部分的に基づいて予測関数を生成させるステップであって、ここで前記第2の規模の1つまたは複数の供試生物についての第2の規模の予測性能データを生成するために、前記第1の規模の前記目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数が適用可能であるステップと
を行う、1つまたは複数のメモリと
を備えるシステム。
(項目29)
前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、項目28に記載のシステム。
(項目30)
前記第1の規模の統計モデルが前記第1の規模の生物体の特徴を表す、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目31)
前記生物体の特徴が、プロセス条件、培地条件、または遺伝因子を含む、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目32)
少なくとも1つの生物体の特徴が生物位置に関連している、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目33)
前記予測関数を生成するステップが、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データを検討項目から除去するステップをさらに含む、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目34)
前記予測関数を生成するステップが、前記予測関数の誤差を低減するために1つまたは複数の因子を組み込むステップをさらに含む、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目35)
前記予測関数を生成するステップが、少なくとも1つの遺伝因子に関して調整するステップをさらに含む、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目36)
前記1つまたは複数のメモリが、
c.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
d.前記予測関数を生成する際の検討項目から第1の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第1の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記改変された予測関数をもたらすことになるステップと
のためのさらなる命令を記憶している、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目37)
前記1つまたは複数のメモリが、
e.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
f.第1の候補の外れ値生物に関して前記改変された予測関数のレバレッジメトリックがレバレッジ条件を満たす場合には、前記改変された予測関数を前記予測関数として使用するステップと
のためのさらなる命令を記憶している、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目38)
前記第1の候補の外れ値生物が、前記予測関数を生成する際に除外する場合、前記改変された予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす生物である、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目39)
前記1つまたは複数のメモリが、
i.前記第1の候補の外れ値生物を除外して前記予測関数を生成する際に検討項目から除外する場合、前記予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす第2の生物を、第2の候補の外れ値生物であると識別するステップと、
ii.因子のセットからの1つまたは複数の因子によって前記予測関数を改変して、第2の改変された予測関数を生成するステップと、
iii.前記予測関数を生成する際の検討項目から前記第2の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第2の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記第2の改変された予測関数をもたらすことになるステップと
のためのさらなる命令を記憶している、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目40)
第1の候補の外れ値生物が前記第1の規模の性能データおよび前記第2の規模の性能データで表され、前記1つまたは複数の供試生物が前記第1の候補の外れ値生物を含み、前記第2の規模の予測性能データが、前記第1の候補の外れ値生物の前記第2の規模の予測性能を表す、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目41)
前記予測関数を改変するステップが、前記1つまたは複数の因子を前記予測関数に組み込むステップまたは前記予測関数から除去するステップを含む、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目42)
前記1つまたは複数の因子が遺伝因子を含む、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目43)
前記予測関数を生成するステップが、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練するステップを含む、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目44)
前記予測関数を生成するステップが、前記1つまたは複数の因子によって前記予測関数を改変する前記プロセスにおいて機械学習を適用するステップを含む、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目45)
前記1つまたは複数のメモリが、
g.複数の予測関数に関する性能誤差メトリックを比較するステップと、
h.少なくとも前記比較に基づいて前記予測関数にランク付けするステップと
のためのさらなる命令を記憶している、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目46)
前記1つまたは複数の第1の生物に関する前記第1の規模の性能データが第1の規模の統計モデルの出力を表し、前記1つまたは複数のメモリが、
i.前記第2の規模の前記1つまたは複数の第1の生物に関する予測性能を前記第2の規模の性能データと比較するステップと、
j.前記比較に少なくとも部分的に基づいて前記第1の規模の統計モデルのパラメータを調整するステップと
のためのさらなる命令を記憶している、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目47)
前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目48)
前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目49)
前記表現型が化合物の生産を含む、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目50)
前記生物が微生物株である、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目51)
前記1つまたは複数のメモリが、前記第2の規模の前記1つまたは複数の供試生物についての前記第2の規模の予測性能データを生成するために、前記第1の規模の目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数を適用するステップのためのさらなる命令を記憶している、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目52)
前記1つまたは複数のメモリが、前記第2の規模の予測性能に少なくとも部分的に基づいて、前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップのためのさらなる命令を記憶している、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目53)
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、項目28から続く先行する項目のうちいずれか一項に記載のシステム。
(項目54)
第1の規模の測定値を基に第2の規模の目的の表現型に関する生物の性能を改善するための命令を記憶している1つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスのうち少なくとも1つに、
a.第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づく第1の規模の性能データと、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能に少なくとも部分的に基づく第2の規模の性能データとにアクセスさせるステップであって、ここで前記第1の規模の性能データが第1の規模の統計モデルに少なくとも部分的に基づくものであるステップと、
b.前記第1の規模の性能データに対する前記第2の規模の性能データの関係性に少なくとも部分的に基づいて予測関数を生成させるステップであって、ここで前記第2の規模の1つまたは複数の供試生物についての第2の規模の予測性能データを生成するために、前記第1の規模の前記目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数が適用可能であるステップと
を行う、1つまたは複数の非一時的コンピュータ可読媒体。
(項目55)
前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、項目54に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目56)
前記第1の規模の統計モデルが前記第1の規模の生物体の特徴を表す、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目57)
前記生物体の特徴が、プロセス条件、培地条件、または遺伝因子を含む、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目58)
少なくとも1つの生物体の特徴が生物位置に関連している、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目59)
前記予測関数を生成するステップが、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データを検討項目から除去するステップをさらに含む、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目60)
前記予測関数を生成するステップが、前記予測関数の誤差を低減するために1つまたは複数の因子を組み込むステップをさらに含む、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目61)
前記予測関数を生成するステップが、少なくとも1つの遺伝因子に関して調整するステップをさらに含む、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目62)
a.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
b.前記予測関数を生成する際の検討項目から第1の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第1の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記改変された予測関数をもたらすことになるステップと
のためのさらなる命令を記憶している、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目63)
a.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
b.第1の候補の外れ値生物に関して前記改変された予測関数のレバレッジメトリックがレバレッジ条件を満たす場合には、前記改変された予測関数を前記予測関数として使用するステップと
のためのさらなる命令を記憶している、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目64)
前記第1の候補の外れ値生物が、前記予測関数を生成する際に除外する場合、前記改変された予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす生物である、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目65)
i.前記第1の候補の外れ値生物を除外して前記予測関数を生成する際に検討項目から除外する場合、前記予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす第2の生物を、第2の候補の外れ値生物であると識別するステップと、
ii.因子のセットからの1つまたは複数の因子によって前記予測関数を改変して、第2の改変された予測関数を生成するステップと、
iii.前記予測関数を生成する際の検討項目から前記第2の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第2の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記第2の改変された予測関数をもたらすことになるステップと
のためのさらなる命令を記憶している、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目66)
第1の候補の外れ値生物が前記第1の規模の性能データおよび前記第2の規模の性能データで表され、前記1つまたは複数の供試生物が前記第1の候補の外れ値生物を含み、前記第2の規模の予測性能データが、前記第1の候補の外れ値生物の前記第2の規模の予測性能を表す、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目67)
前記予測関数を改変するステップが、前記1つまたは複数の因子を前記予測関数に組み込むステップまたは前記予測関数から除去するステップを含む、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目68)
前記1つまたは複数の因子が遺伝因子を含む、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目69)
前記予測関数を生成するステップが、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練するステップを含む、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目70)
前記予測関数を生成するステップが、前記1つまたは複数の因子によって前記予測関数を改変する前記プロセスにおいて機械学習を適用するステップを含む、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目71)
a.複数の予測関数に関する性能誤差メトリックを比較するステップと、
b.少なくとも前記比較に基づいて前記予測関数にランク付けするステップと
のためのさらなる命令を記憶している、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目72)
前記1つまたは複数の第1の生物に関する前記第1の規模の性能データが第1の規模の統計モデルの出力を表し、前記1つまたは複数の非一時的コンピュータ可読媒体が、
a.前記第2の規模の前記1つまたは複数の第1の生物に関する予測性能を前記第2の規模の性能データと比較するステップと、
b.前記比較に少なくとも部分的に基づいて前記第1の規模の統計モデルのパラメータを調整するステップと
のためのさらなる命令を記憶している、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目73)
前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目74)
前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目75)
前記表現型が化合物の生産を含む、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目76)
前記生物が微生物株である、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目77)
前記第2の規模の前記1つまたは複数の供試生物についての前記第2の規模の予測性能データを生成するために、前記第1の規模の目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数を適用するステップのためのさらなる命令を記憶している、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目78)
前記第2の規模の予測性能に少なくとも部分的に基づいて前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップのためのさらなる命令を記憶している、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目79)
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、項目54から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目80)
第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の生物の観測された性能に基づいて改善するためのコンピュータ実装方法であって、
a.予測関数にアクセスするステップであって、前記予測関数が、第1の規模の性能データに対する第2の規模の性能データの関係性に少なくとも部分的に基づくものであり、前記第1の規模の性能データが、第1の規模の統計モデルおよび第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づくものであり、前記第2の規模の性能データが、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能に少なくとも部分的に基づくものであるステップと、
b.前記第1の規模の1つまたは複数の供試生物に前記予測関数を適用して、前記第2の規模の前記1つまたは複数の供試生物に関する第2の規模の予測性能データを生成するステップと
を含む方法。
(項目81)
前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、項目80に記載の方法。
(項目82)
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、項目80から続く先行する項目のうちいずれか一項に記載の方法。
(項目83)
前記予測関数が、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データによる影響を除外する、項目80から続く先行する項目のうちいずれか一項に記載の方法。
(項目84)
前記予測関数が前記予測関数の誤差を低減するために1つまたは複数の遺伝因子を組み込む、項目80から続く先行する項目のうちいずれか一項に記載の方法。
(項目85)
前記予測関数が第1の候補の外れ値生物による影響を除外するものであり、前記予測関数を生成する際に前記影響が含まれている場合、レバレッジ条件を満たさないレバレッジメトリックを有する改変された予測関数をもたらすことになり、前記改変された予測関数は1つまたは複数の因子による前記予測関数への改変を組み込んでいる、項目80から続く先行する項目のうちいずれか一項に記載の方法。
(項目86)
前記予測関数が、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練することによって生成される、項目80から続く先行する項目のうちいずれか一項に記載の方法。
(項目87)
前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、項目80から続く先行する項目のうちいずれか一項に記載の方法。
(項目88)
前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、項目80から続く先行する項目のうちいずれか一項に記載の方法。
(項目89)
前記表現型が化合物の生産を含む、項目80から続く先行する項目のうちいずれか一項に記載の方法。
(項目90)
前記生物が微生物株である、項目80から続く先行する項目のうちいずれか一項に記載の方法。
(項目91)
前記第2の規模の予測性能に少なくとも部分的に基づいて前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップをさらに含む、項目80から続く先行する項目のうちいずれか一項に記載の方法。
(項目92)
第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の生物の観測された性能に基づいて改善するためのシステムであって、
1つまたは複数のプロセッサと、
命令を記憶している1つまたは複数のメモリであって、前記命令が、前記1つまたは複数のプロセッサのうち少なくとも1つによって実行されたとき、前記システムに、
a.予測関数にアクセスさせるステップであって、ここで、前記予測関数が、第1の規模の性能データに対する第2の規模の性能データの関係性に少なくとも部分的に基づくものであり、前記第1の規模の性能データが、第1の規模の統計モデルおよび第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づくものであり、前記第2の規模の性能データが、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能を表すステップと、
b.前記第1の規模の1つまたは複数の供試生物に前記予測関数を適用して、前記第2の規模の前記1つまたは複数の供試生物に関する第2の規模の予測性能データを生成させるステップと
を行う、1つまたは複数のメモリと
を備えるシステム。
(項目93)
前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、項目92に記載のシステム。
(項目94)
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、項目92から続く先行する項目のうちいずれか一項に記載のシステム。
(項目95)
前記予測関数が、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データによる影響を除外する、項目92から続く先行する項目のうちいずれか一項に記載のシステム。
(項目96)
前記予測関数が前記予測関数の誤差を低減するために1つまたは複数の遺伝因子を組み込む、項目92から続く先行する項目のうちいずれか一項に記載のシステム。
(項目97)
前記予測関数が第1の候補の外れ値生物による影響を除外するものであり、前記予測関数を生成する際に前記影響が含まれている場合、レバレッジ条件を満たさないレバレッジメトリックを有する改変された予測関数をもたらすことになり、前記改変された予測関数は1つまたは複数の因子による前記予測関数への改変を組み込んでいる、項目92から続く先行する項目のうちいずれか一項に記載のシステム。
(項目98)
前記予測関数が、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練することによって生成される、項目92から続く先行する項目のうちいずれか一項に記載のシステム。
(項目99)
前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、項目92から続く先行する項目のうちいずれか一項に記載のシステム。
(項目100)
前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、項目92から続く先行する項目のうちいずれか一項に記載のシステム。
(項目101)
前記表現型が化合物の生産を含む、項目92から続く先行する項目のうちいずれか一項に記載のシステム。
(項目102)
前記生物が微生物株である、項目92から続く先行する項目のうちいずれか一項に記載のシステム。
(項目103)
前記1つまたは複数のメモリが、前記第2の規模の予測性能に少なくとも部分的に基づいて前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップのためのさらなる命令を記憶している、項目92から続く先行する項目のうちいずれか一項に記載のシステム。
(項目104)
第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の観測された生物の性能を基に改善するための命令を記憶している1つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスのうち少なくとも1つに、
a.予測関数にアクセスさせるステップであって、ここで前記予測関数が、第1の規模の性能データに対する第2の規模の性能データの関係性に少なくとも部分的に基づくものであり、前記第1の規模の性能データが、第1の規模の統計モデルおよび第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づくものであり、前記第2の規模の性能データが、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能を表すステップと、
b.前記第1の規模の1つまたは複数の供試生物に前記予測関数を適用して、前記第2の規模の前記1つまたは複数の供試生物に関する第2の規模の予測性能データを生成させるステップと
を行う、1つまたは複数の非一時的コンピュータ可読媒体。
(項目105)
前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、項目104に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目106)
前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、項目104から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目107)
前記予測関数が、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データによる影響を除外する、項目104から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目108)
前記予測関数が前記予測関数の誤差を低減するために1つまたは複数の遺伝因子を組み込む、項目104から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目109)
前記予測関数が第1の候補の外れ値生物による影響を除外するものであり、前記予測関数を生成する際に前記影響が含まれている場合、レバレッジ条件を満たさないレバレッジメトリックを有する改変された予測関数をもたらすことになり、前記改変された予測関数は1つまたは複数の因子による前記予測関数への改変を組み込んでいる、項目104から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目110)
前記予測関数が、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練することによって生成される、項目104から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目111)
前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、項目104から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目112)
前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、項目104から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目113)
前記目的の表現型が化合物の生産を含む、項目104から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目114)
前記生物が微生物株である、項目104から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目115)
前記第2の規模の予測性能に少なくとも部分的に基づいて前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップのためのさらなる命令を記憶している、項目104から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目116)
第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の観測された性能に基づいて改善するためのコンピュータ実装方法であって、
a.前記第1の規模の生物体の特徴を表す第1の規模の統計モデルの選択を表す第1のユーザ入力を受け取るステップと、
b.予測関数の選択を表す第2のユーザ入力を受け取るステップと、
c.前記目的の表現型に関する性能データのタイプの選択を表す第3のユーザ入力を受け取るステップと、
d.グラフィックディスプレイに対して予測関数を供給するステップであって、前記予測関数が、前記第1の規模の1つまたは複数の供試生物について観測された性能データに対して前記予測関数を適用することに基づいて前記第2の規模の1つまたは複数の供試生物に関する前記選択されたタイプの第2の規模の予測性能データをもたらすためのものであるステップと
を含む方法。
(項目117)
グラフィックディスプレイに対して、前記第2の規模の1つまたは複数の供試生物に関する前記第2の規模の予測性能データを供給するステップをさらに含む項目116に記載の方法。
(項目118)
前記第1の規模の性能データが前記第1の規模の統計モデルを使用して生成される、項目116から続く先行する項目のうちいずれか一項に記載の方法。
(項目119)
前記予測関数を生成する際に検討項目から除去される1つまたは複数の外れ値生物のユーザ選択を表すユーザ入力を受け取るステップをさらに含む、項目116から続く先行する項目のうちいずれか一項に記載の方法。
(項目120)
前記予測関数を生成する際に使用される1つまたは複数の因子のユーザ選択を表すユーザ入力を受け取るステップをさらに含む、項目116から続く先行する項目のうちいずれか一項に記載の方法。
(項目121)
前記1つまたは複数の因子が1つまたは複数の遺伝因子を含む、項目116から続く先行する項目のうちいずれか一項に記載の方法。
(項目122)
前記1つまたは複数の供試生物のうち少なくとも1つを生成するステップをさらに含む、項目116から続く先行する項目のうちいずれか一項に記載の方法。
(項目123)
項目116から続く先行する項目のうちいずれか一項に記載の方法を使用して識別される、前記第2の規模の供試生物。
(項目124)
第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の観測された性能に基づいて改善するためのシステムであって、
1つまたは複数のプロセッサと、
命令を記憶している1つまたは複数のメモリであって、前記命令が、前記1つまたは複数のプロセッサのうち少なくとも1つによって実行されたとき、前記システムに、
a.前記第1の規模の生物体の特徴を表す第1の規模の統計モデルの選択を表す第1のユーザ入力を受け取らせるステップと、
b.予測関数の選択を表す第2のユーザ入力を受け取らせるステップと、
c.前記目的の表現型に関する性能データのタイプの選択を表す第3のユーザ入力を受け取らせるステップと、
d.グラフィックディスプレイに対して予測関数を供給させるステップであって、前記予測関数が、前記第1の規模の1つまたは複数の供試生物について観測された性能データに対して前記予測関数を適用することを基に、前記第2の規模の1つまたは複数の供試生物に関する前記選択されたタイプの第2の規模の予測性能データをもたらすためのものであるステップと
を行う、1つまたは複数のメモリと
を備えるシステム。
(項目125)
前記1つまたは複数のメモリが、グラフィックディスプレイに対して前記第2の規模の1つまたは複数の供試生物に関する前記第2の規模の予測性能データを供給するためのさらなる命令を記憶している、項目124に記載のシステム。
(項目126)
前記第1の規模の性能データが前記第1の規模の統計モデルを使用して生成される、項目124から続く先行する項目のうちいずれか一項に記載のシステム。
(項目127)
前記1つまたは複数のメモリが、前記予測関数を生成する際に検討項目から除去される1つまたは複数の外れ値生物のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、項目124から続く先行する項目のうちいずれか一項に記載のシステム。
(項目128)
前記1つまたは複数のメモリが、前記予測関数を生成する際に使用される1つまたは複数の因子のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、項目124から続く先行する項目のうちいずれか一項に記載のシステム。
(項目129)
前記1つまたは複数の因子が1つまたは複数の遺伝因子を含む、項目124から続く先行する項目のうちいずれか一項に記載のシステム。
(項目130)
前記1つまたは複数のメモリが、前記1つまたは複数の供試生物のうち少なくとも1つを生成するステップのためのさらなる命令を記憶している、項目124から続く先行する項目のうちいずれか一項に記載のシステム。
(項目131)
第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の観測された性能を基に改善するための命令を記憶している1つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスのうち少なくとも1つに、
a.前記第1の規模の生物体の特徴を表す第1の規模の統計モデルの選択を表す第1のユーザ入力を受け取らせるステップと、
b.予測関数の選択を表す第2のユーザ入力を受け取らせるステップと、
c.前記目的の表現型に関する性能データのタイプの選択を表す第3のユーザ入力を受け取らせるステップと、
d.グラフィックディスプレイに対して予測関数を供給させるステップであって、前記予測関数が、前記第1の規模の1つまたは複数の供試生物について観測された性能データに対して前記予測関数を適用することを基に、前記第2の規模の1つまたは複数の供試生物に関する前記選択されたタイプの第2の規模の予測性能データをもたらすためのものであるステップと
を行う、1つまたは複数の非一時的コンピュータ可読媒体。
(項目132)
グラフィックディスプレイに対して前記第2の規模の1つまたは複数の供試生物に関する前記第2の規模の予測性能データを供給するためのさらなる命令を記憶している、項目131に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目133)
前記第1の規模の性能データが前記第1の規模の統計モデルを使用して生成される、項目131から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目134)
前記予測関数を生成する際に検討項目から除去される1つまたは複数の外れ値生物のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、項目131から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目135)
前記予測関数を生成する際に使用される1つまたは複数の因子のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、項目131から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目136)
前記1つまたは複数の因子が1つまたは複数の遺伝因子を含む、項目131から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
(項目137)
前記1つまたは複数の供試生物のうち少なくとも1つを生成するステップのためのさらなる命令を記憶している、項目131から続く先行する項目のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
Claims (137)
- 第1の規模の測定値を基に第2の規模の目的の表現型に関する生物の性能を改善するための、コンピュータ実装方法であって、
a.第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づく第1の規模の性能データと、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能に少なくとも部分的に基づく第2の規模の性能データとにアクセスするステップであって、前記第1の規模の性能データが第1の規模の統計モデルに少なくとも部分的に基づくものであるステップと、
b.前記第1の規模の性能データに対する前記第2の規模の性能データの関係性に少なくとも部分的に基づいて予測関数を生成するステップであって、前記第2の規模の1つまたは複数の供試生物についての第2の規模の予測性能データを生成するために、前記第1の規模の前記目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数が適用可能であるステップと
を含む方法。 - 前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、請求項1に記載の方法。
- 前記第1の規模の統計モデルが前記第1の規模の生物体の特徴を表す、先行する請求項のうちいずれか一項に記載の方法。
- 前記生物体の特徴が、プロセス条件、培地条件、または遺伝因子を含む、先行する請求項のうちいずれか一項に記載の方法。
- 少なくとも1つの生物体の特徴が生物位置に関連している、先行する請求項のうちいずれか一項に記載の方法。
- 前記予測関数を生成するステップが、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データを検討項目から除去するステップをさらに含む、先行する請求項のうちいずれか一項に記載の方法。
- 前記予測関数を生成するステップが、前記予測関数の誤差を低減するために1つまたは複数の因子を組み込むステップをさらに含む、先行する請求項のうちいずれか一項に記載の方法。
- 前記予測関数を生成するステップが、少なくとも1つの遺伝因子に関して調整するステップをさらに含む、先行する請求項のうちいずれか一項に記載の方法。
- a.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
b.前記予測関数を生成する際の検討項目から第1の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第1の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記改変された予測関数をもたらすことになるステップと
をさらに含む、先行する請求項のうちいずれか一項に記載の方法。 - a.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
b.第1の候補の外れ値生物に関して前記改変された予測関数のレバレッジメトリックがレバレッジ条件を満たす場合には、前記改変された予測関数を前記予測関数として使用するステップと
をさらに含む、先行する請求項のうちいずれか一項に記載の方法。 - 前記第1の候補の外れ値生物が、前記予測関数を生成する際に除外する場合、前記改変された予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす生物である、先行する請求項のうちいずれか一項に記載の方法。
- i.前記第1の候補の外れ値生物を除外して前記予測関数を生成する際に検討項目から除外する場合、前記予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす第2の生物を、第2の候補の外れ値生物であると識別するステップと、
ii.因子のセットからの1つまたは複数の因子によって前記予測関数を改変して、第2の改変された予測関数を生成するステップと、
iii.前記予測関数を生成する際の検討項目から前記第2の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第2の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記第2の改変された予測関数をもたらすことになるステップと
をさらに含む、先行する請求項のうちいずれか一項に記載の方法。 - 第1の候補の外れ値生物が前記第1の規模の性能データおよび前記第2の規模の性能データで表され、前記1つまたは複数の供試生物が前記第1の候補の外れ値生物を含み、前記第2の規模の予測性能データが、前記第1の候補の外れ値生物の前記第2の規模の予測性能を表す、先行する請求項のうちいずれか一項に記載の方法。
- 前記予測関数を改変するステップが、前記1つまたは複数の因子を前記予測関数に組み込むステップまたは前記予測関数から除去するステップを含む、先行する請求項のうちいずれか一項に記載の方法。
- 前記1つまたは複数の因子が遺伝因子を含む、先行する請求項のうちいずれか一項に記載の方法。
- 前記予測関数を生成するステップが、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練するステップを含む、先行する請求項のうちいずれか一項に記載の方法。
- 前記予測関数を生成するステップが、前記1つまたは複数の因子によって前記予測関数を改変するプロセスにおいて機械学習を適用するステップを含む、先行する請求項のうちいずれか一項に記載の方法。
- a.複数の予測関数に関する性能誤差メトリックを比較するステップと、
b.少なくとも前記比較に基づいて前記予測関数にランク付けするステップと
をさらに含む、先行する請求項のうちいずれか一項に記載の方法。 - 前記1つまたは複数の第1の生物に関する前記第1の規模の性能データが、第1の規模の統計モデルの出力を表し、前記方法が、
a.前記第2の規模の前記1つまたは複数の第1の生物に関する予測性能を前記第2の規模の性能データと比較するステップと、
b.前記比較に少なくとも部分的に基づいて前記第1の規模の統計モデルのパラメータを調整するステップと
をさらに含む、先行する請求項のうちいずれか一項に記載の方法。 - 前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、先行する請求項のうちいずれか一項に記載の方法。
- 前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、先行する請求項のうちいずれか一項に記載の方法。
- 前記表現型が化合物の生産を含む、先行する請求項のうちいずれか一項に記載の方法。
- 前記生物が微生物株である、先行する請求項のうちいずれか一項に記載の方法。
- 前記第2の規模の前記1つまたは複数の供試生物についての前記第2の規模の予測性能データを生成するために、前記第1の規模の目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数を適用するステップをさらに含む、先行する請求項のうちいずれか一項に記載の方法。
- 前記第2の規模の予測性能に少なくとも部分的に基づいて、前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップをさらに含む、先行する請求項のうちいずれか一項に記載の方法。
- 前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、先行する請求項のうちいずれか一項に記載の方法。
- 先行する請求項のうちいずれか一項に記載の方法を使用して識別される、前記第2の規模の供試生物。
- 第1の規模の測定値を基に第2の規模の目的の表現型に関する生物の性能を改善するためのシステムであって、
1つまたは複数のプロセッサと、
命令を記憶している1つまたは複数のメモリであって、前記命令が、前記1つまたは複数のプロセッサのうち少なくとも1つによって実行されたとき、前記システムに、
a.第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づく第1の規模の性能データと、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能に少なくとも部分的に基づく第2の規模の性能データとにアクセスさせるステップであって、ここで前記第1の規模の性能データが第1の規模の統計モデルに少なくとも部分的に基づくものであるステップと、
b.前記第1の規模の性能データに対する前記第2の規模の性能データの関係性に少なくとも部分的に基づいて予測関数を生成させるステップであって、ここで前記第2の規模の1つまたは複数の供試生物についての第2の規模の予測性能データを生成するために、前記第1の規模の前記目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数が適用可能であるステップと
を行う、1つまたは複数のメモリと
を備えるシステム。 - 前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、請求項28に記載のシステム。
- 前記第1の規模の統計モデルが前記第1の規模の生物体の特徴を表す、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記生物体の特徴が、プロセス条件、培地条件、または遺伝因子を含む、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
- 少なくとも1つの生物体の特徴が生物位置に関連している、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記予測関数を生成するステップが、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データを検討項目から除去するステップをさらに含む、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記予測関数を生成するステップが、前記予測関数の誤差を低減するために1つまたは複数の因子を組み込むステップをさらに含む、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記予測関数を生成するステップが、少なくとも1つの遺伝因子に関して調整するステップをさらに含む、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記1つまたは複数のメモリが、
c.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
d.前記予測関数を生成する際の検討項目から第1の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第1の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記改変された予測関数をもたらすことになるステップと
のためのさらなる命令を記憶している、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。 - 前記1つまたは複数のメモリが、
e.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
f.第1の候補の外れ値生物に関して前記改変された予測関数のレバレッジメトリックがレバレッジ条件を満たす場合には、前記改変された予測関数を前記予測関数として使用するステップと
のためのさらなる命令を記憶している、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。 - 前記第1の候補の外れ値生物が、前記予測関数を生成する際に除外する場合、前記改変された予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす生物である、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記1つまたは複数のメモリが、
i.前記第1の候補の外れ値生物を除外して前記予測関数を生成する際に検討項目から除外する場合、前記予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす第2の生物を、第2の候補の外れ値生物であると識別するステップと、
ii.因子のセットからの1つまたは複数の因子によって前記予測関数を改変して、第2の改変された予測関数を生成するステップと、
iii.前記予測関数を生成する際の検討項目から前記第2の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第2の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記第2の改変された予測関数をもたらすことになるステップと
のためのさらなる命令を記憶している、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。 - 第1の候補の外れ値生物が前記第1の規模の性能データおよび前記第2の規模の性能データで表され、前記1つまたは複数の供試生物が前記第1の候補の外れ値生物を含み、前記第2の規模の予測性能データが、前記第1の候補の外れ値生物の前記第2の規模の予測性能を表す、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記予測関数を改変するステップが、前記1つまたは複数の因子を前記予測関数に組み込むステップまたは前記予測関数から除去するステップを含む、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記1つまたは複数の因子が遺伝因子を含む、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記予測関数を生成するステップが、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練するステップを含む、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記予測関数を生成するステップが、前記1つまたは複数の因子によって前記予測関数を改変する前記プロセスにおいて機械学習を適用するステップを含む、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記1つまたは複数のメモリが、
g.複数の予測関数に関する性能誤差メトリックを比較するステップと、
h.少なくとも前記比較に基づいて前記予測関数にランク付けするステップと
のためのさらなる命令を記憶している、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。 - 前記1つまたは複数の第1の生物に関する前記第1の規模の性能データが第1の規模の統計モデルの出力を表し、前記1つまたは複数のメモリが、
i.前記第2の規模の前記1つまたは複数の第1の生物に関する予測性能を前記第2の規模の性能データと比較するステップと、
j.前記比較に少なくとも部分的に基づいて前記第1の規模の統計モデルのパラメータを調整するステップと
のためのさらなる命令を記憶している、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。 - 前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記表現型が化合物の生産を含む、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記生物が微生物株である、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記1つまたは複数のメモリが、前記第2の規模の前記1つまたは複数の供試生物についての前記第2の規模の予測性能データを生成するために、前記第1の規模の目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数を適用するステップのためのさらなる命令を記憶している、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記1つまたは複数のメモリが、前記第2の規模の予測性能に少なくとも部分的に基づいて、前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップのためのさらなる命令を記憶している、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、請求項28から続く先行する請求項のうちいずれか一項に記載のシステム。
- 第1の規模の測定値を基に第2の規模の目的の表現型に関する生物の性能を改善するための命令を記憶している1つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスのうち少なくとも1つに、
a.第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づく第1の規模の性能データと、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能に少なくとも部分的に基づく第2の規模の性能データとにアクセスさせるステップであって、ここで前記第1の規模の性能データが第1の規模の統計モデルに少なくとも部分的に基づくものであるステップと、
b.前記第1の規模の性能データに対する前記第2の規模の性能データの関係性に少なくとも部分的に基づいて予測関数を生成させるステップであって、ここで前記第2の規模の1つまたは複数の供試生物についての第2の規模の予測性能データを生成するために、前記第1の規模の前記目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数が適用可能であるステップと
を行う、1つまたは複数の非一時的コンピュータ可読媒体。 - 前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、請求項54に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記第1の規模の統計モデルが前記第1の規模の生物体の特徴を表す、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記生物体の特徴が、プロセス条件、培地条件、または遺伝因子を含む、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 少なくとも1つの生物体の特徴が生物位置に関連している、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記予測関数を生成するステップが、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データを検討項目から除去するステップをさらに含む、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記予測関数を生成するステップが、前記予測関数の誤差を低減するために1つまたは複数の因子を組み込むステップをさらに含む、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記予測関数を生成するステップが、少なくとも1つの遺伝因子に関して調整するステップをさらに含む、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- a.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
b.前記予測関数を生成する際の検討項目から第1の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第1の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記改変された予測関数をもたらすことになるステップと
のためのさらなる命令を記憶している、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。 - a.因子のセットからの1つまたは複数の因子によって前記予測関数を改変するステップと、
b.第1の候補の外れ値生物に関して前記改変された予測関数のレバレッジメトリックがレバレッジ条件を満たす場合には、前記改変された予測関数を前記予測関数として使用するステップと
のためのさらなる命令を記憶している、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。 - 前記第1の候補の外れ値生物が、前記予測関数を生成する際に除外する場合、前記改変された予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす生物である、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- i.前記第1の候補の外れ値生物を除外して前記予測関数を生成する際に検討項目から除外する場合、前記予測関数の前記レバレッジメトリックにおいて最大の改善をもたらす第2の生物を、第2の候補の外れ値生物であると識別するステップと、
ii.因子のセットからの1つまたは複数の因子によって前記予測関数を改変して、第2の改変された予測関数を生成するステップと、
iii.前記予測関数を生成する際の検討項目から前記第2の候補の外れ値生物を除外するステップであって、前記予測関数を生成する際に前記第2の候補の外れ値生物を含める場合には、レバレッジ条件を満たさないレバレッジメトリックを有する前記第2の改変された予測関数をもたらすことになるステップと
のためのさらなる命令を記憶している、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。 - 第1の候補の外れ値生物が前記第1の規模の性能データおよび前記第2の規模の性能データで表され、前記1つまたは複数の供試生物が前記第1の候補の外れ値生物を含み、前記第2の規模の予測性能データが、前記第1の候補の外れ値生物の前記第2の規模の予測性能を表す、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記予測関数を改変するステップが、前記1つまたは複数の因子を前記予測関数に組み込むステップまたは前記予測関数から除去するステップを含む、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記1つまたは複数の因子が遺伝因子を含む、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記予測関数を生成するステップが、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練するステップを含む、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記予測関数を生成するステップが、前記1つまたは複数の因子によって前記予測関数を改変する前記プロセスにおいて機械学習を適用するステップを含む、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- a.複数の予測関数に関する性能誤差メトリックを比較するステップと、
b.少なくとも前記比較に基づいて前記予測関数にランク付けするステップと
のためのさらなる命令を記憶している、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。 - 前記1つまたは複数の第1の生物に関する前記第1の規模の性能データが第1の規模の統計モデルの出力を表し、前記1つまたは複数の非一時的コンピュータ可読媒体が、
a.前記第2の規模の前記1つまたは複数の第1の生物に関する予測性能を前記第2の規模の性能データと比較するステップと、
b.前記比較に少なくとも部分的に基づいて前記第1の規模の統計モデルのパラメータを調整するステップと
のためのさらなる命令を記憶している、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。 - 前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記表現型が化合物の生産を含む、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記生物が微生物株である、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記第2の規模の前記1つまたは複数の供試生物についての前記第2の規模の予測性能データを生成するために、前記第1の規模の目的の表現型に関して前記1つまたは複数の供試生物についての観測された性能データに対して前記予測関数を適用するステップのためのさらなる命令を記憶している、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記第2の規模の予測性能に少なくとも部分的に基づいて前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップのためのさらなる命令を記憶している、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、請求項54から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の生物の観測された性能に基づいて改善するためのコンピュータ実装方法であって、
a.予測関数にアクセスするステップであって、前記予測関数が、第1の規模の性能データに対する第2の規模の性能データの関係性に少なくとも部分的に基づくものであり、前記第1の規模の性能データが、第1の規模の統計モデルおよび第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づくものであり、前記第2の規模の性能データが、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能に少なくとも部分的に基づくものであるステップと、
b.前記第1の規模の1つまたは複数の供試生物に前記予測関数を適用して、前記第2の規模の前記1つまたは複数の供試生物に関する第2の規模の予測性能データを生成するステップと
を含む方法。 - 前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、請求項80に記載の方法。
- 前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、請求項80から続く先行する請求項のうちいずれか一項に記載の方法。
- 前記予測関数が、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データによる影響を除外する、請求項80から続く先行する請求項のうちいずれか一項に記載の方法。
- 前記予測関数が前記予測関数の誤差を低減するために1つまたは複数の遺伝因子を組み込む、請求項80から続く先行する請求項のうちいずれか一項に記載の方法。
- 前記予測関数が第1の候補の外れ値生物による影響を除外するものであり、前記予測関数を生成する際に前記影響が含まれている場合、レバレッジ条件を満たさないレバレッジメトリックを有する改変された予測関数をもたらすことになり、前記改変された予測関数は1つまたは複数の因子による前記予測関数への改変を組み込んでいる、請求項80から続く先行する請求項のうちいずれか一項に記載の方法。
- 前記予測関数が、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練することによって生成される、請求項80から続く先行する請求項のうちいずれか一項に記載の方法。
- 前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、請求項80から続く先行する請求項のうちいずれか一項に記載の方法。
- 前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、請求項80から続く先行する請求項のうちいずれか一項に記載の方法。
- 前記表現型が化合物の生産を含む、請求項80から続く先行する請求項のうちいずれか一項に記載の方法。
- 前記生物が微生物株である、請求項80から続く先行する請求項のうちいずれか一項に記載の方法。
- 前記第2の規模の予測性能に少なくとも部分的に基づいて前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップをさらに含む、請求項80から続く先行する請求項のうちいずれか一項に記載の方法。
- 第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の生物の観測された性能に基づいて改善するためのシステムであって、
1つまたは複数のプロセッサと、
命令を記憶している1つまたは複数のメモリであって、前記命令が、前記1つまたは複数のプロセッサのうち少なくとも1つによって実行されたとき、前記システムに、
a.予測関数にアクセスさせるステップであって、ここで、前記予測関数が、第1の規模の性能データに対する第2の規模の性能データの関係性に少なくとも部分的に基づくものであり、前記第1の規模の性能データが、第1の規模の統計モデルおよび第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づくものであり、前記第2の規模の性能データが、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能を表すステップと、
b.前記第1の規模の1つまたは複数の供試生物に前記予測関数を適用して、前記第2の規模の前記1つまたは複数の供試生物に関する第2の規模の予測性能データを生成させるステップと
を行う、1つまたは複数のメモリと
を備えるシステム。 - 前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、請求項92に記載のシステム。
- 前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、請求項92から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記予測関数が、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データによる影響を除外する、請求項92から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記予測関数が前記予測関数の誤差を低減するために1つまたは複数の遺伝因子を組み込む、請求項92から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記予測関数が第1の候補の外れ値生物による影響を除外するものであり、前記予測関数を生成する際に前記影響が含まれている場合、レバレッジ条件を満たさないレバレッジメトリックを有する改変された予測関数をもたらすことになり、前記改変された予測関数は1つまたは複数の因子による前記予測関数への改変を組み込んでいる、請求項92から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記予測関数が、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練することによって生成される、請求項92から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、請求項92から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、請求項92から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記表現型が化合物の生産を含む、請求項92から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記生物が微生物株である、請求項92から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記1つまたは複数のメモリが、前記第2の規模の予測性能に少なくとも部分的に基づいて前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップのためのさらなる命令を記憶している、請求項92から続く先行する請求項のうちいずれか一項に記載のシステム。
- 第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の観測された生物の性能を基に改善するための命令を記憶している1つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスのうち少なくとも1つに、
a.予測関数にアクセスさせるステップであって、ここで前記予測関数が、第1の規模の性能データに対する第2の規模の性能データの関係性に少なくとも部分的に基づくものであり、前記第1の規模の性能データが、第1の規模の統計モデルおよび第1の規模の1つまたは複数の第1の生物の観測された第1の性能に少なくとも部分的に基づくものであり、前記第2の規模の性能データが、前記第1の規模よりも大きい第2の規模の1つまたは複数の第2の生物の観測された第2の性能を表すステップと、
b.前記第1の規模の1つまたは複数の供試生物に前記予測関数を適用して、前記第2の規模の前記1つまたは複数の供試生物に関する第2の規模の予測性能データを生成させるステップと
を行う、1つまたは複数の非一時的コンピュータ可読媒体。 - 前記予測関数が、1つまたは複数の第1の規模の性能変数の加重和に少なくとも部分的に基づくものであり、前記第1の規模の性能変数のうち少なくとも1つが、生物性能の2つまたはそれよりも多くの測定値の組合せに基づくものである、請求項104に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記組合せが生成物濃度の糖消費に対する比に少なくとも部分的に基づくものである、請求項104から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記予測関数が、1つまたは複数の外れ値生物に関する前記第1の規模の性能データおよび前記第2の規模の性能データによる影響を除外する、請求項104から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記予測関数が前記予測関数の誤差を低減するために1つまたは複数の遺伝因子を組み込む、請求項104から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記予測関数が第1の候補の外れ値生物による影響を除外するものであり、前記予測関数を生成する際に前記影響が含まれている場合、レバレッジ条件を満たさないレバレッジメトリックを有する改変された予測関数をもたらすことになり、前記改変された予測関数は1つまたは複数の因子による前記予測関数への改変を組み込んでいる、請求項104から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記予測関数が、前記第1の規模の性能データおよび前記第2の規模の性能データを使用して機械学習モデルを訓練することによって生成される、請求項104から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記第1の規模がプレート規模であり、前記第2の規模がタンク規模である、請求項104から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記1つまたは複数の第2の生物が前記1つまたは複数の第1の生物のサブセットである、請求項104から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記目的の表現型が化合物の生産を含む、請求項104から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記生物が微生物株である、請求項104から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記第2の規模の予測性能に少なくとも部分的に基づいて前記1つまたは複数の供試生物のうち少なくとも1つを製造するステップのためのさらなる命令を記憶している、請求項104から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の観測された性能に基づいて改善するためのコンピュータ実装方法であって、
a.前記第1の規模の生物体の特徴を表す第1の規模の統計モデルの選択を表す第1のユーザ入力を受け取るステップと、
b.予測関数の選択を表す第2のユーザ入力を受け取るステップと、
c.前記目的の表現型に関する性能データのタイプの選択を表す第3のユーザ入力を受け取るステップと、
d.グラフィックディスプレイに対して予測関数を供給するステップであって、前記予測関数が、前記第1の規模の1つまたは複数の供試生物について観測された性能データに対して前記予測関数を適用することに基づいて前記第2の規模の1つまたは複数の供試生物に関する前記選択されたタイプの第2の規模の予測性能データをもたらすためのものであるステップと
を含む方法。 - グラフィックディスプレイに対して、前記第2の規模の1つまたは複数の供試生物に関する前記第2の規模の予測性能データを供給するステップをさらに含む請求項116に記載の方法。
- 前記第1の規模の性能データが前記第1の規模の統計モデルを使用して生成される、請求項116から続く先行する請求項のうちいずれか一項に記載の方法。
- 前記予測関数を生成する際に検討項目から除去される1つまたは複数の外れ値生物のユーザ選択を表すユーザ入力を受け取るステップをさらに含む、請求項116から続く先行する請求項のうちいずれか一項に記載の方法。
- 前記予測関数を生成する際に使用される1つまたは複数の因子のユーザ選択を表すユーザ入力を受け取るステップをさらに含む、請求項116から続く先行する請求項のうちいずれか一項に記載の方法。
- 前記1つまたは複数の因子が1つまたは複数の遺伝因子を含む、請求項116から続く先行する請求項のうちいずれか一項に記載の方法。
- 前記1つまたは複数の供試生物のうち少なくとも1つを生成するステップをさらに含む、請求項116から続く先行する請求項のうちいずれか一項に記載の方法。
- 請求項116から続く先行する請求項のうちいずれか一項に記載の方法を使用して識別される、前記第2の規模の供試生物。
- 第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の観測された性能に基づいて改善するためのシステムであって、
1つまたは複数のプロセッサと、
命令を記憶している1つまたは複数のメモリであって、前記命令が、前記1つまたは複数のプロセッサのうち少なくとも1つによって実行されたとき、前記システムに、
a.前記第1の規模の生物体の特徴を表す第1の規模の統計モデルの選択を表す第1のユーザ入力を受け取らせるステップと、
b.予測関数の選択を表す第2のユーザ入力を受け取らせるステップと、
c.前記目的の表現型に関する性能データのタイプの選択を表す第3のユーザ入力を受け取らせるステップと、
d.グラフィックディスプレイに対して予測関数を供給させるステップであって、前記予測関数が、前記第1の規模の1つまたは複数の供試生物について観測された性能データに対して前記予測関数を適用することを基に、前記第2の規模の1つまたは複数の供試生物に関する前記選択されたタイプの第2の規模の予測性能データをもたらすためのものであるステップと
を行う、1つまたは複数のメモリと
を備えるシステム。 - 前記1つまたは複数のメモリが、グラフィックディスプレイに対して前記第2の規模の1つまたは複数の供試生物に関する前記第2の規模の予測性能データを供給するためのさらなる命令を記憶している、請求項124に記載のシステム。
- 前記第1の規模の性能データが前記第1の規模の統計モデルを使用して生成される、請求項124から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記1つまたは複数のメモリが、前記予測関数を生成する際に検討項目から除去される1つまたは複数の外れ値生物のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、請求項124から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記1つまたは複数のメモリが、前記予測関数を生成する際に使用される1つまたは複数の因子のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、請求項124から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記1つまたは複数の因子が1つまたは複数の遺伝因子を含む、請求項124から続く先行する請求項のうちいずれか一項に記載のシステム。
- 前記1つまたは複数のメモリが、前記1つまたは複数の供試生物のうち少なくとも1つを生成するステップのためのさらなる命令を記憶している、請求項124から続く先行する請求項のうちいずれか一項に記載のシステム。
- 第2の規模の目的の表現型に関する生物の性能を、前記第2の規模よりも小さい第1の規模の観測された性能を基に改善するための命令を記憶している1つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスのうち少なくとも1つに、
a.前記第1の規模の生物体の特徴を表す第1の規模の統計モデルの選択を表す第1のユーザ入力を受け取らせるステップと、
b.予測関数の選択を表す第2のユーザ入力を受け取らせるステップと、
c.前記目的の表現型に関する性能データのタイプの選択を表す第3のユーザ入力を受け取らせるステップと、
d.グラフィックディスプレイに対して予測関数を供給させるステップであって、前記予測関数が、前記第1の規模の1つまたは複数の供試生物について観測された性能データに対して前記予測関数を適用することを基に、前記第2の規模の1つまたは複数の供試生物に関する前記選択されたタイプの第2の規模の予測性能データをもたらすためのものであるステップと
を行う、1つまたは複数の非一時的コンピュータ可読媒体。 - グラフィックディスプレイに対して前記第2の規模の1つまたは複数の供試生物に関する前記第2の規模の予測性能データを供給するためのさらなる命令を記憶している、請求項131に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記第1の規模の性能データが前記第1の規模の統計モデルを使用して生成される、請求項131から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記予測関数を生成する際に検討項目から除去される1つまたは複数の外れ値生物のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、請求項131から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記予測関数を生成する際に使用される1つまたは複数の因子のユーザ選択を表すユーザ入力を受け取るステップのためのさらなる命令を記憶している、請求項131から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記1つまたは複数の因子が1つまたは複数の遺伝因子を含む、請求項131から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
- 前記1つまたは複数の供試生物のうち少なくとも1つを生成するステップのためのさらなる命令を記憶している、請求項131から続く先行する請求項のうちいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762583961P | 2017-11-09 | 2017-11-09 | |
US62/583,961 | 2017-11-09 | ||
PCT/US2018/060120 WO2019094787A1 (en) | 2017-11-09 | 2018-11-09 | Optimization of organisms for performance in larger-scale conditions based on performance in smaller-scale conditions |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021502084A true JP2021502084A (ja) | 2021-01-28 |
Family
ID=64557150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020524820A Ceased JP2021502084A (ja) | 2017-11-09 | 2018-11-09 | 小規模条件の性能に基づく大規模条件の性能のための生物の最適化 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20200357486A1 (ja) |
EP (1) | EP3707234A1 (ja) |
JP (1) | JP2021502084A (ja) |
KR (1) | KR20200084341A (ja) |
CN (1) | CN111886330A (ja) |
CA (1) | CA3079750A1 (ja) |
WO (1) | WO2019094787A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020112281A1 (en) * | 2018-11-28 | 2020-06-04 | Exxonmobil Research And Engineering Company | A surrogate model for a chemical production process |
US20220328128A1 (en) * | 2019-05-08 | 2022-10-13 | Zymergen Inc. | Downscaling parameters to design experiments and plate models for micro-organisms at small scale to improve prediction of performance at larger scale |
EP3831924A1 (en) * | 2019-12-03 | 2021-06-09 | Sartorius Stedim Data Analytics AB | Adapting control of a cell culture in a production scale vessel with regard to a starting medium |
EP4105312A1 (en) * | 2021-06-17 | 2022-12-21 | Bühler AG | Method and system for the identification of optimized treatment conditions |
US20220035877A1 (en) * | 2021-10-19 | 2022-02-03 | Intel Corporation | Hardware-aware machine learning model search mechanisms |
CN117233274B (zh) * | 2023-08-29 | 2024-03-15 | 江苏光质检测科技有限公司 | 一种土壤中半挥发性有机物含量检测校正方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003023687A2 (en) * | 2001-09-12 | 2003-03-20 | Aegis Analytical Corporation | An advanced method for profile analysis of continuous data |
WO2007085880A1 (en) * | 2006-01-28 | 2007-08-02 | Abb Research Ltd | A method for on-line prediction of future performance of a fermentation unit. |
US9988624B2 (en) * | 2015-12-07 | 2018-06-05 | Zymergen Inc. | Microbial strain improvement by a HTP genomic engineering platform |
US11151497B2 (en) | 2016-04-27 | 2021-10-19 | Zymergen Inc. | Microbial strain design system and methods for improved large-scale production of engineered nucleotide sequences |
CN106843172B (zh) * | 2016-12-29 | 2019-04-09 | 中国矿业大学 | 基于jy-kpls的复杂工业过程在线质量预测方法 |
-
2018
- 2018-11-09 US US16/762,022 patent/US20200357486A1/en not_active Abandoned
- 2018-11-09 JP JP2020524820A patent/JP2021502084A/ja not_active Ceased
- 2018-11-09 CN CN201880072540.7A patent/CN111886330A/zh active Pending
- 2018-11-09 WO PCT/US2018/060120 patent/WO2019094787A1/en unknown
- 2018-11-09 EP EP18811428.4A patent/EP3707234A1/en not_active Withdrawn
- 2018-11-09 KR KR1020207016315A patent/KR20200084341A/ko not_active Application Discontinuation
- 2018-11-09 CA CA3079750A patent/CA3079750A1/en active Pending
Non-Patent Citations (2)
Title |
---|
ALIME OZLEM KIRDAR. ET AL.: "Appication of multivariate analysis toward biotech processes: case study of a cell-culture unit oper", BIOTECHNOLOGY PRIGRESS, vol. Vol.23, Issue 1, JPN6022040511, 2 February 2007 (2007-02-02), pages 61 - 67, ISSN: 0005122266 * |
C.C.F. CUNHA, ET AL.: "An Assessment of seed quality and its influence on productivity estimation in an industrial antibiot", BIOTECHNOLOGY BIOENGINEERING, vol. Vol.78, Issue 6, JPN6022040510, 23 April 2002 (2002-04-23), pages 658 - 669, XP055554386, ISSN: 0005122267, DOI: 10.1002/bit.10258 * |
Also Published As
Publication number | Publication date |
---|---|
WO2019094787A1 (en) | 2019-05-16 |
EP3707234A1 (en) | 2020-09-16 |
KR20200084341A (ko) | 2020-07-10 |
CA3079750A1 (en) | 2019-05-16 |
US20200357486A1 (en) | 2020-11-12 |
CN111886330A (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021502084A (ja) | 小規模条件の性能に基づく大規模条件の性能のための生物の最適化 | |
Oates et al. | Network inference and biological dynamics | |
Williams et al. | How evolution modifies the variability of range expansion | |
Machado et al. | Systematic evaluation of methods for integration of transcriptomic data into constraint-based models of metabolism | |
JP6956884B2 (ja) | 細胞培養支援装置の作動プログラム、細胞培養支援装置、細胞培養支援装置の作動方法 | |
Remli et al. | An enhanced scatter search with combined opposition-based learning for parameter estimation in large-scale kinetic models of biochemical systems | |
US20220328128A1 (en) | Downscaling parameters to design experiments and plate models for micro-organisms at small scale to improve prediction of performance at larger scale | |
Czajka et al. | Integrated knowledge mining, genome-scale modeling, and machine learning for predicting Yarrowia lipolytica bioproduction | |
Gustafsson et al. | Gene expression prediction by soft integration and the Elastic Net—Best performance of the DREAM3 gene expression challenge | |
US20200058376A1 (en) | Bioreachable prediction tool for predicting properties of bioreachable molecules and related materials | |
Islam et al. | Computational approaches on stoichiometric and kinetic modeling for efficient strain design | |
Choudhury et al. | Generative machine learning produces kinetic models that accurately characterize intracellular metabolic states | |
JP2021505130A (ja) | 外れ値検出に教師なしパラメータ学習を使用して産生のための生物を識別すること | |
Milias-Argeitis et al. | Elucidation of genetic interactions in the yeast GATA-factor network using Bayesian model selection | |
WO2023178118A1 (en) | Directed evolution of molecules by iterative experimentation and machine learning | |
Li et al. | The discovery of transcriptional modules by a two-stage matrix decomposition approach | |
US20200168291A1 (en) | Prioritization of genetic modifications to increase throughput of phenotypic optimization | |
US20230281362A1 (en) | Parameter and state initialization for model training | |
Mailier et al. | Identification of nested biological kinetic models using likelihood ratio tests | |
Saha et al. | Machine learning: an advancement in biochemical engineering | |
WO2023276449A1 (ja) | 細胞数理モデルを作成する方法、細胞数理モデル作成プログラム、細胞数理モデル作成装置、細胞数理モデルの判定方法、細胞数理モデル判定プログラム、及び、細胞数理モデル判定装置 | |
Li | Application of machine learning in systems biology | |
US20230097018A1 (en) | Kinetic learning | |
WO2023276450A1 (ja) | 細胞の培養結果を予測する方法、培養結果予測プログラム、及び、培養結果予測装置 | |
da Cruz | Blueprint: Documenting the complexity of metabolic regulation by reconstruction of integrated metabolic-regulatory models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200709 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221226 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230607 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20230706 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230804 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20231012 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20231130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240131 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240214 |
|
A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20240621 |