JP2022544928A

JP2022544928A - 細胞培養プロセスにおけるプロセス変数を測定するための方法

Info

Publication number: JP2022544928A
Application number: JP2022508761A
Authority: JP
Inventors: クリスティーナエアハルト; トビアスグロスコフ; ヴォルフガングパウル; ダニエルステフケ; スリラムヴェンカテーシュワラン
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2019-08-14
Filing date: 2020-08-12
Publication date: 2022-10-24
Anticipated expiration: 2040-08-12
Also published as: WO2021028453A1; AU2020330701B2; MX2022001822A; JP7410273B2; AU2020330701A1; EP4013848A1; US20220306979A1; BR112022002647A2; CA3145252A1; JP2024038006A; CN114223034A; KR20220032599A; IL290500A

Abstract

ハイスループット培養システムは、医薬品の研究開発に使用されている。これに関連して、サンプルを採取し、外部分析を使用して重要なパラメータについて分析する。分析の結果は、培養プロセスを評価し、プロセスに関する重要な情報を提供するのに役立つ。特に並行して実施される培養では、サンプル調製の手作業が多く、エラーにつながる可能性がある。サンプリングの必要性を回避し、したがってエラーを最小限に抑えるために、本特許出願には、予め記録されたプロセス変数によってソフトセンサの形態で所望の目標パラメータへのアクセスを可能にする方法が開示されている。本明細書では、ハイスループット培養におけるＣＨＯ（チャイニーズハムスター卵巣）プロセスのプロセス関連パラメータ、特にグルコース、乳酸、および生細胞密度、または生細胞体積を測定するための方法を開示する。【選択図】図１９

Description

本発明は、哺乳動物細胞培養法の分野にある。より具体的には、本発明の目的は、一連のプロセス変数の履歴的オンラインおよびオフライン値に基づいてプロセス目標パラメータをオンラインで測定するための方法である。

技術背景
医薬品産業における治療薬の製造にとって、最も要求されるものとしては品質および再現性である。このため、これらの要件を満たすために、目標値、プロセス限界および偏差を定義する経験的標準（ＧＭＰガイドライン、医薬品及び医薬部外品の製造管理及び品質管理の基準）が定められている。最近、米国食品医薬品局（ＦＤＡ）は、ＰＡＴ（プロセス分析技術）の主導により、製品の品質を向上させるために実行されるプロセスの良好な理解を深めるよう製薬業界に求めた［１］。近年、コンピュータベースのモデルなどの新しい技術が、治療用タンパク質を産生するために使用される、例えばＣＨＯ細胞の細胞培養プロセスの理解を進めるために使用されている。

バイオリアクターは、細胞を培養するために最もよく使用されている。バイオリアクターでは、培養中に様々なプロセス変数が記録される。これらは、プロセス監視ならびに制御を可能にし、環境条件の制御を維持するのに役立つ。オンライン値とオフライン値とは区別される。両者の値は、プロセスに関する重要な情報を提供する。オンライン値は、直接オンライン制御に使用される適切なセンサによって収集される。しかしながら、オフライン値は、その後の外部分析方法による手動サンプリングによって測定されている。そのようなオフラインパラメータは、例えば、生細胞密度、グルコース濃度および乳酸濃度である。これらを使用して、最新の培養条件を評価し、必要に応じて、プロセスの調節に介入し得る。

サンプルの分析には、特にハイスループット培養システムの場合、手作業が増えることが必要となる。これらの外部方法はまた、いくつかの状況ではエラーおよびデバイス障害につながる可能性がある。プロセスをより効率的かつ堅牢にするために、培養中に既に記録されたオンライン値を使用してオンラインで情報を取得することが可能である。このようにして、既存の測定されたパラメータおよびそれらの関係は、機械学習の適切な数学モデルを使用して説明するように解析し得る。

流加培養プロセスでバイオマスを監視するための人工ニューラルネットワーク（ＡＮＮ）が開示されている［８］。Ｋｒｏｌｌらは、ＣＨＯ細胞バイオマスの亜集団を測定するためのモデルに基づくソフトセンサを開示している［９］。

Ｈｕｔｔｅｒ，Ｓ．らは、チャイニーズハムスター卵巣灌流細胞培養における免疫グロブリンＧのグリコシル化フラックス分析を開示している（Ｐｒｏｃｅｓｓ６（２０１８）１７６）。著者らは、グリコシル化経路に関する洞察を生み出すための代謝フラックス分析に基づくアプローチを開示している。Ｈｕｔｔｅｒらは、灌流細胞培養実験における代謝フラックス分析に注目している。オフラインで測定されたパラメータのみを使用して、ランダムフォレストモデルにより使用して機構的（線形）モデルをフィッティングさせ、グリコシル化結果に対する入力パラメータの影響をランク付けした。このように、Ｈｕｔｔｅｒらは、培養後に実施される、オフラインデータに基づいて統計分析、すなわち履歴データの（生物学的）意味を理解するためのモデリングツールを開示している。予測またはオンラインアルゴリズムは開示されていない。

白書「バイオファーマＰＡＴ－バイオリアクターにおける品質属性、重要なプロセスパラメータおよび重要な性能指標」（（ｈｔｔｐｓ：／／ｗｗｗ．ｒｅｓｅａｒｃｈｇａｔｅ．ｎｅｔ／ｐｕｂｌｉｃａｔｉｏｎ／３２６８０４８３２＿Ｂｉｏｐｈａｒｍａ＿ＰＡＴ＿－＿Ｑｕａｌｉｔｙ＿Ａｔｔｒｉｂｕｔｅｓ＿Ｃｒｉｔｉｃｃａｌ＿Ｐｒｏｃｅｓｓ＿Ｐａｒａｍｅｔｅｒｓ＿Ｋｅｙ＿Ｐｅｒｆｏｒｍａｎｃｅ＿Ｉｎｄｉｃａｔｏｒｓ＿ａｔ＿ｔｈｅ＿Ｂｉｏｒｅａｃｔｏｒで入手可能）には、プロセス分析技術の高レベルの概要が記載されている。この白書には、培養原理（例えば、バッチ、流加および灌流、モニタリング方法）が開示されている。そこで、溶存酸素などの測定値の影響を使用して、プロセスの理解を得ている。出力パラメータまたは機械学習手法の予測は開示されていない。

Ｒｕｂｉｎ，Ｊ．らは、ｐＨが逸脱することにより、ＣＨＯ細胞培養性能および抗体Ｎ結合型グリコシル化に影響を及ぼされることを報告している（Ｂｉｏｐｒｏｃｅｓｓ．Ｂｉｏｓｙｓ．Ｅｎｇ．，４１（２０１８）１７３１－１７４１）。著者らは、任意の培養で行われたプロセスパラメータの典型的なオフライン測定を使用した抗体グリコシル化に対する細胞培養ｐＨの影響、およびｐＨ変動の影響に関する研究を開示している。

Ｄｏｗｎｅｙ，Ｂ．Ｊ．らは、初期プロセス開発において生存細胞体積（ＶＣＶ）を予測するために誘電分光法を使用するための新規アプローチを報告している（Ｂｉｏｔｅｃｈｎｏｌ．Ｐｒｏｇ．３０（２０１４）４７９－４８７）。

Ｘｉａｏ，Ｐ．らは、流加培養物におけるＣＨＯ細胞サイズ増加期の代謝的特徴付けを報告した（Ａｐｐｌ．Ｍｉｃｒｏｂｉｏｌ．Ｂｉｏｔｅｃｈｎｏｌ．１０１（２０１７）８１０１－８１１３）。

Ｋｒｏｌｌ，Ｐ．らは、哺乳動物細胞培養プロセスにおけるバイオマス亜集団を監視するためのソフトセンサについて報告している（Ｂｉｏｔｅｃｈｎｏｌ．Ｌｅｔｔ．３９（２０１７）１６６７－１６７３）。著者らは、濁度物理センサを使用して、線形モデルに基づいて生細胞数（ＶＣＣ、ＶＣＤと等価）を測定した。

本発明は、少なくとも部分的には、履歴データセットから特定のプロセス変数を選択することによって、ＶＣＤ（生細胞密度）、ＶＣＶ（生細胞体積）、グルコースおよび乳酸などのＣＨＯ細胞の培養のための重要なパラメータをリアルタイムで含む有用なデータ駆動モデルを得ることができるという知見に基づいている。本発明による方法では、サンプリングなしで培養の全過程にわたって目標変数の正確なオンライン様値を提供することが可能になる。

このＣＨＯ細胞の培養のためのモデルによる前記培養からのオンライン測定値のみを使用して、抗体を発現するＣＨＯ細胞の培養のため、および培養中の生細胞密度および／または生細胞体積および／または培養培地中のグルコース濃度および／または培養培養培地中の乳酸濃度を測定する方法であって、特徴「時間」、「ＣＨＴ．ＰＶ」、「ＡＣＯＴ．ＰＶ」、「ＦＥＤ２Ｔ．ＰＶ」、「ＧＥＷ．ＰＶ」、「ＣＯ２Ｔ．ＰＶ」、「ＡＣＯ．ＰＶ」、「ＡＯ．ＰＶ」、「Ｎ２．ＰＶ」、「ＬＧＥ．ＰＶ」、「ＣＯ２．ＰＶ」、「ＦＥＤ３Ｔ．ＰＶ」、「ＯＵＲ」、および「ＰＨ．ＰＶ」を含む特徴行列に基づくモデルを生成することを特徴とする、方法である。

特徴は以下の様なパラメータを示す。

一実施形態では、モデルは、ランダムフォレスト法を使用して生成されている。

一実施形態では、訓練データセットは、少なくとも１０回の培養ラン、好ましくは少なくとも６０回の培養ランを含む。

一実施形態では、モデルは、例えば１つ以上のＦａｂなどの追加のドメインを含むことによって、複合ＩｇＧ、すなわち野生型Ｙ字形全長抗体とは異なる形態を含む抗体を発現する哺乳動物細胞の培養ランを含む訓練データセットを使用して得られる。一実施形態では、訓練データセットはまた、標準ＩｇＧ、すなわちドメインが追加または削除されていないＹ字形の野生型様抗体を発現する哺乳動物細胞の培養ランも含んでいる。

一実施形態では、モデル形成に利用可能なデータセットの約８０％が訓練データセットとして使用され、残りのデータセットが試験データセットとして使用される。

一実施形態では、
ａ）モデリングに利用可能なデータセットを、８０：２０の比で訓練データセットと試験データセットとにランダムに分け、
ｂ）モデルを形成し、
ｃ）データセットの目標パラメータを測定するための平均値および標準偏差を、前記訓練データセットから測定し、記録の目標パラメータを測定するための平均値および標準偏差を前記試験データセットから測定し、
ｄ）工程ａ）～ｃ）は、試験データセットと訓練データセットとの間の分割に関して、同等、すなわち互いに最大１０％、好ましくは最大５％以内の平均値および標準偏差が達成されるまで繰り返される。

一実施形態では、データセット内の欠落データ点は補間によって補完されている。

一実施形態では、データセットは、少なくとも６０分間のデータ点、好ましくは約５～１０分ごとのデータ点を含む。

本発明の特定の実施形態
１．哺乳動物細胞の培養中に１以上のプロセス変数を測定するための方法であって、
前記プロセス変数（単数または複数）は、単に
ｉ）プロセス変数「時間」、「ＣＨＴ．ＰＶ」、「ＡＣＯＴ．ＰＶ」、「ＦＥＤ２Ｔ．ＰＶ」、「ＧＥＷ．ＰＶ」、「ＣＯ２Ｔ．ＰＶ」、「ＡＣＯ．ＰＶ」、「ＡＯ．ＰＶ」、「Ｎ２．ＰＶ」、「ＬＧＥ．ＰＶ」、「ＣＯ２．ＰＶ」、「ＦＥＤ３Ｔ．ＰＶ」、「ＯＵＲ」、および「ＰＨ．ＰＶ」を含む特徴行列を用いて生成された哺乳動物細胞の培養のデータ駆動モデルによって、
ならびに
ｉｉ）培養からのオンライン測定値のみを使用することによって測定される、方法。

２．オンライン測定値が、少なくとも培養のプロセス変数「時間」、「ＣＨＴ．ＰＶ」、「ＡＣＯＴ．ＰＶ」、「ＦＥＤ２Ｔ．ＰＶ」、「ＧＥＷ．ＰＶ」、「ＣＯ２Ｔ．ＰＶ」、「ＡＣＯ．ＰＶ」、「ＡＯ．ＰＶ」、「Ｎ２．ＰＶ」、「ＬＧＥ．ＰＶ」、「ＣＯ２．ＰＶ」、「ＦＥＤ３Ｔ．ＰＶ」、「ＯＵＲ」、および「ＰＨ．ＰＶ」」を使用することを特徴とする、実施形態１に記載の方法。

３．哺乳動物細胞を培養する間、グルコース濃度を目標値に調整する方法であって、
ａ）培養の、少なくともプロセス変数「時間」、「ＣＨＴ．ＰＶ」、「ＡＣＯＴ．ＰＶ」、「ＦＥＤ２Ｔ．ＰＶ」、「ＧＥＷ．ＰＶ」、「ＣＯ２Ｔ．ＰＶ」、「ＡＣＯ．ＰＶ」、「ＡＯ．ＰＶ」、「Ｎ２．ＰＶ」、「ＬＧＥ．ＰＶ」、「ＣＯ２．ＰＶ」、「ＦＥＤ３Ｔ．ＰＶ」、「ＯＵＲ」、および「ＰＨ．ＰＶ」の現在値を測定する工程、
ｂ）プロセス変数「時間」、「ＣＨＴ．ＰＶ」、「ＡＣＯＴ．ＰＶ」、「ＦＥＤ２Ｔ．ＰＶ」、「ＧＥＷ．ＰＶ」、「ＣＯ２Ｔ．ＰＶ」、「ＡＣＯ．ＰＶ」、「ＡＯ．ＰＶ」、「Ｎ２．ＰＶ」、「ＬＧＥ．ＰＶ」、「ＣＯ２．ＰＶ」、「ＦＥＤ３Ｔ．ＰＶ」、「ＯＵＲ」、および「ＰＨ．ＰＶ」を含む特徴行列を使用して生成された、哺乳動物細胞培養のためのデータ駆動モデルによって、ａ）で測定された値を用いて培養培地中の現在のグルコース濃度を測定する工程、
ならびに
ｃ）ｂ）で測定された現在のグルコース濃度が目標値よりも低い場合、目標値に達するまでグルコースを添加し、それによってグルコース濃度を目標値に調整する工程を含む、方法。

４．前記プロセス変数が、プロセス変数生細胞密度、生細胞体積、培養培地中のグルコース濃度、および培養培地中の乳酸濃度から選択されることを特徴とする、実施形態１～３のいずれか１つに記載の方法。

５．前記方法がサンプリングなしで実施され、前記培養からのオンラインで測定された値のみが使用されることを特徴とする、実施形態１～４のいずれか１つに記載の方法。

６．前記データ駆動モデルが機械学習によって生成されていることを特徴とする、実施形態１～５のいずれか１つに記載の方法。

７．前記データ駆動モデルが、人工ニューラルネットワークおよびアンサンブル学習を含む群から選択される方法を使用して生成されていることを特徴とする、実施形態１～６のいずれか１つに記載の方法。

８．前記データ駆動モデルが、ランダムフォレスト法を使用して生成されていることを特徴とする、実施形態１～７のいずれか１つに記載の方法。

９．前記データ駆動モデルが、ＭＬＰＲｅｇｒｅｓｓｏｒ法を使用して生成されていることを特徴とする、実施形態１～７のいずれか１つに記載の方法。

１０．前記データ駆動モデルが、ＸＧＢｏｏｓｔ法を使用して生成されていることを特徴とする、実施形態１～７のいずれか１つに記載の方法。

１１．前記データ駆動モデルが、教師あり学習を通して生成されていることを特徴とする、実施形態１～１０のいずれか１つに記載の方法。

１２．前記データ駆動モデルが交差検証によって検証されることを特徴とする、実施形態１～１１のいずれか１つに記載の方法。

１３．前記交差検証が１０倍交差検証であることを特徴とする、実施形態１２に記載の方法。

１４．前記データ駆動モデルが、少なくとも１０回の培養ランを含む訓練データセットを使用して生成されていることを特徴とする、実施形態１～１３のいずれか１つに記載の方法。

１５．前記訓練データセットが、少なくとも６０回の培養ランを含むことを特徴とする、実施形態１４に記載の方法。

１６．モデル生成に利用可能なデータセットの約８０％が訓練データセットとして使用され、残りのデータセットが試験データセットとして使用されることを特徴とする、実施形態１～１５のいずれか１つに記載の方法。

１７．実施形態１～１６のいずれか１つに記載の方法であって、
ａ）モデリングに利用可能なデータセットが、７０：３０～８０：２０の比で訓練データセットと試験データセットとにランダムに分割されること、
ｂ）モデルを形成し、
ｃ）データセットのプロセス変数を測定するための平均値および標準偏差を、前記訓練データセットから測定し、データセットのプロセス変数を測定するための平均値および標準偏差を前記試験データセットから測定する工程、
試験データセットと訓練データセットに関して同等の平均値および標準偏差が達成されるまで、すなわち互いに１０％以内、好ましくは互いに５％以内が達成されるまで工程ａ）～ｃ）を繰り返す工程であって、ａ）で得られた分割は、新しい実行ごとに異なっている、工程を含む、方法。

１８．前記データ駆動モデルを生成するために使用されるデータセットが、それぞれ同じ数のデータ点を含むことを特徴とする、実施形態１～１７のいずれか１つに記載の方法。

１９．前記データ駆動モデルを生成するために使用されるデータセット内のデータ点が、それぞれ培養の同じ時点に対するものであることを特徴とする、実施形態１～１８のいずれか１つに記載の方法。

２０．前記データセット内の欠落データ点が補間によって得られることを特徴とする、実施形態１～１９のいずれか１つに記載の方法。

２１．グルコース濃度および／または生細胞体積の欠落データ点が、三次多項式フィッティングによって得られることを特徴とする、実施形態２０に記載の方法。

２２．乳酸濃度の欠落データ点が、単変量スプラインフィッティングによって得られることを特徴とする、実施形態２０または２１に記載の方法。

２３．生細胞密度の欠落データ点が、ペレグフィッティングによって得られることを特徴とする、実施形態２０～２２のいずれか１つに記載の方法。

２４．各データセットが、少なくとも１４４分ごとにデータ点を含むことを特徴とする、実施形態１～２３のいずれか１つに記載の方法。

２５．各データセットが、少なくとも６０分ごとにデータ点を含むことを特徴とする、実施形態１～２４のいずれか１つに記載の方法。

２６．各データセットが、約５～１０分ごとにデータ点を含むことを特徴とする、実施形態１～２５のいずれか１つに記載の方法。

２７．哺乳動物細胞がＣＨＯ細胞であることを特徴とする、実施形態１～２６のいずれか１つに記載の方法。

２８．哺乳動物細胞がＣＨＯ－Ｋ１細胞である、実施形態１～２７のいずれか１つに記載の方法。

２９．哺乳動物細胞が治療用タンパク質を発現および分泌することを特徴とする、実施形態１～２８のいずれか１つに記載の方法。

３０．哺乳動物細胞が抗体を発現および分泌することを特徴とする、実施形態１～２９のいずれか１つに記載の方法。

３１．抗体がモノクローナル抗体および／または治療用抗体であることを特徴とする、実施形態３０に記載の方法。

３２．前記抗体が、標準ＩｇＧ抗体ではない、すなわち、野生型の四鎖の全長抗体であるか、または複合抗体、すなわち、標準抗体と比較して追加の抗体および／または非抗体ドメインを含む抗体であることを特徴とする、実施形態３０または３１に記載の方法。

３３．データ駆動モデルが、複合ＩｇＧの培養ランのみを含む訓練データセットを用いて生成されていることを特徴とする、実施形態１～３２のいずれか１つに記載の方法。

３４．データ駆動モデルが、標準ＩｇＧ培養ランも含む訓練データセットを用いて生成されていることを特徴とする、実施形態１～３３のいずれか１つに記載の方法。

３５．哺乳動物細胞が、複合ＩｇＧまたは標準ＩｇＧを発現および分泌することを特徴とする、実施形態１～３４のいずれか１つに記載の方法。

３６．培養体積が３００ｍＬ以下であることを特徴とする、実施形態１～３５のいずれか１つに記載の方法。

３７．培養体積が、２５０ｍＬ以下、２００ｍＬ以下、１００ｍＬ以下、７５ｍＬ以下、２００～２５０ｍＬ、または５０～１００ｍＬであることを特徴とする、実施形態１～３６のいずれか１つに記載の方法。

３８．培養が流加培養であることを特徴とする、実施形態１～３７のいずれか１つに記載の方法。

３９．培養が撹拌槽型リアクター内で行われることを特徴とする、実施形態１～３８のいずれか１つに記載の方法。

４０．培養中に水中ガス処理を行うことを特徴とする、実施形態１～３９のいずれか１つに記載の方法。

４１．培養が使い捨てバイオリアクター（ＳＵＢ）内で行われることを特徴とする、実施形態１～４０のいずれか１つに記載の方法。

４２．哺乳動物細胞が浮遊状態で培養されること、または哺乳動物細胞が浮遊状態で増殖する哺乳動物細胞であることを特徴とする、実施形態１～４１のいずれか１つに記載の方法。

４３．データ駆動モデルが回帰分析によって生成されていることを特徴とする、実施形態１～４２のいずれか１つに記載の方法。

４４．３００ｍＬ以下の体積で哺乳動物細胞を培養するためのプロセス変数を測定するためのデータ駆動モデルの生成における目標パラメータとしての生細胞体積の使用。

４５．プロセス変数が、プロセス変数生細胞密度、生細胞体積、培養培地中のグルコース濃度、および培養培地中の乳酸濃度を含む群から選択されることを特徴とする、実施形態４４に記載の使用。

４６．培養がサンプリングなしで行われることを特徴とする、実施形態４４または４５に記載の使用。

４７．哺乳動物細胞がＣＨＯ細胞であることを特徴とする、実施形態４４～４６のいずれか１つに記載の使用。

４８．哺乳動物細胞がＣＨＯ－Ｋ１細胞であることを特徴とする、実施形態４４～４７のいずれか１つに記載の使用。

４９．哺乳動物細胞が治療用タンパク質を発現および分泌することを特徴とする、実施形態４４～４８のいずれか１つに記載の使用。

５０．哺乳動物細胞が抗体を発現および分泌することを特徴とする、実施形態４４～４９のいずれか１つに記載の使用。

５１．抗体がモノクローナル抗体および／または治療用抗体であることを特徴とする、実施形態５０に記載の使用。

５２．前記抗体が、標準ＩｇＧ抗体ではないか、または複合抗体であることを特徴とする、実施形態５０または５１に記載の使用。

５３．データ駆動モデルが、複合ＩｇＧの培養ランのみを含む訓練データセットを用いて生成されていることを特徴とする、実施形態４４～５２のいずれか１つに記載の使用。

５４．データ駆動モデルが、標準ＩｇＧの培養ランも含む訓練データセットを用いて生成されていることを特徴とする、実施形態４４～５３のいずれか１つに記載の使用。

５５．哺乳動物細胞が複合ＩｇＧまたは標準ＩｇＧを発現および分泌することを特徴とする、実施形態４４～５４のいずれか１つに記載の使用。

発明の態様の詳細な説明
特に複雑な分子および分子フォーマットについて、試験培養のハイスループットを達成し得るようにするために、培養容器のサイズを小さくしなければならず、培養を自動化しなければならない。培養の成功は制御されたプロセス変数に依存し、最適な培養条件が提供された場合にのみ所望の分子を高収率で産生し得る。したがって、それぞれのプロセス変数を設定し、最適な培養条件を維持することを可能にするために、関連するプロセス変数の迅速かつ効率的な制御が必要とされる。各培養を別々に監視しなければならないため、このような制御は、小規模並列培養には特に必要とされる。特に、いわゆるオフラインプロセス変数は、一方では必要なサンプリングおよび別個の分析結果が時間オフセットであり、すなわち培養が継続し、オフラインで測定されたプロセス変数が実際のプロセス変数と異なり、他方ではサンプリングポイントの数がオンラインで利用可能なプロセス変数と比較して著しく少なく、このプロセス変数の時間的に悪い制御をもたらすため、ここでは問題となる。

したがって、本発明の目的は、オンラインでは測定し得ないが、特に使用される培養容器の大きさのためにオフラインでのみ測定されるプロセス変数を、データ駆動モデルに基づいてリアルタイムで使用される培養規模でオンラインで利用可能なプロセス変数と同様に利用可能にすることである。

組換えタンパク質を生産するために、バイオリアクターは、ほとんどの場合、流加プロセスを使用して作動する［４］。流加プロセスに加えて、バッチプロセスおよび連続培養モードなどの他の動作モードがある。

流加または供給プロセスは、部分開放系の１つである。このプロセスの利点は、グルコース、グルタミンおよび他のアミノ酸などの栄養素をプロセス中に培養に添加し得ることである。結果として生じる基質の制限を回避し得、より長いプロセス時間を確保し得る。基質は、連続的にまたは（１つ以上の）濃縮した塊の形態で添加し得る。阻害効果および毒性副産物の蓄積をより適切に制御するために、適切な供給戦略を使用し得る。しかしながら、これには、プロセスの十分な知識、ならびにプロセスの制御が必要である。

ＣＨＯ細胞などの哺乳動物細胞の培養中に最適な条件を提供および維持するために、バイオリアクターがほぼ排他的に使用される［２］。使用されるバイオリアクターは、ほとんどが撹拌槽型リアクターである。培養は、懸濁液中で、すなわち浮遊状態で増殖する細胞で行われる。

ＣＨＯ細胞などの好気性哺乳動物細胞は、それらの細胞代謝を維持するために酸素を必要とする。細胞には、通常、培養ブロスの水中ガス処理によって酸素が供給される。リアクター内の溶存酸素濃度は、好気性細胞の培養にとって最も重要なパラメータの１つである。培地中に溶解した酸素の濃度は、いくつかの輸送抵抗によって測定される。拡散により、酸素が気泡から細胞に輸送され、最終的に細胞によって代謝され得る。輸送機構は酸素輸送速度（酸素移動速度、略してＯＴＲ）を用いて行い得るが、細胞自体による酸素消費量は酸素消費速度（酸素摂取速度、略してＯＵＲ）を用いて測定し得ることが開示されている［２］。適切な排ガス分析は、ＯＵＲおよびＯＴＲを計算するために必要なデータを提供し得る。温度、ｐＨ値および溶存酸素濃度などのプロセス変数は、適切なセンサで監視され、培養中に制御されるパラメータに含まれる。これらのプロセス変数は、哺乳動物細胞株の有効生産性に大きな影響を及ぼす［３］。

バイオリアクターの開発および設定時間を短縮するために、研究および開発は、単回使用技術（単回使用バイオリアクタ；略記：ＳＵＢ）にますます集中している。これらのシステムの大きな利点は、複雑な洗浄プロセス、ならびにＣＩＰ（適所での洗浄）およびＳＩＰ（適所での滅菌）などの必要な複雑で費用のかかる洗浄方法を必要としないことである。

ａｍｂｒ２５０システム（自動マイクロスケールバイオリアクター）などの自動ハイスループット培養システムは、薬物開発を早めるのに役立つ。それぞれ２５０ｍＬの体積を有する１２個の単回使用バイオリアクターがこのシステム内で利用可能である。ピペット操作およびサンプリングのために、自動液体ハンドラが使用される。操作は、中央処理ソフトウェアによって制御される。操作中の無菌環境を確保するために、ａｍｂｒ２５０システム全体が層流ボックスの下に配置される。

ソフトセンサは、プロセス変数の監視のために過去２０年間でますます工業的に使用されてきた［６］。前記プロセス変数は、通常、高い分析努力で、または外部的に、すなわちオフラインでのみ測定し得る。特に、小規模で単回使用システムを使用する場合、必要な追加のセンサを設置し得ないことが多い（空間および利用可能性または使い捨てバイオリアクターへの接続性、場合によってはガンマ線照射可能ではないなど）。したがって、プロセス監視に使用し得、前記プロセス変数、すなわちプロセス目標パラメータの調整を可能にする重要なプロセス変数、特に小さな培養規模での連続データが不足している。「ソフトセンサ」という名称は、「ソフトウェア」と「センサ」という２つの用語を組み合わせたものである。「ソフトウェア」という用語は、モデルのコンピュータ支援プログラミングを意味する。これらのモデルの出力は、培養に関する情報、特に、それぞれの物理センサがないために利用できないプロセス変数のリアルタイム値を提供する［５］。

基本的に、ソフトセンサは、モデル駆動型ソフトセンサとデータ駆動型ソフトセンサの２つのクラスに分け得る。

モデル駆動型ソフトセンサは、理論的なプロセスモデルの影響を受ける。これらには、進行中のプロセスの詳細な知識が必要であり、状態の微分方程式を使用して前記プロセスを説明する。これは、プロセスの動的挙動が機構モデルを使用して表されなければならないことを意味する。そのようなモデルは、主に製造プラントの計画および設計のために開発され、理想的な平衡状態の説明に焦点を当てている。

データ駆動型ソフトセンサ（ブラックボックスモデルと呼ばれる）では、機械学習に基づくモデルが使用される。これらは、プロセス変数相関を表わすために履歴データを使用する経験的モデルを含む。生物学的プロセスは複雑であり、培養哺乳動物細胞の代謝のありとあらゆる態様に関してはまだ十分には解明されていない。

製薬業界内のデータ駆動型ソフトセンサの適用分野は広い。一般に、培養を監視し、記録する。

現在、このような履歴データを使用して、オフラインプロセス変数のオンライン概算のためのデータ駆動モデルを生成し得ることが本発明者らによって見出されている。

プロセス変数は、主にリアルタイムで測定される、すなわち利用可能にされる。それらは通常、困難を伴って、かつ分析努力および関連する時間オフセットを増大させてのみ測定し得る。さらに、バイオマスまたは特定の基質および生成物濃度などのいくつかのプロセス変数のオンライン監視には、ロバストで長期安定なオンラインセンサシステムが常に利用できるとは限らない［７］。これらのパラメータは、培養プロセスに関する重要な情報を含むが、培養中の限られた時点、すなわちオフラインでサンプルを採取して分析する時点でのみ利用可能である。

ａｍｂｒ２５０システムなどの小型システムでは、プローブポートがないために、濁度および／または導電率などの特定のプロセス変数を測定することは不可能である。さらに、それらの設計のために、いくつかの一般的なプローブは、比較的大量の空間を必要とし、これは、これらの小さい体積のシステムでは利用できない。

機械学習は、データセットの基本構造を表わすためのアルゴリズムの応用である。機械学習は、教師あり学習および教師なし学習の２つの部分に分け得る。

教師あり学習は、訓練データに基づいて将来または未知のデータの予測を行うためにモデルが準備されるときに使用される。訓練データセットは、所望の出力値に関する情報を既に含んでいるため、管理される。一例は、スパムメールの選別である［１０］。したがって、アルゴリズムは、スパムメッセージおよび非スパムメッセージからなり、学習フェーズを通過するスパム／非スパムに関する情報を既に含んでいるデータセットを受信する。マークされていない新しい電子メールでは、アルゴリズムは、それがどのタイプのメッセージであるかを予測しようとする。これは分類上の目標変数（スパム／非－スパム）であるため、「分類」という用語を用いる。

教師なし学習の場合、目標変数をアルゴリズムに提示することなく、データセット内の関係を取得する試みが行われる。その焦点は、そこから意味のある情報を抽出するために、データの基礎となる構成を探索することにある。このグループの最も単純な例はクラスタリングである。この探索的データ分析では、実際の集団の帰属関係の事前知識なしにデータセットを意味のあるサブグループに分ける試みが行われる。

目標変数が連続変数である場合、回帰または回帰分析と言う。回帰モデルを説明するために使用される変数は、独立変数または説明変数と呼ばれる。これに基づいて、結果を予測できるようにするために、入力変数と目標パラメータとの間の数学的関係を見つける試みが行われる。

本発明による方法は、目標変数が回帰によって表わされる、教師あり学習を使用する。

モデル化は、目標変数の前処理、学習、評価および概算の工程において模式的に整列させ得る。

データの前処理は、モデルがそれが基づく情報を正しく解釈できることを保証するために必要である。データセットは、特徴行列ｘの形態で準備され、ｍ個の特徴（列）およびｎ個の行を含み、それ故説明変数を表す。各行ｎは、特定のデータ点の特徴の仕様を含む。

目標変数は、ベクトルｙに配置される。したがって、特徴行列ｘ^（ｎ）の各行は、目標変数ｙ^（ｎ）の関連する値の情報を含む。

適切な特徴を特定するために、統計分析が使用される。適切な特徴が特定され、対応する特徴行列が作成されると、サブセット（データセット全体の７０～８０％）がモデルで学習し得るようになる。このサブセットは訓練データセットと呼ばれる。

典型的なデータ前処理は、データセットを標準化された形式でモデルに提供することを含み得る。したがって、各特徴のデータには、平均０および標準偏差１を有する標準正規分布の特性が与えられる。これは、特徴の互いの比較可能性を高め、学習アルゴリズムがそれらの最適な性能を達成することを可能にする［１０］。

学習は、モデル構築の中心部分である。学習中、モデルは、データ間の関係を理解および認識しようとする。各モデルは、特定のパラメータを有する数式に従う。これらは、データ間の関係を可能な限り適切に表わすために、訓練プロセス内で適応させる。

ニューラルネットワークなどのいくつかのモデルは、学習プロセス中に変更されない他のパラメータを有する。これらはハイパーパラメータと呼ばれる。それらは、モデルの複雑さまたは学習プロセスの速度に影響を及ぼし、訓練プロセスの前に測定される。正しいハイパーパラメータを選択するための決まった方法はない。したがって、異なるモデルは、異なるハイパーパラメータで訓練され、次いで試験される。その場合にのみ、どのモデルが最も適しているかを判断し得る。

ハイパーパラメータの最適な組み合わせを探索するために、ランダム化およびラスターベースのアルゴリズムが使用される。各ハイパーパラメータは、異なる値を有するリストによって表される。モデルは、それぞれのリストから可能な全ての組み合わせでグリッド検索（ＧｒｉｄＳｅａｒｃｈ）で訓練される。必要とされる計算労力は、ランダム化された検索によって低減され得る。様々なランダムなパラメータの組み合わせが使用され、計算労力を予め測定し得る。一実施形態では、モデルは、最初にハイパーパラメータの大まかな概算値のためのランダム化検索で実行され、次いで、ハイパーパラメータの微調整のためにグリッド検索が実行される。学習の目的は、バイアスおよび分散が可能な限り低く保たれるようにモデルを訓練することである。

モデルは、未知のデータセットを用いた後続の予測よりも訓練データ間の関係をより適切に学習することが多い。この挙動を過学習と呼ぶ。したがって、モデルは訓練データセットを記憶しており、不十分な精度で関連性を新しいデータで表わする。同様の挙動はまた、過度の分散に起因し得る。ここで、モデルは、訓練されるデータセットに対して多すぎる入力パラメータを使用し、高いデータ分散を有するこのデータセットにのみフィッティングする複雑なモデルをもたらす。したがって、モデルは、実際の関係をマッピングし得ず、データのノイズを学習した。

一方、モデルが試験データセットの変化に反応し得るほど複雑でない場合、これは学習不足と呼ばれる。その場合、バイアスは大きすぎ、モデルは訓練データの関係を試験データに不正確にマッピングすることしかできない。

既に学習中に、訓練データセットのｋ倍の交差検証は、モデルの過学習を回避する可能性を提供する［１１］。訓練データセットはｋ個のサブセットに分けられる。次に、ｋ－１個のサブセットがモデルを訓練するために使用され、残りのサブセットが試験データセットとして使用される。この手順をｋ回繰り返す。このようにして、ｋ個のモデルが訓練され、目標変数のｋ個の概算値が取得される。

モデルの性能概算値Ｅ_ｉは、実行ごとに生成されている。回帰の性能概算値としては、例えば、誤差の尺度である平均二乗偏差が用いられる。実際には、ほとんどの場合、１０倍の交差検証がバイアスおよび分散のための適切な妥協点であることが証明されている［１２］：

人工ニューラルネットワーク（ＡＮＮ）は、１９４３年にＷａｒｒｅｎＭｃＣｕｌｌｏｃｈおよびＷａｌｔｅｒＰｉｔｔｓによってニューロンの数学的モデルとともに開示された。このようにして、生体系における情報伝達を理解し得る［１３］。次いで、ＦｒａｎｋＲｏｓｅｎｂｌａｔｔは、人工ニューロンのＭｃＣｕｌｌｏｃｈ－Ｐｉｔｔｓモデルを学習規則とリンクさせ、それ故パーセプトロンを説明し得た［１４］。パーセプトロンは、依然としてＡＮＮの基礎を形成する。

単純なパーセプトロンは、ｎ個の入力ｘ_１，．．．．，ｘ_ｎ∈ＩＲを有し、それぞれ重みｗ_１，．．．．，ｗ_ｎ∈ＩＲを有する。出力はｏ∈ＩＲで表される。適切な重み付けを有する入力信号の処理は、伝搬関数（入力関数）σであり、

これは、ニューロンのネットワーク入力を説明する。活性化関数φを介して、

次いで、パーセプトロンの出力ｏが測定される。様々な関数をφに使用し得、これはパーセプトロンの活性化の原因となる可能性がある。

したがって、活性化関数により、閾値およびネットワーク入力に応じてニューロンがどれだけ強く活性化されるかが計算される［１５］。これらのニューロンのいくつかが適切な構造で相互接続されている場合、入力層と出力層との間の複雑な関係をマッピングし得る。そのような単純なニューロンの構造的相互接続の最も単純な形態は、フィードフォワードネットワークである。これらは層状に配置され、入力層、出力層、および構造に応じていくつかの隠れ層からなる。

フィードフォワードネットワーク（いわゆる多層パーセプトロン）では、１つの層における全てのニューロンが次の層における全ての他のニューロンに接続される。したがって、これらのネットワークは、ネットワークを介して作成された情報コンテンツを順方向に伝播する。各ニューロンは、最初にランダムに選択された重みで入力信号を重み付けし、バイアス項を加算する。このニューロンの出力は、全ての重み付けされた入力データの合計に対応する。層内のニューロンの数および隠れ層の数に応じて、ニューラルネットワークの複雑さを測定し得る。

誤差フィードバック（逆伝播）を含む多層フィードフォワードネットワークは、主にＡＮＮによる、教師あり学習に使用される［１６］。

そのようなニューラルネットワークの訓練は、以下の３つの工程に分け得る。
・工程１：フィードフォワード；
・工程２：誤差計算；
・工程３：逆伝播

第１の工程では、ネットワークの入力層に入力が行われ、この入力はネットワークからの出力があるまでネットワークを介して層ごとに伝搬される。ネットワークの出力は、第２の工程において期待値と比較され、ネットワーク誤差は誤差関数を使用して計算される。現在の重み付けに応じて、隠れ層内の各ニューロンは、異なる程度まで計算された誤差に寄与する。第３の工程では、誤差がネットワークを通して後方に伝搬され、重みは、誤差に対する個々のニューロンの重みの寄与に応じて調整される。逆伝播アルゴリズムの目的は誤差を最小限に抑えることであり、通常は勾配降下法を使用する［１７］。この方法によれば、ネットワークの出力と予想出力との間の二次距離が誤差関数として計算される。

各ニューロンの重みの誤差への寄与を計算するために、考慮される重みｗ_ｉｊから誤差関数Ｅｒｒを導出しなければならない。したがって、ここでは、連続的で微分可能な活性化関数のみを使用し得る［１７］。これにより、次の反復工程で使用される重み調整デルタが測定される。この関係は、数学的に以下のように説明し得る：

学習係数ηは、反復回数と共に、モデルを訓練する前に確立されるハイパーパラメータである。２つの工程は、最大反復回数または定義された誤差値に達するまで繰り返され、未知の入力に対して良好な結果を達成し得る。

さらに、ランダムフォレスト（ＲＦ）アルゴリズムは、回帰問題の機械学習で使用し得る［１８］。ＲＦは、多数の決定木を介して学習し、それ故、アンサンブル学習者のカテゴリに属する。決定木は、ルートから広がり得る（上位ノード、先行ノードなし）。各ノードは、特徴に基づいてデータセットを２つの群に分ける。ルートの後行者は、リーフ（後行者なし）またはノード（少なくとも１つの後行者）であり得る。ノードおよびリーフはエッジによって接続されている。回帰問題の場合、［１９］
・各内側ノード（ルートを含む）に特徴が割り当てられる；
・予測対象の目標変数の特定の値が決定木の各リーフに割り当てられる；
・各エッジに対して、閾値に関係が割り当てられている。

好ましい実施形態では、ＲＦは、Ｂｒｅｉｍａｎ［１８］による袋詰め原理（ブートストラップアグリゲーション原理）を使用して適切な訓練セットを作成し、訓練セットは、置き換えを伴う訓練データセット全体からのサンプリングによって作成される。一部のデータは複数回選択されてもよいが、他のデータは訓練データとして選択されない。訓練セットの数は常に訓練データセット全体の数に対応する。選択された各訓練セットは、決定木（分類子）を使用して判断するために使用される。次いで、全ての訓練セットによる決定が平均化され、それによる多数決により最終的な分類が測定される。したがって、ブートストラップサンプルの生成により、個々の分類子間の相関は低くなる。さらに、個々の分類子の分散を減少し得、全体的な分類性能が向上する［１８］。

好ましい実施形態では、特徴は、決定木の作成中の分割（ノードの分割）の決定に使用され、その特徴は、データセットの特徴のランダムな選択に関する最も明確な決定を行う。選択された分割は、全ての特徴に関して最良の分割として選択されるのではなく、特徴のランダムな選択内の最良の分割として選択されるのみである。このランダム化の結果、決定木のバイアス（歪み、系統誤差）は作成の過程で増加する。ＲＦに含まれる全ての決定木の平均値が形成されるため、分散は減少する。分散の減少は、バイアスの増加よりも大きな付加価値が高く、モデルの精度が高まる［２０］。

さらに、全ての個々の決定の平均が常に考慮されるため、ＲＦ予測ではモデルの過学習はほとんど防止される［１８］。

ＸＧＢｏｏｓｔ（ｅＸｔｒｅｍｅＧｒａｄｉｅｎｔＢＯＯＳＴｉｎｇ）は、回帰木のアンサンブルをモデル形成の基礎として使用する。すでに説明したバギング原理、および特別なブースティング技法の両者を使用し、可能な限り最も正確な予測のためにアンサンブルを訓練する。簡単に言えば、ブースティング技法は、多くの弱い学習者で構成される勾配降下法の組み合わせと見なし得る［２１］。これらの弱い学習器は、通常、ランダムな推測ほど正確ではなく、アンサンブルを作成する過程で強い学習者として一緒にグループ化されるこのような弱い学習者の典型例は、ノードを１つのみ有する単純な回帰木である。ブースティングアルゴリズムの原理は、これらの弱い学習者を用いてこれらの十分に分類されていない対象から学習するために分類が困難な訓練データを選択し、それによってアンサンブルの性能を改善することである。ＸＧＢｏｏｓｔが複雑なため、アルゴリズムはブラックボックスと見なされる。しかしながら、その拡張可能性および問題解決の速度のために、アルゴリズムは、機械学習の異なるモデルの直接比較で非常にうまく使用されている［２２］。

ＸＧＢｏｏｓｔによって実施される方法は、勾配降下法とブースティング技法とを組み合わせたものであり、ＴｉａｎｑｉＣｈｅｎによる元の文献 “ＸＧＢｏｏｓｔ：ＡＳｃａｌａｂｌｅＴｒｅｅＢｏｏｓｔｉｎｇＳｙｓｔｅｍ”［２２］を使用して以下に説明する。

ｋ個の決定木からなるアンサンブルを用いて、モデルは、以下に従って表され得る：

式中、ｆ_ｋは単一の決定木の予測である。全ての決定木にわたって見て、以下の予測を行い得る：

式中、ｘ_ｉは、ｉ番目のデータ点の特徴ベクトルである。モデルを訓練するために、損失関数Ｌを最適化する。回帰問題の場合、ＲＭＳＥ（二乗平均平方根誤差）が使用される：

正則化は、モデルの過学習を防ぐ重要な部分であり：

式中、Ｔは葉の数であり、ｗ^２ _ｊは、ｊ番目の葉の達成されたスコアリングである。正則化および損失関数が一緒にされる場合、モデルの基本目的関数は、以下のように定式化し得：

ここで、損失関数は前記予測力を決定し、正則化はモデルの複雑さを制御する。目標関数は、勾配降下法を使用して最適化される。最適化されるべき目的関数

が与えられると、勾配降下は各反復において計算され：

かつ

は、目的関数Ｏｂｊが最小化されるように、下降勾配に沿って変更する。

回帰木を作成するために、データセットの特徴に基づいて内部ノードが分けられる。結果として得られるエッジは、データセットを分けることを可能にする値の範囲を定義する。回帰木内の葉は重み付けされ、重みは予測値に対応する。反復回数は、バギングおよびブースティングのプロセスが繰り返される頻度を示す。ＸＧＢｏｏｓｔアルゴリズムは、良好なモデルの形成に大きく寄与するハイパーパラメータの非常に大規模なリストを提供する。

使用されるモデルに関係なく、相関関係を使用して、２つの変数間の線形関係を評価および表し得る。ピアソン相関係数ｒ（またはｒ^２）は、この関係を評価するための共通の尺度を提供する。これは無次元であり、以下に従って計算され：

、かつ－１≦ｒ≦＋１の範囲内で変化する。カウンタは、経験的共分散ｓ_ｘｙに対応する平均に対する２つの変数ｘおよびｙの偏差積の和を表わす。分母は、個々の経験的標準偏差ｓ_ｘおよびｓ_ｙの積のルートである。相関されるべき量の平均値は、

として表わされる。Ｆａｈｒｍｅｉｒ［２３］による直線関係は、以下の式で解釈し得る。
・ｒ＜０．５：弱い直線関係
・０．５≦ｒ＜０．８：中程度の直線関係
・０．８≦ｒ：強い直線関係

相関分析では、直線関係のみを示し得ることに留意されたい。したがって、Ｂｒａｖａｉｓ－Ｐｅａｒｓｏｎ相関係数は、非線形関係を表わすのに適していない。これは、相関係数が０．０≦ｒ≦０．２であるにもかかわらず、変数の強い非線形依存性があることを意味し得る。

相互情報量を通じて、２つのランダム変数の非線形依存性を測定し得る。これは情報理論［２４］で使用されている。確率を利用して、第２の確率変数と比較した確率変数の情報内容が表わされる。基本的な形式的関係は以下の通りである。

したがって、適切な連続変数の選択に使用し得るように、ＫｒａｓｋｏｖらおよびＲｏｓｓらによって、このアプローチは発展した［２５］［２６］。

適切な測定基準を使用して、種々のモデルを比較する必要がある。これらの補助により、モデルが目標変数を表わし得る精度について表わすことが可能である。

測定係数Ｒ^２は、目標変数ｙの分散のどの割合をモデルで表わすかを示す。測定係数は、以下に従って計算し得る：

ここで、

は第ｉの例の目標変数の概算値であり、ｙ_ｉは関連する真の値である。

は平均である。測定係数は、０～１の間の値をとり得る。測定係数が１に近いほど、モデルは目標変数にフィッティングし得る。

二乗平均平方根誤差（ＲＭＳＥ）は、モデル品質を測定するために使用し得る別の統計的尺度である。ここで、概算値に対する実際の距離の二乗平均のルートが計算される：

誤差を二乗した後、ルートを形成することにより、ＲＭＳＥを概算対象の変数の標準偏差と解釈し得る。式中、ｎは観測数であり、

は目標変数ｙの概算値である。ＲＭＳＥによる誤差の表示は、検査される目標パラメータに応じて異なるサイズの値をもたらす絶対誤差値である。したがって、ＲＭＳＥを平均に関連付けることは理にかなっている。

したがって、ＲＭＳＥは、平均真値

に対して計算し得る。これにより、異なるサイズの対象変数についての誤差のより良好な評価が可能になる。

方法
本発明の方法によれば、細胞増殖、すなわち細胞密度のタイムライン、ならびに特定の代謝産物、特にグルコースおよび乳酸のタイムラインを、オンラインプロセス変数から、培養中にリアルタイムで、特に小さな培養規模で測定することが可能である。したがって、本発明の方法によれば、以前はリアルタイムでは利用できなかったがオフラインでのみ利用可能であったプロセス変数のリアルタイム値を提供することが可能である。これは、本発明の方法が培養培地からのサンプリングを必要としない限り、細胞増殖および特定の代謝産物、特にグルコースおよび乳酸のタイムラインに対する従来の測定方法が改善されている。

好ましい実施形態では、本発明の方法は、３００ｍＬ以下の培養体積を有する哺乳動物細胞の流加培養における細胞密度、グルコース濃度および乳酸濃度をオンラインプロセス変数から測定するために使用され、方法はサンプリングなしで、すなわちフィードバック制御サンプリングで実施される。

本発明の方法は、小規模で、すなわち３００ｍＬ以下の培養体積で、完全に自動的に、すなわちサンプリングなしで培養を行うことを可能にし、細胞密度などの関連するプロセス変数をオンラインでは測定することができず、オフラインのみで測定する。

本発明の方法は、小規模で哺乳動物細胞の培養を監視および制御するのに特に適している。

本発明による方法では、ＣＨＯ細胞培養における目標パラメータとして生細胞密度、グルコースおよび乳酸濃度を測定する方法であって、データベースのソフトセンサを使用する方法が提供される。機械学習モデルは、種々の目標変数を表わすために使用される。

本発明は、少なくとも部分的に、モデル生成に使用されるプロセス変数の選択が、測定された目標プロセス変数の質に大きな影響を与えるという知見に基づいている。

さらに、本発明は、少なくとも部分的に、既存のデータセットの分割のタイプ、すなわち、訓練データセットおよび試験データセットへの割り当てがモデルの質に影響を及ぼすという知見に基づいている。

さらに、本発明は、少なくとも部分的に、産生される抗体のタイプが最適な目標パラメータの選択に影響を及ぼすという知見に基づく。

本発明の方法について、ａｍｂｒ２５０システムでの培養から得られた１５５個の例示的なデータセットを使用して以下に説明する。これは、本発明による教示または本発明による方法を限定するものとして理解されるべきではなく、むしろ本発明による教示の例示的な適用として理解されるべきである。同じまたは異なる培養システムで生成された他のデータセットも同様に、本発明による方法に使用し得る。

１５５個のデータセットを分析し、適切な特徴について調べた。選択されたモデルが離散的な時点で全ての目標パラメータの値を提供できるように、対応する補間戦略を使用して目標パラメータをマッピングした。モデルを、誤差およびモデルの質に関して評価した。それに基づく方法は、それぞれの目標変数／プロセス変数のロバストで正確なモデルの提供を可能にした。

データセットにおける培養で産生された抗体の分子フォーマットは異なっていた。様々なプロジェクトおよび分子フォーマットならびにそれぞれの培養数の概要を以下の表１に示す。

（表１）データの概要

培養プロセス全体に関連するデータ、すなわちオンラインパラメータセット、および関連する日時スタンプを各培養に使用した。種々のプロセス値のデータ密度は、タイムラインに関して変化した。これらのデータ密度の偏差は、システムにより、測定値が各測定値に対して具体的に定義されたデルタによって変更された場合にのみ、オンラインパラメータに対して新しいデータ点が記録されたという事実に起因する可能性がある。連続プロセスデータを利用可能にし、ランを互いに比較することを確実にするために、対応するオンラインパラメータを全ての欠落したタイムスタンプについて補間した。

オンラインプロセス変数については、データの平滑化が多い場合には、測定値の変動が失われることに留意されたい。しかしながら、このノイズはまた、発生しているプロセス関連の変化を表し、情報としてプロセス値に含まれる。したがって、プロセス値を過度に平滑化しないこと、および補間後であってもプロセス過程の変更を可能にしておくことが重要である。

オフラインデータは、培養中のサンプル数（８～１３）に応じて種々の数の分析値を含む。各データセットは、各データ点の日時スタンプ、およびオフラインパラメータの関連する分析値を含む。

オンラインおよびオフラインデータの補間による前処理は、それらがオンラインまたはオフラインのプロセス変数であるかにかかわらず、同時に全てのプロセス変数について同じ数のデータ点を含むデータセットをもたらす。解析は、補間されたデータセットに基づいていた。データ点が全てのオンラインおよびオフラインのプロセス変数について同じ頻度で同時に利用可能である場合、このような補間は必要ではない。

利用可能なオンラインおよびオフラインデータの前処理により、種々の測定頻度に起因する個々のプロセス変数の種々のプロファイルは、均一な時間プロファイル、すなわち単一のタイムラインに標準化される。技術的およびプロセス管理によって引き起こされる不良値が識別され、選択解除または修正され、既存の時間ギャップは閉じられるため、プロセス変数の時間および数に関して、培養用の１つのデータセット内の全てのプロセス変数および全ての培養用のための全てのデータセットが均一になる。

培養の開始時に制御をオンにするか、または培養の終了時に制御をオフにすることによって引き起こされる測定信号の変動がモデル形成を改ざんしないように、培養の最初および最後の１２時間に収集されたデータは使用されなかった。具体例では、これは、０．５日～１３．５日までの時間範囲が使用されたことを意味する。これは、プロセス変数の変化が細胞培養におけるプロセスにのみ起因し得ることを保証する。オンラインデータの補間はデータセット全体に対して行った。図１は、プロセス値「ＡＯ．ＰＶ」の線形補間の一例を示す。

図１に示すように、線形補間によるオンライン信号の経過が十分に説明されている。最初（＜０．５日目＞）に、制御を開始したときに測定値がどのように変動したかを理解し得る。ピーク（短時間でのより大きなプロセス値の変化）もまた、このタイプの補間で十分にマッピングし得る。

オフラインデータについては、得られた分析値（ＶＣＤ、ＶＣＶ、グルコース、乳酸）を３つの異なる補間でフィッティングさせた。図２は、種々のフィッティング方法を用いたＶＣＤの補間の一例を示す。

それぞれの測定係数Ｒ^２を計算して、ＶＣＤの個々の補間を評価した。単変量スプラインは、ここで最大のＲ^２値を達成したが、有意な過学習に向かう傾向があった。したがって、単変量スプラインは、ほぼ全ての測定値を正確に表すが、生物系の典型的な増殖曲線を表していない。一方、ペレグフィッティングと多項式フィッティングとの間の差はより小さい。しかしながら、ペレグフィッティングは、生物系の種々の成長段階を十分良好に表し得、それ故、ＶＣＤの目標変数の補間に使用される［２７］。

乳酸およびグルコースプロファイルの補間は、単変量スプラインがオフラインデータをより十分にＲ^２でマッピングし、乳酸の場合のプロファイルを十分良好に表すことを示した。多項式フィッティングは１０日目から乳酸の負の値を補間するので、単変量スプラインの補間を乳酸の目標ベクトルｙとして定義した。しかしながら、グルコースについては、多項式フィッティング（３次）を用いて目標変数（グルコース：単変量スプライン（Ｒ^２＝０．９９９）および多項式フィッティング（Ｒ^２＝０．９５８）；乳酸：単変量スプライン（Ｒ^２＝０．９９９）および多項式フィッティング（Ｒ^２＝０．９５９））を表した。

さらに、前処理のためのオフラインデータ点が少なすぎる（３つ以下）データセットは、もはや分析に使用されなかった。これは、２つのデータセットの場合であった。したがって、補間および調整されたデータセット全体は、１５３回の培養を含んでいた。

最大分解能５分の補間データセットには多数のデータポイントが含まれているため、計算労力を軽減するために、１／１０日の分解能で分析を実行した。これには、ＪＭＰ（登録商標）プログラムを使用し得る。

図３は、プロジェクト２（１２回の培養）からのデータセットについて示す。図に示すように、種々の補間方法（ペレグフィッティング、単変量スプラインおよび多項式フィッティング）は、相関の強さに非常に小さな影響を及ぼす。

図３の散布図では、オンラインパラメータは特徴（線）として示されている。列は、ＶＣＤの種々の補間を表す。散布図の楕円には、常にデータの９５％が含まれる。楕円が近いほど、変数間の直線関係は強くなる。算出されたＢｒａｖａｉｓ－Ｐｅａｒｓｏｎ相関係数を以下の表２に示す。

（表２）図３の値に対応するプロジェクトＢからのサンプルデータセットのピアソン相関係数の数値。

一例として「Ｏ２．ＰＶ」の値を見ると、補間について計算された係数は互いに非常に近い（０．９５４７；０．９４９０；０．９４９０）。

したがって、相関分析をデータセット全体に対して行った。以下の表３は、このようにして測定されたＢｒａｖａｉｓ－Ｐｅａｒｓｏｎ相関係数を示す。

（表３）全データセット（１５３回の培養）について計算されたピアソン相関係数、ペレグフィッティングにフィッティングした目標変数ＶＣＤ。

単一のａｍｂｒ２５０ランでの相関分析と比較して（前の表３および図３を参照）、相関分析は、データセット全体にわたって有意に弱い直線関係を示した。相関の強さとは別に、データセット全体の分析は、最良の候補として他のオンラインパラメータも生成した。また、独立変数同士は相関することが分かった。以下の表４は、パラメータ「Ｏ２．ＰＶ」および「Ｎ２．ＰＶ」と他の独立変数との相関を部分的に示す。

（表４）プロジェクトＢの以前に実行された相関分析において最も高い相関値を有していたＯ２．ＰＶおよびＮ２．ＰＶの例を使用して示された、独立変数の相互の相関。

独立変数が互いに相関している場合、１つは多重共線性を意味する。「Ｏ２．ＰＶ」の例を使用して示すように、図３の「Ｎ２．ＰＶ」および「Ｏ２．ＰＶ」の２つの最良の相関係数と残りの独立したパラメータとの間には明確な直線関係がある。

図４は、データセット全体についての目標変数ＶＣＤについての全ての特徴についての計算された情報内容（相互情報）を示す。図４は、利用可能な特徴のいくつかがＶＣＤ目標変数に関する高レベルの情報を有することを示す。したがって、ＶＣＤに関して、相互情報は、「時間」、「ＣＨＴ．ＰＶ」、「ＡＣＯＴ．ＰＶ」、「ＦＥＤ２Ｔ．ＰＶ」、「ＧＥＷ．ＰＶ」、「ＣＯ２Ｔ．ＰＶ」、「ＡＣＯ．ＰＶ」、「ＡＯ．ＰＶ」、「Ｏ２．ＰＶ」、「Ｎ２．ＰＶ」および「ＬＧＥ．ＰＶ」に対して最高のインデックスを有し得る。

情報内容の計算および相関分析の結果に基づいて、最良の１０個のプロセス変数（ＣＨＴ．ＰＶ、ＡＣＯＴ．ＰＶ、ＦＥＤ２Ｔ．ＰＶ、ＧＥＷ．ＰＶ、ＣＯ２Ｔ．ＰＶ、ＡＣＯ．ＰＶ、ＡＯ．ＰＶ、ＬＧＥ．ＰＶ、Ｏ２．ＰＶおよびＮ２．ＰＶ）が選択され、対応する特徴行列Ｘが作成される。行列は、利用可能なデータセットの補間データを含む。特徴（ｆ_１．．．ｆ_１０）について５分の分解能および培養の持続時間（時間）をマトリックスの追加の列として選択した：

訓練データセットおよび試験データセットへの分割は、これらがプロジェクト２の培養からのデータセットのみであるようにして行われた。目標変数「ＶＣＤ」は、特徴行列の分布に従って分けられた。

得られたモデルの質を確認するために、試験データセット全体の誤差の相対頻度密度を計算した。目標変数ＶＣＤについてＭＬＰＲｅｇｒｅｓｓｏｒ（ａ）、ランダムフォレスト（ｂ）およびＸＧＢｏｏｓｔ（ｃ）を使用して測定されたモデルの試験データセット全体に対する予測のヒストグラムをＸ軸上に示し、予測値と比較した概算ＶＣＤ値の誤差を誤差の相対頻度をＹ軸上に示した。３つの分布は全て左に歪んだ傾向を示し、これはＶＣＤが過小評価されていることを示している。さらに、全てのヒストグラムの検討により、３つ全てのモデルの概算値が同等の結果がもたらされたことが示されている。ＸＧＢｏｏｓｔは、計算された誤差の最も均一な分布を示すが、ここでは、目標変数が過大評価されていることも認められ得る。

各モデルについて、ＲＭＳＥおよびＲ^２を試験データセット全体に基づいて計算した。両者の値は、目標変数ＶＣＤのペレグ適合に関する。３つのモデルの結果を以下の表５に要約する。

（表５）ＭＬＰＲｅｇｒｅｓｓｏｒ、ランダムフォレストおよびＸＧＢｏｏｓｔについてのＶＣＤの概算結果。

全てのモデルは、ＲＭＳＥおよび測定係数に関して同等の結果を達成した。

ランダムフォレストを用いて測定された、いくつかの特定のデータセット（最良のモデル）を調べると、全培養期間にわたってＶＣＤのペレグ適合を正確にマッピングすることが不可能であることが分かる（図５参照）。図の上部のモデルは、ＶＣＤに対するデータの関係を、５日目から正しく示すことができない。図の下部は反対の挙動を示す。このモデルは、最初から高すぎるＶＣＤを概算するため、ＶＣＤの十分に正確な記述を達成することができない。

驚くべきことに、有意に少ない情報コンテンツを有するが依然として測定可能な情報コンテンツを有する特徴行列内の特徴の交換は、予測の質を有意に高め得ることが分かった。

特徴「ＣＯ２．ＰＶ」、「ＦＥＤ３Ｔ．ＰＶ」、「ＯＵＲ」、および「ＰＨ．ＰＶ」による行列の拡大、ならびに重複した特徴「Ｏ２．ＰＶ」の削除（Ｎ_２およびＯ_２によるガス処理）は、予測の質の改善につながることが分かっている。

改善された特徴行列は、以下の１４個の特徴を含む。「時間」、「ＡＣＯ．ＰＶ」、「ＡＣＯＴ．ＰＶ」、「ＡＯ．ＰＶ」、「ＣＨＴ．ＰＶ」、「ＣＯ２．ＰＶ」、「ＣＯ２Ｔ．ＰＶ」、「ＦＥＤ２Ｔ．ＰＶ」、「ＦＥＤ３Ｔ．ＰＶ」、「ＧＥＷ．ＰＶ」、「ＰＨ．ＰＶ」、「Ｎ２．ＰＶ」、「ＬＧＥ．ＰＶ」および「ＯＵＲ．ＰＶ」。

さらに、訓練データセットおよび試験データセットへの選択または分割は、予測の質に影響を及ぼすことが分かった。

目標変数に関して既に選択された訓練データセットおよび試験データセットを比較すると、プロジェクト２の培養からなる訓練データセットのＶＣＤの分布は、平均値μ_{Ｔｒａｉｎ}＝８４．６０を有し、σ_{Ｔｒａｉｎ}＝４８．６２の標準偏差を有し、一方、試験データセットは、平均値μ_Ｔｅｓｔ＝６４．２２を有し、σ_Ｔｅｓｔ＝３８．０２の標準偏差を有することが分かった。

構造的に異なるタンパク質を発現する細胞について予測を行う場合、たった１つのプロジェクトから訓練データセットを取得することは不利であることがわかっている。既存のデータセット全体に訓練データセットをランダムに分布させることが有利であることが分かった。

本実施例では、データセットをより均一に分布させるために、（１５３個のデータセットがあったので）０～１５２の間の３０個の乱数を生成した。数字は、それぞれ１回の培養ランを表した。試験データセットと訓練データセットとの間の分割に関する同等の平均値および標準偏差が訓練されたモデルで達成され得るまで、乱数を繰り返し生成した。最終的な分割は、σ_{Ｔｒａｉｎ}＝４７．１１でのμ_{Ｔｒａｉｎ}＝８０．７２およびσ_Ｔｅｓｔ＝４８．７０でのμ_Ｔｅｓｔ＝８０．１１をもたらし、さらなるコースにおける２つのデータセットの分割比として使用した。

したがって、本発明による方法の一実施形態では、既存の、好ましくは前処理されたデータセットは、訓練データセットと試験データセットとに分けられ、訓練データセットは全データセットの７０～８０％（この例では８０％、したがって１２３回の培養ラン）であり、試験データセットは全データセットのデータの２０～３０％（この例では、上記のように検証されたデータセット全体の３０のランダムに選択された培養がモデルの検証に利用可能であった）を含む。

次いで、モデルを訓練し、拡張特徴行列およびデータセットの新しい分布で試験を行った。上記で概説したハイパーパラメータを最適化するための戦略は、このために保持されている。新たに分けられた訓練データセットおよび試験データセットを有するＶＣＤの概算値の対応するヒストグラムから、３つ全てのモデルの誤差の分布が著しく狭くなっていることが分かり、これは目標パラメータのより正確な概算値に起因する可能性がある（図６）。

３つのモデルはいずれも、目標変数の真値（０におけるＸ軸）を中心としてより明確に変動する誤差分布を実現し得る。ここでも、ＸＧＢｏｏｓｔのヒストグラムは、最も均一な誤差分布を示す。ランダムフォレストのヒストグラムは、全領域にわたって小さな誤差を示す。２つのヒストグラム（ａ）および（ｃ）を互いに比較する場合、ＸＧＢｏｏｓｔは、ＭＬＰＲｅｇｒｅｓｓｏｒよりも正確な目標値を概算することが多い。しかしながら、誤差の程度が低いＭＬＰＲｅｇｒｅｓｓｏｒの分布の幅のために、両者のモデルについて精度がほぼ同じであると推論し得る。

（表６）ＭＬＰＲｅｇｒｅｓｓｏｒ、ランダムフォレスト、ＸＧＢｏｏｓｔのＶＣＤの概算結果と、試験データおよび訓練データの新しい分布

３つのモデルは全て、密接に関連する結果を達成し得る。図７は、個々の培養を使用した最良のモデルの概算の例示である。

したがって、生データのペレグ適合に基づく目標変数のほぼ理想的な概算値が達成される。試験データセット全体を見ると、全てのモデルは、上記のようにデータセットの分割比でＲ^２およびＲＭＳＥに関して良好な結果を達成し得る。

３次多項式フィットによってフィッティングされたグルコース値を、グルコース濃度の概算のための目標パラメータとして使用した。訓練に使用された特徴行列は、ＶＣＤと同じ特徴を含んでいた。訓練データセットおよび試験データセットへの同じ分割も使用した。

ＶＣＤと同様に、ヒストグラムは誤差に関して同等の結果を示す。ここでも、ＸＧＢｏｏｓｔは、ほとんどの場合、実際の値と概算値との間に小さな誤差をもたらす可能性がある。ランダムフォレストヒストグラムはまた、目標変数の補間値と概算値との間にわずかな誤差を示し、これらはグルコースの実際の値の前後に均一に分布する。ＭＬＰＲｅｇｒｅｓｓｏｒは、他の２つのヒストグラムと比較して最大の誤差を示す。

（表７）ＭＬＰＲｅｇｒｅｓｓｏｒ、ランダムフォレストおよびＸＧＢｏｏｓｔについてのグルコース値の概算結果。

図９は、ランダムフォレストを用いて得られた２つの典型的な培養を示す。目的変数は、０．９３の測定係数で適切に記載された。

乳酸濃度の概算には、単変量スプライン法でフィッティングした乳酸の値を、目標パラメータとして使用した。訓練に使用された特徴行列は、ＶＣＤおよびグルコースと同じ特徴を含んでいた。訓練データセットおよび試験データセットへの同じ分割も使用した。ヒストグラムは、誤差に関して種々の結果を示す（図１１）。

ＭＬＰＲｅｇｒｅｓｓｏｒのヒストグラムを考慮すると、他の２つのモデルほど頻繁に、小さい誤差で概算することは可能でない。他方、ランダムフォレストおよびＸＧＢｏｏｓｔは、その分布が非常に狭い。目標変数のいくつかの概算値については、ほとんど誤差なく非常に良好な予測を行い得るように思われるが、これらは、試験データセット全体においてより大きな誤差を迅速にもたらす。ニューラルネットワークは、ここでは最も均一な誤差分布を有する。

以下の表８は、全てのモデルについてＲＭＳＥおよびＲ^２の乳酸評価の結果を示す。
（表８）ＭＬＰＲｅｇｒｅｓｓｏｒ、ランダムフォレストおよびＸＧＢｏｏｓｔの乳酸値の概算結果。

図１２は、試験データセットからの例示的な培養についての乳酸に対するＸＧＢｏｏｓｔの予測値を示す。フィッティングさせた乳酸の経過のほぼ理想的な説明は、上側部分画像に認め得る。下部では、コースはＲ２が０．９８と表わされる。

検証のために、最初に、どのモデルが試験データセット上の特徴の相互関係を最も効率的に表わし得るかを測定するための研究があった。この目的のために、モデルには、学習のための１０個のデータセットのみが最初に提供された。プロセスが進行するにつれて、それぞれデータセットの数が１０個ずつ増加した。これにより、モデルが１０個～１２０個のデータセットを受け取る１２個の訓練プロセスが得られた。各訓練セッションの後、試験データセットに基づいて目標変数を概算した。それぞれのＲＭＳＥを計算した。試験データセットはまた、上記のように、ランダムに検証された３０個の選択されたデータセットから構成された。ＶＣＤを目標変数として選択した。これは、図１３に記載された学習反応をもたらした。

図１３に示すように、ランダムフォレストおよびＸＧＢｏｏｓｔはいずれも、ニューラルネットワークよりも少数のデータセットで試験データセットの予測におけるよりも小さい誤差を達成し得る。しかしながら、この効果は、訓練データセットの数が増加するにつれて減少するようであり、その結果、他の２つのモデルと比較して同等の誤差を約８０個のデータセット以降で達成し得る。最大１２０個のデータセットでは、ランダムフォレストが最も低いＲＭＳＥを達成する。しかしながら、全てのモデルの誤差は非常に狭い範囲である。

試験データセットの３０回の培養に対するＶＣＤの予測に関するモデルの概算値の詳細な評価を行った。データセット全体にわたって良好な結果（ヒストグラム、測定係数、ＲＭＳＥ）を示したにもかかわらず、いくつかの予測は依然として有意に大きい偏差を示すことがわかった。図１４は、概算されたＶＣＤの経過が実際の分布より明らかに上回っている培養ランを示す。

プロジェクト１および３からの培養は、概算の精度が不十分であることがいっそう観察された。両プロジェクトからの培養では、培養細胞は複雑な分子フォーマットを生成した。

天然のＩｇＧ抗体の特徴的なＹ字形を有するか、またはそれを大きく保持するＩｇＧベースの形式のＶＣＤ（プロジェクト２および４）は、標的産物として複雑な分子形式を有する細胞（プロジェクト１および３）よりも平均して高く、計算された細胞直径は、複雑な分子形式を有するプロジェクトよりも高い値を有することがわかった。

図１５は、各サンプルについてのＹ字形ＩｇＧ（ＩｇＧ、プロジェクト２および４）および複合ＩｇＧ（複合体、プロジェクト１および３）によってグループ化されたプロジェクトの細胞直径の平均、ならびにボックスプロット図の形態の標準偏差を示す。図は、緑色のボックスプロット（複合タンパク質フォーマット；各時点で左）が青色のボックスプロット（Ｙ字形ＩｇＧ抗体；各時点で右）の上にあることを示している。培養期間の開始時には、両分子フォーマットは依然として比較的接近している。標的産物として複雑な分子フォーマットを有する細胞は、培養時期が進むにつれて著しく大きくなるだけである。対照的に、標準抗体を有する細胞は７日目まで大きく成長するが、その後、細胞の直径はさらに増大しないことが分かる。

ＩｇＧフォーマットについてのより高いＶＣＤとより小さい細胞直径との間の関係、ならびに複雑なタンパク質フォーマットにおけるより小さいＶＣＤおよびより大きい細胞は、ＶＣＤの正確な予測をさせないことがわかった。

複合抗体フォーマットが産生される培養だけでなく、Ｙ字型ＩｇＧ抗体が産生される培養についても、生細胞体積（ＶＣＶ）がＶＣＤよりも適した目標変数であることがわかった。

ＶＣＶは、以下の式を使用して計算される。

したがって、ＶＣＶは、ＶＣＤよりも培養中の生きているバイオマスを説明するためのより良好な概算値である。

ＶＣＶの計算値は、他の全てのオフラインパラメータと同様に、サンプリングの時間のみを含んでいたので、新しい目標パラメータを３次多項式フィッティングでフィッティングさせた。次いで、上記の他の目標パラメータについて既に説明したように、モデルを訓練し、新しい目標サイズについて評価した。

ＲＭＳＥおよび測定係数を使用して、個々のモデルを評価した。要約すると、１４個の特徴を有する最良のモデルは、以下の結果を達成した。

（表９）目標変数ＶＣＤに対する最良のモデルのＲＭＳＥおよび決定係数の比較

目標変数ＶＣＶについて、個々のモデルの計算された誤差および測定係数を以下の表１０に要約する。

（表１０）目標変数ＶＣＶに対する最良モデルのＲＭＳＥおよび決定係数の比較

ＶＣＤの代わりに目標変数ＶＣＶを使用することにより、全てのモデルが０．９を超える測定係数を達成し得た。モデルの改善は、より低いＲＭＳＥおよびより高いＲ^２値の両方で認められ得る。

生細胞密度と細胞体積との比較において結果が改善されたことを実証するために、訓練セット全体の概算値と試験データセットの両方を表す散布図を得た。ランダムフォレストは、ＶＣＤおよびＶＣＶについて最良の結果を概算する。二つの散布図を図１６に示す。

２つの散布図を互いに比較すると、ＶＣＶの予測は理想的な概算に近く、ＶＣＤの予測よりも試験データセットおよび訓練データセットの広がりが著しく小さいことが分かる。訓練データ（青色ドット）のみを考慮する場合、モデルは、生細胞密度よりも細胞体積に対して、より適切に特徴の関係を学習する。したがって、これらの特徴は、全ての訓練されたモデルの試験データセット全体の細胞体積のより正確な概算を可能にする。

抗体の異なる群への分割および方法の訓練に関する限られたデータセットのみの使用が質に影響する程度を以下のように調査した。

４つ全てのプロジェクトを目標パラメータＶＣＶの経過に関して別々に考慮する場合、図１７に示すボックスプロットが得られる。図から分かるように、プロジェクト４のＶＣＶは、一方のプロジェクト１および３と他方のプロジェクト２との間で挙動する。これは、プロジェクト１、３、および４からのデータセットも複雑なＩｇＧ抗体フォーマットとして分類できることを意味する（分類２）。したがって、この分類で計算を繰り返した。訓練データセットと試験データセットとの様々な組み合わせも試験した。結果を表１１、図１８および１９に示す。

（表１１）訓練データセットと試験データセットとの種々の組み合わせに対するＲＭＳＥ。

種々の組み合わせにより、ランダムフォレスト法を使用した予測が最良の結果、すなわち最低ＲＭＳＥを達成したことが示されている。

ＲＭＳＥは、ＶＣＶをＶＣＤと比較して標目標パラメータとして使用した場合、訓練データセットまたは試験データセットの全ての組み合わせにおいて有意な改善（減少）を示した。

訓練データセットおよび試験データセットの種々の組み合わせにより、分子フォーマットに応じたデータセットの選択が目標パラメータのＲＭＳＥに影響を及ぼすことが示された。標準フォーマットのデータセットを用いたモデル訓練および複雑なフォーマットのＶＣＤまたはＶＣＶの概算の場合、この組み合わせは最も高いＲＭＳＥを達成する。複雑な分子フォーマットのデータセットを使用する訓練、およびＶＣＤまたはＶＣＶの予測により、ＲＭＳＥがより小さくなった。混合データセットを標準Ｙ－ＩｇＧおよび複合分子フォーマットに使用した場合、最小のＲＭＳＥを達成し得た。

さらに、モデルは、既に訓練されたモデルが過学習されているかどうかをチェックするために、訓練データセットおよび試験データセットの概算に関して評価した。目標変数ＶＣＶの訓練されたモデルは、試験データセットおよび訓練データセットについて概算された。ＲＭＳＥに従って概算値を評価し、次いで、試験データセットと訓練データセットとの間の差を棒グラフの形で示した（図２０）。

図２０は、ＭＬＰＲｅｇｒｅｓｓｏｒが訓練データセットよりも試験データセットの方が低い誤差を達成することを示す。したがって、算出された差分は負となる。ランダムフォレストおよびＸＧＢｏｏｓｔは、試験データセット上でより大きな誤差が発生し、これにより、ここに示されている差が正の値になる。したがって、決定木に基づく両モデルは、過学習となる傾向がある。

従来技術
先行技術は、細胞内活性の動的挙動を説明するためにランダムフォレスト回帰分析のための入力変数としてグルコース、乳酸、アンモニア、ＶＣＤなどのパラメータ（これらは全てオフラインパラメータである）を使用するが、オフラインパラメータの予測またはモデリングには使用していない。

従来技術とは対照的に、本発明では、機械学習モデルに使用されるパラメータは排他的オンラインパラメータ（発酵条件を制御するために使用される）である。

したがって、本発明は、追加のセンサまたはサンプリングを必要とせずに、培養および統計モデルを通して生成されている典型的なオンライン測定パラメータを利用して、ＶＣＶ、グルコースなどのパラメータを概算する。

要約および概要
既存のオンラインおよびオフラインの培養データセットを補間することによって、標準化された均一なデータセットを得ることができ、これは、オフラインでのみ利用可能な目標パラメータを予測するためのモデル生成に使用された。

さらなるコースの目標変数と考えられたオフラインデータについては、それぞれの目標パラメータのコースを代表的に記述することができる補間を見つけることが不可欠であった。生細胞密度は生体系の成長過程に関連するため、多項式フィッティングまたは単変量スプラインフィッティングなどの従来の補間は、この目標パラメータを不十分な精度でしか記述できないことが多い。外挿を誤ると、目標変数の記述が誤ったものとなる。選択された補間により、Ｒ^２に関して同等の結果がもたらされたが、Ｍ．Ｐｅｌｅｇ［２７］による選択された補間は、細胞培養プロセスの成長プロセスを最もよく説明し得る。内挿戦略の背景は、細胞の成長の説明のための連続的なロジスティック方程式と、死の行動を説明するための鏡像化されたロジスティック方程式（フェルミ方程式）との組み合わせにある。

相関分析の結果は、補間戦略の選択によってわずかしか影響を受けない。

ＶＣＤ目標変数の概算値の精度は、データセットを訓練データセットおよび試験データセットに適合させた分割比によって高め得る。この目的のために、平均値および標準偏差が互いに可能な限り小さくなるように、検証データセットを目標変数の分布に関して選択した。目標は、予測のためのより適切なデータセットを人工的に生成することではなかった。むしろ、以前に生成された試験データセットは、十分な精度でデータセット全体を記述するために使用することができないと仮定された。これにより、対応する方法として交差検証が参照される。

細胞体積および細胞のサイズに対する関連する関係の計算は、ＶＣＤよりもバイオマスのより良い概算値を表し得、それ故、ＶＣＶが新たな目標パラメータとして得られた。

バイオマスの記述の概算として計算された細胞体積は、サンプルの分析によって測定された培養物の以前に使用された生細胞密度よりも高いプロセス特性に関する情報量を提供した。細胞培養物の平均体積は、測定された細胞の平均直径から結論付け得る。細胞のサイズ、特に生成物として複雑な標的分子を有する細胞のサイズは、培養時間の増加と共に連続的に増加することが示され得る。しかしながら、生細胞密度はこの関係をマッピングし得ない。最終的に、培養細胞の代謝活性は、生細胞密度よりも生細胞体積によってより適切に説明し得る。

目標パラメータをリアルタイムで測定するために、概算は所定の間隔、例えば１０分で行うべきである。ＣＨＯ細胞については、約２４時間の倍加時間を有するので、この間隔は許容可能な分解能である。

以下の実施例および図は、本発明を説明するためにのみ役立つ。保護の範囲は、係属中の特許請求の範囲によって定義される。しかしながら、開示された実施形態に対する修正は、本発明による原理から逸脱することなく行うことができる。

ＡＣＯ．ＰＶの例を使用した線形補間測定値補間は０．５日目から１３．５日目までの範囲である。典型的な培養の生細胞密度の補間測定曲線。補間および測定係数：ペレグフィッティング（Ｒ２＝０．９５７）、単変量スプライン（Ｒ２＝０．９９８）、および三次ポリフィット（Ｒ２＝０．８６４）。プロジェクト２から実行されたａｍｂｒ２５０のデータセットの例示的な相関分析。異なる補間戦略に対する相関係数の比較。この図は、ＶＣＤの個々のオンラインパラメータの散布図を示す。データセット全体についての目標変数ＶＣＤについての相互情報に従って計算された情報内容。２つの別々の実行に対するランダムフォレストＶＣＤの概算。図の上部では、Ｒ２が０．２０３１７の概算値を達成し得た。図の下部では、０．５４８９６のＲ２の推定値を達成し得た。目標変数「ＶＣＤ」についてのモデルＭＬＰＲｅｇｒｅｓｓｏｒ（ａ）、ランダムフォレスト（ｂ）およびＸＧＢｏｏｓｔ（ｃ）の新しく作成された試験データセットの予測のヒストグラム。予測値に対してフィッティングしたＶＣＤ値の誤差をＸ軸に示す。Ｙ軸は、誤差の相対度数を示す。試験データセットの２つの例示的な実行に対するランダムフォレストのＶＣＤの概算。図の上部では、０．９８９４４のＲ２の概算値が達成された。図の下部では、０．９９８３７のＲ２の概算値を達成し得た。目標変数グルコースについての相互情報に従ってデータセット全体について計算された情報内容。試験データセットの２つの例示的な実行に対するランダムフォレストからのグルコースの概算。図の上部では、０．９９のＲ２の推定値を達成し得た。図の下部では、０．９７のＲ２の概算値を達成し得た。目標変数乳酸についての相互情報に従ってデータセット全体について計算された情報内容。目標変数乳酸についてのＭＬＰＲｅｇｒｅｓｓｏｒ（ａ）、ランダムフォレスト（ｂ）およびＸＧＢｏｏｓｔ（ｃ）の試験データセットについての予測のヒストグラム。予測値に加算した乳酸値の誤差をＸ軸に示す。Ｙ軸は、誤差の相対度数を示す。試験データセットの２つの例示的な実行に対するＸＧＢｏｏｓｔによる乳酸の概算。図の上部では、０．９９のＲ２の推定値を達成し得た。図の下部では、０．９８のＲ２の概算値を達成し得た。異なる数の訓練データセットを用いたＭＬＰＲｅｇｒｅｓｓｏｒ、ランダムフォレストおよびＸＧＢｏｏｓｔについて計算されたＲＭＳＥ。単一培養についてのランダムフォレストＶＣＤの概算。ＶＣＤのペレグフィッティングを青色で示し、ＶＣＤの推定値を橙色で示す。全培養期間にわたる各サンプリングの平均直径の表示。プロジェクト１および３は、生成物として複雑な分子フォーマット（ここでは青色で示され、左）を有する。プロジェクト２および４は、対象の生成物としてＹ字型のＩｇ－Ｇフォーマット（ここでは緑色、右で示されている）を有する。箱ひげ図は平均を含む；単位を標準化して示した。図の左部分：ＶＣＤについてのランダムフォレストの概算。赤色では、真値に対する試験データセットの概算値である。青色では、真値に対する訓練データセットの概算値である。試験データセットおよび訓練データセットの理想的な概算値が黒色で示されている。図の右側部分：ＶＣＶについてのランダムフォレストの概算。赤色では、真値に対する試験データセットの概算値である。青色では、真値に対する訓練データセットの概算値である。試験データセットおよび訓練データセットの理想的な概算値が黒色で示されている。各プロジェクトの全培養期間にわたる各サンプルの平均直径の表示。プロジェクト１＝紫色、プロジェクト２＝赤色、プロジェクト３＝緑色、プロジェクト４＝青色。箱ひげ図は平均を含む。ランダムフォレストモデル（最良のモデル）を用いたＶＣＤ／ＶＣＶの比較。目標パラメータＶＣＶに応じた訓練データセットを有する全てのモデル（ＭＬＰＲｅｇｒｅｓｓｏｒ、ランダムフォレスト、ＸＧＢｏｏｓｔ）を考慮したＲＭＳＥの挙動。目標変数ＶＣＶの最良のモデルである試験データセットおよび訓練データセットのＲＭＳＥの差の棒グラフ。

参考文献

略語一覧

記号のリスト

材料
ソフトウェア：
作業全体のために、プログラミング言語ＰｙｔｈｏｎはＳｐｙｄｅｒ開発環境で使用された。実装はオブジェクト指向プログラミングで実行された。プロジェクト内の個々のタスクを実装するいくつかのクラスが記述された。

方法
データ処理
全データセットは、１５５回の培養ランを含んでいた。これらをオンラインおよびオフラインデータに分けた。データ処理は、Ｐｙｔｈｏｎプログラミング言語のＳｐｙｄｅｒを用いて実施した。データはｃｓｖファイルとして利用可能であった。データを「ｃｓｖ」プログラムライブラリで読み取った。これにより、データを迅速かつ容易に読み込み、開発環境内で新しいデータ構造に変換することが可能となる。オンラインデータ用の「ＰＩＦｉｌｅＰａｒｓｅｒ」クラス、およびオフラインデータ用の「オフラインデータパーサ」クラスが実装されている。

補間
データは種々のデータ密度で利用可能であったため、それに応じて補間する必要があった。この目的のために、線形補間および移動平均法を用いた補間を使用した。両機能は、「ｓｃｉｐｙ」ライブラリ：「線形補間間隔１ｄ」および「ｍｏｖｉｎｇ－ａｖｅｒａｇｅ－ｃｏｎｖｏｌｖｅ」で実装されている。これにより、補間された値が常に２つの生の測定値の間にあることが確実になった。したがって、補間は常にプロセス変数の測定信号の自然変動の範囲内にある。各プロセス変数はファイル内でタイムスタンプが異なるため、別のＣＳＶファイルを作成する必要があった。「タイムラインマッピング」は、それぞれの培養の全ての開始時間および終了時間を含み、別のデータベースクエリによって作成された。データの分解能のために３つの異なる区間を選択した：
・オフラインデータの関連するサンプリング時間のタイムスタンプ
・１／１０日間
・５分

データ密度がかなり低く、非線形データが経過しているため、オフラインデータに線形補間は適用されなかった。ここでは、フィッティングに３つの異なる補間戦略を使用した。
・ペレグフィッティング
・多項式フィッティング
・スプライン

Ｍ．Ｐｅｌｅｇによる補間は、追加の関数項を介して生物学的増殖をマッピングし得、それ故増殖の経過を十分に説明し得る［２７］。したがって、生細胞密度の生データを３つ全ての補間でフィッティングさせた。グルコースおよび乳酸については、ここでは生物学的挙動を仮定しなかったので、多項式およびスプライン法を使用して補間を行った。オンラインおよびオフラインデータセットを異なる間隔でマージし、各培養のＣＳＶファイルとして保存した。次いで、これらのデータセットに基づいて相関分析を行った。

相関分析
相関分析は、ＪＭＰ（登録商標）を用いて行った。ＪＭＰ（登録商標）を用いると、統計分析をデータセットに適用することが可能である。それぞれの目標変数（乳酸、グルコース、ＶＣＤ、ＶＣＶ）に関するオンラインデータ（特徴）の多変量統計を適用した。データは、目標変数の記述における統計的有意性および線形関係の両方について分析される。相関分析は、Ｂｒａｖａｉｓ－Ｐｅａｒｓｏｎによる相関係数の形で、独立変数と従属変数との間の線形関係を示す。

相互情報
適切な特徴を識別する別の方法は、相互情報の形態で使用されている。相互情報による測定では、目標変数Ｙを記述するために独立変数Ｘに含まれる情報内容が測定される。依存性を計算し、「相互情報回帰」によって「ｓｋｌｅａｒｎ」を用いて実施した。５分の分解能を有するデータセットのサイズに基づいて、各培養について別々に情報内容を計算し、次いで全ての培養にわたって得られた値の平均を生成した。

特徴行列の作成／得られたベクトル
特徴行列の作成は、情報内容に基づく相関分析および統計的評価の結果に基づいて行われた。これは行列として表し得、列ごとに１つの特徴と、特徴のそれぞれのバージョンとの１つの時点を含む。特徴行列は、パンダデータフレーム（ＰａｎｄａＤａｔａＦｒａｍｅ）として保存された。したがって、モデルの訓練および試験のために適切なファイルフォーマットが利用可能であった。

モデル化および評価
相関分析の結果の助けを借りて、各目標変数に対して別個のデータセットを作成した。モデルを訓練するために、特徴行列を訓練データセットおよび試験データセットに分けることが必要であった。オンライン予測のための後の使用には、完全な検証プロジェクトの保留が必要であった。訓練データセットは、全データセットの８０％、したがって１２３回の培養ランを含んでいた。

全ての目標変数は一定の目標パラメータであるため、回帰器のみをモデルとして使用した。モデルごとに異なるいくつかのハイパーパラメータがモデルに利用可能であった。したがって、モデルの訓練は、目標変数を可能な限り正確にマッピングするようにハイパーパラメータを適合させるのに役立った。

訓練自体については、特徴行列全体を、Ｓｃｉｋｉｔ－Ｌｅａｒｎｉｎｇライブラリの標準スケーラで標準化した。

ハイパーパラメータの最適化
ハイパーパラメータは、ランダム化検索（ＲａｎｄｏｍｉｚｅｄＳｅａｒｃｈＣＶ）およびグリッドベース検索（ＧｒｉｄＳｅａｒｃｈＣＶ）を用いてＳｃｉｋｉｔ－Ｌｅａｒｎライブラリから最適化された。全てのモデルは、訓練データセットの１０倍交差検証と組み合わせてＳｃｉｋｉｔ－Ｌｅａｒｎｉｎｇライブラリのランダム化検索を使用して訓練された。ハイパーパラメータの様々な領域を最小ＲＭＳＥについて調べた。ランダム化探索を３０回行った。したがって、種々のランダムに選択されたハイパーパラメータのセットを各反復で使用した。最小ＲＭＳＥを有する１０個のモデルのハイパーパラメータを出力した。次いで、ランダム化検索からのハイパーパラメータに基づいて、グリッド検索のハイパーパラメータをより細かく等級付けした。グリッド検索を、データセットの１０倍の交差検証を用いて再度実行した。誤差が最小（最小ＲＭＳＥ）のモデルを保存し、次いで、試験データセットから目標変数を推定するために使用した。

多層パーセプトロン
Ｓｃｉｋｉｔ－Ｌｅａｒｎｉｎｇライブラリを使用して、多層パーセプトロン（ＭＬＰ）を実装した。以下のリストは、モデルを訓練するために使用されたハイパーパラメータを含む。
・入力層のニューロン数
・隠れ層のニューロン数
・重みを設定するためのソルバーアルゴリズム（ａｄａｍ，ｌｂｆｇｓ，ｓｇｄ）
・活性化関数（ｉｄｅｎｔｉｔｙ，ｌｏｇｉｓｔｉｃ、ｔａｎｈ、ｒｅｌｕ）
・学習率
・最大反復回数

ランダムフォレスト
ランダムフォレストもＳｃｉｋｉｔ－Ｌｅａｒｎライブラリによって実施された。以下の候補がこの最適化内のハイパーパラメータとして利用可能であった。
・決定木の数
・決定木あたりの特徴の数
・決定木の最大深度
・新しいノードを作成するためのデータセットの最小数
・データセットを選択するための方法（ブートストラップ＝真／偽）

ＸＧＢｏｏｓｔ
ＸＧＢｏｏｓｔアルゴリズムは、ＸＧＢｏｏｓｔライブラリを介してプロジェクト構造に統合された。以下のハイパーパラメータ空間に相当する：
・アンサンブル内の回帰木の数
・決定木の最大深度
・学習率η
・決定木あたりのデータセットの数
・決定木における子ノードの最小重み
・γ誤差評価
使用されるハイパーパラメータとして。

モデル評価
モデル評価は、主に誤差ヒストグラムを表示することによって実施した。これは、目標パラメータの実際の値に対する試験データセットを予測するときにモデルが有する誤差（残差）を示す。

ＲＭＳＥを目標パラメータの推定精度について計算し、目標パラメータの平均値と比較した。

オーバーフィッティングについてモデルを調べるために、訓練データセットおよび試験データセット全体についてＲＭＳＥを計算した。２つの誤差の差を、モデルの過学習の指標として使用した。
過学習＝ＲＭＳＥ_試験－ＲＭＳＥ_訓練

試験データセット全体および個々に考慮される各培養の測定係数を使用し、モデルの質をさらに説明した。

実施例１
Ａｍｂｒ２５０－培養
ａｍｂｒ２５０システム内での培養に基づく１５５個のデータセットを収集した。使用した真核細胞は、細胞外に標的分子を発現するＣＨＯ細胞であった。培養は流加法を用いて行った。使用されるａｍｂｒシステムは、１２回の培養を同時に行うことを可能にする。本培養の培養時間は１３～１４日間であった。単回使用バイオリアクター（２５０ｍＬ）は、このための反応空間を提供した。前培養を振盪フラスコ中で行い、これを３週間続けた。接種時の細胞の体積および数に関する出発条件は、各反応器で同等であった。使用した培地は、既知組成の培地のみであった１回の培養につき１つの培地バッチのみを使用した

このシステム内で最適な培養条件を提供するために、いくつかのプロセス変数が利用可能であった。制御するパラメータは、ｐＨ、温度および培地中の溶存酸素濃度であった。以下の表は、この作業に使用される全てのプロセス変数の完全なリストを含む。

（表１２）オンライン測定パラメータ。

測定された全ての変数は、いわゆるＰＩシステムによって全培養期間にわたって記録された。ＰＩシステムはオンラインで測定された変数のみを含む。

ここに列挙したパラメータは、最適な培養条件を監視するために利用可能であった。各リアクターについて、ＢｌｕｅＳｅｎｓからの排出ガス分析も利用可能であった。これは、バイオリアクターからの排出ガス流中のＯ_２およびＣＯ_２含有量を検出し、それによってプロセス制御における別の重要な構成要素を提供する。排出ガス流のこれら２つの測定変数を使用して、ＯＵＲおよびＯＴＲを測定し得る。

サンプルは、培養の間、毎日採取した。次いで、ＣｅｄｅｘＢｉｏＨＡＴ（登録商標）（ＲｏｃｈｅＤｉａｇｎｏｓｔｉｃｓＧｍｂＨ，Ｍａｎｎｈｅｉｍ，Ｇｅｒｍａｎｙ）を使用して、様々な濃度の代謝産物および製品力価についてこれらを分析した。

更に、細胞数測定を行った。この測定は、生細胞密度、総細胞密度、生存率、凝集率および細胞直径に関する情報を提供する。これらのパラメータを使用して、培養物の増殖挙動を推測し得る。オフラインサイズは、ＣｅｄｅｘＨｉＲｅｓ（登録商標）（ｏｃｈｅＤｉａｇｎｏｓｔｉｃｓＧｍｂＨ，Ｍａｎｎｈｅｉｍ，Ｇｅｒｍａｎｙ）セルカウンタで測定した。これらの細胞計数および細胞分析システムからの誤差は１０％の範囲である。使用される全てのオフライン測定量を以下の表に示す。

（表１３）オフラインで測定した変数。

Claims

哺乳動物細胞を培養する間、グルコース濃度を目標値に調整するための方法であって、
（ａ）培養中に、少なくともプロセス変数「時間」、「ＣＨＴ．ＰＶ」、「ＡＣＯＴ．ＰＶ」、「ＦＥＤ２Ｔ．ＰＶ」、「ＧＥＷ．ＰＶ」、「ＣＯ２Ｔ．ＰＶ」、「ＡＣＯ．ＰＶ」、「ＡＯ．ＰＶ」、「Ｎ２．ＰＶ」、「ＬＧＥ．ＰＶ」、「ＣＯ２．ＰＶ」、「ＦＥＤ３Ｔ．ＰＶ」、「ＯＵＲ」、および「ＰＨ．ＰＶ」の現在値を測定する工程、
（ｂ）プロセス変数「時間」、「ＣＨＴ．ＰＶ」、「ＡＣＯＴ．ＰＶ」、「ＦＥＤ２Ｔ．ＰＶ」、「ＧＥＷ．ＰＶ」、「ＣＯ２Ｔ．ＰＶ」、「ＡＣＯ．ＰＶ」、「ＡＯ．ＰＶ」、「Ｎ２．ＰＶ」、「ＬＧＥ．ＰＶ」、「ＣＯ２．ＰＶ」、「ＦＥＤ３Ｔ．ＰＶ」、「ＯＵＲ」、および「ＰＨ．ＰＶ」を含む特徴行列を使用して生成された、哺乳動物細胞培養のためのデータ駆動モデルによって、（ａ）の測定値を用いて培養培地中の現在のグルコース濃度を測定する工程、
および
（ｃ）（ｂ）の現在のグルコース濃度が目標値よりも低い場合、目標値に達するまでグルコースを添加し、それによってグルコース濃度を目標値に調整する工程
を含む、方法。
前記プロセス変数が、プロセス変数生細胞密度、生細胞体積、培養培地中のグルコース濃度、および培養培地中の乳酸濃度から選択されることを特徴とする、請求項１に記載の方法。
前記方法が、サンプリングせずに、この培養からのオンライン測定値のみを使用して実施されることを特徴とする、請求項１または２に記載の方法。
前記データ駆動モデルが機械学習によって生成されていることを特徴とする、請求項１～３のいずれか一項に記載の方法。
前記データ駆動モデルが、ランダムフォレスト法を用いて生成されていることを特徴とする、請求項１～４のいずれか一項に記載の方法。
前記データ駆動モデルが、少なくとも１０回の培養ランを含む訓練データセットを用いて生成されていることを特徴とする、請求項１～５のいずれか一項に記載の方法。
（ａ）モデリングに利用可能なデータセットが、７０：３０～８０：２０の比で訓練データセットと試験データセットとにランダムに分割されること、
（ｂ）モデルが生成されること、
（ｃ）データセットのプロセス変数を測定するための平均値および標準偏差が前記訓練データセットから測定され、データセットのプロセスを測定するための平均値および標準偏差が前記試験データセットから測定されること、
（ｄ）試験データセットと訓練データセットとの間の分割に関して同等の平均値および標準偏差が達成されるまで工程（ａ）～（ｃ）がくり返され、（ａ）の下で得られた分割は新たなランの度に異なっていること
を特徴とする、請求項１～６のいずれか一項に記載の方法。
前記データ駆動モデルを生成するために使用されるデータセットが、それぞれ同じ数のデータ点を含むことを特徴とする、請求項１～７のいずれか一項に記載の方法。
前記データ駆動モデルを生成するために使用されるデータセット内のデータ点が、それぞれ同じ培養時間に対するものであることを特徴とする、請求項１～８のいずれか一項に記載の方法。
データセット内の欠落データ点が補間によって補完されていることを特徴とする、請求項１～９のいずれか一項に記載の方法。
グルコース濃度および／または生細胞体積の欠落データ点が、三次多項式フィッティングによって得られ、乳酸濃度の欠落データ点が、単変量スプラインフィッティングによって得られ、かつ／または生細胞密度の欠落データ点が、ペレグフィッティングによって得られ得ることを特徴とする、請求項１０に記載の方法。
データセットが、少なくとも１４４分ごとのデータ点を含むことを特徴とする、請求項１～１１のいずれか一項に記載の方法。
前記哺乳動物細胞がＣＨＯ－Ｋ１細胞であることを特徴とする、請求項１～１２のいずれか一項に記載の方法。
前記哺乳動物細胞が抗体を発現および分泌することを特徴とする、請求項１～１３のいずれか一項に記載の方法。
前記データ駆動モデルが、複合ＩｇＧ培養ランおよび標準ＩｇＧ培養ランを含む訓練データセットを用いて生成されていることを特徴とする、請求項１～１４のいずれか一項に記載の方法。
培養体積が３００ｍＬ以下であることを特徴とする、請求項１～１５のいずれか一項に記載の方法。