CN116261691A

CN116261691A - 生物过程的监测和控制

Info

Publication number: CN116261691A
Application number: CN202180068095.9A
Authority: CN
Inventors: 尼古拉斯·特朗菲奥; 克里斯托弗·彼得·麦克雷迪
Original assignee: Sedolistim Data Analysis Co
Current assignee: Sedolistim Data Analysis Co
Priority date: 2020-10-02
Filing date: 2021-09-09
Publication date: 2023-06-13
Anticipated expiration: 2041-09-09
Also published as: EP3979010B1; US20230323275A1; CN116261691B; WO2022069180A1; EP3979010A1

Abstract

本文提供了一种用于监测生物过程的计算机实现的方法，生物过程包括生物反应器中的细胞培养物。该方法包括以下步骤：获得生物反应器中随生物过程成熟度变化的生物质的量和一种或多种代谢物的量的测量结果，使用该测量结果来确定一个或多个代谢条件变量；使用预训练的多变量模型来确定随生物过程成熟度变化的一个或多个潜在变量的值，其中多变量模型是使用过程变量的线性模型，这些过程变量包括作为预测变量的代谢条件变量和作为响应变量的成熟度；将随成熟度变化的一个或多个潜在变量的值与一个或多个预定值进行比较；以及根据比较结果确定生物过程是否正常进行。

Description

生物过程的监测和控制

技术领域

本公开涉及用于监测和控制生物过程的计算机实现的方法、计算机程序和系统。本公开的特定方法、程序和系统使用包括代表生物过程中细胞代谢条件的一个或多个变量的多变量模型。

背景技术

上游生物过程使用生物体(例如CHO(中国仓鼠卵巢)或大肠杆菌细胞)来生产所需的产品，例如具有治疗作用的物质(例如单克隆抗体，mAb)。此类产品的治疗效果取决于其分子结构的各个方面，例如糖基化结构(特别是在单克隆抗体的情况下)。这些方面统称为“关键质量属性”(CQA)。为了销售生物产品，生物制造商通常需要向监管机构证明他们能够以一致的方式可靠地进行这些过程，这样CQA就可以通过保证过程运行来满足规范要求。统计过程分析方法，包括单变量批处理分析和多变量统计分析，可用于评估生物过程的令人满意的性能。特别地，多变量统计模型(包括主成分分析(PCA)和(正交)偏最小二乘((O)PLS))回归已经成为用于识别过程条件的流行工具，对于确保CQA在规范内(统称为“关键过程参数”(CPP))，并在生物过程进展到完成时确定这些过程条件的可接受范围非常重要。这样的工具已经在

软件套件(Sartorius Stedim DataAnalytics)中实现，这是一种用于对生物制药开发和制造过程进行建模和优化的领先的数据分析软件。

在典型的生物过程分析中，在生物过程完成期间测量一系列过程变量(例如数十个过程变量，包括温度、关键营养物和代谢物的浓度、pH、体积、气体浓度、活细胞密度等)。这些过程变量一起表示“过程条件”。这些变量中的许多变量是高度相关的，因此，可以使用PCA和PLS等方法来识别捕获数据中相关结构的概要变量。然后可以提取这些变量(通常相对较少)，并且可以估计定义“正常”的过程条件的这些变量的值的范围。

所有这些方法都模拟了过程参数对细胞生产的产物的影响，但不了解过程参数如何影响细胞的功能，以及这最终如何导致CQA的变化。这导致将关键过程参数定义为一组过程条件，这些条件被确定是维持在可接受(可能取决于成熟度)范围内的关键。因为所有这些方法都将CQA与可接受的过程参数范围相关联，所以使得相对缺乏与所使用的过程条件相关的灵活性。事实上，产品CQA有效地与产品规范中描述的过程设计空间的过程条件相关联，因此对这些过程条件的改变是有限的。简而言之，为了保证CQA，制造商此后需要将CPP保持在已建立的预先确定的与成熟度有关的范围内。这对扩大规模的过程中具有显着的实际影响，因为规模的任何变化都可能需要对新的过程设计空间进行表征。这使得执行扩大规模的过程变得缓慢且成本高，并影响在生产规模的过程中可能出现的必要或有益的变化。

因此，需要一种用于监测和控制生物过程的改进方法的系统和方法。

发明内容

本文的第一方面提供了一种用于监测生物过程的计算机实现的方法，生物过程包括生物反应器中的细胞培养物，该方法包括以下步骤：

获得生物反应器中随生物过程成熟度变化的生物质的量和一种或多种代谢物的量的测量结果；

确定一个或多个代谢条件变量，所述代谢条件变量选自：随生物过程成熟度变化的所述生物反应器中所述一种或多种代谢物中的一些或全部在细胞和培养基之间的单位转运速率、随生物过程成熟度变化的所述一种或多种代谢物的内部浓度，以及随生物过程成熟度变化的构成细胞代谢一部分的一个或多个代谢反应的反应速率；

使用预训练的多变量模型来确定随生物过程成熟度变化的一个或多个潜在变量的值，其中所述多变量模型是使用过程变量的线性模型，所述过程变量包括所述代谢条件变量作为预测变量；

将随成熟度变化的一个或多个潜在变量的值与一个或多个预定值进行比较；以及

根据比较结果确定生物过程是否正常进行。

本发明人假设，对于一个过程偏离正常或最佳演变的根本原因，模型可以提供更多的信息，可以通过使用描述过程的变量来获得该模型，这些变量捕捉生物过程中细胞的代谢条件，代替或补充以前用于监测过程演变的过程参数。换言之，本发明至少部分基于这样的发现，即细胞的代谢条件可被视为依赖成熟度的演变过程，其可使用多变量批次演变建模方法来表征。

细胞代谢是上述批量演变建模技术所利用的相关结构的原因。例如，蛋白质浓度随着谷氨酰胺浓度的降低和谷氨酸浓度的增加而增加。这是因为如果将细胞视为工厂，那么代谢就是管理原材料(在此特定示例中为谷氨酰胺等营养物质)如何用于构建最终产品(在此示例中为蛋白质)以及生产过程中产生的废物(在本示例中为谷氨酸等副产品)的过程。因此，细胞代谢提供了比目前用作批次演变模型输入的宏观特性更完整的过程条件表征。因此，使用有关细胞代谢的信息作为多变量批次演变模型的输入可以更好地表征过程路径，因为它直接描述了细胞代谢过程的演变，而不是通过可测量的观察到的宏观过程条件间接地描述这种演变。

此外，使用有关细胞代谢的信息作为多变量批次演变模型的输入，可以根据以下方面对过程设计空间进行代谢过程表征而不是(或还进行)宏观测量。产品规范目前与宏观测量(与可接受的CQA相关的过程条件)相关联。然而，细胞产品(例如蛋白质)的表征取决于细胞的代谢条件。换言之，所有关键质量属性都受到细胞代谢条件的影响，并且由于宏观特性影响代谢，因而培养物的许多宏观特性影响所得蛋白质质量。因为根据本发明可以将产品规范与代谢特性联系起来，所以可以更灵活地校正过程偏差。事实上，任何校正代谢条件的宏观过程变化都是可以接受的。这与目前的情况形成鲜明对比，在目前的情况下，制造商只能进行非常有限的更改，因为宏观过程条件必须保持在产品规范中设定的限制范围内(并与美国食品和药物管理局(FDA)或欧洲药品管理局(EMA)等监管机构达成一致)。此外，这样的定义使得生物产品能够以经济上合理的规模生产，并能够随着时间的推移而改变，即使在需要改变过程参数以新的规模运作时。此外，这可能使制造商能够更快地将他们的产品推向市场。这是因为代谢设计空间可以在实验室规模下创建，然后监管备案(产品规范批准)和扩大规模的活动可以并行进行而不是顺序进行。

第一方面的方法可以具有以下可选特征中的任一特征或任何特征组合。

有利地，多变量模型是使用过程变量的线性模型，该过程变量包括代谢条件变量作为预测变量和成熟度作为响应变量。

确定步骤至少部分地基于随生物过程成熟度变化的生物反应器中生物质的量和一种或多种代谢物的量的测量结果来执行。因此，该方法包括至少部分地基于随生物过程成熟度变化的生物反应器中生物质的量和一种或多种代谢物的量的测量结果来确定一个或多个代谢条件变量。确定的步骤可以包括使用生物过程中的质量守恒模型和生物反应器中的生物质的量和一种或多种代谢物的量的测量结果，以确定生物反应器中随成熟度变化的一种或多种代谢物中的一些或全部在细胞和培养基之间的单位转运速率。确定的步骤可以包括使用：(a)代谢模型和(b)生物反应器中生物质的量和一种或多种代谢物的量的测量结果和/或一种或多种代谢物中的一些或全部在细胞和培养基之间的单位转运速率，以确定以下一项或两项：随生物过程成熟度变化的一种或多种代谢物的内部浓度，以及随生物过程成熟度(即与模型中使用的测量结果相关的成熟度)变化的构成细胞代谢一部分的一个或多个代谢反应的反应速率。

该方法还可以包括：如果比较步骤指示生物过程未正常运行，则向用户输出信号。信号可以通过诸如屏幕之类的用户界面或通过诸如音频或触觉信号之类的任何其他方式输出。

获得生物反应器中随生物过程成熟度变化的生物质的量和一种或多种代谢物的量的测量结果可以包括：获得生物质的量和一种或多种代谢物的量的测量结果，其中每个测量结果与生物过程成熟度值相关。测量结果可包括多个生物过程成熟度值或单个生物过程成熟度值的测量结果。在测量结果包括多个生物过程成熟度值的测量结果的情况下，确定一个或多个代谢条件变量的步骤可以针对确定代谢条件变量的每个成熟度值单独进行。在测量结果包括多个生物过程成熟度值的测量结果的情况下，可为一个或多个潜在变量中的每一个获得多个值。将一个或多个潜在变量的值与一个或多个预定值进行比较可以包括将在每个成熟度下的一个或多个潜在变量的值与各自的预定值进行比较。

多变量模型可以使用包括多个成熟度下的代谢条件变量的数据进行训练。

多变量模型可以是PLS或OPLS模型。多变量模型可以是等式(1)和等式(2)中定义的PLS模型，其中，在等式(1)和等式(2)中：X是在成熟度m的过程变量的m×n矩阵，Y是成熟度值的m×1矩阵，T是分数值的m×l矩阵，分数值描述了与成熟度最相关的过程变量的各方面，包括一个或多个潜在变量。

多变量模型可以是主成分回归(principal component regression，PCR)。多变量模型可以是PCR模型，其中，PCA应用于在成熟度m的过程变量的矩阵X，并且成熟度值的矩阵Y对由此获得的主成分进行回归，以识别与成熟度最相关的主成分，PCA分数表示描述与成熟度最相关的过程变量的各方面的潜在变量。多变量模型可以是PCA，PCA分数表示描述在多个成熟度获得的训练数据中过程变量变化最大的各方面的潜在变量。

将一个或多个潜在变量的值与一个或多个预定值进行比较可以包括将潜在变量的值与被认为正常运行的一组生物过程中的潜在变量的平均值进行比较。如果一个或多个潜在变量的值在被认为正常运行的一组生物过程中的对应潜在变量的平均值的预定范围内，则可以认为生物过程正常运行。预定范围可以定义为随与对应潜在变量的平均值相关联的标准差变化。如果一个或多个潜在变量t的值在average(t)±n*SD(t)定义的范围内，则可以认为生物过程正常运行，其中average(t)是在被认为正常运行的一组生物过程中的潜在变量t平均值，SD(t)是与average(t)相关的标准差，n是预先确定的常数(对于子范围average(t)+n*SD(t)和子范围average(t)-n*SD(t)可能相同，或者在这些子范围之间可能不同)。在实施例中，n是1、2、3或产生选定置信区间的值，例如95％置信区间。在实施例中，如果一个或多个潜变量t的值在定义为置信区间的范围内，例如95％的置信区间，围绕average(t)，基于t的假设分布，可以认为生物过程正常运行。假定分布可以是高斯(正态)分布、卡方分布等。如果假定分布是正态分布，则p％置信区间(其中p可以是例如95)可能相当于average(t)+n*SD(t)的范围，其中n是导致p％置信区间的单个值(例如，对于95％的置信区间，n可能约为1.96)。

如果生物过程产生或预计产生符合预定规范的产品，则可以认为该生物过程正常运行。预定规范可包括一个或多个关键质量属性的可接受范围。

获得生物反应器中随生物过程成熟度变化的生物质的量和一种或多种代谢物的量的测量结果可以包括测量生物反应器中随生物过程成熟度变化的生物质的量和一种或多种代谢物的量，接收先前获得的测量结果，或它们的组合。

在线性模型中用作预测变量的过程变量，除了代谢条件变量之外，还可以包括从单位转运速率和/或反应速率导出的一个或多个变量，例如一个或多个变量是一个或多个单位转运速率和/或反应速率的线性组合。

在线性模型中用作预测变量的过程变量，除了代谢条件变量之外，还可以包括一个或多个过程条件变量。

一种或多种代谢物的内部浓度可以指细胞或其一部分内代谢物的计算浓度或估计浓度。

确定一个或多个代谢条件变量包括：确定所述一种或多种代谢物在细胞和培养基之间的单位转运速率，其中代谢物i的单位转运速率是每个细胞和每个成熟度单位下在细胞和培养基之间转运的代谢物的量。代谢物i在特定成熟度m下的单位转运速率通过等式(7)确定：

[反应器中代谢物量的总变化]＝[代谢物进入反应器的总流量]-[代谢物离开反应器的总流量]+[反应器中细胞分泌的代谢物]-[反应器中细胞消耗的代谢物](7)。

特定成熟度下m(qMet_m)代谢物i的单位转运速率可使用以下等式(8)确定：

其中V是培养物的体积，[Met]是培养物中的代谢物浓度，t是成熟度，F_F是进料质量流量(如果存在)，ρ是培养基密度，[Met]_F是进料流中的代谢物浓度(如果存在)，F_B是出料质量流量(如果存在)，F_H是收获质量流量(如果存在)，VCD是活细胞密度。

特定成熟度下m(qMet_m)代谢物i的单位转运速率可以使用等式(8a)确定：

等式(8)可以使用可以用一阶有限近似的方法来求解微分。

项可以替换为相应的

项，其中[Met_B]是出料流中的代谢物浓度(如果存在pH)，[Met]_H是收获流中的代谢物浓度(如果存在)。这可能是有利的，因为不能认为收获流和/或出料流中的代谢物浓度与反应器中的浓度相同。

对于灌流式培养，特定成熟度下m(qMet_m)代谢物i的单位转运速率可以使用等式(9a)确定：

其中V是培养物的体积，[Met]是培养物中的代谢物浓度，t是成熟度，F_F是进料质量流量，ρ是培养基密度，[Met]_F是进料流中的代谢物浓度，F_B是出料质量流量，F_H是收获质量流量，IVCD是成熟度m和m+1之间的综合活细胞密度。

对于分批补料式培养，特定成熟度下m(qMet_m)代谢物i的单位转运速率可以使用等式(8b)确定：

对于分批补料式培养，特定成熟度下m(qMet_m)代谢物i的单位转运速率可以使用等式(9b)确定：

这在进料流是连续或半连续的实施例中可能特别有用，例如滴料流。

对于分批补料式培养，特定成熟度下m(qMet_m)代谢物i的单位转运速率可以使用等式(8d)确定：

其中[pMet]是伪代谢物浓度，允许从等式(8b)中消除进料流。在实施批式(bolus)进料策略的实施例中(即，瞬时添加的进料流量相对较大)可能特别有利。对于在进料流中提供的代谢物，可以通过以下来获得伪代谢物浓度[pMet]：(i)使用测量的(或以其他方式确定的，例如基于初始反应器的体积和一个或多个进料批次提供的体积)反应器体积和已知的进料浓度来确定每次进料中有多少代谢物被添加到反应器中，以及(ii)从进料后的代谢物浓度的所有测量结果中减去(i)中的值。对于进料中不存在的代谢物(或可假设进料中不存在的代谢物)，可以通过以下来获得伪代谢物浓度[pMet]：(i)使用测量的(或以其他方式确定的，例如基于初始反应器的体积和一个或多个进料批次提供的体积)反应器体积来确定由于每次进料引起的稀释而导致的浓度变化，以及(ii)从进料后的代谢物浓度的所有测量结果中加上(i)中的值。

等式(8d)可以使用等式(9d)求解成熟度m下的代谢物转运速率qMet：

对于非分批补料式培养，特定成熟度下m(qMet_m)代谢物i的单位转运速率可以使用等式(8c)确定：

对于非分批补料式培养，特定成熟度下m(qMet_m)代谢物i的单位转运速率可以使用等式(9c)确定：

当可以假设反应器中的体积V是恒定的时候(等式(9c)的第1步)，这可能是特别有利的。反应器中的体积是恒定的。

可以将函数拟合到一些或所有代谢物数据(即表示在某些或全部成熟度值下部分或全部代谢物的浓度与生物过程成熟度的关系的函数)。例如，这对于平滑代谢物数据的目的可能是有利的。在已将函数拟合到代谢物数据的情况下，该函数可用于获得等式(9c)、(8c)和(9d)中任意一个的

项。例如，如果表示代谢物浓度(y_j)的函数是

形式的多项式，其中n是多项式的次数，x是成熟度(例如时间)，那么其导数可以通过分析确定为

代谢物的单位转运速率可以是单位消耗速率或单位生产速率。单位消耗速率也可称为摄取率(或细胞摄取率)。单位生产速率也可称为分泌速率(或细胞分泌速率)。单位转运速率量化了平均细胞和培养基之间代谢物的转运速率。

生物反应器中生物质的量的测量结果包括：活细胞密度的测量结果。生物反应器中一种或多种代谢物的量的测量结果包括：细胞室、培养基室或整个所述细胞培养物中一种或多种代谢物的量或浓度的测量结果。

确定一个或多个代谢条件变量可以包括：确定随生物过程成熟度变化的构成培养物中细胞代谢一部分的一个或多个代谢反应的反应速率。可以至少部分地使用随生物过程成熟度变化的所述生物反应器中所述一种或多种代谢物在细胞和培养基之间的单位转运速率来确定一个或多个代谢反应的反应速率。

确定一个或多个代谢反应的反应速率可以包括：获得包括所述反应的代谢模型，和至少使用所述一种或多种代谢物的单位转运速率作为代谢模型的约束来求解代谢模型。代谢模型包括化学计量矩阵S和一组反应速率v，并且求解所述代谢模型包括确定反应速率v满足：

最大化/最小化

使

其中x是对细胞目标有贡献的k变量，细胞目标表示为目标函数Z，α和β是描述x对细胞目标函数Z的影响的系数，

是代谢模型中代谢物的内部浓度的变化率，i和j是代谢模型中反应速率集合的指数，分别有下界和上界，其中至少一个下界值和/或上界值是一种或多种代谢物中的一种的单位转运速率的预定函数；可选地，确定一个或多个代谢反应的反应速率是使用通量平衡分析方法进行的。

使用通量平衡分析来求解等式(3)-(5b)，设置S*v＝0并将Z表示为一个或多个反应速率v的函数。在实施例中，获得代谢模型包括获得代谢网络并从该代谢网络导出化学计量矩阵，或获得化学计量矩阵。在实施例中，获得代谢模型包括获得一个或多个待最小化或最大化的目标函数。合适的目标函数包括例如生物质生产最大化、ATP生产最大化、蛋白质分泌最大化等。

使用所述一种或多种代谢物的单位转运速率作为所述代谢模型的约束包括：指定随至少一个单位转运速率变化的至少一个代谢反应速率的值的允许范围。使用代谢物i的单位转运速率作为所述代谢模型的约束包括指定：

下界i＝f_low,i(qMet_i)≤v_Exchange,i≤上界i＝f_up,i(qMet_i) (10)

其中qMet_i是代谢物i的单位转运速率，f_low,i是第一函数，f_up,i是第二函数，v_Exchange,i是所述代谢模型中捕获细胞对代谢物i的消耗或分泌的反应速率。如本文所用，提及“细胞”可指生物过程中的平均细胞。

确定或测量随成熟度变化的任何变量包括：确定或测量随时间变化的变量。

测量随成熟度变化的变量可以包括在线或离线测量变量。

确定或测量随成熟度变化的任何变量可以包括在多个成熟度下，例如在连续的时间点，迭代地确定或测量变量。

预训练的多变量模型可能已经使用来自多个被认为正常运行的生物过程的随成熟度变化的生物质和代谢物测量结果来训练，其中测量结果包括在多个成熟度下的测量结果。多个成熟度优选地包括捕捉生物过程从开始到完成的演变的成熟度。测量的次数和/或频率可以取决于环境，例如与测量过程相关的实际考虑、生物过程本身的动力学等。

多变量模型可能已经使用来自多个被认为正常运行的相似生物过程的数据来进行预训练，其中相似生物过程是为相同目的使用相同细胞的生物过程。多变量模型可能已经使用来自多个相似生物过程的数据来进行预训练，其中至少一些生物过程由于一个或多个随成熟度变化的过程条件而彼此不同。两种生物过程可以被认为由于一个或多个随成熟度变化的过程条件而彼此不同，其中对于多个成熟度中的至少一个，所述在生物过程之间一个或多个过程条件不同。

该方法还可以包括预测生物过程的一个或多个过程条件的变化对一个或多个潜在变量和/或一个或多个代谢条件变量的影响。

用于训练所述多变量模型的多次运行中的至少一些与一个或多个关键质量属性(CQA)相关。该方法还可以包括使用包括一个或多个代谢条件变量的一个或多个过程变量的值，以及通过所述一个或多个代谢条件变量的值训练的模型，用于多个训练运行和相应的CQA以预测生物过程的一个或多个CQA。该模型可以是PLS模型，其中过程变量是预测变量，而CQA是输出变量。

该方法还可以包括将多个测量结果和/或代谢条件变量合并到一个表中，其中所述测量结果/变量按成熟度对齐。该方法还可以包括对至少一些测量结果和/或代谢条件变量进行子采样或分箱。该方法还可以包括对至少一些测量结果和/或代谢条件变量进行平滑和可选地超采样。

对于多个成熟度值中的每一个，数据包括尽可能多的测量结果是有利的。因此，在不同成熟度值下获得测量结果的情况下，子采样、分箱和/或超采样技术可用于为一系列成熟度值中的每一个获得完整的测量结果集。不希望受理论束缚，据信由多变量分析模块执行的分析对缺失数据特别可靠。例如，如果在某一特定成熟度的特定生物过程中缺少整个观测数据(所有反应速率)，所产生的模型仍应能产生有用的信息。如果在某一特定成熟度值下，用于校准模型的任何生物过程没有观测数据，那么该模型对这一特定成熟度可能表现不佳，但对其他成熟度值可能仍表现令人满意。出于由系统生物学模块分析的目的，我们认为提供与代谢模型中包括的大部分(例如50％或更多)代谢物有关的数据是有利的。事实上，缺少单位运转速率可能会导致代谢模型中其他反应速率出现估计错误。正如技术人员所理解的那样，包括的代谢模型(即反应/途径)的复杂性可以根据可用的数据进行调整，以减少发生这种错误的可能性。

本文的第二方面提供了一种用于控制生物过程的计算机实现的方法，所述生物过程包括生物反应器中的细胞培养物，所述方法包括：

实施前述方面的任何实施方案的步骤；如果比较步骤指示生物过程未正常运行，则向一个或多个效应器装置发送信号以实施纠正动作。

本方面的方法可以具有第一方面公开的任何特征。

本方面的方法还可以具有以下可选特征中的任一项或任意组合。

该方法还可以包括在自获得先前测量结果起经过预定时间段之后，重复监测生物过程的方法的步骤。

该方法还可以包括使用与被确定为在预定范围之外的随成熟度变化的一个或多个潜在变量相关联的载荷来确定要实施的纠正动作。

效应器装置可以是耦合到生物反应器的任何设备，效应器装置用于改变生物反应器中的一个或多个物理条件或化学条件。

本文的第三方面提供了一种用于监测生物过程的系统，该生物过程包括生物反应器中的细胞培养物，所述系统包括：

至少一个处理器；以及

至少一个非暂时性计算机可读介质，包含指令，当由所述至少一个处理器执行时，使至少一个处理器执行操作，这些操作包括：

根据比较结果确定生物过程是否正常进行。

本方面的系统可以用于实现根据第一方面的任何实施例的方法。特别地，上述至少一个非暂时性计算机可读介质可以包含指令，当由至少一个处理器执行时，指令使至少一个处理器执行包括关于第一方面描述的任何操作的操作。

本文的第四方面提供了一种用于控制生物过程的系统，该系统包括：根据第三方面的用于监测生物过程的系统；以及可操作地连接到用于监测生物过程的系统的处理器的至少一个效应器装置。

本文的第五方面提供了一种用于控制生物过程的系统，该系统包括：

至少一个处理器；以及

实施第一方面的任何实施方案的步骤；如果比较步骤指示生物过程未正常运行，则向一个或多个效应器装置发送信号以实施纠正动作。

本方面的系统可以用于实现第二方面的任何实施例的方法。特别地，上述至少一个非暂时性计算机可读介质可以包含指令，当由至少一个处理器执行时，指令使至少一个处理器执行包括关于第二方面描述的任何操作的操作。

本文的第六方面提供了一种提供用于监测生物过程的工具的方法，该生物过程包括生物反应器中的细胞培养物，该方法包括以下步骤：

获得生物反应器中在多个生物过程成熟度下、多个被认为正常运行的生物过程的生物质的量和一种或多种代谢物的量的测量结果；

对于每个生物过程，确定一个或多个代谢条件变量，所述代谢条件变量选自：在多个生物过程成熟度下所述生物反应器中所述一种或多种代谢物在细胞和培养基之间的单位转运速率、在多个生物过程成熟度下所述一种或多种代谢物的内部浓度，以及在多个生物过程成熟度下构成细胞代谢一部分的一个或多个代谢反应的反应速率；

联合使用在多个生物过程成熟度下来自多个生物过程的单位转运速率和/或反应速率来训练多变量模型以确定随生物过程成熟度变化的一个或多个潜在变量的值，其中所述多变量模型是使用过程变量的线性模型，所述过程变量包括所述代谢条件变量作为预测变量；

定义随成熟度变化的所述一个或多个潜在变量的一个或多个值，其表示生物过程被认为正常运行；可选地所述一个或多个值包括随成熟度变化的一个或多个潜在变量的平均值和/或被定义为围绕随成熟度变化的相应潜在变量的平均值的标准偏差变化的一个或多个范围。

该方法可以包括第一方面的任何特征。

本文的第七方面提供了一种用于监测和/或控制生物过程的系统，该系统包括：

至少一个处理器；以及

至少一个非暂时性计算机可读介质，包含指令，当由所述至少一个处理器执行时，使至少一个处理器执行第一方面或第二方面的任何实施例的方法。该系统还包括与该处理器可操作地连接的以下中的一个或多个：

用户界面，其中，所述指令还使所述处理器向所述用户界面提供以输出到用户的以下中的一个或多个：随成熟度变化的一个或多个潜在变量的值、随成熟度变化的一个或多个预定值、所述比较步骤的结果以及指示所述生物过程已被确定为正常运行或不正常运行的信号；

一个或多个生物质传感器；

一个或多个代谢物传感器；

一个或多个过程条件传感器；以及

一个或多个效应器装置。

本文的第八方面提供了一种包括指令的非暂时性计算机可读介质，当由所述至少一个处理器执行时，使该至少一个处理器执行第一方面、第二方面或第六方面的任何实施例的方法。

本文的第九方面提供了一种包括代码的计算机程序，当代码在计算机上执行时，使计算机执行第一方面、第二方面或第六方面的任何实施例的方法。

本文的第十方面提供了一种用于提供用于监测生物过程的工具的系统，该生物过程包括生物反应器中的细胞培养物，该系统包括：

至少一个处理器；以及

定义随成熟度变化的所述一个或多个潜在变量的一个或多个值，其表示生物过程被认为正常运行；

可选地所述一个或多个值包括随成熟度变化的一个或多个潜在变量的平均值和/或被定义为围绕随成熟度变化的相应潜在变量的平均值的标准偏差变化的一个或多个范围。

本方面的系统可以用于实现第六方面的任何实施例的方法。特别地，至少一个非暂时性计算机可读介质可以包含指令，当由至少一个处理器执行时，这些指令使至少一个处理器执行操作，其中这些操作包括第六方面描述的任何操作。

附图说明

作为示例，现在将参考附图来描述本公开的实施例，在附图中：

图1A示出了根据本公开的实施例的系统；图1B示出了可以在如图1所示的系统中实施的通用生物过程的简化过程图；图1C示出了用于实施根据本发明的实施例的方法的计算架构；

图2示出了根据本公开的实施例的提供工具的方法的流程图；特别地，该流程图示出了模型校准程序，得到可用于监测生物过程的校准模型；

图3示出了根据本发明实施例的监测生物过程的方法的流程图；特别地，该流程图示出了模型预测程序，通过该程序可以监测生物过程产品的关键质量属性；

图4示出了根据本公开的实施例的用于确定细胞代谢反应速率的方法的流程图；特别地，该流程图示出了使用通量平衡分析方法确定与代谢网络相关联的反应速率的方法；

图5示出了源自生物过程中细胞代谢条件的示例性多变量控制图；特别地，该图示出了生物过程5个独立的实例(连续线)中第一主成分和第二主成分(分别为上部和下部)的分数与成熟度的关系，以及这些分数的各自平均值(每个包络线中间的虚线)和围绕各自平均值的±3标准差包络线(虚线包络线)；

图6示出了源自细胞内部代谢条件的示例性多变量控制图；绿色实线(在整个过程中保持在虚线包络内的线)＝根据历史批次中的代谢活动计算的分值(每条线都是单独的批次)；绿色虚线(虚线包络线中间的虚线)——它们的平均值；红色虚线(虚线包络线)——定义正常代谢条件的±3标准差限值；蓝色实线(在整个过程中不在虚线包络线内的两条实线)＝使用BEM监测的新批次：在第7天故意实施偏差(温度变化)，导致其超出控制范围；由此引起模型捕获的TCA循环和氧化还原状态的变化(参见图示的代谢网络上突出显示的路径)；

图7示出了非分批补料式的生物过程中，来自多个传感器的模拟原始数据随成熟度的变化(此处示为以天为单位的批次时间)，其中使用3种不同的介质进行；(A)活细胞密度数据；(B)葡萄糖浓度、(C)乳酸盐浓度，和(D)谷氨酰胺浓度；

图8示出了来自多个传感器的数据随成熟度的变化(此处示为以天为单位的批次时间)，在相同条件下运行的分批补料生物过程直到垂直线，然后使用常温(NT)，低温(LT)或极低温度(VLT)和不同的pH值(实线：正常pH值，虚线：低pH值，虚线：高pH值)；来自FLEX2传感器的(A)活细胞密度数据；葡萄糖浓度(B)、乳酸盐浓度(C)和氨浓度(D)；来自外部NMR的谷氨酰胺(E)和谷氨酸(F)浓度；

图9示出了对应于图7中数据的平滑数据(非分批补料)；

图10示出了对应于图8A中的数据的平滑活细胞密度数据(分批补料)；

图11示出了在图8的分批补料过程中测量的两种代谢物的原始代谢物数据(A、C)、伪代谢物数据(B、D)和平滑伪代谢物数据(E、F)；

图12示出了针对图7和图9中所示的非分批补料数据计算的单位转运速率；(A)计算的葡萄糖的单位转运速率，(B)计算的乳酸盐的单位转运速率，(C)计算的谷氨酰胺的单位转运速率；

图13示出了针对图8和图11中所示的分批补料数据计算的单位转运速率；(A)计算的葡萄糖的单位转运速率，(B)计算的乳酸盐的单位转运速率，(C)计算的氨的单位转运速率，(D)计算的谷氨酰胺的单位转运速率，(E)计算的谷氨酸的单位转运速率；

图14示出了中心碳模型的示例性代谢途径图(本文也称为代谢网络)，其中突出示出了所选途径和代谢物；(A)代谢途径图概览；(B)-(C)(A)中图部分的特写视图；

图15示出了使用来自图13(分批补料)在时间点t(0)的数据(A)和用于约束通量平衡分析模型的相应数据(B)的单一通量平衡分析的结果；在图A中，突出显示的线条表示存在非零通量的反应，线条的粗细与反应速率的值成正比；

图16示出了使用图13的数据(分批补料)在时间点t₀(第0天，如图15)、t₅(第3天)和t₂₇(第10天)(分别为B、C和D)、相应的数据(A—如图13所示的单位转运速率)、用于约束各时间点的通量平衡分析模型以及从通量平衡分析中得到的ATP总生成率(E—单个批次，F—所有批次)的重复通量平衡分析的结果；在图B-D中，突出显示的线条表示存在非零通量的反应，线条的粗细与反应速率的值成正比；

图17示出了在图7、图9和图12的非分批补料过程中，从各个成熟度的通量平衡分析中获得的速率得出的ATP总生成速率；

图18示出了在正常条件下运行的分批补料过程的批次演变模型(BEM)控制图，该图由图16的数据得出；上图示出了第一主成分的分数随成熟度的变化，下图示出了第二主成分的分数随成熟度的变化；在这两个图表中，中心实线是其他实线的平均值，虚线表示围绕平均线周围的±3标准差包络线；

图19示出了基于图18所示分数的批次演变模型预测步骤；(A和E)控制图示出了正常批次的第一主成分(A)和第二主成分(E)的分数在规范范围内，两个低温批次和两个极低温批次超出规范，其中规范由虚线表示，显示如图18所示确定的包络线；(B)正常批次t27的代谢通量分布；(C)其中一个极低温批次的t27的代谢通量分布；(D)平均极低温批次和平均正常批次之间多变量组贡献的差异；

图20示出了控制图，示出了BEM的第一主成分的分数，BEM使用来自使用相应培养基的每组非分批补料实验的数据进行训练(图7、图9和图12)；在所有图表中，中心实线是其他实线的平均值，虚线表示围绕平均线周围的±3标准差包络线；

图21示出了从图8和图11的分批补料实验中单独的过程数据生成的批次演变模型控制图；(A)示出了仅使用正常批次数据拟合BEM的训练步骤—虚线代表所示实线平均值周围的±3标准偏差包络线(每条线代表分批补料过程的单独运行在正常条件下运行)；(B)示出了预测步骤的结果，其中生成(A)中分数的模型用于预测非正常温度运行的分数—虚线与图A相同，实线包络线外显示低温和极低温运行；

图22示出了从图8和图11的分批补料实验中单独的过程数据生成的批次演变模型控制图，不包括pH和温度作为模型中的变量；(A)示出了仅使用正常批次数据拟合BEM的训练步骤—虚线代表所示实线平均值周围的±3标准偏差包络线(每条线代表分批补料过程的单独运行在正常条件下运行)；(B)示出了预测步骤的结果，其中生成(A)中分数的模型用于预测非正常温度运行的分数—虚线与图A相同；和

图23示出了从图8、图11和图13的分批补料实验中单独的转运速率数据生成的批次演变模型控制图；(A)示出了仅使用正常批次数据拟合BEM的训练步骤—虚线代表所示实线平均值周围的±3标准偏差包络线(每条线代表分批补料过程的单独运行在正常条件下运行)；(B)示出了预测步骤的结果，其中生成(A)中分数的模型用于预测非正常温度运行的分数—虚线与图A相同。

本文所示的附图示出了本发明的实施例，这些附图不应解释为限制本发明的范围。在适当的情况下，将在不同的图中使用相同的附图标记，以表示所示实施例中的相同结构特征。

详细说明

下面将参考附图描述本发明的具体实施例。

如本文所使用的，术语“生物过程”(在本文中也称为“生物制造过程”)指的是一种过程，在这种过程中，生物成分(例如细胞、细胞部分(如细胞器)或多细胞结构(如有机体或球体))被保存在人工环境(如生物反应器)中的液体培养基中。在实施例中，生物过程指的是细胞培养物。生物过程通常产生产物，产物可以包括生物质和/或由于生物成分的活性而生产的一个或多个化合物。生物反应器可以是一次性的容器或可重复使用的容器，生物反应器中可以容纳适用于进行生物过程的液体培养基。在US2016/0152936和WO2014/020327中描述了适用于生物过程的示例生物反应器系统。例如，生物反应器可选自：先进微生物反应器(例如TheAutomation Partnership Ltd的

250或

15生物反应器)、一次性生物反应器(例如袋式生物反应器，例如Sartorius Stedim Biotech GmbH的

STR生物反应器)、不锈钢生物反应器(例如Sartorius Stedim Systems GmbH的

系列可用的5至2000L生物反应器)等。本发明适用于任何类型的生物反应器，尤其适用于从台式系统到制造规模系统的任何供应商和任何规模的生物反应器。

细胞培养指的是将活细胞保存在人工环境(如生物反应器)中的生物过程。本文所述的方法、工具和系统适用于使用可在培养物中保存的任何类型的细胞(无论是真核细胞还是原核细胞)的生物过程。特别地，本发明可用于使用细胞类型监测和/或控制生物过程，细胞类型包括但不限于哺乳动物细胞(例如中国仓鼠卵巢(CHO)细胞、人胚胎肾(HEK)细胞、Vero细胞等)、非哺乳动物动物细胞(例如鸡胚成纤维(chicken embryo fibroblast，CEF)细胞)、昆虫细胞(例如黑腹果蝇(D.melanogaster)细胞、家蚕(B.mori)细胞等)、细菌细胞(例如大肠杆菌(E.coli)细胞)、真菌细胞(例如酿酒酵母(S.cerevisiae)细胞)和植物细胞(例如拟南芥(A.thaliana)细胞)。生物过程通常会生产产物，该产物可以是细胞本身(例如用于进一步生物过程的细胞群、用于细胞治疗的细胞群、用作产物(如益生菌、原料等)的细胞群)、大分子或大分子结构(例如蛋白质、肽、核酸或病毒颗粒(如单克隆抗体、免疫原性蛋白质或肽、用于基因治疗的病毒或非病毒载体、例如用于食品工业和诸如水净化、去污染等环境应用的酶))、或小分子(例如醇、糖、氨基酸等)。

生物过程的产物可以具有一个或多个关键质量属性(CQA)。如本文所使用的，“关键质量属性”是可以被定义和测量以表征产物的质量的产物的任何属性(尤其包括任何化学、物理、生物和微生物属性)。可以定义产物的质量特性，以确保产物的安全性和有效性保持在预定的边界内。CQA可以尤其包括小分子或大分子的分子结构(尤其包括肽或蛋白质的一级、二级和三级结构中的任何一种)、蛋白质或肽的糖基化谱等。产物可与“规范”相关联，该“规范”提供产物需要符合的一个或多个CQA的值或值的范围。如果产物的所有CQA都符合规范，则该产物可称为“规范”(或“符合规范”、“在规范内”等)，否则可称为“不规范”(或“不符合规范”)。CQA可以与一组关键过程参数(CPP)以及实现可接受CQA的CPP值的范围(可选地，成熟度相关范围)相关联。如果CPP在被认为实现可接受的CQA的预定范围内，则生物过程运行(即生物过程的执行的特定实例)可以称为“正常”或“规范”，否则可以称为“不正常”或(“不符合规范”)。根据现有技术，CPP是过程参数。本发明提供了一种根据生物过程中细胞的代谢条件来定义生物过程的CPP的方法。换言之，本发明使生物过程能够根据代谢设计空间而不是过程设计空间来操作(特别是包括在CQA规范内对生物过程的监测和/或控制)(通过将代谢活动保持在规范范围内而不是通过将过程参数保持在规范范围内)。

如本文所使用的，术语“过程条件”指的是生物过程操作的任何可测量的物理化学参数。过程条件可以尤其包括培养基和生物反应器操作的参数，例如pH、温度、培养基密度、材料进出生物反应器的体积/质量流速、反应器的体积、搅拌速率等。过程条件还可以包括生物反应器中生物质的量的测量结果或生物过程的整个室中代谢物的量(尤其包括任何细胞室、包括细胞室、包括培养基和细胞的培养物室和培养基室中代谢物的量)的测量结果。

如本文所使用的，术语“过程输出”指的是量化过程的期望结果的一个值或一组值。过程的期望结果可以是生产生物质本身、生产一个或多个代谢物、降解一个或多个代谢物、或这些结果的组合。

术语“代谢物”指的是在生物过程中由细胞消耗或生产的任何分子。代谢物尤其包括营养物(如葡萄糖、氨基酸等)、副产物(如乳酸和氨)、所需产物(如重组蛋白或肽)、参与生物质生产的复合分子(如脂质和核酸)、以及由细胞消耗或产生的任何其他分子如氧(O₂)。如本领域技术人员所理解的，根据特定的情况，同一分子可以认为是营养物、副产物或所需产物，并且这甚至可以随着生物过程的操作而改变。然而，所有参与细胞代谢的分子(无论是作为由细胞机器进行的反应的输入或输出)在本文中称为“代谢物”。

术语“细胞代谢条件”(在本文中也称为“代谢条件”或“细胞条件”)指的是表征生物过程中的细胞的代谢(即生物过程中的细胞的代谢活性)的一个或多个变量的值。细胞代谢条件可以尤其包括代谢物进出细胞的单位转运速率、代谢反应的反应速率、细胞内代谢物的浓度(本文也称为“内部代谢物浓度”)或从这些中的一个或多个导出的任何变量(例如使用多变量分析技术)。代谢物的细胞摄取或分泌速率(即代谢物进/出细胞的单位转运速率)和细胞内代谢物的浓度(可以用每体积或每细胞的质量单位表示)可以认为表示代谢变量(因为这些变量表征细胞的代谢)。此外，生物过程的室中的同一代谢物的浓度(例如在主体成分或液体培养基中，可以用每体积的质量单位表示)可以认为表示过程变量(因为该浓度表征了一个宏观过程变量)。例如，液体培养基中的氧或葡萄糖浓度(例如以质量/体积为单位)可以认为是在宏观水平描述过程(过程条件)的过程变量(在本文中也称为“过程参数”)，而细胞中的氧或葡萄糖浓度(例如以质量/细胞为单位)可以认为是描述细胞的代谢条件的代谢变量。

如本文所使用的，术语“成熟度”指的是生物过程完成的度量。成熟度通常以从生物过程开始到生物过程结束的时间来衡量。因此，术语“成熟度”或“生物过程成熟度”可以指从参考时间点(例如生物过程开始)开始的时间量。因此，措辞“随生物过程成熟度变化”(例如，将变量量化为“随生物过程成熟度变化”)在一些实施例中可以指“随时间变化”(例如，将变量量化为“随时间变化，例如自生物过程开始以来”)。反之，除非上下文另有指示，否则对时间相关变量的提及(无论是在文本中还是在方程中)应理解为适用于任何成熟度度量(包括但不限于时间)。特别地，可以使用随时间单调增加的任何度量，例如，可以使用自生物过程开始以来在培养基中积累或提取的所需产物(或不需要的副产物)的量、积分细胞密度等。成熟度可以用百分比(或其他分数度量)来表示，也可以用绝对值来表示，该绝对值逐渐变为某个值(通常是最大值或最小值)，在该绝对值变为该值时，生物过程被认为是完整的。

术语“多变量统计模型”指的是旨在捕获多个变量之间的关系的数学模型。常用的多变量统计模型有主成分分析(PCA)、偏最小二乘回归(PLS)和正交PLS(OPLS)。术语“多变量统计分析”指的是建立(包括但不限于设计和参数化)和/或使用多变量统计模型。

主成分分析(PCA)用于识别一组正交轴(称为“主成分”)，这些轴捕获数据中量逐渐减少的方差。第一主成分(PC1)是使一组数据在PC1轴上的投影的方差最大化的方向(轴)。第二主成分(PC2)是与PC1正交的方向(轴)，该方向(轴)使数据在PC1轴和PC2轴上的投影的方差最大化。数据点在由一个或多个主成分定义的新空间中的坐标有时被称为“分数”。PCA作为降维方法，为每个数据点获得分数，这些分数捕获多个基础变量对数据多样性的贡献。PCA可以用于生物过程的一组运行的历史数据，以表征和区分好的(正常的)和坏的(不正常的)过程条件。这实现了对历史批次何时偏离了可接受的过程条件的回溯识别，并解释了各个过程变量中哪个过程变量对全局过程条件中观察到的偏差影响最大。这可以用来研究如何在未来避免这样的偏差。

PLS是一种回归工具，PLS通过将一组预测变量和对应的可观察变量投影到新空间来标识线性回归模型。换言之，PLS将预测矩阵X(维数m x n)和响应矩阵Y(维数m xp)之间的关系标识为：

X＝TP^t+E (1)

Y＝UQ^t+F (2)

其中，T和U是维数为m x l的矩阵，T和U分别是X分数(X在“潜在变量”的新空间上的投影)和Y分数(Y在新空间上的投影)；P和Q是正交载荷矩阵(定义新空间并分别具有维数n x l和px l)；矩阵E和F是误差项(假设E和F都是独立且同分布(independent andidentically distributed，IID)的随机正态变量)。分数矩阵T概括了X中的预测变量的变化，分数矩阵U概括了Y中的响应的变化。矩阵P表示X和U之间的相关性，矩阵Q表示Y和T之间的相关性。将X和Y分解成分数和对应载荷的矩阵，以最大化T和U之间的协方差。OPLS是PLS的一种变型，其中，X中的变化被分成三个部分：与Y相关的预测部分(如PLS模型中的TP^t)、正交部分(捕获与Y不相关的系统变化的T_orthP_orth ^t)和噪声部分(如PLS模型中的E，捕获残差)。偏最小二乘(PLS)和正交PLS(OPLS)回归可以用来表征过程条件对期望过程输出(产物浓度、质量属性等)的影响。这可以通过拟合如上所述的(O)PLS模型来执行，其中，X包括被认为对过程输出有影响的一个或多个过程变量，并且Y包括过程输出的对应度量。这可以用来确定可以控制哪些过程变量以及应该如何控制这些变量，以改进或控制期望输出。

软件套件(Sartorius Stedim Data Analytics)还包括所谓的“批次演化模型(batch evolution model，BEM)”，BEM描述了过程条件的时间序列演化，称为过程“路径”。通过拟合如上所述的(O)PLS模型来获得过程路径，但是在该模型中，X包括在过程的演化中的多个时间(成熟度值)测量的被认为具有潜在相关性的一个或多个过程变量，并且Y包括对应的成熟度值。例如，可以在m个成熟度值下测量一组n个过程变量，这nxm个值可以作为系数包括在矩阵X中。对应的矩阵Y是成熟度值的mx1矩阵(即长度为m的向量)。因此，T矩阵包括对于描述与成熟度最相关的过程变量的各个方面的m个成熟度值中的每个成熟度值和l个识别的潜在变量中的每个潜在变量的分数值。通过使用T中的分数值来训练关于在过程结束时实现所需产物质量的过程路径的BEM，可以定义“黄金BEM(golden BEM)”，“黄金BEM”描述对于未来批次可接受的过程路径的范围(实现在规范内的CQA)。这使得通过监测批次能够知道正在进行的批次在规范内。这还意味着，如果一个正在进行的批次看起来将偏离接受的路径范围，则可以向操作者发出警报，让操作者知道需要采取校正动作来防止产物损失。此外，可以向操作者强调导致过程条件偏差的过程测量结果(通过分析X中对T中观察到已经偏离期望进程的分数贡献最大的变量)，以帮助诊断问题和识别适当的校正动作进程。这都可以实时完成。此外，操作者只需要在正常的批次处理操作中考虑一小组概要参数，只有当出现问题时，操作者才选择与适当的主题专家一起深入讨论。

术语“通量平衡分析”(FBA)是指用于模拟细胞或其部分的代谢的数学方法。该方法将代谢网络表示为化学计量系数矩阵(化学计量矩阵S，它定义了代谢网络中每个反应产生或消耗的每种代谢物的数量)和通量向量v(待确定的变量)，它表示矩阵S中每个反应的反应速率。该方法假设系统在伪稳态下运行，使得S.v＝0。该方法进一步定义了待最大化(或最小化)的目标函数Z(它以数学术语描述细胞目标，根据对细胞代谢优化的假设)和一组约束下界≤v≤上界。换言之，该方法求解：

最大化/最小化

使

下界≤v≤上界 (5)

假设S*v＝0 (4a)

其中x是定义细胞目标的变量(通常是一个或多个反应速率v)，α和β是描述x对细胞目标的影响的系数，met是内部代谢物浓度的向量(即正在建模的细胞或其部分中的每种代谢物的浓度)，t是时间(或成熟度)，下界/上界是每个反应可接受的反应速率的下限和上限。等式(4a)没有唯一解，因为反应的数量通常高于代谢物的数量，导致一个变量多于方程的欠确定方程组。这可以例如使用线性规划、二次规划、整数线性规划或混合整数线性规划来解决。所有这些都涉及目标函数的规范(待最小化或最大化)和约束，指定待优化目标函数的空间(凸多胞形)。在线性规划、整数线性规划和混合整数线性规划中，目标函数是线性的，约束也是线性的。在二次规划中，目标函数是多个变量的二次函数，约束是线性的。在整数线性规划中，变量被限制为整数，而混合整数线性规划同时使用整数和线性约束。或者，可以使用本领域已知的任何优化方法求解上述等式组，包括非线性优化方法。可以根据目标函数的形式有利地选择合适的优化方法。特别地，当使用不具有凸解空间的目标函数时，非线性优化方法可能是有利的。简而言之，非线性优化方法可以从解空间的初始猜测开始，从中找到局部最优值，并且此过程可以重复多次以增加找到全局最优值的置信度。目标函数和约束条件的选择通常考虑到生物学因素。目标函数表示系统中的每个组分对待最大化(或最小化，视情况而定)的产品生产的贡献。目标函数的一个常见选择是系统中的生物质，假设细胞的代谢被优化以使新生的物质的生产最大化。在这种情况下，目标函数可以写成：

其中v是反应速率的向量(也称为“通量”)，v_biomass是与生物质生产相关的伪反应速率(如Feist&Palsson,Current Opinion in Microbiology,Vol.13,Issue 3,June2010,pages 344-349中所述)。生物质伪反应的化学计量可以捕获产生新细胞所需的代谢物i的质量分数(γ_i)(通过产生例如RNA、DNA、蛋白质等)。例如，生物质伪反应可以表示为Σ_iγ_i*[i]→生物质+∑_jγ_j*[j]，其中γ_i是产生生物质所需的代谢物i(具有浓度[i])的质量分数(例如，产生蛋白质所需的氨基酸，产生DNA和RNA所需的核苷酸糖，例如以ATP、水等形式的能量)，γ_j是代谢物j(浓度为[j])的质量分数，它们是生物质生产的副产品(例如ADP/AMP、磷酸盐、氢气等)。目标函数的其他可能选择包括最大化ATP的生产量(例如最大化ATP的生产率或ATP产量，其中ATP产量可以将ATP的生产率标准化为营养素(例如葡萄糖)的单位摄取率，最大限度地减少每单位生物质生产消耗的营养素等(如Schuetz,Kuepfer andSauer,Mol.Syst Biol.2007；3:119所述)。或者，目标函数可以包括最小化细胞内总通量(例如使用

形式的目标函数)，在这种情况下可以使用二次规划来解决优化问题。目标函数的其他选择可能包括最大化每个通量单位的ATP产量(例如，使用

形式的目标函数)，在这种情况下，可以使用非线性求解器来解决优化问题。每个反应的通量约束(下界/上界)可以设置为任意低/高值(即非常宽松的约束)。或者，可以通过实验确定对通量的约束。例如，反应i的通量速率v_i可以通过实验测量(产生值v_i,exp)，然后可以将模型中的通量限制在实验定义值的某个误差ε内，即：v_i,exp-ε<v_i<v_i,exp+ε。

术语“代谢通量分析”(MFA)是指一种分析细胞或其部分代谢的方法，它采用代谢的化学计量模型(如上文关于“通量平衡分析”所述，即等式(3)至(5)，但不需要伪稳态假设，即不需要等式(4a)中的假设)和细胞内通量的实验测定，例如通过同位素标记技术结合NMR(核磁共振)或质谱检测。当使用代谢通量分析时，求解等式(3)、(4)和(5)通常包括确定满足指定约束的反应速率(通量)和内部代谢物浓度met，同时使目标函数最小化/最大化。

图1A示出了根据本公开的用于监测和/或控制生物过程的系统的实施例。该系统包括计算设备1，其包括处理器101和计算机可读存储器102。在所示的实施例中，计算设备1还包括用户界面103，其被示为屏幕但可以包括向用户传达信息的任何其他方式，例如通过声音或视觉信号。计算设备1可操作地连接到(例如通过网络6)包括生物反应器2、一个或多个传感器3和一个或多个效应器4的生物过程控制系统。计算设备可以是智能手机、平板电脑、个人计算机或其他计算设备。计算设备被配置为实施如本文所述的用于监测生物过程的方法。在备选实施例中，计算设备1被配置成与远程计算设备(未示出)通信，其本身被配置为实施如本文所述的监测生物过程的方法。在这样的情况下，远程计算设备还可以被配置成将监测生物过程的方法的结果发送到计算设备。计算设备1和远程计算设备之间的通信可以通过有线或无线连接进行，并且可以发生在本地或公共网络上，例如公共互联网。如图所示，每个传感器3和可选的效应器4可以与计算设备1进行有线连接，或者可以通过无线连接进行通信，例如通过WiFi。计算设备1与效应器4和传感器之间的连接可以是直接的或间接的(例如通过远程计算机)。一个或多个传感器3被配置成获取与在生物反应器2中执行的生物过程有关的数据。一个或多个效应器4被配置为控制在生物反应器2中执行的生物过程的一个或多个过程参数。

一个或多个传感器3中的每个都可以是在生物过程中自动测量生物过程的属性(无论是否需要提取培养物的样本)的在线传感器(有时也称为“内联传感器”)，或离线传感器(无论是通过手动还是自动获取样本再进行处理以获得测量结果)。来自传感器的每个测量结果(或从此类测量中得出的量)代表一个数据点，该数据点与成熟度值相关联。一个或多个传感器3包括配置成记录生物反应器2中的生物质的传感器，在本文中称为“生物质传感器”。生物质传感器可以记录物理参数，从中可以估计生物反应器中的生物质(通常以总细胞密度或活细胞密度的形式)。例如，在本领域中已知的基于光密度或电容的生物质传感器。一个或多个传感器还包括测量一种或多种代谢物浓度的一个或多个传感器，在本文中称为“代谢物传感器”。代谢物传感器可以测量整个培养物、培养基室、生物质室(即整个细胞)或单位细胞室中的单个或多个代谢物(例如，从几个代谢物到数百甚至数千个代谢物)的浓度。代谢物传感器的示例是本领域已知的，这些示例包括NMR光谱仪、质谱仪、基于酶的传感器(有时称为“生物传感器”，例如用于监测葡萄糖、乳酸等)等。如本文所使用的，传感器3(例如，代谢物传感器和生物质传感器)还可以指从一个或多个测量变量(例如，由其他传感器提供的测量变量)估计代谢物浓度或生物质量的系统。例如，代谢物传感器实际上可以实现为处理器(例如处理器101)，该处理器从(例如测量系统的物理/化学性质的)一个或多个传感器接收信息，并使用一个或多个数学模型来根据这样的信息估计代谢物浓度。例如，代谢物传感器可以实现为处理器，该处理器从近红外光谱仪接收光谱并从这些光谱估计代谢物的浓度。这样的传感器可以称为“软传感器”(指的是使用软件获得这些传感器的“测量结果”，而不是通过直接测量获得“测量结果”)。一个或多个传感器3还包括测量其他过程条件的一个或多个传感器，这些过程条件例如是pH、培养物的体积、材料进出生物反应器的体积/质量流速、培养基密度、温度等。这样的传感器是本领域已知的。测量其他过程条件的一个或多个传感器3是否必要或有利可至少取决于如下文将进一步阐述的操作模式和由物质平衡模块做出的假设。例如，在生物过程不以非分批补料操作的情况下，包括用于测量进入和/或离开生物反应器的流的量和/或成分的一个或多个传感器可能是有利的。此外，在物质平衡模块不假设生物反应器中的体积恒定的情况下，包括用于测量生物反应器中液体的体积的传感器(例如液位传感器)可能是有利的。

图1B示出了可在图1A的系统中实施的一般生物过程的简化过程图。该生物过程在反应器2中实现，在所示的实施例中，反应器2配备有搅拌装置22。图中描述了四个流(flow)(在本文中也称为“流(stream)”)，但是根据特定情况，这些流中的任何一个流或全部流可能不存在。第一流24是包含任何添加到生物反应器中的培养物的物质的进料流F_F(通常包括新鲜培养基，在这种情况下，生物过程可称为“分批补料(fed-batch)”过程，“灌流”过程或“连续”过程)，第二流26是与生物反应器中的培养物具有相同成分的出料流F_B，第三流28A是通过使用细胞分离装置28处理辅助收获流28C而获得的收获流F_H，细胞分离装置28用于生产第三(收获)流和第四流28B，第四流28B是包括细胞和在细胞分离装置28中尚未完全分离的任何培养基的循环流F_R。在实施例中，因为仅考虑收获流F_H足以捕获通过收获和细胞分离过程从生物反应器有效输出的流，因此可以忽略循环流F_R。因此，对存在或不存在的收获流的提及可以指存在或不存在辅助收获流28C(以及导出的收获流和循环流——F_H和F_R)。可以假设收获流F_H包括与反应器中的培养基具有相同成分的培养基，但不存在细胞或存在的细胞很少。进料流、出料流和收获流(F_F、F_B、F_H和F_R)可能都不存在，在这种情况下，生物过程被称为“非分批补料过程(unfedbatch process)”或简称为“分批过程”。当提供进料流F_F和收获流F_H时，该生物过程可称为“灌流”培养。当提供进料流F_F和出料流F_B使得生物过程在(伪)稳态(从过程条件的观点来看，即，尤其是保持培养物的体积恒定)下操作时，生物过程可称为“连续”培养。当提供进料流F_F但不存在输出流(出料流和收获流，F_B和F_H)时，生物过程可称为“分批补料”过程。本发明适用于上述所有操作模式。

图1C示出了用于实施根据本发明的实施例的方法的计算架构。在图1C中，可选组件用虚线框表示。计算架构可以体现在由计算设备1或远程计算设备运行的计算机软件产品中。此外，下面描述的一些模块可以由计算设备1执行，而其他模块可以由远程计算机执行。该架构包括解析和预处理模块110、物质平衡模块120、系统生物学模块140和多变量分析模块160。多变量分析模块160可以将一个或多个结果输出到用户界面1003(例如计算设备1的用户界面103)。解析和预处理模块110将关于一个或多个生物过程的数据作为输入数据，例如从一个或多个传感器3接收的数据，包括生物质数据130A、代谢物数据130B和可选的附加数据103C，例如其他进一步的生物质数据(例如温度、pH值等)。每个数据点都与成熟度值相关联。

解析和预处理模块110将传感器103生成的数据转换成物质平衡模块120可以使用的格式。这可能涉及选自以下的一个或多个步骤：将物理设备描述中的每个传感器生成的数据加载到用于执行计算的计算机中、添加用户指定的元数据(例如批标识符、日期、感兴趣的过程条件，例如在评估特定的进料方案时等)、将多个测量结果合并到一个数据表中、将测量结果与一组常见的成熟度对齐，例如通过对较高频率数据进行子采样或分箱和/或对较低频率数据进行平滑和超采样——例如使用线性插值、零阶保持等方法——(即使传感器在不同的成熟度和/或频率下获取测量结果，也能获得与相同成熟度相关的测量结果)，以及对部分或全部测量结果进行平滑(例如，通过沿一系列测量结果的滑动窗口取平均值，或本领域已知的任何其他平滑方法，例如使用Savistsky-Golay算法)。将多个测量结果合并到单个数据表中可能包括将数据合并到一个表中，其中所有数据按成熟度对齐(例如，每个成熟度值一列，每个传感器一行)。当来自多个批次的数据被合并用于联合分析，可以为每次运行创建多个表。对部分或全部测量结果进行平滑处理可以包括对数据进行一个或多个模型的拟合，例如一个或多个多项式模型。这可能会导致函数将测量结果(例如代谢物(y_j)的浓度)表示为多项式函数，其形式为

(例如，使用Savitsky-Golay方法等)，其中n是多项式的次数，x是成熟度(例如时间)。在实施例中，解析和预处理模块110可以平滑测量数据，替代地或附加地，还可以平滑导出的值，例如由物质平衡模块120确定的伪代谢物浓度和/或单位转运速率。

物质平衡模块120使用生物质和代谢物浓度数据并计算浓度数据可用的一种或多种(例如所有)代谢物在多个成熟度m下的代谢物转运速率(qMet)。浓度数据可能是可用的，因为它已经通过一个或多个传感器3测量结果，或者例如通过使用化学成分确定的培养基而已知。如本文所用，“测量的代谢物”和“测量的代谢物浓度”是指浓度已知的代谢物，无论其是否由传感器3测量结果或者是否已经预先确定和/或作为所使用的培养基特征的一部分而已知。代谢物n的转运率qMet_n在本文中也称为代谢物n的“单位转运速率”，量化了生物反应器中在细胞和培养基之间的代谢物流量。这种通量通常由细胞消耗和/或生成代谢物引起，并且可以以每细胞每单位时间或成熟度的代谢物的量(例如质量或摩尔)的单位来表示。当代谢物是营养素时，单位转运速率也可称为“单位消耗速率”。当代谢物是产品或副产品时，单位转运速率可称为“单位生产速率”。每种代谢物的单位转运速率可以使用物质平衡等式计算，例如下面的等式(7)。

[反应器中代谢物量的总变化]＝[代谢物进入反应器的总流量]-[代谢物离开反应器的总流量]+[反应器中细胞分泌的代谢物]-[反应器中细胞消耗的代谢物](7)

等式(7)以数学形式表示系统中的质量守恒。在每个成熟度m(例如每个时间点t)下都需要满足等式(7)。等式(7)中代谢物的流可以表示为质量流或摩尔流(因为摩尔流可以通过摩尔质量转换为质量流，反之亦然，使得无论选择何种单位，都可以核实等式中表示的质量守恒)，并且本领域技术人员能够将其中一个转换为另一个。因此，对质量流的提及旨在包括在对等式内的单位的一致性进行对应调整的情况下使用对应的摩尔流。进入生物反应器的代谢物的流取决于进料流F_F(如果存在该流，即F_F≠0)和该流中代谢物的浓度的值。离开生物反应器的代谢物的流取决于收获流F_H(如果存在的话)和出料流F_B(如果存在的话)的值，以及在这些相应流中代谢物的浓度。

对于一般系统(例如，如图1b所示)，等式(7)中描述的物质平衡可写为以下等式(8)：

其中qMet是代谢物的单位转运速率。在等式(8)中，如果代谢物被消耗，则qMet为负，如果正在生成代谢物，则qMet为正。等式(8)假设收获流28A包含通过辅助收获流28C离开系统的唯一物质(即，因为代谢物仅通过收获流离开系统，所以模型中无需包括辅助收获流和回流)，并且细胞分离设备28的作用使得可以假设收获流28A不包含细胞。等式(8)可适用于包括辅助收获流28C(以及相应的[Met]和ρ)和回流28B(以及相应的[Met]和ρ)。此外，可以修改等式(8)以对通过收获流移除某些细胞进行建模。换言之，取决于生物过程的设置和所作的假设，可以在等式(8)中添加附加项，并且可以移除一些项。

对于灌流式培养(其中存在进料流、出料流和收获流)，可以通过等式(8)并做出一些假设来促使求解qMet。例如，假设在生物反应器的培养基中各处代谢物浓度相同，因此在收获流和出料流中的代谢物浓度也是相同的(换言之，假设可以忽略反应器内的浓度梯度，使得[Met]_B＝[Met]_H＝[Met])，培养基密度在任何地方都是恒定的(ρ＝ρ_F＝ρ_B＝ρ_H；特别假设由于细胞扩增和代谢物分泌引起的进料培养基密度的变化可以忽略不计)，并且可以忽略在出料流和收获流中损失的细胞数量(VCD_H＝VCD_B＝0)，则等式(8)可以写为：

其中V是培养物的体积，[Met]是培养物中的代谢物浓度，t是成熟度，F_F是进料质量流量，ρ是培养基密度，[Met]_F是进料流中的代谢物浓度，F_B是出料质量流量，F_H是收获质量流量，VCD是活细胞密度。进一步假设培养物的体积是恒定的(即F_F＝F_H+F_B)，并通过一阶有限差分近似求导数，可以求解等式(8a)以得出在成熟度m下的代谢物的转运速率qMet为：

其中下标m和m+1表示在m^th和m+1^th成熟度下的值，IVCD_m是成熟度m和m+1之间的综合活细胞密度。在实施例中，IVCD_m可以被计算为((VCD_m+1+VCD_m)/2)*(t_m+1-t_m))。或者，在实施例中，可以将函数拟合到活细胞密度数据(即，表示活细胞密度与时间/成熟度相关的函数)，例如为了在解析和预处理模块110中平滑数据。通过在成熟度m处对该函数进行积分(例如解析)，可用这样的函数计算综合活细胞密度。例如，如果表达代谢物浓度(y_j)的函数是形式为

的多项式(例如，使用Savitsky-Golay方法等)，其中n是多项式的次数，x是成熟度(例如时间)，则其积分可以通过解析确定为

其中C是常数。任何计算综合活细胞密度的方法都可用于本文所述的方法中。

如本领域技术人员所理解的，取决于操作模式(例如，分批补料、非分批补料等)和所作的假设(例如，各种流和生物反应器中的可变体积、可变浓度等)，(7)中的一般等式可以用不同的方式来表示和求解qMet。根据本文提供的教导，本领域技术人员将能够相应地表示和求解等式(7)。此外，一个特定假设是否合理可能视情况而定，本领域技术人员将能够使用众所周知的技术来核实是否是这样的情况。例如，本领域技术人员将能够核实培养物的体积是否恒定(例如通过检查流入和流出生物反应器的材料的量或使用液位传感器)、培养基密度是否恒定(例如使用比重计)、一个或多个代谢物的浓度在一个或多个室和/或流中是否相同(例如使用一个或多个代谢物传感器分别测量这些室和/或流中的代谢物浓度)等。本领域技术人员还将意识到，一个特定假设在一种情况下可能是合理的，但在另一种情况下可能是不合理的。例如，培养基中的小分子代谢物的浓度在生物反应器和流出的流(收获流和/或出料流)中可能是相同的，但是如果大分子可能会被过滤器或其他结构拦截，则大分子的浓度在生物反应器和一个或多个流出的流之间可能是不同的。

对于分批补料式培养(其中存在进料流，但不存在出料流或收获流，即F_H＝F_B＝0)，等式(8)可以写为：

通过一阶有限差分近似求导数，求解等式(8b)可以得出在成熟度m下的代谢物的单位转运速率qMet为：

在进料流是连续或半连续的实施例中(例如对于滴入的进料流)，等式(9b)中的方法可能特别有用。在实施批式(bolus)进料策略的实施例中(即，瞬时添加的进料流相对较大)，可以使用伪代谢物浓度[pMet]重写等式(8b)，伪代谢物浓度[pMet]允许从等式(8b)中消除进料流，即：

对于在进料流中提供的代谢物，可以通过以下来获得伪代谢物浓度[pMet]：(i)使用测量的(或以其他方式确定的，例如基于初始反应器的体积和一个或多个进料批次提供的体积)反应器体积和已知的进料浓度来确定每次进料中有多少代谢物被添加到反应器中，以及(ii)从进料后的代谢物浓度的所有测量结果中减去(i)中的值。对于进料中不存在的代谢物(或可假设进料中不存在的代谢物)，可以通过以下来获得伪代谢物浓度[pMet]：(i)使用测量的(或以其他方式确定的，例如基于初始反应器的体积和一个或多个进料批次提供的体积)反应器体积来确定由于每次进料引起的稀释而导致的浓度变化，以及(ii)从进料后的代谢物浓度的所有测量结果中加上(i)中的值。通过一阶有限差分近似求导数，求解等式(8b)以得出在成熟度m下的代谢物的单位转运速率qMet：

对于非分批补料式培养(不存在进料流、出料流或收获流，即F_F＝F_H＝F_B＝0)，等式(8)可以写为：

假设反应器中的体积V是恒定的(下面等式(9c)的第1步)，可以通过一阶有限差分近似求导数(下面等式(9c)的第2步)，求解等式(8c)以得出在成熟度m下的代谢物的单位转运速率qMet：

可以使用本领域已知的任何方法计算综合活细胞密度。在实施例中，如上所述，可以使用梯形法则或通过对可能拟合活细胞密度数据的函数进行积分来计算综合活细胞密度。在实施例中，可以将函数拟合到活细胞密度数据(即，表示代谢物浓度与时间/成熟度相关的函数)，例如为了在解析和预处理模块110中平滑数据。通过在成熟度m处获得函数的导数(例如解析)，可用这样的函数(而不是使用一阶有限差分近似)得到上面等式的项

例如，如果表达代谢物浓度(y_j)的函数是形式为

的多项式(例如，使用Savitsky-Golay方法等)，其中n是多项式的次数，x是成熟度(例如时间)，则其导数可以通过解析确定为

可以使用测量的生物质和代谢物浓度来求解上述qMet等式(或根据过程的配置和所做的假设集定义的任何的相应等式)以获得在上述测量结果可用的情况下在每个时间点/成熟度值下的代谢物转运速率。此外，这可以针对每个测量的代谢物单独执行。由此所得的代谢物转运速率表示培养物中细胞的代谢条件随成熟度变化，并表示为每个细胞每个成熟度单位(即通常为每单位时间)的代谢物量(质量或摩尔数)。细胞代谢条件的这些特征是在“黑盒子”级别捕获的，因为它们不是来自包含细胞内发生的代谢过程的模型，而是从一般的单细胞所产生和消耗的代谢物的角度来捕捉这些过程的效果。这表示关于细胞代谢条件的非常有价值的信息，多变量分析模块160可以使用该信息来监测细胞培养，下文将进一步描述。

物质平衡模块120的输出除了可直接由多变量分析模块160使用外，也可由系统生物学模块140使用，系统生物学模块140对培养物中细胞内发生的代谢过程进行建模，以至少计算细胞代谢反应率。本领域有多种已知的方法使用代谢网络模拟细胞的代谢(即通常是相互关联的反应组，共同捕获细胞内发生的一些或所有代谢过程)，系统生物学模块140可以使用所有这些方法。其中一种方法是如上文所述的通量平衡分析(FBA)方法，它可以以低计算成本的方式计算稳态代谢通量，而不需要详细了解酶促反应速率。另外，还可以使用本领域已知的一些方法，例如代谢通量分析(MFA，不在等式(4a)中做出伪稳态假设)、基于热力学的MFA(TMFA，使用吉布斯自由能来消除热力学上不可行的结果)、准通量平衡分析(旨在通过模型中的所有反应使总通量最小化，同时优化等式(3)中的目标函数)、酶容量约束通量平衡分析(利用酶的动力学数据，例如转换率，对通量值增加约束)以及FBA和MFA的其他等价物和修改。换言之，可以使用任何方法来确定与代谢网络相关的细胞代谢反应速率。特别地，可以使用任何方法求解等式3，受等式4的约束(无论是否做出等式(4a)的进一步假设)和一个或多个边界约束，例如等式(5)的约束(其中任何通量v都可以有下界和/或上界，即可以有任意的通量集v_i和v_j—可能是部分重叠或完全重叠的集，可能不包括模型S中的所有通量，使得

下界_i≤v_i和

v_j≤上界_j)。在实施例中，系统生物学模块140可以计算除细胞代谢反应速率之外的其他值，例如细胞中一种或多种代谢物的浓度。例如，MFA用于模拟细胞内发生的代谢过程可能就是这种情况。任何这样的输出也可以表示代谢条件变量并且可以被多变量分析模块160使用，下面将进一步解释。

目标函数可以选择为例如生物质的最大化，从而将优化问题表示为计算所有内部反应速率v，这会导致产生最大量的生物质Z，以模拟细胞生长(参见上面的等式(6))。如上所述，可以使用本领域已知的任何其他目标函数，例如最大限度地提高ATP的产量，最大限度地提高所需产品的产量(或分泌率)(例如，如果细胞经过专门改造以最大限度地提高所述产量)，等等。此外，可以在生物过程的不同阶段(即在不同的成熟度值)使用不同的目标函数。例如，可以在细胞培养物的生长期使用最大化生物质生产的目标函数，并且可以在细胞培养物的静止期使用最大化蛋白质生产率的目标函数。

对至少一些反应速率v的约束可有利地表示为由物质平衡模块120确定的单位转运速率的函数(其中此类单位转运速率可用)。特别地，与细胞隔室和培养基之间的代谢物转运相关的反应速率v有利地使用由物质平衡模块120确定的相应单位转运速率来约束。例如，对反应速率的约束表示对应于单位转运速率的转运反应(例如蛋白质的分泌、培养基中葡萄糖的消耗等)可以表示为：

下界_i＝f_low,i(qMet_i)≤v_Exchange,i≤上界_i＝f_up,i(qMet_i) (10)

其中f_low是qMet_i的第一函数，f_up是qMet_i的第二函数。函数f_low,i和f_up,i都可以是qMet_i的线性函数。例如，可以选择f_low,i(qMet_i)作为(1-x)*qMet_i(其中x是介于0和1之间的值，例如0.1、0.2、0.3、0.4等)。类似地，可以选择f_up,i(qMet_i)作为(1+x)*qMet_i(其中x是介于0和1之间的值，例如0.1、0.2、0.3、0.4等)。在两个函数的x相同的实施例中，这使得v_Exchange,i有效地被限制在区间qMet_i±(x*qMet_i)中。在x是例如0.1(分别为0.2、0.3、0.4等)的实施例中，这导致v_Exchange,被限制在qMet_i的10％(分别为20％、30％、40％等)以内。此外，一些反应速率v可能会被宽松地约束以包括广泛的可能值(即设置下界和高上界)，例如在没有单位转运速率可用于设置约束的情况下。此外，一些反应速率v可以使用可能的反应速率的先验知识来约束，例如从文献或先前的实验中获得。例如，对于仅在一个方向上起作用的反应，下界可以设置为0。类似地，一些反应速率的实际上界和下界可以从使用类似细胞和/或酶获得的测量结果中获得。

化学计量矩阵S可以包含对应于代谢网络的系数，该网络捕获被认为与生物过程有潜在关联的细胞代谢的任何部分。代谢网络和构成此类网络的途径可从许多模型细胞系和生物体的多个数据库中获得，包括例如CHO细胞和大肠杆菌细胞。此外，这些代谢网络和途径的相关子集可以根据先验知识来选择，或根据可用信息自动提取(例如，通过可获得单位转运速率的代谢物和任何其他直接或间接参与其消耗或生产的代谢物，通过关于细胞表达哪些酶的信息，例如通过基因表达分析获得的信息，等等)。在实施例中，可以使用限于中心碳代谢的代谢网络。在其他实施例中，可以使用基因组规模的代谢网络。优选使用特定于所用细胞类型或相关细胞类型的代谢网络/途径。

在实施例中，系统生物学模块140可以执行以下操作：1)生成或接收(例如，来自用户、数据库等)化学计量矩阵S；2)生成或接收(例如来自用户、数据库等)目标函数Z；3)对于物质平衡模块120已经确定了单位转运速率的多个(例如每个)成熟度点，通过求解等式(3)计算所有反应速率v(或(6)，视情况而定)，受到等式(4)(或等式(4a)，在作出伪稳态假设的情况下，如使用流量平衡分析方法时)和等式(5)(或等式(10)，其中单位转运速率是可用的——来自物质平衡模块120，其对应于要约束的特定反应速率)的约束。

换言之，上述v的等式(或任何可以使用细胞代谢模型定义的相应等式)可以使用每个时间点/成熟度值的代谢物转运速率来求解，其中这些代谢物转运速率由物质平衡模块120计算。由此产生的反应速率进一步将培养物中细胞的代谢条件表征为成熟度的函数，因为它们不仅捕获细胞和培养基之间代谢物的转运，而且还捕获已包括在模型中的细胞内的任何反应(至少其中一些消耗或产生已测量的代谢物)。在实施例中，化学计量矩阵S和用于每个成熟度(例如时间点)的优化函数可以是相同的。然而，在其他实施例中，可以在每个时间点独立地选择化学计量矩阵S和/或优化函数(等式(3))(因此可以不同)。例如，当通过不同时间点的不同数据(例如转录本)构建代谢网络时，可以在不同时间点使用不同的化学计量矩阵S。作为另一个例子，可以修改优化问题以反映不同的目标函数Z，这取决于培养阶段，例如在生长期最大化生物质，在静止期最大化蛋白质产量。因此，生成或接收化学计量矩阵S的系统生物学模块140可以包括系统生物学模块140生成或接收多个化学计量矩阵，每个化学计量矩阵与一个或多个成熟度相关联。类似地，系统生物学模块140生成或接收目标函数Z可以包括系统生物学模块140生成或接收多个目标函数Z，其中每个目标函数与一个或多个成熟度相关联。

图4中示出了可由系统生物学模块140实施的用于确定细胞代谢反应速率的方法的一个具体实施方案。在步骤400A，从物质平衡模块120接收单位转运速率。它们代表实验得出的对代谢通量的约束。在步骤400B，可选地从先验知识(例如数据库、默认设置等)中获得关于“合理”通量的附加信息。它们代表了先验知识对代谢通量的约束。在步骤405，将实验得出的约束与可选的先验知识得出的约束组合，例如只要有实验得出的约束，就使用实验得出的约束，否则就使用先验知识得出的约束。在步骤410，使用来自步骤405的约束创建通量边界。例如，如上所述，通量边界可以被创建为来自步骤410的约束的函数(例如，预定的线性函数)。

在步骤420A/420B，分别从用户和/或数据库接收待优化的一个或多个细胞目标。在步骤425，将可能已经接收到的任何用户定义的细胞目标与可能已经接收到的任何数据库导出的细胞目标合并。在步骤430，构建反映细胞目标的目标函数Z。在步骤440，可选地创建将目标函数与将被建模的代谢网络联系起来可能需要的任何伪反应。例如，在目标函数反映最大化ATP生产的目标的情况下，可以创建一个伪反应，以捕获所有生成ATP的反应的输出。例如，这可以通过包括消耗ATP的伪反应来实现，例如

其中pi是磷酸盐。如本领域技术人员所理解的，可以使用可以与最大化ATP生产的目标函数相关联的伪反应的其他公式(例如以AMP代替ATP表示等)。通过这种伪反应最大化通量(即Z＝max(v_{ATP_Drain}))相当于要求解最大化所有产生ATP的反应的通量。类似地，如果目标函数反映了最大化生物质生产的目标，则可以设计一个伪反应，捕获被假定为生物质生产所必需的代谢物(及其各自的“化学计量”)，如上所述。

在步骤450A/450B，从用户和/或数据库接收一组代谢途径(本文也称为代谢网络)。在步骤455，将任何用户定义的和任何数据库得出的代谢途径合并到单个代谢网络中。在步骤460，代谢网络被转换成化学计量矩阵S。在步骤470，在步骤440创建的任何伪反应被添加到化学计量矩阵S中。在实施例中，捕捉待使用的目标的伪反应可能不是必要的和/或可能已经包括在从用户和/或数据库接收的代谢网络中。因此，可以不执行步骤440和470。在步骤480，化学计量矩阵S、目标函数Z和通量边界下界/上界来拟合代谢模型，通过找到最大化/最小化Z的通量v(例如通量平衡分析模型)，服从以下约束：

(其中S*v＝0，当使用通量平衡分析时)，并且下界＜v＜上界。在步骤490，输出所有反应速率v(通量平衡分析的解)。

回到图1C，现在描述多变量分析模块160的功能。多变量分析模块160接受来自物料平衡模块120的输入(以qMet的形式，其已经针对一个或多个生物过程中的多个时间/成熟度值确定，如上所述)，可选地还接受来自系统生物学模块140的输入(如果有的话，至少以反应速率v-和可选的内部代谢物浓度m-的形式，这些反应速率和内部代谢物浓度已经针对一个或多个生物过程中的多个时间/成熟度值确定，如上所述)。这些输入中的每一个都提供了有关生物过程中特定时间/成熟度的细胞代谢条件的信息。来自系统生物学模块140的输入对于多变量分析模块的运作不是必需的，但它们有利地提供了关于细胞代谢条件的进一步(可能更完整/详细)的信息。因此，本文明确地设想了多变量分析模块160从物质平衡模块120获取输入的实施方案，以及多变量分析模块160从物质平衡模块120和系统生物学模块140获取输入的实施方案。多变量分析模块使用这些信息来通过考虑细胞代谢条件来表征生物过程随时间的演变。这是使用一个或多个如上所述的多变量分析模型来完成的，其中代表细胞代谢条件的变量被用来代替或补充先前在此类分析中使用的过程变量。这可以有利地使用如上所述的批次演变建模过程来实现。特别是，这可以使用PLS模型来完成，其中，在等式(1)和(2)中：

—X是测量的/计算的过程变量的m×n矩阵(包括但不限于分别从物质平衡模块120和系统生物学模块140获得的细胞代谢条件变量qMet和/或v值，以及可选的任何其他可能已测量的过程条件)，其中m是计算或测量这些值的成熟度(例如，在有测量结果的情况下的成熟度)，n是测量的/计算的变量的数量，

—Y是m×1矩阵的成熟度值，

—T是m×l分值矩阵，它描述与成熟度最相关的测量的/计算的过程变量，

—P是n×l载荷权重矩阵，它定义原始测量的/计算的过程变量与新分数之间的关系(T)—使用l潜在变量(主成分)来描述原始测量的/计算的过程变量与成熟度之间的关系，

—E是X的残差，它包含测量的/计算的过程变量(包括但不限于细胞代谢条件变量，即单位转运和/或反应速率)的变异性，这些变量未被l主成分描述；

—U是分数的m×l矩阵，它描述了与测量的/计算的过程变量(包括但不限于细胞代谢条件变量，即单位转运和/或反应速率)最相关的成熟度变量；

—Q是1×l载荷权重矩阵，它定义了原始成熟度值和新分数(U)之间的关系，并且

—F是Y的残差，它包含未被l主成分描述的成熟度变量的变异性。

换言之，PLS模型将一组测量的/计算的过程变量(包括表征细胞代谢条件的变量，即反应速率v、内部代谢物浓度(当这些已被确定时)和/或单位转运速率qMet)和相应的成熟度t投射到主成分上，使从测量的/计算的过程变量中提取的主成分与从成熟度变量中提取的主成分之间的协方差最大化。P和Q中的载荷被选为使测量的/计算的变量(至少包括细胞代谢条件变量)与成熟度之间的协方差最大化。U中的分数描述了成熟度的变异性，T中的分数集描述了预测变量X的变异性。从X中的一大组预测变量(其中许多可能是相互关联的)记录为成熟度的函数(Y)，模型会找到一个较小的空间来捕获数据中的大部分变异性。直观上，PLS把一大组高度相关的反应速率作为输入，并找到这些反应速率之间的一致模式，以确定一组较小的变量，这些变量可以被解释为代谢转变的驱动因素，并将这些变量的变化与成熟度联系起来。然后，分值T可以用作概括变量，描述了生物过程进行时细胞代谢条件的特征。PLS模型的参数(载荷和权重)可以使用一系列相关的生物过程进行量化(例如，包括来自被认为正常的运行的数据，即产生“符合规范”的产品，无论这些运行是使用相同还是不同的过程参数获得的)，以定义可接受的分数值范围。这可以称为模型校准程序或模型训练程序。然后可以使用模型校准程序的结果来监测新的生物过程(即通过使用P中的载荷来计算新的生物过程的分数T并将其与历史生物过程的分数进行比较，从而实施监测步骤或预测方法)。在多变量分析模块160从系统生物学模块140获取输入的实施例中，这些输入(因此X中的变量)可以包括与物质平衡分析模块120获得的单位转运速率相对应的速率(其中对应的速率是存在于代谢模型中的速率，捕获与单位转运速率相同的过程，即代谢物进/出细胞的净输入/输出)。例如，物质平衡分析模块120可以确定葡萄糖和乳酸盐的单位转运速率，例如q葡萄糖＝1和q乳酸盐＝1。它们可以用于对由系统生物学模块140计算的相应速率施加约束，例如0.7<q葡萄糖<1.3和0.7<q乳酸盐<1.3。系统生物学模块140将计算反应速率v，其包括已经包括在模型中的摄取速率和所有内部反应的速率，使得目标函数得到优化，并且q葡萄糖、q乳酸盐在特定范围内。因此，来自系统生物学模块140的输入可以包括来自物质平衡分析模块120的值，替代地或额外地还包括那些q葡萄糖、q乳酸盐。在实施例中，例如当使用本文所述的FBA和约束方法的特定实施方式时，由系统生物学模块140提供的速率和对应于由物质平衡分析模块120获得的单位转运速率的速率与各自对应的速率相同。在来自物质平衡分析模块120的速率在系统生物学模块140的输出中具有对应速率的实施例中，实际上多变量分析模块160接收来自系统生物学模块140的输入即可。因此，多变量分析模块160从系统生物学模块140和物质平衡分析模块120接收输入可以包括多变量分析模块160接收来自系统生物学模块140和通过系统生物学模块140接收来自物质平衡分析模块120的输入(即作为来自系统生物学模块140的输入的一部分)。在预期相应的速率相同的情况下尤其如此。如本领域技术人员所理解的，两组输入(即来自物质平衡分析模块120和来自系统生物学模块140)仍然可以被多变量分析模块160接收，例如以验证相应的速率确实相同。在来自物质平衡分析模块120的速率在系统生物学模块140的输出中具有相应的速率的实施例中，多变量分析模块160可以接收来自系统生物学模块140和物质平衡分析模块120的输入，并且对于从两个模块接收到相应速率的每个速率，可以使用来自一个或另一个模块的速率，或从两个速率得出的速率(例如平均相应速率)。

图2示意性地说明了模型校准程序，通过该程序可以提供用于监测生物过程的工具。在步骤200，获得与生物过程的一次或多次运行有关的数据，其中该过程产生了符合规范的产品。该数据包括生物质数据103A、代谢物数据103B和可选的附加数据103C。获得数据可包括收集历史数据(即从数据存储器，例如数据库102获得数据)或通过执行一次或多次生物过程并在多个时间点(成熟度值)测量生物质和一种或多种代谢物的浓度来获得数据。数据优选地包括足够的观测值，以建立代表性数据集以捕获代谢中的常见原因变异。数据还可以包括足够的观测值以捕获特殊原因变异。常见原因变异是指在生物过程的正常过程中预期的代谢变化，例如当细胞从指数生长期进入稳定生长期时。特殊原因变异是指由于过程条件变化(例如温度、pH值或大量培养基成分的变化)而导致的代谢变异。可以有意引入过程条件的变化，例如为了测试过程条件变化对生物过程输出的影响。在数据仅包括捕获常见原因变异的数据的情况下，使用所述数据进行校准后得到的模型可用于通过执行故障检测来监测过程，即确定生物过程是否在预期(“正常”)条件下进行。当数据还包括捕获特殊原因变异的数据时，使用所述数据校准后得到的模型可用于通过执行故障检测(识别生物过程未在预期(“正常”)条件下进行)来监测过程，并执行预测分析，据此可预测过程条件的变化对生物过程的影响。当满足一个或多个收敛标准时，可以认为数据集包含“足够的观测值”以捕获常见和/或特殊的变异原因。例如，当前n个主成分(其中n可以是例如1、2、3、4或5)与成熟度相关的函数的分数轨迹的标准偏差随着额外数据的添加而保持稳定时(例如，在任何成熟度值下，其变化不超过10％，或根据上下文和用户偏好选择的任何其他适当的值)，可以认为数据集包括“足够的观测值”。例如，我们考虑一个包含4次生物过程运行的数据集。该数据集可用于计算单位转运速率和可选的反应速率，如本文所述，其又可用于校准PLS模型。可以从PLS模型中提取与每次运行相关的T分数，作为其与成熟度相关的函数(每次运行各自形成轨迹[t[comp1]_m＝1,t[comp1]_m＝2,…,t[comp1]_m＝m],t[comp2]_m＝1,t[comp2]_m＝2,…,t[comp2]_m＝m])。然后利用4次运行的轨迹(avg(t[comp1]_m＝1)和sd(t[comp1]_m＝1),avg(t[comp2]_m＝1)和sd(t[comp2]_m＝1),等)可以得到每个成熟度值的平均分数轨迹和相关标准偏差。可以使用生物过程的额外运行(即包括前4次运行和第五次运行)重复该过程。这将产生新的轨迹、平均轨迹和标准偏差。如果在所有成熟度值中，第一成分分数的平均轨迹周围的标准偏差在先前获得的标准偏差的10％以内，则可以认为数据包含“足够的观测值”以捕获在运行一系列模型校准中存在的变异(例如，如果所有的运行不包括任何特殊原因变异(例如，所有的运行都保持了所有的过程条件)，这可能只是常见原因变异，或者如果其中一些运行包括特殊原因变异，则可能是常见和特殊原因变异)。正如本领域技术人员所理解的，可以使用其他方法来确定可接受的分数范围以及何时已经充分表征它(即使用何种收敛标准)。例如，“黄金批次”(代表正常批次)和可接受的CQA范围(例如“安全/有效范围”)的概念可用于定义过程何时得到充分表征(即使用何种收敛标准)。例如，可以使用不同的收敛标准，取决于表征安全和有效产品的关键质量属性的数值范围与被认为是“黄金批次”的数值范围。当被认为属于“黄金批次”的数值范围相对于安全有效产品的数值范围较窄时，“黄金批次”范围内的几个批次可能足以表征“黄金批次”。这是因为从安全性和有效性的角度来看，在存在相对宽的公差的情况下，精确划分与黄金批次相关的分数范围就不那么重要了。换言之，如果有一个很大的“安全系数”来确保“黄金批次”范围完全在可接受的CQA范围内，那么可以接受对“黄金批次”的确切范围的不太确定。相反，如果被认为处于“黄金批次”范围内的数值范围接近安全有效产品的数值范围，则可能需要在该范围内有更多的批次。此外，至于什么是可以接受的(不确定)水平，这可能取决于上下文，例如产品的预期用途。因此，用于特定生物过程的适当收敛标准通常根据具体情况确定。可以根据监管机构的指导进一步确定，例如国际人用药品技术要求协调委员会(ICH)的Q8-Q10质量指南(可从以下网页获取：https://www.ich.org/page/quality-guidelines)。

在步骤210，数据由解析和预处理模块110处理。在步骤220，对于数据可用的一种或多种代谢物，由物质平衡模块120计算单位转运速率。在步骤240，反应速率可选地由系统生物学模块140使用来自步骤220的单位转运速率计算。在步骤260，由多变量分析模型160校准代谢条件模型。这可以具体包括以下步骤。可以通过观测值展开来获得所有运行的成熟度矩阵(即Y矩阵)。观测值展开包括连接第一次运行的一系列成熟度值，然后是第二次运行的一系列成熟度值，等等。例如，如果执行了3次运行并且每次运行都采集了6个样本，那么将获得大小为18×1的成熟度值矩阵。所有运行的细胞代谢条件变量的矩阵(即形成X矩阵的一部分或全部)可以通过将在步骤220确定的速率和/或在步骤260确定的速率“叠加”在另一个之上而获得，使得每列都包含有关特定速率的数据，每行包含有关成熟度的数据。在上面的示例中，如果计算了95个速率，则X矩阵的大小为18×95。可以添加额外的可选列到X矩阵中步骤220,260的输出。例如，可以添加根据其他反应速率计算的变量(例如，汇总生成ATP等代谢物的所有反应的速率)。替代地或另外地，表示过程条件(例如温度、pH等)的变量可以包含在X矩阵中。然后使用偏最小二乘回归法从上述步骤中构建的X和Y矩阵中得到分数(T和U)、载荷权重(P和Q)和残差(E和F)。然后可以将生物过程产品的关键质量属性的知识与来自模型的信息相结合280，以定义被认为是正常的运行和/或将测量或预测的CQA与模型中的代谢条件信息联系起来(例如使用反应速率和/或内部代谢物浓度，单独或与过程条件结合，作为PLS模型的预测变量来预测CQA)。这些正常运行的分数值T然后可用于通过在每个成熟度值(在最简单的情况下，它可能代表一个时间点)的平均分值周围定义一个可接受区域(例如±n标准偏差(SD)窗口，其中n可以选择为例如1、2、3或导致选定置信区间(例如95％置信区间))来定义内部代谢条件的正常演变的值。这在图5中进行了说明，图中示出了五次运行的第一主成分和第二主成分(分别在上图和下图)的分数t，以及随时间变化的平均分数和平均分数周围的±3标准偏差包络线。在步骤260可以使用其他模型，例如PCA(作为主成分回归，PCR的一部分)或(O)PLS模型。例如，此类模型可用于将多变量分数定义为成熟度的函数，这些分数可用于监控过程的演变。使用PCR时，矩阵X(包括代谢条件变量的过程变量矩阵，适用于所有成熟度)可以进行主成分分析(PCA)。向量Y(成熟度的向量)可以用作对一个或多个主成分作为协变量进行回归的结果的向量，例如使用线性回归。与PLS相比，PCR的缺点是它通过寻找独立于Y的X的变化来创建分数空间。换言之，虽然PCA确定了数据集中变化最大的过程变量，但它本质上是通过将多个成熟度的过程变量视为重复(丢失成熟度信息)来处理的。这意味着PCA分数可能无法捕获过程变量的各个方面，特别是随时间变化的变量(尽管它可以捕获整个过程变量的变异性，因此仍然提供信息)。对于一组被认为正常运行的批次(即符合规范)，这样得到的一个或多个主成分的PCA分数可以根据时间的函数获得，并用于定义“正常”轨迹(对于每个这样的主成分)和置信区间，如前所述。

图3示意性地示出了生物过程监测程序，该程序使用通过校准模型获得的工具，如图2所述。在步骤300，获得与待监测的生物过程的运行有关的数据。这些数据包括生物质数据103A、代谢物数据103B和可选的附加数据103C。在步骤310，数据可选地由解析和预处理模块110处理。在步骤320，对于有数据的一种或多种代谢物，由物质平衡模块120计算单位转运速率。在步骤340，可选地由系统生物学模块140使用来自步骤320的单位转运速率来计算反应速率。在步骤360A，通过计算生物过程中细胞的代谢条件并将其与正常生物过程中细胞的预期代谢条件相比较，使用预校准的代谢条件模型将生物过程的代谢条件(可选地补充有关于过程条件的信息)分为在“正常”和“非正常”两类。如果该模型是PLS模型，先前校准的载荷权重P可用于将在步骤320、340计算的速率投射到形成由P定义的新空间的一个或多个主成分上，以获得捕获生物过程中细胞代谢条件的新变量T。换言之，先前校准的载荷权重P可用于计算新运行的分数T。在模型校准中包括过程条件和/或可选的导出变量的实施例中，这些也可用于预测步骤。将生物过程中细胞的代谢条件与正常生物过程中细胞的预期代谢条件进行比较可以包括将针对生物过程获得的一个或多个分数T与一组被认为是正常的运行(例如已知会导致符合规范的产品的运行)的置信度包络(其可以是例如置信区间或标准偏差包络线，即定义为平均值±n标准偏差之间的值范围——其中n可以是例如1、2或3，或在选定的统计分布下相当于p％置信区间的任何数值，并且n平均值以上的子范围和平均值以下的子范围可以相同或不同，即该范围不需要围绕平均值对称)进行比较。如果至少第一主成分的T分数落在标准偏差范围内，则生物过程中细胞在特定成熟度值下的代谢条件可归类为“正常”，否则归类为“不正常”。如果至少第一主成分和第二主成分(或第一、第二和第三，或任何数量的主要成分)的T分数落在各自的置信区间内，则生物过程中细胞在特定成熟度值下的代谢条件可归类为“正常”，否则归类为“不正常”。可以提取任意数量的主成分(最多为数据中的变量数量)，并且原则上可以监测其中的任何一个。然而，连续的附加主成分所捕获的数据变异性会逐渐减少。此外，从过程监测的角度来看，监测尽可能少的主成分可能是有利的，捕获偏离正常状态可能是必需的。事实上，增加被监测的主成分的数量可能会增加监测过程的复杂性并降低过程条件定义的灵活性，在确保过程按照规范运行方面的收益有限。因此，仅监测第一个(或仅前两个，仅前三个等)主成分可能是有利的。在实施例中，待提取(和可选的监测)的主成分的数量由交叉验证确定，其中如果在从X中的值预测Y中的值时，一个或多个额外的主成分被提取和/或监测，这将导致交叉验证率增加。在步骤360B，如果生物过程中细胞的代谢条件被归类为“不正常”，则可以识别故障。可以实时向用户报告故障(即，一旦在步骤360A识别出故障，就立即报告)。在实施例中，故障的识别可以导致信号被发送到用户界面或效应器设备，以便由操作者采取纠正动作或效应器设备自动采取纠正动作。在步骤360C，可以基于细胞的代谢条件预测一个或多个关键质量属性，例如使用预训练的预测模型，如PLS。可以针对获取数据的每个时间点/成熟度值重复步骤300至360A以及可选的360B和360C。图6示出了示例性结果，其中示出了三个正常运行的第一主成分的分数t，以及随时间变化的平均分数和正常运行的平均分数周围的±3标准差包络线，以及两次运行的第一主成分分数，其中在这两次运行中，特意在第7天加入了导致产品不合格的过程条件变化(温度变化)。从图6可以看出，这些变化导致生物过程中细胞的代谢条件超出了正常过程的标准偏差范围，从而触发了警报。此外，使用载荷权重P中的信息，有可能将对第一部分分数的影响追溯到被模型捕获的TCA循环和Ox-Redox状态(参见图示代谢网络上突出显示的路径)。

因此，本发明可用于监测生物过程以确保它们保持在规范内。这还可以为过程操作员发出警报，以便可以采取纠正措施使该批产品恢复到规范内或提前结束该批产品以避免浪费更多资源。

实施例

现在描述校准模型的示例性方法以及用于监测生物过程的示例性方法。

材料和方法

非分批补料式培养(实施例1)

使用Karra、Sager和Karim(Computer Aided Chemical Engineering,Vol.29,2011,Pages 1311-1315)的方程模拟了非分批补料式培养的代谢物(特别是葡萄糖、谷氨酰胺和乳酸盐浓度)和细胞密度的测量。对初始葡萄糖浓度和模型系数进行了调整，以模拟三种不同培养基中的分批补料行为。将白噪声添加到模拟数据中，细胞密度的相对标准偏差为5％，代谢物浓度的相对标准偏差为7％，以使用Nova Flex分析仪测量不确定性的影响。由此得到的模拟原始细胞密度测量结果如图7A所示。得到的模拟原始代谢物测量结果如图7B-D所示。

分批补料式培养(实施例2)

细胞系和种子培养：本研究使用表达单克隆IgG1抗体的Cellca DG44 CHO细胞系(Sartorius)。选择该细胞系是因为其生产的过程和生物制品已在工业上得到验证并得到了很好的表征。接种组从冷冻瓶解冻开始。冷冻瓶含有1mL的CHO悬浮液，浓度为3000万个细胞/mL。解冻后，将CHO悬浮液转移到15mL Falcon^TM试管(Sarstedt)中，其中装有10mL预热的(36.8℃)种子培养基。为去除所有冷冻介质，将悬浮液在室温下以190g离心3分钟(Centrifuge 3-30K，Sigma)。倒出上清液，并将颗粒重新悬浮在10mL新鲜的预热种子培养基中。将该悬浮液转移到装有150mL预热种子培养基的500mL摇瓶(Corning)中。悬浮培养物在孵育摇床(CERTOMAT^TM CT plus,Sartorius)中以120rpm的速度摇动，摇动幅度为50mm，温度为36.8℃，气氛为7.5％的CO₂。种子培养物每3-4天传代一次，直到接种生产培养物(第9代)。

培养基制备：种子培养基(SM)用于种子培养，基础培养基用于生产(PM)。此外，还使用了两种不同的进料，进料培养基A(FMA)和进料培养基B(FMB)。所有培养基都是市售XtraCHO培养基平台(Sartorius)的一部分并且化学成分明确。所有的成分都是用水液化并经过无菌过滤的粉末。

小型生物反应器：使用高度平行的高通量小型生物反应器系统ambr^TM250，其具有多达24个一次性细胞培养生物反应器容器(Sartorius)。该生物反应器有两个斜流式叶轮和一个开放式管道分布器，工作容积可以在185mL和250mL的范围内。每个生物反应器的溶解氧(DO)、温度(T)、pH和放气均独立控制。空气、氧气(O₂)和二氧化碳(CO₂)用于充气，其中CO₂也用于pH控制。下面详细描述过程条件。生物反应器系统与计算机相连，该计算机用于执行生物反应器运行所需的计算——其中包括在向反应器添加进料或从反应器中提取样品后整个培养过程中反应器中的液体的体积值，等等。生物反应器系统还连接到一个监视器，用于显示生物反应器当前的运行状态。

过程条件：接种前，生物反应器中充满PM并平衡过夜。DO设定点为60％，pH设定点使用CO₂维持。每24小时添加20μl消泡剂C乳液(2％，Sigma)以防止起泡。生物反应器从种子组中接种，起始浓度为30万个细胞/mL，允许为期三天的分批阶段，然后是九天的分批补料阶段。FMA和FMB自动不连续地进行批式进料，分别辅以葡萄糖进料溶液(400g/L，Merck)，以将葡萄糖浓度维持在3g/L以上。在整个生物过程中监测反应器体积。直到第7天，所有生物反应器都在36.8℃的温度设定点下运行，并且pH值保持在7.1。第7天后，对温度和pH值在三个水平上进行了全因子试验设计(DoE)。温度水平为31.2℃、34℃和36.8℃。pH值分别为6.9、7.1和7.3。在第7天到第12天，进行了多次中心点重复，温度保持在36.8℃，pH保持在7.1。其余批次均在第7天至第12天以单一的温度/pH值组合运行。中心点重复被用于“正常”代谢条件的模型训练，下面将进一步解释。实施DoE过程是为了展示本发明的模型预测能力，如下文进一步解释。

分析：在ambr^TM系统中，每天可以通过液体处理器(LH)自动采集最多三个样品。LH将部分细胞培养液转移到外部采样模块(ESM)，并将其送入BioProfile^TM FLEX2(NovaBiomedical)，并转移到其他样品管以进行进一步分析，例如NMR代谢物表征。通过BioProfile^TM FLEX2(Nova Biomedical)分析葡萄糖、乳酸盐等代谢物，以及活细胞密度、渗透压、pH和pO2等细胞参数。用于进一步分析的样品在室温下以300g离心5分钟(Centrisart^TM A-14C，Sartorius)。上清液通过Minisart^TM RC4 0.2μm注射器过滤器(Sartorius)过滤，并储存在-80℃的冷冻室中。通过外部服务提供商(EurofinsScientific)进行核磁共振分析氨基酸等细胞外代谢物。来自FLEX2的原始细胞密度测量结果如图8A所示。来自FLEX2(葡萄糖、乳酸盐和氨)和外部NMR分析(谷氨酰胺和谷氨酸盐)的原始代谢物测量结果显示在图9B-F中。葡萄糖、乳酸盐、谷氨酰胺和谷氨酸盐的测量结果是使用FLEX2仪器和NMR获得的，但对于每种代谢物仅示出了其中一个在图8B-F中。在图8A-F中，垂直黑线表示在温度和pH值下实施DoE的成熟度。在垂直黑线之前，所有批次都是相同的，而在垂直黑线之后，根据所示的DoE方案测试了不同的条件。

灌流式培养(实施例3)

一般过程描述：灌流式培养是根据专有过程进行的。一般而言，通过不断向细胞提供新鲜培养基并去除旧培养基同时保持细胞的培养状态，灌流式生物反应器可以长期培养细胞，长达数月。新鲜培养基的流速(进料流)通常是受控和/或已知的(例如被固定或测量)过程条件之一，新鲜培养基的组成和物理特性(例如密度)也是如此。旧培养基的流速通常也是受控和/或已知的(例如被固定或测量)。在灌注过程中，可以用不同的方法来保持细胞的培养状态同时去除废旧培养基。其中一种方法是通过使用与细胞结合的毛细纤维或膜将细胞保持在生物反应器中。另一种方法不结合细胞，而是依赖过滤系统将细胞保持在生物反应器中，同时允许去除培养基。还有一种方法是使用离心机分离细胞并将它们送回生物反应器。

分析：此处使用Nova Flex分析仪以与上述非补料和分批补料过程类似的方式获得细胞密度测量结果和代谢物浓度测量结果。还监测了反应器体积。

解析和预处理模块

解析和预处理模块的主要目的是将不同的测量结果与一组共同的成熟度(所有当前示例为时间)对齐。该模块的一个可选部分是平滑数据，以便将来的计算更加准确。这里采用了一种算法，它可以一步完成这两个目标。该算法是使用Python 3.6在内部开发的。可以使用任何将不同的测量结果与一组共同的成熟度对齐的方法。这些方法包括，例如线性插值、零阶保持等。类似地，可以应用任何平滑算法，包括例如移动平均法、Savistsky-Golay法等。例如，Savitsky-Golay算法使用线性最小二乘法使用线性最小二乘法，用低度多项式拟合相邻数据点的连续子集。当一个或多个函数被拟合到数据上时，例如使用Savistsky-Golay算法，可以从拟合函数中获得缺失值和平滑值。下面的实施例2-3中使用了这种方法。

物质平衡模块

一般的上游细胞培养过程使细胞生长以产生由细胞代谢过程产生的产物；图1B示出了这些过程的一般示意图。反应器2中的细胞浓度(也称为活细胞密度)标记为VCD。细胞在体积为V的反应器2中生长。该容器内的培养基具有密度ρ，它由细胞生长所使用的营养物质以及由细胞分泌到培养基中的代谢副产物组成；所有这些代谢物的浓度都标记为[Met]，其中Met可以是葡萄糖、乳酸盐等。如上所述，该图代表了实施例1-3中使用的所有三种过程类型。但是，分批补料(实施例2)和灌流(实施例3)过程有一些额外的考虑因素。在适用的情况下，进料流24可用于向生物反应器提供额外的培养基。进入反应器的物质的质量(或体积)流量为F_F。补料培养基的密度标记为ρ_F，补料培养基中代谢物的浓度标记为[Met]_F。在适用的情况下，出料流26可用于控制生物反应器内的细胞密度，通过将富含细胞的培养基从生物反应器中排出同时将无细胞培养基进料到生物反应器中。出料流的特征在于与进料流相同的三个因素下标为B而不是F。它的特征还在于一个附加因素，即出料流中的活细胞密度VCD_B。在适用的情况下，可以将细胞保留装置28，例如交替切向流过滤(ATF)系统附接至生物反应器。在此，辅助收获流将富含细胞的培养基从反应器带到细胞保留装置，然后可以在收获流28A中去除无细胞培养基，该收获流连续从系统中去除产物以进行纯化；然后辅助返回流28B将剩余的培养基和浓缩的细胞返回到生物反应器。收获流的特征在于与出料流相同的参数以字母H为下标。两个辅助流(辅助收获流和辅助返回流)也可以像所有其他流一样表征，并在质量平衡等式中加入相应的项。在实施例3中，只针对收获流28A建模，因为该流中的物质真正离开系统(即收获流包含离开系统的辅助收获流的一部分)，而辅助返回流中的物质没有真正离开系统。

一般而言，等式(7)描述的物质平衡用于确定每个细胞消耗或分泌的代谢物的量。等式(7)可以等效地写成：

[反应器中代谢物质量的总变化]＝[代谢物进入反应器的总流量]+[代谢物离开反应器的总流量]+[反应器中细胞消耗或分泌的代谢物的总质量](7a)

基于图1B中所示的系统，其采用等式(8)的形式，其中qMet是代谢物的单位转运速率，假设可以忽略辅助流并且收获流不包含细胞(即保留装置28是完美的)。在该等式中，如果qMet为负，则说明代谢物正在被消耗，如果qMet为正，则表示正在产生代谢物。可以针对这些实施例中使用的每种类型的培养物表达和求解等式(8)，如下面关于实施例1-3的解释。

系统生物学模块

基于约束的方法：我们可以将细胞视为小型生物工厂，其中细胞的内部代谢代表工厂的运行状态。例如，由图14所示的中心碳代谢途径定义的细胞工厂使用葡萄糖作为原料，将其送入由糖酵解和磷酸戊糖途径定义的装配线，以产生细胞工厂运行所需的势能和中间构件。细胞基因组中编码的代谢酶及其相关特性定义了负责代谢物相互转化的化学反应。生成这些反应或其子集的基因组比例图提供了可能在细胞工厂内运行的所有装配线或者至少是对细胞工厂运行的特定特征进行建模所必需的装配线子集的相关描述。

如等式(4)所示，化学反应的化学计量S定义了一个等式组，该等式组将内部代谢物浓度m与反应速率(也称为通量)v联系起来。为了模拟感兴趣的表型行为，使用了细胞目标Z的数学描述。例如，细胞工厂可能产生新的DNA、最大化ATP生成、最大化每单位ATP产生的生物质、最大化蛋白质生产率等。DNA的大分子结构由细胞工厂装配线产生的中间构件组成。具体而言，一定量的核苷酸前体核糖-5-磷酸需要通过磷酸戊糖途径产生，以构建DNA的核苷酸结构。这提供了感兴趣的表型行为(如DNA复制率)与被建模的细胞的内部代谢条件x(如核糖-5-磷酸生产率)之间的数学联系。这采用了优化问题的形式，如等式(3)中所示，其中系数α和β描述了x对细胞目标Z的线性影响和非线性影响。

为了避免对细胞行为做出虚假预测，可以在模型中加入额外的约束条件，描述真实条件下细胞的代谢条件。为此，在模型中加入了代谢物摄取率数据，以定义细胞工厂可用的原料数量。例如，将葡萄糖带入细胞工厂的速率对产生核糖-5-磷酸的速率设置了上限，这反过来又对创建新DNA的速率设置了上限。同样，副产物(或产物)分泌率数据可以包含在模型中，以定义损失的和无法用于实现细胞目标的原材料的数量。换言之，可以使用由物质平衡模块确定的单位转运速率来设置对代谢模型的约束。可以对任何内部反应速率(例如，基于启发式或关于反应的先验知识)以及任何摄取/分泌速率设置约束条件。这些约束条件可用于对如等式(5)中所示的通量应用上界和下界，即对于这些界限已知的每个i和j反应，可以设置：

一般而言，受等式(4)和(5)(或(5a)、(5b))的约束，可以求解等式(3)以估计细胞的内部代谢状态。

在下面的示例中，S是使用图14中所示的中心碳代谢途径图中的94个反应和生物质的伪反应(因此总共95个反应以S表示)定义的。

通量平衡分析：为了简化解决上述优化问题的过程，可以引入一些假设。首先，可以应用伪稳态假设，在该假设下，代谢物转运速率的变化比内部反应速率慢一个数量级。因此，代谢物浓度的变化不会改变(等式(4a))，即S*v＝0。

从演变的角度来看，可以说细胞的一个好的“目标”是分裂。细胞工厂的相应目标是从头开始建设第二细胞工厂。这需要原始细胞工厂为第二工厂的壁建造新的膜，为第二工厂的装配线建造新的酶和新的DNA，以便第二工厂也有一套标准的操作程序可以遵循。正如DNA需要生产前体核糖-5-磷酸一样，这些大分子都由原始细胞工厂的装配线产生的中间构件组成。因此，可以使用等式(3)中定义的目标函数作为

其中v_biomass是根据伪反应生成生物质的速率，该伪反应表达了：假设是生成生物质所必需的代谢物(例如DNA、蛋白质等的代谢前体、能量、水等)、生成的生物质和生成生物质的任何副产物之间的关系(例如质量分数，γ_i，定义了参与生物质生产的代谢物的相对量)。因此，优化问题是找到通量的向量v_i，使由生物质伪反应表示的奇异通量达到最大值。最后，采用由物质平衡模块确定的代谢物转运速率，并用它们来约束解空间，使其只包括这些转运速率在其测量结果的30％以内的通量分布，如等式(5c)所示：

0.7*qMet_j≤v_j≤1.3*qMet_j (5c)。

然后，在每个时间点，根据等式(4)和(5c)中的约束条件求解等式(3a)，以找到相应时间点上的所有反应速率v。对于图13所示的正常批次代谢物转运速率中的第一个时间点，得到的通量分布如图15A所示。用于约束等式(5c)的5个单独反应速率也标记在图15A的边界上，它们的值在图15B中突出显示。优化问题是使用MATLAB(Mathworks)中的COBRA工具箱实现的。

获得通量分布后，可以计算有关细胞状态的附加信息。例如，细胞生成的ATP总量可以通过加总所有生成ATP的反应(例如图15A中标记的PGK和PYK反应)的反应速率来计算。

细胞代谢的动态监测：与在图15中获得的t₀单一通量分布的方式相同，通过应用等式(3a)并受等式(4)和等式(5c)的约束，改变等式(5c)中的j代谢物转运速率以反映获得通量分布的当前时间点，找到生物过程中其他时间点的通量分布。在下面的实施例中，用于每个时间点的化学计量矩阵S和优化函数(等式(3a))是相同的。然而，在其他实施例中，可以在每个时间点独立地选择化学计量矩阵S和/或优化函数(等式(3))(因此可以不同)。例如，当由不同时间点的不同数据(例如转录本)构建代谢网络时，可以在不同时间点使用不同的化学计量矩阵S。例如，可以修改优化问题以反映不同的目标Z，这取决于培养阶段，例如在生长期使生物质最大化，在静止期使蛋白质产量最大化。

多元分析模块

训练(校准)：多变量分析模块中应用的过程将在下面参考分批补料过程(实施例2)进行解释。类似的过程可以应用于其他配置，例如实施例1的非分批补料过程和实施例3的灌注过程。四个批次中的三个批次根据上面分批补料部分中描述的标准操作程序操作，温度和pH值处于正常水平，用于训练(在图8中表示为“NT”的批次)。这些批次中的每一个都被认为代表产生在规范内的CQA的产品的批次。此外，这三个批次共同被认为代表了足以建立一组有代表性的数据的观测结果，以捕捉代谢的常见原因变异。这是通过验证控制图中的标准偏差收敛来评估的(见下文)。一般而言，可以使用启发式方法和/或基于数据的标准来验证，所使用的标准在不同的过程中可能有所不同。然后如上所述获得内部反应速率v；图16示出了这四个批次中的一个批次的最终演变。批次成熟度(来自解析和预处理模块)是图16A中每个点的x轴值，它们相互堆叠以通过观测值展开来创建Y矩阵。在四个批次中的每一个批次都进行了34次测量，从而得到大小为136x1(34*4＝136)的矩阵。图16B-D示出了所使用的代谢模型中94个反应(不包括添加到该模型的生物质伪反应)的三个通量分布。此外，通过系统生物学模块，在所有四个批次的每个时间点上都可以得到这些通量分布。将观测值展开应用于通量分布，以将它们堆叠在一起，以与成熟度相同的方式获得X矩阵。最终得到大小为136x95的X矩阵。生成的总ATP的计算量被添加到X矩阵中，作为附加列，从而得到最终大小为136x96的矩阵X。可以使用类似的过程将过程条件添加到矩阵X，即作为附加列。

偏最小二乘法(PLS)回归用于表征反应速率和生成的ATP(统称为X)随成熟度(即本例中的批次时间，称为Y)变化的方式。X和Y共同被称为特征空间。然而，X中的变量并不是相互独立的。例如，糖酵解途径中间没有分支的四个反应必须共线变化——由于等式(4a)中的稳态假设，提高一个反应的反应速率必然会导致其余三个反应的反应速率的提高。因此，找到了一组线性独立变量(称为主成分)，可以对这些变量而不是原始变量进行回归。载荷权重p_i和q_i,分别定义X和Y数据的原始特征空间和新分数空间之间的关系。它被称为分数空间，因为主成分上的每个观测值被称为分数。X块的分数用t_i表示，Y块的分数用u_i表示。选择载荷权重p_i和q_i以使分数t_i和u_i之间的协方差最大化，以便在线性独立的分数空间中优化X和Y之间的预测能力。特征空间、分数和载荷之间的关系由等式(1)和(2)描述，也可以表示为：

其中n是待提取的主成分的数量。在下面的实施例中，n的值通过交叉验证确定，其中如果更多的成分被提取出来，就可以提高X对Y的交叉验证预测率。未被n个提取的主成分描述的X和Y的变异性仍然存在于残差矩阵E和F中；如果如上所述地选择n(其中提取了所有增加X对Y的交叉验证预测的成分)，它们是独立于生物过程演变的代谢。例如，它们可能在整个生物过程中是恒定的，或者可能捕获原始测量计算中携带的噪声。

监测/预测：提取的每个主成分的分数值T可用于定义内部代谢状态的正常演变，通过定义每个时间点的平均分值周围的±n标准偏差的包络线(其中n可以取任何选定的值，例如3)。分数保持在这些范围内的生物过程可以说是保持了与已知生产有效产品的历史生物过程足够相似的内部代谢状态，因此，可以假定新的生物过程生产有效产品(即符合规范的产品)。

由于分批补料过程中的所有DoE批次同时运行，因此预测步骤已经完成一部分。有五个新批次需要考虑：在正常pH值和温度水平下运行的四个批次中的一个批次，其被排除在训练步骤之外；两个批次的温度在第7天后略有下降；两个批次的温度在第7天后大幅下降。所有这些批次生成ATP以及对应于所用代谢模型的95个通量值。

使用PLS模型在训练步骤中生成的载荷p_i和等式(1a)来计算新批次的每个观测值的分数t_i。这些值被叠加在训练步骤生成的控制图上。任何偏离控制限度的情况都可以通知工程师/工厂操作员。因此，即使操作员不了解这些图表中捕获的生物系统，操作员也能够从单个控制图表中识别出过程不符合规范。

此外，来自模型的信息可用于调查控制图中偏差的根本原因。事实上，载荷捕获了多个原始变量的影响，这些影响可能都很小，因此能够检测许多变量中的小偏差，而不需要在一个变量中找到大偏差。特别是，载荷权重可用于确定每个变量(在本例中为代谢模型中的通量和生成的总ATP)对两个批次的平均观测值之间的预测差异的多变量贡献(例如，正常批次—符合规范-和极低温度下的批次—不符合规范)。

实施例1-非分批补料式培养

解析和预处理模块：如上所述获得模拟的活细胞密度、葡萄糖浓度、乳酸盐浓度和谷氨酰胺浓度数据。该数据如图7所示。数据是针对一组共同的批次生成的，因此它们可以合并。每个模拟批次都有一个唯一的ID(在实践中可以用来指示该批次来自哪个容器(1-1、1-2等))。虽然不是必需的，但每个批次的培养基类型也被附加到数据中，以便以有意义的方式绘制数据。容器/批次ID和培养基类型是元数据的示例，可以通过解析和预处理模块附加到数据中。图7A中示出了模拟原始活细胞密度，图7B-D中示出了模拟原始代谢物数据，这些数据分别进行了平滑处理，生成了图9中所示的平滑数据。

物质平衡模块：在非分批补料式培养中，没有细胞保留装置，因此没有辅助流。此外，也没有物料流入/流出反应器(前提是从反应器中移除用于取样的材料量忽略不计)。因此，F_F＝F_H＝F_B＝0，等式(8)简化为等式(8c)。我们假设与整个反应器体积相比，从生物反应器中移除的物料量可以忽略不计。因此，反应器体积大致恒定并且可以通过求解等式(8c)以获得qMet，如等式(9c)中所示(第一步)。可以通过一阶有限差分近似来求解等式(8c)以获得qMet，如等式(9c)第二步所示。另外，如果代谢物数据已经用一种对代谢物数据进行函数拟合的方法(即表示代谢物浓度与时间/成熟度的关联的函数)进行了平滑处理，该函数可以通过获得该函数在成熟度m处的导数(例如解析法)来获得项

例如，表示代谢物浓度的函数(y_j)是一个多项式(例如使用Savitsky-Golay法等)，其形式为

其中n是多项式的次数，x是成熟度(例如时间)，则它的导数可以通过解析法确定为

无论以何种方式求解方程(9c)(第一步)，都会得到所需的代谢物转运速率。本实验中葡萄糖、乳酸盐和谷氨酰胺的结果见图12。

系统生物学模块：上述方法适用于图9所示非分批补料的转运率。所有批次生成的ATP总量如图17所示。虽然此处仅显示单变量计算的ATP生成量，但在计算生成的ATP的每一个点上，都有一个相关的多变量通量分布(95个反应速率)对于计算生成的ATP的每个点，都有一个相关的多变量通量分布(95个反应速率)。

多变量分析模块：通过系统生物学模块在每个时间点获得非分批补料处理过程生成的总ATP(如图17所示)和来自代谢模型的95个通量值(图17中的值从中得出)。如上文所述，这些用于构建PLS模型的X和Y块采用与分批补料过程相同的方式。由此得到的多变量控制图如图20所示。在这个实验中，没有故意偏差的批次来检测代谢状态的变化，因此没有实施预测步骤。这样的步骤将以与上面对分批补料过程解释的类似的方式完成。

实施例2-分批补料式培养

解析和预处理模块：原始活细胞密度、葡萄糖浓度、乳酸盐浓度、谷氨酰胺浓度、谷氨酸盐浓度和氨浓度保存在Excel文件中。尽管一些代谢物是在Flex2上测量的，一些是在NMR上测量的，但它们都是由同一样本生成的，因此它们可以合并到一个文件中，共同的批次时间见图8。每个批次都有一个唯一的ID，以指示它来自哪个批次(BR01、BR02等)。虽然没有必要，但每个批次的DoE条件也附加到数据中，以便以有意义的方式绘制数据。批次ID和DOE条件是元数据的示例，可以通过解析和预处理模块附加到数据中。图8A中所示的原始活细胞密度已按上述方式进行平滑处理。活细胞密度的平滑数据如图10所示。

使用一种方法对代谢物数据进行平滑处理，该方法考虑了根据批式进料方案提供的进料引起的浓度峰值变化(例如：图8B所示的葡萄糖浓度在第3天后的每日峰值)，其中使用较大的瞬时添加培养基。特别是，表示物质平衡的微分方程的项(参见下面的物质平衡模块)使用伪代谢物浓度[pMet]表示，允许消除进料流项。对于营养物(在这种情况下指的是添加到进料流中作为细胞营养物的代谢物)，例如图11(a)中所示的葡萄糖，这是通过测量反应器体积和已知的进料浓度来完成的，以确定每种进料向反应器添加多少营养物质。然后从进料后所有营养物质浓度测量结果中减去该值。由此得到伪代谢物浓度，表示为[pMet]，如图11(b)中的葡萄糖所示。对于培养基中不存在的代谢物(即不在进料中添加到反应器)，例如图11(c)中所示的氨，测得的反应器体积用于确定由每次进料引起的稀释导致的浓度变化。然后将该值添加到该进料后所有代谢物浓度的测量结果中。由此提供了伪代谢物浓度，如图11(d)中氨所示。本领域已知的平滑算法(例如用于VCD的算法)可以应用于这些伪代谢物测量结果，而不是原始代谢物浓度测量结果。此外，在这种情况下，平滑分两步进行，一步针对实施DOE条件之前的数据，另一步针对实施DoE条件之后的数据。在使用滴加进料策略的实施例中(即，预期浓度不会发生飞跃式变化)，可以以与非分批补料式培养物和灌流式培养类似的方式对代谢物进行平滑处理。

物质平衡模块：在分批补料式培养中，没有细胞保留装置，因此没有辅助流。此外，也没有物料流出反应器(前提是从反应器中移除用于取样的材料量忽略不计)。因此，F_H＝F_B＝0，等式(8)简化为等式(8b)。由于在本例中实施批式进料策略，我们可以用伪代谢物浓度[pMet]重新定义微分方程，使进料流项消除(如上所述)。由此得到方程(8d)。我们假设与整个反应器体积相比，从反应器中移除的体积以及送入反应器的体积可以忽略不计。因此，我们也可以假设反应器体积大致恒定并且等式(8d)简化为等式(9d)(第一步)。可以通过一阶有限差分近似来求解等式(8d)以获得qMet，如等式(9d)第二步所示。另外，如果伪代谢物浓度数据已经用一种对伪代谢物浓度数据进行函数拟合的方法(即表示伪代谢物浓度与时间/成熟度的关联的函数)进行了平滑处理，可以通过获得该函数在成熟度m处的导数(例如解析法)来获得项

例如，表示伪代谢物浓度的函数(y_j)是一个多项式(例如使用Savitsky-Golay法等)，其形式为

无论以何种方式求解方程(9d)(第一步)，都会得到所需的代谢物转运速率。本实验中葡萄糖、乳酸盐、氨、谷氨酸盐和谷氨酰胺的结果见图13。

系统生物学模块：如上所述，系统生物学模块用于计算代谢通量。图16A示出了图13中正常批次之一的代谢物转运速率的演变。内部通量分布的演变以三个时间点为例：在图16B中的滞后期t₀，在图16C中的指数增长期t₅和在图16D中的稳定期t₂₇。细胞产生的能量总量(由产生的ATP总量表示)在整个批次中的演变是由通量分布的演变计算出来的，并显示在图16E中。图16F示出了所有批次的ATP生成总量。

多变量分析模块：对于训练步骤，如上所述，使用在正常pH和温度水平下运行的三个分批补料过程，对数据进行PLS模型拟合。由此提取出三个主成分。这三个新的自变量描述了X中原始96个共线变量中包含的95.8％的变异性和Y中的91.4％的变异性以及从X预测Y时交叉验证的90％的变异性。换言之，主成分很好地描述了通量数据，预测能力很强。因此，这三个主成分的分数值可用于定义95个反应速率的正常演变和分批补料过程正常运行期间产生的总ATP。对于图18中的前两个主成分，三个批次中的每一个的演变都以红色显示。它们的平均值以黑色实线显示，平均值周围的三个标准偏差窗口以黑色虚线显示。然后，这些黑色虚线可以用作未来批次的控制界限——分数保持在这些界限内的批次可以说是保持了内部代谢条件，与已知可以生产有效产品的历史批次足够相似，因此可以认为新批次也可以生产有效产品。这可以用于监视目的。

在预测步骤中，考虑了五个新批次：在正常pH值和温度水平下运行的四个批次中的一个批次，其被排除在训练步骤之外；两个批次的温度在第7天后略有下降；两个批次的温度在第7天后大幅下降。所有这些批次生成的ATP如图16F所示。所有这些批次也产生了95个通量值，但未示出。

PLS模型在训练步骤中生成的载荷p_i，等式(1a)用于计算新批次的每个观测值的分数t_i。这些值叠加在训练步骤生成的控制图上，如图19A所示。在此，直到第7天，所有批次都正常运行——所有批次都保持在定义细胞代谢正常演变的控制范围内。对于正常运行的一个批次，我们可以从图19A中看到代谢状态保持在应有的控制范围内。然而，对于在稍低温度下运行的两个批次，我们可以从图19A中看到在第7天引起过程偏差后，表示内部代谢条件的分数值移动到±3σ控制限之外，然后在该批次的剩余时间里都保持在该控制限之外，或者正好位于此控制限之上。此外，对于在明显更低的温度(极低温度)下运行的两个批次，我们可以从图19A中看到在第7天引起过程偏差后，分数值移动到控制限之外并保持在那里。因此，预计在低温或极低温度下运行的批次会由于过程偏差而导致产品不符合规范。此外，尽管模型仅基于代谢条件而不是过程条件，但这些都超出了控制限度。

从图19B和图19C中的通量分布可以看出这种方法的优点，图中分别示出了符合规范的批次(图19B)和两个远远超出规范的批次中之一(图19C)在t₂₇＝10天处的通量分布。图19B和图19C中的代谢通量图显示了氧化磷酸化途径厚度的微小差异。然而，通过使用载荷权重来确定每个变量对第7天后这两个批次的平均观测值之间的预测差异的多变量贡献，我们可以看到实际上这两个状态之间存在微小但系统的差异，如图19D所示。这说明了使用多变量方法的一个优势：可以检测许多变量中的小偏差，而不需要仅在一个变量中发现大偏差。在图19D中，红色高亮线表示低温转移批次小于正常批次的通量值；绿色高亮线表示低温转移批次大于正常批次的通量值；线的粗细表示这种差异的归一化幅度。

实施例3-灌流式培养

解析和预处理模块：原始活细胞密度、葡萄糖浓度、乳酸盐浓度、谷氨酰胺浓度、谷氨酸盐浓度和氨浓度保存在Excel文件中。由于所有的测量结果都是来自同一样本在Flex分析仪上产生，因此可以使用共同的批次时间将它们合并到一个文件中。每个批次都有一个唯一的ID，以表明它来自哪个批次(7-18、7-22等)。由于以灌流式培养方式进行，因此浓度数据的不连续性可能是由于用于操控物料流进出反应器的控制策略的飞跃式变化造成的。为了解决这个问题，在本例中，平滑过程应用于计算的代谢物转运速率本身(由物质平衡模块计算)，而不是应用于被用于计算转运速率的原始数据。

物质平衡模块：在灌流式培养中，图1b中所示图表中的所有流都存在。该过程的运行方式是：反应器体积保持恒定；因此，F_F＝F_H+F_B。我们做了几个假设。第一，反应器内的浓度梯度可以忽略不计；因此，Met]_B＝[Met]_H＝[Met]。第二，细胞保留装置运行良好；VCD_H＝0。第三，从反应器中移除的细胞数量可以忽略不计；因此，VCD_B＝0。尽管从理论角度来看这是一个糟糕的假设，但对计算的数学影响可以忽略不计，因为F_B比F_H小一个数量级。第四，由于细胞扩张和代谢物分泌引起的进料培养基密度变化可以忽略不计；因此，ρ＝ρ_F＝ρ_B＝ρ_H。应用所有这些假设后，等式(8)中的物质平衡简化为等式(8a)，其本身可简化为：

最后，我们可以对方程(8a’)中的微分方程创建一个一阶有限差分表示，并在第m个时间点求解qMet的代数方程，如等式(9a)所示。通过对原始细胞密度应用梯形近似来评估等式(9a)中使用的活细胞密度的数值积分。已经测量或计算了代谢物浓度和IVCD，以及它们各自的时间点。此外，还测量了进料流速，并且已知反应器体积、培养基密度和进料培养基组成。因此，可以直接从等式(9a)中找到每个时间点的代谢物转运速率每。然后对所有代谢物重复该过程。如上所示，对得到的代谢物转运速率进行平滑。

系统生物学模块：如上所述，将上述方法应用于灌注过程的转运速率。

多变量分析模块：通过系统生物学模块在每个时间点获得灌注过程生成的总ATP和来自代谢模型的95个通量值。如上文所述，这些用于构建PLS模型的X和Y块采用与分批补料过程相同的方式。在这个实验中，没有故意偏差的批次来检测代谢状态的变化，因此没有实施预测步骤。这样的步骤将以与上面对分批补料过程解释的类似的方式完成。

实施例4-具有/不具有代谢条件变量的模型的分批补料过程比较

在本例中，来自分批补料过程(上面的实施例2)的数据被用来比较：本发明的解决方案(如在实施例2中)与代谢条件不用于监测生物过程演变的方法。在下面描述的所有模型中，Y块数据与实施例2中的模型使用的成熟度值完全相同。

可用数据：可获得以下数据(括号内表示变量的数量)：

过程运行期间的测量结果(21个变量)：

Nova测量结果(13个)：

ο代谢物浓度(4个)：葡萄糖、乳酸盐、谷氨酰胺、谷氨酸盐

ο电解质浓度(4个)：铵、钠、钾、钙

ο细胞计数器(4个)：总细胞密度、活细胞密度、活力、细胞直径

ο其他(1个)：渗透压

控制系统测量结果(7个)：

ο受控变量(4个)：氧气浓度、pH值、温度、搅拌速率

ο控制杆(3个)：进入空气流量、进入CO₂流量、进入O₂流量

HPLC离线分析(1个)：

ο产品(1)：滴度

代谢条件变量：

来自物质平衡模块的转运速率数据(5个变量)

ο转运速率：qGlc、qLac、qGln、qGlu、qAmm

来自系统生物学模块的内部通量速率数据(96个变量)

ο通量值(95个)：例如，图15A中的PGK和PYK

ο生成的ATP(1个)

过程数据模型(无代谢条件变量)：过程数据模型使用21个变量表示过程运行期间的测量结果，作为X块特征(参见上面的多变量分析模块解释)。前两个主成分表征了过程数据中56.3％的变异性和成熟度中98％的变异性，Q²为0.977。对于前两个主成分，训练步骤生成的批量演变模型(BEM)控制图如图21A所示，预测步骤的结果如图21B所示。图21显示在这种情况下可以很好地检测过程偏差。然而，这主要是因为温度和pH水平已包含在模型中，如上所述，这些参数是造成过程偏差的主要原因。因此，检测BEM中这些偏差的主要来源直接来自温度和pH测量结果。

第二个模型是使用19个过程数据变量作为X块特征构建的。在这种情况下，温度和pH值被排除在外。前两个主成分表征了过程数据中61.7％的变异性和成熟度中97.9％的变异性，Q²为0.978。对于前两个主成分，训练步骤生成的BEM控制图如图22A所示，预测步骤结果如图22B所示。这里的检测过程偏差显然更糟。尽管在第7天之前没有发生过程偏差，但在第4-6天之间，两个主成分(尤其是第二个)的偏差持续超出控制限值。此外，只有以蓝色标记的极端温度变化显示出持续偏离控制限值之外，并且仅针对第二主成分。此外，对于两个主成分，低温转变在很大程度上与正常批次没有区别。最后，对于第一主成分，正常、低温和极端低温批次都进入和在控制限之外。

转运速率数据模型：在该模型中，仅使用了转运速率数据(物质平衡分析模块的输出)，即转运速率数据模型使用5个转运速率作为X块特征。在这种情况下，前两个主成分表征了转运速率数据中98.7％的变异性和成熟度中79.4％的变异性，Q²为0.782。对于前两个主成分，训练步骤生成的BEM控制图如图23A所示，预测步骤的结果如图23B所示。这里的模型的稳健性有了显着的改善。在第7天之前，在任一主成分上最多只有一个数据点出现在控制限之外(相比之下，图22B中连续几天出现在控制限之外)。此外，正常批次在第7天后不会像图22B中那样多次出现在控制限之外。在检测过程偏差方面也有显着改进。在两个主成分上，极端温度变化在第7天后出现在控制限值之外(不包括第二个主成分的最后1.5天)。此外，低温批次在第一主成分上的稳定期大部分出现在控制限值之外，在第二主成分上则短暂出现。然而，即使没有正确检测到低温批次的偏差，该模型仍能持续捕捉到这种影响。低温批次出现在正常批次之上，即使是保持在控制范围内的区域也是如此(不包括PC2上的批次末端)；此外，极低温批次出现在低温批次上方(同样不包括PC2上的批次末端)。最后，偏差是在转运速率模型中的第一过程驱动程序(PC1)上检测到的，而不是在第二过程驱动程序(PC2)上检测到的。

通量数据模型：在此模型中，使用了代谢模型中的所有95个反应速率和生成的总ATP(系统生物学模块的输出)，即通量数据模型使用96个内部通量速率作为X块特征。这与实施例2中的模型相同。在这种情况下，前两个主成分表征了转运速率数据中94.4％的变异性和成熟度中87.5％的变异性，Q²为0.872。对于前两个主成分，训练步骤生成的BEM控制图如图18所示，预测步骤结果如图19A和图19E所示。解释与转运速率模型非常相似，只是结果有所改进。就稳健性而言，在前7天内，类似数量的单个数据点移出控制窗口。在检测过程偏差方面，在第一个主成分的稳定期，低温批次不再回到控制范围内(或达到可忽略的程度)。此外，正常、低温和极低温批次之间的分离更为明显。这里的过程偏差的检测是最准确的。

讨论：本例中的数据表明，使用物质平衡模块的输出作为多变量分析模块的输入具有明显的优势(与单独使用过程数据相比)。使用系统生物学模块的输出作为多变量分析模块的输入(与直接使用物质平衡模块的输出相比)时，优势较小。值得注意的是，过程数据模型的性能取决于模型中包含的变量。因此，对于已经确定了所有关键过程参数并且在仅从过程数据训练批次演变模型时使用强大的DoE操纵CPP的工业过程来说，这里的模型改进很可能不太明显。尽管如此，当将转运速率数据或通量数据模型与在相同原始数据上训练的相应模型进行比较(但不包括代谢条件的表示)时，仍然会有改进。相反，如上所示，使用代谢条件变量可以获得模型而不需要与仅使用过程数据获得类似模型所需的数据一样多的数据。最后，如前所述，在过程表征中使用代谢条件变量可以使得扩大规模和监管备案同时进行(因为产品规范可以根据代谢条件而不是仅仅根据过程来表征条件)，而且通过确保维持内部状态(代谢条件)，可以在不重新表征过程的情况下调整不同规模的过程参数。

等效物和范围

本说明书中提及的所有文件均通过引用整体并入本文。

术语“计算机系统”包括用于实现根据上述实施例的系统或执行根据上述实施例的方法的硬件、软件和数据存储设备。例如，计算机系统可以包括中央处理单元(centralprocessing unit，CPU)、输入装置、输出装置和数据存储器，该计算机系统可以实现为一个或多个连接的计算设备。优选地，所述计算机系统具有显示器或包括具有显示器的计算设备，以(例如在业务过程的设计中)提供可视输出显示。数据存储器可以包括RAM、磁盘驱动器或其他计算机可读介质。该计算机系统可以包括通过网络连接并能够通过该网络彼此通信的多个计算设备。

可以将上述实施例的方法提供为计算机程序或计算机程序产物或承载计算机程序的计算机可读介质，当在计算机上运行时，计算机程序用于执行上述方法。

术语“计算机可读介质”包括但不限于任何非暂时性介质或可由计算机或计算机系统直接读取和访问的介质。上述介质可以包括但不限于磁存储介质(例如软盘、硬盘存储介质和磁带)；光存储介质(例如光盘或CD-ROM)；电存储介质(例如存储器，包括RAM、ROM和闪存)；以及上述介质的混合和组合，例如磁/光存储介质。

除非上下文另有规定，否则上述特征的描述和定义不限于本发明的任何特定方面或实施例，而是同样适用于所描述的所有方面和实施例。

本文所使用的“和/或”应理解成具体公开了两个特定特征或成分中间的每一个，涵盖了包括或不包括另外的特征或成分的情形。例如，“A和/或B”表示具体公开了(i)A，(ii)B以及(iii)A和B中的每一种情形，就像将每一种情形都单独列在这里一样。

注意，除非上下文另有明确规定，否则如在说明书和所附权利要求书中使用的单数形式“一”、“一个”和“该”包括复数指称。在本文中，，范围可以表示为从“大约”一个特定值，和/或到“大约”另一个特定值。当表示这样的范围时，另一实施例包括从一个特定值和/或到另一个特定值。类似地，当通过使用先行语“大约”或“近似”将值表示为近似值时，可以理解为该特定值形成另一实施例。与数值相关的术语“大约”或“近似”是可选的，并且表示例如+/-10％。

贯穿本说明书和权利要求书，除非上下文另有要求，否则词语“包含”和“包括”及其变体应理解为意味着包括所述整数或一组整数但不排除任何其他整数或一组整数。

除非上下文另有规定，否则通过使用术语“由...组成”或“基本上由...组成”替换术语“包括”，本发明的其他方面和实施例可以提供上述方面和实施例。

在前述描述或权利要求中或在附图中公开的特征可以以其特定形式表示，或者可以通过用于执行所公开的功能的装置或用于获得所公开的结果的方法或过程来表示，可以单独地表示这些特征，或者可以以这些特征的任何组合来表示这些特征，以通过不同的形式实现本发明。

虽然已经结合上述示例性实施例描述了本发明，但基于本公开，许多等效的修改和变化对于本领域技术人员将是显而易见的。因此，本发明的上述示例性实施例被认为是说明性的而非限制性的。在不脱离本发明的精神和范围的情况下，可以对描述的实施例进行各种改变。

为了避免任何疑义，本文提供的任何理论解释均用于促进读者的理解。发明人不希望受这些理论解释的束缚。

本文使用的任何部分标题仅用于组织目的，不应解释为限制所描述的主题。

Claims

1.一种用于监测生物过程的计算机实现的方法，所述生物过程包括生物反应器中的细胞培养物，所述方法包括以下步骤：

根据比较结果确定生物过程是否正常进行。

2.如权利要求1所述的方法，其中确定一个或多个代谢条件变量包括：确定所述一种或多种代谢物在细胞和培养基之间的单位转运速率，其中代谢物i的单位转运速率是每个细胞和每个成熟度单位下在细胞和培养基之间转运的代谢物的量；可选地，代谢物i在特定成熟度m下的单位转运速率通过等式(7)确定：

3.如权利要求2所述的方法，其中所述代谢物的单位转运速率是单位消耗速率或单位生产速率。

4.如前述权利要求中任一项所述的方法，其中所述生物反应器中生物质的量的测量结果包括：活细胞密度的测量结果，和/或所述生物反应器中一种或多种代谢物的量的测量结果包括：细胞室、培养基室或整个所述细胞培养物中一种或多种代谢物的量或浓度的测量结果。

5.如前述权利要求中任一项所述的方法，其中确定一个或多个代谢条件变量包括：确定随生物过程成熟度变化的构成培养物中细胞代谢一部分的一个或多个代谢反应的反应速率；可选地，至少部分地使用随生物过程成熟度变化的所述生物反应器中所述一种或多种代谢物在细胞和培养基之间的单位转运速率来确定一个或多个代谢反应的反应速率。

6.如权利要求5所述的方法，其中确定一个或多个代谢反应的反应速率包括：获得包括所述反应的代谢模型，和至少使用所述一种或多种代谢物的单位转运速率作为代谢模型的约束条件来求解代谢模型。

7.如权利要求6所述的方法，其中代谢模型包括化学计量矩阵S和一组反应速率v集合，并且求解所述代谢模型包括确定反应速率v满足：

最大化/最小化

使

是代谢模型中代谢物的内部浓度的变化率，i和j是分别针对下界和上界的代谢模型中反应速率集合的指数，其中至少一个下界值和/或上界值是一种或多种代谢物中的一种的单位转运速率的预定函数；可选地，确定一个或多个代谢反应的反应速率是使用通量平衡分析方法进行的。

8.如权利要求6或权利要求7所述的方法，其中使用所述一种或多种代谢物的单位转运速率作为所述代谢模型的约束条件包括：指定随至少一个单位转运速率变化的至少一个代谢反应速率的值的允许范围；可选地，使用代谢物i的单位转运速率作为所述代谢模型的约束条件包括指定：

下界i＝f_low,i(qMet_i)≤v_Exchange,i≤上界i＝f_up,i(qMet_i) (10)

其中qMet_i是代谢物i的单位转运速率，f_low,i是第一函数，f_up,i是第二函数，v_Exchange,i是所述代谢模型中的反应速率，其反映了细胞对代谢物i的消耗或分泌。

9.如前述权利要求中任一项所述的方法，其中确定或测量随成熟度变化的任何变量包括：确定或测量随时间变化的变量。

10.如前述权利要求中任一项所述的方法，其中所述多变量模型是使用包括作为预测变量的代谢条件变量和作为响应变量的成熟度的过程变量的线性模型和/或所述多变量模型已经使用来自多个被认为正常运行的相似生物过程的数据来进行预训练，其中相似生物过程是为相同目的使用相同细胞的生物过程；可选地，所述多变量模型已经使用来自多个相似生物过程的数据来进行预训练，其中至少一些生物过程由于一个或多个随成熟度变化的过程条件而彼此不同。

11.如权利要求11所述的方法，其中所述方法还包括预测生物过程的一个或多个过程条件的变化对一个或多个潜在变量和/或一个或多个代谢条件变量的影响。

12.如权利要求10或权利要求11所述的方法，其中用于训练所述多变量模型的多次运行中的至少一些与一个或多个关键质量属性(CQA)相关，并且其中所述方法还包括使用包括一个或多个代谢条件变量的一个或多个过程变量的值，和通过所述一个或多个代谢条件变量的值训练的模型，用于多个训练运行，以及相应的CQA，以预测生物过程的一个或多个CQA。

13.如前述权利要求中任一项所述的方法，还包括以下一个或多个步骤：

将多个测量结果和/或代谢条件变量合并到一个表中，其中所述测量结果/变量按成熟度对齐；

对至少一些测量结果和/或代谢条件变量进行子采样或分箱；

对至少一些测量结果和/或代谢条件变量进行平滑和可选地超采样。

14.一种提供用于监测生物过程的工具的方法，所述生物过程包括生物反应器中的细胞培养物，所述方法包括以下步骤：

定义随成熟度变化的所述一个或多个潜在变量的一个或多个值，其表示生物过程被认为正常运行；可选地所述一个或多个值包括随成熟度变化的一个或多个潜在变量的平均值和/或被定义为围绕随成熟度变化的相应潜在变量的平均值的标准偏差变化的一个或多个范围；可选地，其中所述方法包括权利要求2至13的任何特征。

15.一种用于监测和/或控制生物过程的系统，所述系统包括：

至少一个处理器；以及

至少一个非暂时性计算机可读介质，包含指令，当由所述至少一个处理器执行时，所述指令使所述至少一个处理器执行权利要求1至14中任一项所述的方法；

可选地，其中，所述系统还包括与所述处理器可操作地连接的以下中的一个或多个：

一个或多个生物质传感器；

一个或多个代谢物传感器；

一个或多个过程条件传感器；以及

一个或多个效应器装置。