CN117940552A - 生物过程的监测、模拟、以及控制 - Google Patents

生物过程的监测、模拟、以及控制 Download PDF

Info

Publication number
CN117940552A
CN117940552A CN202280060644.2A CN202280060644A CN117940552A CN 117940552 A CN117940552 A CN 117940552A CN 202280060644 A CN202280060644 A CN 202280060644A CN 117940552 A CN117940552 A CN 117940552A
Authority
CN
China
Prior art keywords
values
model
variables
maturity
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280060644.2A
Other languages
English (en)
Inventor
克里斯托弗·麦克雷迪
里卡德·乔格伦
林内娅·塞德格伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sedolistim Data Analysis Co
Original Assignee
Sedolistim Data Analysis Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sedolistim Data Analysis Co filed Critical Sedolistim Data Analysis Co
Publication of CN117940552A publication Critical patent/CN117940552A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M41/00Means for regulation, monitoring, measurement or control, e.g. flow regulation
    • C12M41/48Automatic or computerized control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/048Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Computer Hardware Design (AREA)
  • Sustainable Development (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Automation & Control Theory (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

提供了用于监测、控制、优化和模拟生物过程的方法,该生物过程包括生物反应器中的细胞培养物。该方法包括:获得状态空间模型的一个或多个成熟度的一个或多个状态变量的值,以及使用机器学习模型预测生物过程的产物的一个或多个关键质量属性的值,该机器学习模型被训练用于基于输入变量来预测一个或多个关键质量属性的值,该输入变量包括一个或多个成熟度的一个或多个状态变量的值或者一个或多个成熟度的从该一个或多个状态变量导出的变量的值。该状态空间模型包括表示细胞培养物的状态的变化的动力学生长模型和表示生物反应器中的一个或多个代谢物的主体浓度的变化的物质平衡模型。还提供了系统、实现这些方法的计算机可读介质、以及用于提供工具以实现这些方法的方法。

Description

生物过程的监测、模拟、以及控制
技术领域
本公开涉及用于监测、模拟、优化和控制生物过程的计算机实现方法、计算机程序和系统。本公开的特定方法、程序和系统使用机器学习来预测生物过程中的产物的一个或多个关键质量属性。
背景技术
生物过程使用生物系统来生产特定的生物材料,例如,具有治疗作用的生物分子。该过程通常涉及在受控的大气条件下将细胞和/或微生物放入具有包含营养物的培养基的生物反应器中。培养基被细胞消耗并用于生长和其他代谢功能,包括生产特定的生物材料和副产物。
生物反应器通常包含仪器或与仪器相关联,该仪器连续(例如,每秒、每分钟、每小时一次)测量过程条件(例如温度、pH和溶解氧)以及营养物和气体的添加和离开生物反应器的流的流量和含量。通常,周期性地(例如,每天一次或两次,或多于两次)采集培养物样本,以测量主体流体(bulk fluid)的含量,包括一个或多个代谢物(例如,葡萄糖、谷氨酰胺、乳酸盐、NH4等)的浓度、细胞度量(例如总细胞和活细胞密度(viable cell density,VCD))、以及产物生物材料的浓度(也称为滴度(titer))。通常,也测量产物生物材料的质量度量(有时也称为“质量属性”或“关键质量属性”(critical quality attribute,CQA)),例如,产物的糖基化谱(glycosylation profile)或活性。这些质量度量通常仅在过程结束时测量一次,并且在离线测量之后可用,且可用性具有显著的延迟(例如,数天或数周)。因为许多CQA的测量非常缓慢,所以通常仅在过程已经运行之后才确定质量,并且不能再采取校正动作。
统计过程分析方法可以用来评估生物过程的良好的性能。特别地,多元统计模型(包括主成分分析(principal component analysis,PCA)和(正交)偏最小二乘((orthogonal)partial least square,(O)PLS)回归)已经成为用于识别过程条件的流行工具,这些过程条件对于确保CQA在规范内(统称为“关键过程参数”(critical processparameter,CPP)),并在生物过程进展到完成时确定这些过程条件的可接受范围非常重要。这样的工具已经在软件套件(Sartorius Stedim Data Analytics)中实现,这是一种用于对生物制药开发和制造过程进行建模和优化的领先的数据分析软件。
在典型的生物过程分析中,在生物过程完成期间测量一系列过程变量(例如数十个过程变量,包括温度、关键营养物和代谢物的浓度、pH、体积、气体浓度、活细胞密度等)。这些过程变量一起表示“过程条件”。这些变量中的许多变量是高度相关的,因此,可以使用PCA和PLS等方法来识别捕获数据中相关结构的概要变量(summary variable)。然后可以提取这些变量(通常相对较少),并且可以估计定义“正常”的过程条件(预期将产生具有可接受的CQA的产物)的这些变量的值的范围。使用这些方法,通过将CPP保持在定义的限制内或者在规定的轨迹上来运行生物过程,上述方法已被确定会产生具有CQA的产物,该产物被认为表示可接受的优质产物。CPP与CQA之间的联系通常没有得到充分理解,导致CPP限制仅基于历史观察。根据具体情况,这些可能是不必要的限制且不足以确保CQA。
因此,需要一种用于监测、模拟和控制生物过程的改进方法的系统和方法,以确保可接受的CQA,这种系统和方法没有现有技术的所有缺点。
发明内容
根据本公开的第一方面,提供了一种用于监测生物过程的方法,该生物过程包括生物反应器中的细胞培养物,该方法包括以下步骤:获得状态空间模型的一个或多个成熟度的一个或多个状态变量的值以及可选地一个或多个成熟度的从该一个或多个状态变量导出的一个或多个变量的值,该状态空间模型包括表示细胞培养物的状态的变化的动力学生长模型以及可选地,表示生物反应器中的一个或多个代谢物的主体浓度的变化的物质平衡模型;使用机器学习模型预测生物过程的产物的一个或多个关键质量属性的值,该机器学习模型被训练用于基于输入变量来预测一个或多个关键质量属性的值,该输入变量包括一个或多个成熟度的一个或多个状态变量的值或者一个或多个成熟度的从该一个或多个状态变量导出的变量的值。
在本公开的上下文中,可以以时间单位表示成熟度。例如,成熟度可以指自生物过程开始以来的时间量或任何其他参考时间。因此,对特定“成熟度”和“成熟度函数”的提及应解释为包括“时间点”、“时间”和“时间函数”。
第一方面的方法可以具有以下可选特征中的任一特征或任何特征组合。
该方法还可以包括获得一个或多个过程条件的值,一个或多个过程条件包括一个或多个成熟度的一个或多个过程参数和/或一个或多个代谢物浓度。输入变量还可以包括一个或多个过程条件的值。输入变量可以包括一个或多个状态变量中的至少一个的值。输入变量可以包括状态空间模型的多个状态变量的值。输入变量可以包括一个或多个状态变量中的至少一个的值、以及从该一个或多个状态变量导出的至少一个变量的值。获得一个或多个过程条件的值可以包括直接或间接测量一个或多个过程条件的值。获得一个或多个过程条件的值可以包括例如从用户、计算设备或存储器接收这些值。
动力学生长模型可以包括将细胞培养物的活细胞密度xv、死细胞密度xd、总细胞密度xt和裂解细胞密度xl中的一个或多个的变化表示为时间/成熟度函数的一个或多个方程。这些方程中的每一个都可以表示状态空间模型的状态变量。动力学生长模型可以包括莫诺德动力学模型(Monod kinetic model)或饱和动力学模型(saturation kinetic model)。动力学生长模型可以用于估计随时间变化的细胞生长。例如,可以使用方程(11)至方程(14)或者从方程(11)至方程(14)导出的方程中的任何或所有方程。例如,可以通过以下方式从这些方程导出方程:用从方程(14)导出的对应项替换方程(11)-(13)中的一项或多项;根据对应的假设(例如,其中假设不存在特定流)删除方程(11)-(14)中的任何方程中的一项或多项;或者根据对应的假设(例如,其中假设存在附加流)添加方程(11)-(14)中的任何方程中的一项或多项。在方程(11)-(13)中,项μeff和/或项μd可以使用方程(15)-(24)中的任何方程来建模。物质平衡模型可以包括表示生物反应器中的一个或多个代谢物的主体浓度的变化的一个或多个方程。例如,对于一个或多个代谢物中的每一个,物质平衡模型可以包括由方程(25)给出的形式的方程,例如方程(26)或等价方程(例如,方程(26a)-(26d))。
产物可以包括诸如细胞产生的一个或多个小分子或大分子的一个或多个生物分子。产物可以包括培养物中的生物质和/或诸如一个或多个细胞器的生物质的部分。关键质量属性可以包括任何物理、化学、生物或微生物属性或特性,这些属性或特性应该低于或高于适当的阈值、在适当的范围内、或者属于适当的分布,以确保产物的所需质量(其中,适当的阈值、范围或分布可以根据这些属性/特性和产物的所需质量来预先确定)。一个或多个关键质量属性可以选自:包括在产物中或者是产物的小分子或大分子的分子结构、包括在产物中或者是产物的蛋白质或肽的糖基化谱、产物的活性、产物的产率、一个或多个宿主细胞蛋白(host cell protein)的存在或不存在、以及产物的纯度。产物的纯度也可以表示为一个或多个污染物的浓度。产物的活性可以指任何感兴趣的活性,例如,在存在产物的情况下(例如,通过产物对反应的催化)特定的反应或反应的集合的速率、产物与一个或多个靶点的结合亲和力(binding affinity)等。产物的活性可以指与包括酶的产物相关联的酶活性,其中产物可以是细胞培养物或包括由该细胞培养物产生的酶的纯化组合物。产物的纯度和/或活性可以指生物过程的粗制产物的纯度和/或活性,也可以指在一个或多个下游处理步骤(例如,纯化)之后的生物过程的产物的纯度和/或活性。
一个或多个状态变量或者从该一个或多个状态变量导出的变量可以包括选自以下的至少一个变量:代谢物的单位转运速率、代谢物的主体流体浓度、产物的主体流体浓度、由于细胞生长而在培养物中积累并抑制细胞生长的生物材料的主体流体浓度、滴度的单位生产率、以及细胞状态变量。细胞状态变量可以选自:活细胞密度、死细胞密度、总细胞密度、细胞活力、有效生长速率、死亡速率、以及裂解细胞密度。一个或多个状态变量可以是生物过程的动态模型的变量,该动态模型包括动力学生长模型。动力学生长模型可以包括描述活细胞密度、死细胞密度、以及裂解细胞密度的动力学的方程。动力学生长模型可以包括表示生物材料的浓度的变量,该生物材料由于细胞生长而在培养物中积累并抑制细胞生长和/或对该细胞有毒动力学生长模型可以包括描述变量的动力学的方程,该变量表示由于细胞生长而在培养物中积累的生物材料的浓度。动力学生长模型可以包括使用细胞生长速率参数描述活细胞密度的动力学的方程,该细胞生长速率参数是最大生长速率和描述由于细胞生长而在培养物中积累的生物材料对生长的抑制的因子的乘积。动力学生长模型可以包括常微分方程。动力学生长模型可以包括方程(11)-(24)或其等价方程中的任何一个或多个,例如方程(11a)、(12a)、(13a)、(16a)、(22a)和(15a)。
使用方程(11)-(30)和其等价方程中的任何方程,尤其使用方程(11)-(16)、(22)、(25)-(27)和其等价方程中的任何或所有方程(例如,方程(11a)、(12a)、(13a)、(16a)、(22a)和(15a)),来获得一个或多个状态变量或者从该一个或多个状态变量导出的变量。代谢物i的第一成熟度的单位转运速率可以从一个或多个状态变量导出,该一个或多个状态变量包括代谢物i的第一成熟度和第一成熟度之前的第二成熟度的浓度。这可以使用物质平衡模型来执行,例如使用方程(27)或等价方程(例如,方程(27a)-(27f)),或者捕获方程(25)中的流的任何其他方程)来执行。代谢物i的第一成熟度的单位转运速率可以使用机器学习模型从一个或多个状态变量导出,该一个或多个状态变量包括代谢物i的一个或多个成熟度的浓度和该一个或多个成熟度的一个或多个过程条件的值,该机器学习模型被训练用于基于输入变量来预测包括代谢物i的一个或多个代谢物的单位转运速率,该输入变量包括代谢物i或其前体(precursor)的一个或多个成熟度的浓度和/或该一个或多个成熟度的一个或多个过程条件的值。代谢物i的单位转运速率可以是每细胞和每单位成熟度在细胞和培养基之间转运的代谢物的净量。一个或多个成熟度可以包括第一成熟度和/或第一成熟度之前的一个或多个成熟度。优选地,用于预测一个或多个代谢物的单位转运速率的一个或多个过程条件值包括至少一个代谢物浓度值。一个或多个过程条件值还可以包括过程条件的至少一个其他值,优选地至少两个其他值。一个或多个代谢物浓度值可以包括已确定单位转运速率的一个或多个代谢物的浓度。一个或多个代谢物可以替代地或另外包括一个或多个代谢物的浓度,这些代谢物是已确定了单位转运速率的一个或多个代谢物的前体。一个或多个代谢物可以替代地或另外包括一个或多个代谢物的浓度,这些代谢物是生产或消耗已确定了单位转运速率的一个或多个代谢物的反应产物。代谢物的主体流体浓度可以使用诸如方程(26)或其等价方程(例如,方程(25)和方程(26a)-(26d))的物质平衡方程来获得。活细胞密度可以使用方程(11)或其等价方程来获得。细胞活力可以使用方程(11)-(14)或其等价方程,作为活细胞密度与总细胞密度的比率而获得。死细胞密度可以使用方程(12)或其等价方程来获得。裂解细胞密度可以使用方程(13)或其等价方程来获得。由于细胞生长而在培养物中积累并抑制细胞生长的生物材料的主体流体浓度可以使用方程(16)或其等价方程来获得。产物的主体流体浓度可以使用诸如物质平衡方程,例如方程(26)或其等价方程(例如,方程(25)和方程(26a)-(26d)),或者方程(30)来获得。有效生长速率可以使用方程(22)或其等价方程来获得。死亡速率可以使用方程(15)或其等价方程来获得。滴度的单位生产率可以使用多元模型(例如PLS或(O)PLS)来获得,该多元模型用于例如使用选自一个或多个代谢物、一个或多个代谢物浓度、以及一个或多个过程变量的单位转运速率的变量,来预测随本文所述的代谢条件变化的滴度的单位生产率。所提供的方程的等价方程可以指捕获相同过程但因一个或多个基础模型假设而不同的方程。
状态空间模型和/或动力学生长模型可以是已使用来自与预测了关键质量属性的值的生物过程不同的一种生物过程的数据进行参数化的模型。例如,预测了关键质量属性的值的生物过程可以是灌注(perfusion)生物过程或连续(continuous)培养,并且状态空间模型和/或动力学生长模型可以是已使用来自分批或补料分批(fed-batch)过程的数据进行参数化的模型。状态空间模型和/或动力学生长模型可以是已使用来自与预测了关键质量属性的值的生物过程相同的一种生物过程的数据进行参数化的模型。
一个或多个过程条件包括一个或多个过程参数,该一个或多个过程参数选自溶解氧、溶解CO2、pH、温度、渗透压、搅拌速度、搅拌功率、顶空气体成分(例如,CO2压力)、流速(例如,进料速率、出料速率、收获速率)、进料介质成分、以及培养物的体积;和/或其中,一个或多个代谢物浓度包括细胞室、培养基室、或者整个细胞培养物中的一个或多个代谢物的浓度。
该方法还可以包括将一个或多个关键质量属性的值与一个或多个预定值进行比较。该方法还可以包括基于该比较确定生物过程是否正常运行(或符合规范)。生物过程的产物的一个或多个关键质量属性的预测值可以与成熟度相关联。与一个或多个关键质量属性的预测值相关联的成熟度可以是与作为输入提供给机器学习模型的值相关联的一个或多个成熟度中的一个成熟度。或者,与一个或多个关键质量属性的预测值相关联的成熟度可以不是与作为输入提供给机器学习模型的值相关联的一个或多个成熟度中的一个成熟度。例如,其可以是未来成熟度,例如最终成熟度(例如,分批或补料分批生物过程的结束)。一个或多个关键质量属性可以与成熟度相关联,并且将一个或多个关键质量属性与一个或多个预定值进行比较可以包括:将一个或多个关键质量属性和与对应成熟度(例如,相同或类似成熟度,例如预定值可用的最近成熟度)相关联的一个或多个预定值进行比较。将一个或多个关键质量属性的值与一个或多个预定值进行比较可以包括:将一个或多个关键质量属性的值与一个或多个相应的预定阈值(例如,下限阈值和/或上限阈值)进行比较。例如,将一个或多个关键质量属性的值与一个或多个预定值进行比较可以包括:确定关键质量属性的值是否在预定范围内、高于预定下限阈值、或者低于预定上限阈值。阈值和/或范围可以基于被认为产生可接受的产物的CQA的值来确定。将一个或多个关键质量属性的值与一个或多个预定值进行比较可以包括:将一个或多个关键质量属性的值与被认为根据规范运行的一组生物过程中的对应变量的平均值进行比较。一个或多个预定值可以基于产物的一个或多个所需特征来确定。例如,最低产率、纯度或活性、或特定的糖基化谱可能是产物可用所必需的。如果一个或多个关键质量属性的值在被认为正常运行的一组生物过程中相应的对应变量的平均值的预定范围内,则可以认为该生物过程根据规范运行。该预定范围可以定义为与被认为正常运行的一组生物过程中相应的对应变量的平均值相关联的标准偏差的函数。如果一个或多个变量c的值在定义为average(c)±n*SD(c)的范围内,则可以认为生物过程正常运行,其中,average(c)是被认为正常运行的一组生物过程中的变量c的平均值,SD(c)是与average(c)相关联的标准偏差,并且n是预定常数(对于子范围average(c)+n*SD(c)和子范围average(c)-n*SD(c),n可以相同,或者在这些子范围之间可以不同)。可以将n的值选择为1、2、3、或实现所选置信区间(例如,95%置信区间)的值。如果一个或多个变量c的值在定义为置信区间(例如,基于c的假设分布的围绕average(c)的95%置信区间)的范围内,则可以认为生物过程正常运行。假设分布可以是高斯(正态)分布、卡方分布(chi-squared distribution)等。在假设分布是正态分布的情况下,p%置信区间(其中p可以是例如95)可以等效于average(c)±n*SD(c)的范围,其中,n是实现p%置信区间的单个值(例如,对于95%置信区间,n可以约为1.96)。该方法还可以包括:如果上述比较步骤指示生物过程不正常运行,则向用户输出信号。可以通过诸如屏幕的用户界面或通过诸如音频或触觉信令的任何其他方式输出信号。
机器学习模型可以是回归模型。机器学习模型可以选自线性回归模型、随机森林回归器、人工神经网络(artificial neural network,ANN)、及其组合。适合地,机器学习模型可以是人工神经网络。机器学习模型可以包括多个机器学习模型,其中,每个机器学习模型已经被训练用于预测一个或多个关键质量属性的单独选择的子集的值。机器学习模型可以已被训练用于联合预测一个或多个关键质量属性的值。有利地,机器学习模型是ANN或ANN的集合。本发明人已经发现ANN特别适合用于当下的任务。在不希望被理论束缚的情况下,发明人认为这至少部分是因为ANN非常适合用于使用具有复杂相关结构的输入数据来预测值。因此,ANN在联合预测多个关键质量属性方面表现很好。机器学习模型可以包括多个机器学习模型,其中,每个机器学习模型已经被训练用于预测多个关键质量属性中的一个或多个。联合预测多个关键质量属性(即,其全部或子集)可以有利地提高预测的准确性,其中,联合预测的关键质量属性彼此相关。机器学习模型可以已使用来自多个类似生物过程的数据进行训练,其中,类似生物过程是将相同细胞用于相同目的的生物过程。机器学习模型可以已使用来自多个类似生物过程的数据进行训练,其中,至少一些生物过程在随成熟度变化的一个或多个过程条件方面彼此不同。机器学习模型可以已被训练用于基于输入变量来预测与生物过程的结束对应的成熟度的一个或多个关键质量属性的值,该输入变量包括一个或多个先前成熟度的一个或多个状态变量的值或者一个或多个先前成熟度的从该一个或多个状态变量导出的变量的值、以及可选地一个或多个先前成熟度的一个或多个过程条件的值。在这样的实施例中,生物过程可以是分批或补料分批过程。机器学习模型可以已被训练用于基于输入变量来预测当前成熟度的一个或多个关键质量属性的值,该输入变量包括一个或多个成熟度的一个或多个状态变量的值或者一个或多个成熟度的从该一个或多个状态变量导出的变量的值、以及可选地一个或多个成熟度的一个或多个过程条件的值,该一个或多个成熟度包括当前成熟度和/或一个或多个先前成熟度。在这样的实施例中,生物过程可以是灌注过程。一个或多个成熟度可以包括当前成熟度。
获得一个或多个成熟度的一个或多个状态变量以及可选地一个或多个成熟度的一个或多个过程条件的值可以包括获得多个成熟度的一个或多个状态变量以及可选地多个成熟度的一个或多个过程条件的值;并且机器学习模型可以已被训练用于使用输入来预测多个成熟度中的最晚成熟度或较晚成熟度的一个或多个关键质量属性,该输入包括多个成熟度的一个或多个状态变量以及可选地多个成熟度的生物过程的一个或多个过程条件的值。例如,机器学习模型可以已被训练用于基于输入值来预测两个不同成熟度中的最晚成熟度或较晚成熟度的一个或多个关键质量属性,该输入值包括两个不同成熟度的一个或多个状态变量以及可选地两个不同成熟度的生物过程的一个或多个过程条件的值。用作机器学习模型输入的一个或多个状态变量以及可选地过程条件的值可以与彼此相隔成熟度差(difference in maturity)的多个成熟度相关联,成熟度差约等于用于训练机器学习模型的值之间的成熟度差。与使用单个成熟度的预测变量相比,使用多个成熟度的预测变量(即,输入变量)预测关键质量属性可以有利地提高预测的准确性。在不希望被理论束缚的情况下,通过使用在多个时间点的预测变量可以提高机器学习预测的准确性,这是因为这些数据可以捕获关于生物过程动力学的信息。
获得状态空间模型的一个或多个成熟度的一个或多个状态变量的值和/或一个或多个成熟度的从该一个或多个状态变量导出的变量的值可以包括:使用状态空间模型预测生物过程的状态轨迹。使用状态空间模型预测生物过程的状态轨迹可以包括:查找表示状态空间模型的解的一个或多个成熟度的一个或多个状态空间变量的值。换言之,获得状态空间模型的一个或多个成熟度的一个或多个状态变量的值或者一个或多个成熟度的从该一个或多个状态变量导出的变量的值可以包括:例如通过对共同构成了该模型的一个或多个方程求积分,或者根据该模型使用任何其他合适的方法(例如,随机模拟(stochasticsimulation)),在该一个或多个成熟度求解状态空间模型。过程的状态可以包括这样的模型中的任何变量的值,例如一个或多个细胞培养物状态变量(在本文中也称为“细胞培养物参数”和/或代谢物浓度)的值。过程的状态轨迹可以包括多个时间点/成熟度的状态变量的值。因此,代谢物i的浓度可以视为过程条件(例如,其中浓度是生物过程/状态空间模型的初始条件,或者其中浓度不是作为模型中的状态变量捕获的浓度),或者视为状态空间模型的状态变量(例如,其中浓度是状态空间模型的状态变量并且通过在给定成熟度或多个成熟度求解状态空间模型来获得)。获得状态空间模型的一个或多个成熟度的一个或多个状态变量的值或者一个或多个成熟度的从该一个或多个状态变量导出的变量的值可以包括:通过直接或间接测量一个或多个变量的值,或者通过例如从用户、计算设备或存储器接收这些值,来获得一个或多个状态变量的值。此外,可以接收一个或多个状态变量的一些值(例如,通过测量获得、从用户、计算设备或存储器获得),并且可以通过使用状态空间模型预测生物过程的状态轨迹来确定一些值,作为本方法的一部分。使用状态空间模型预测生物过程的状态轨迹可以包括:确定单个成熟度或多个成熟度的一个或多个状态空间变量的值。换言之,轨迹可以包括单个成熟度的一组状态变量的值。
使用状态空间模型预测生物过程的状态轨迹可以包括:使用如上所述的机器学习模型来预测该模型中的每个代谢物i的第一成熟度的单位转运速率,以及使用预测的单位转运速率来使用物质平衡模型确定对应的一个或多个代谢物的较晚成熟度的浓度。例如,确定对应的一个或多个代谢物的较晚成熟度的浓度包括:求解相应的物质平衡方程。例如,确定代谢物i(mi)在成熟度k的浓度可以包括在mi已知的先前成熟度和成熟度k之间对方程(25)、(26a)-(26c)和(29)中的任何方程求积分(例如,使用方程(27a)-(27f)中的任何方程),其中,k是与预测的单位转运速率相关联的成熟度。该方法还可以包括使用一个或多个上述浓度来确定较晚成熟度的细胞状态变量的值。确定较晚成熟度的细胞状态变量的值包括求解动力学生长模型。在成熟度k求解动力学生长模型可以包括在xv、xl、xd和/或xt(活细胞密度、裂解细胞密度、死细胞密度和/或总细胞密度)已知的先前成熟度和成熟度k之间对方程(11)至(14)中的任何方程求积分。该方法还可以包括使用一个或多个上述代谢物浓度和/或生物质相关度量值作为被训练用于预测单位转运速率的机器学习模型的输入,来预测模型中的每个代谢物i的其他成熟度的单位转运速率
使用状态空间模型预测生物过程的状态轨迹可以包括:使用物质平衡模型,例如使用方程(27)或等价方程(例如,方程(27a)-(27f),或者捕获方程(25)中的流的任何其他方程)、以及一个或多个代谢物的第一成熟度和先前成熟度的浓度,来确定模型中的一个或多个代谢物i的第一成熟度的单位转运速率。该方法还可以包括使用第一成熟度的一个或多个上述浓度来确定第一成熟度的细胞状态变量的值。确定第一成熟度的细胞状态变量的值可以包括求解动力学生长模型。可以在一个或多个其他成熟度重复该过程,以确定一个或多个代谢物在上述其他成熟度中的每个成熟度的的单位转运速率以及一个或多个细胞状态变量的值。该方法还可以包括:通过将特定值包括在物质平衡模型、动力学生长模型、和/或机器学习模型用于预测单位转运速率的输入值、和/或机器学习模型用于预测关键质量属性的输入值中,来预测过程参数的特定值的影响。一个或多个代谢物可以包括所需产物。类似地,生物质本身可以包括所需产物。因此,该方法可以包括使用状态空间模型来预测生物过程中所需产物的浓度。
可以使用从用户、计算设备或存储器接收的过程条件值来执行本方面的各种方法。可以使用在生物过程运行期间实时获得的过程条件值来执行本方面的各种方法。这样的过程条件值可以包括运行设置(即,由运行者设置的参数),和/或在生物过程运行期间在线内测量(即,在线或线上)或离线测量的值。因此,本文描述的监测生物过程的各种方法可以实时地实施,即在生物过程的运行期间实时地实施。在这样的实施例中,获得一个或多个过程条件的值的步骤可以包括接收最晚成熟度的一个或多个过程条件的值(已经测量或确定该最晚成熟度的这样的值),并且可选地包括从数据存储器获得一个或多个先前成熟度的一个或多个过程条件的值。
本方面的任何方法可以包括在数据存储器中记录一个或多个过程条件的值、一个或多个状态变量的值、确定的关键质量属性和/或从该关键质量属性导出的值。该方法还可以包括:通过将特定值包括在物质平衡方程、动力学生长模型、和/或机器学习模型用于预测其他成熟度的关键质量属性的输入值中,来预测较晚成熟度的过程参数的特定值的影响。
预测生物过程的状态轨迹可以等效于模拟生物过程。因此,还根据本方面描述了模拟生物过程的方法,该生物过程包括生物反应器中的细胞培养物,该方法包括:获得一组初始条件,该组初始条件包括一个或多个初始成熟度的包括一个或多个过程参数的一个或多个过程条件的值、以及状态空间模型的一个或多个状态变量的值,该状态空间模型包括表示细胞培养物的状态的变化的动力学生长模型、以及可选地表示生物反应器中的一个或多个代谢物的主体浓度的变化的物质平衡模型;通过使用状态空间模型和该组初始条件预测生物过程的状态轨迹,来获得状态空间模型的一个或多个后续成熟度的一个或多个状态变量的值以及可选地一个或多个后续成熟度的从该一个或多个状态变量导出的一个或多个变量的值;使用机器学习模型预测生物过程的产物的一个或多个关键质量属性的值,该机器学习模型被训练用于基于输入变量来预测一个或多个关键质量属性的值,该输入变量包括一个或多个所选成熟度的一个或多个状态变量的值或者一个或多个所选成熟度的从该一个或多个状态变量导出的变量的值、以及可选地一个或多个所选成熟度的一个或多个过程条件的值,该输入变量包括选自一个或多个后续成熟度的一个或多个成熟度的一个或多个状态变量的值和/或选自一个或多个后续成熟度的一个或多个成熟度的从该一个或多个状态变量导出的变量的值。用作机器学习模型输入的任何过程参数的值可以从用户界面、计算设备或存储器获得。例如,可以提供一个或多个过程参数的轨迹作为该方法的输入,其中,过程参数的轨迹包括多个成熟度的过程参数的值。
根据第二方面,提供了一种用于控制生物过程的方法,该方法包括:执行根据上述第一方面的任何实施例的方法;将一个或多个关键质量属性的值或者从该一个或多个关键质量属性导出的值与一个或多个预定值进行比较;基于上述比较确定是否实施校正动作。该方法还可以包括:如果上述确定步骤指示要实施校正动作,则向一个或多个效应器装置发送信号以实施校正动作。
根据本方面的方法可以具有关于第一方面公开的任何特征。本方面的方法还可以具有以下可选特征中的任一特征或任何特征组合。
基于上述比较确定是否实施校正动作可以包括基于上述比较确定生物过程是否正常运行,如果上述比较步骤指示生物过程不正操运行,则向一个或多个效应器装置发送信号以实施校正动作。基于上述比较确定是否实施校正动作可以包括基于上述比较确定生物过程是否最佳地运行,如果上述比较步骤指示生物过程未最佳地运行,则向一个或多个效应器装置发送信号以实施校正动作。确定生物过程是否最佳地运行可以包括确定一个或多个过程条件的不同集合是否与一个或多个关键质量属性的改进值或者从该一个或多个关键质量属性导出的值相关联。在这样的实施例中,一个或多个预定值可以包括与过程条件的一个或多个不同集合相关联的值。
该方法还可以包括在自获得一个或多个状态变量的值以及可选地一个或多个过程条件的值以来经过预定时间段之后,重复上述监测生物过程的方法的步骤。校正动作可以与一个或多个过程条件的值的变化相关联。该方法还可以包括:通过将上述值包括在状态空间模型和/或机器学习模型用于预测关键质量属性的输入中,来预测校正动作的效果,以确定要实施的校正动作。效应器装置可以是耦合至生物反应器的任何设备,效应器装置用于改变生物反应器中的一个或多个物理条件或化学条件。
根据第三方面,提供了一种优化生物过程的方法,该生物过程包括生物反应器中的细胞培养物,该方法包括:使用第一组过程条件和至少另一组过程条件(例如,每组过程条件用于使用状态空间模型预测状态轨迹,从而获得与每组过程条件相关联的一个或多个状态变量的值以及可选地从该一个或多个状态变量导出的一个或多个变量的值)来执行上述第一方面的任何实施例的方法;通过比较与各组过程条件相关联的关键质量属性或从该关键质量属性导出的值,来确定另一组过程条件是否优于第一组过程条件。
比较与各组过程条件相关联的关键质量属性或从该关键质量属性导出的值可以包括:针对每组过程条件确定期望函数(desirability function)的值,该期望函数对在预定范围之外的关键质量属性的值施加惩罚。这些范围可以是封闭的或开放的。期望函数可以对应用于生物过程的度量的一个或多个目标,例如最大化产率、所需产物的浓度、一段时间内产生的所需产物的总量等给予奖励。例如,期望函数可以包括一项或多项,如果关键质量属性或从该关键质量属性导出的值在预定范围之外,则该一项或多项降低函数值,并且可选地,该一项或多项随生物过程的一个或多个度量增加(例如,在产出的情况下)或减少(例如,在进料消耗的情况下)而增加函数值。
该方法还可以包括选择另一组过程条件,并将与另一组过程条件相关联的关键质量属性或从该关键质量属性导出的值和与一组或多组先前使用的条件相关联的关键质量属性或从该关键质量属性导出的值进行比较。上述选择另一组过程条件的步骤可以包括从用户界面接收另一组条件、从数据库或计算设备获得另一组条件、使用优化算法确定另一组条件、或其组合。本方面的方法还可以包括:识别一组过程条件作为生物过程的最佳过程条件,以及根据所识别的该组过程条件运行生物过程。该方法还可以包括:使用一个或多个传感器来测量随成熟度变化的生物过程的实验过程条件;监测测量的实验过程条件,以检测与最佳过程条件的偏差;当检测到偏差时,向用户发送通知和/或向控制生物反应器的控制器提供反馈以自动调整实验过程条件,以最小化与最佳过程条件的偏差。
根据第四方面,提供了一种提供用于监测生物过程的工具的方法,该生物过程包括生物反应器中的细胞培养物,该方法包括以下中的步骤:获得状态空间模型的多个生物过程的一个或多个成熟度的一个或多个状态变量的值以及可选地多个生物过程的一个或多个成熟度的从该一个或多个状态变量导出的一个或多个变量的值和/或多个生物过程的一个或多个成熟度的一个或多个过程条件的值,该状态空间模型包括表示细胞培养物的状态的变化的动力学生长模型、以及可选地表示生物反应器中的一个或多个代谢物的主体浓度的变化的物质平衡模型;使用获得的值来训练机器学习模型基于输入变量预测一个或多个关键质量属性的值,该输入变量包括一个或多个成熟度的一个或多个状态变量的值和/或一个或多个成熟度的从该一个或多个状态变量导出的变量的值。
上述任何方面的方法还可以包括参数化状态空间模型。例如,参数化状态空间模型可以包括:(例如,通过从生物过程获得测试样品)获得与生物过程的状态变量对应的测量值、使用具有第一组参数的状态空间模型来预测生物过程的一个或多个状态变量的值、以及确定该测量值是否在由具有第一组参数的状态空间模型预测的值的范围内。状态空间模型的参数可以包括与状态空间模型相关联的系数,例如方程(11)至方程(29)的任何系数。该方法还可以包括基于测量值与由具有第一组参数的状态空间模型预测的值之间的差值来提供第二组参数。
除非上下文另有指示,否则本文描述的方法的所有步骤都是计算机实现的。特别地,本方法的任何步骤可由计算设备实现,可选地,该计算设备与一个或多个传感器、其他计算设备和/或用户界面进行可操作通信。
根据第五方面,提供了一种用于监测生物过程的系统,该生物过程包括生物反应器中的细胞培养物,该系统包括:至少一个处理器;包含指令的至少一个非暂时性计算机可读介质,当由至少一个处理器执行时,该指令使至少一个处理器执行以下操作:获得状态空间模型的一个或多个成熟度的一个或多个状态变量的值以及可选地一个或多个成熟度的从该一个或多个状态变量导出的一个或多个变量的值,该状态空间模型包括表示细胞培养物的状态的变化的动力学生长模型、以及可选地表示生物反应器中的一个或多个代谢物的主体浓度的变化的物质平衡模型;使用机器学习模型预测生物过程的产物的一个或多个关键质量属性的值,该机器学习模型被训练用于基于输入变量来预测一个或多个关键质量属性的值,该输入变量包括一个或多个成熟度的一个或多个状态变量的值或者一个或多个成熟度的从该一个或多个状态变量导出的变量的值。根据本方面的系统可以用于实现根据第一方面的任何实施例的方法。特别地,上述至少一个非暂时性计算机可读介质可以包含指令,当由至少一个处理器执行时,该指令使至少一个处理器执行包括关于第一方面描述的任何操作的操作。该系统还可以包括与上述处理器可操作地连接的以下中的一个或多个:用户界面,可选地,其中,指令还使处理器向用户界面提供以输出到用户的以下中的一个或多个:一个或多个关键质量属性的值或从该一个或多个关键质量属性导出的变量的值、上述比较步骤的结果、以及指示生物过程已被确定为正常运行或不正常运行的信号;一个或多个生物质传感器;一个或多个代谢物传感器;一个或多个过程条件传感器;一个或多个效应器装置。
根据本公开的第六方面,提供了一种用于控制生物过程的系统,该系统包括:根据前述方面的用于监测生物过程的系统;以及可操作地连接到用于监测生物过程的上述系统的处理器的至少一个效应器装置。根据本方面的系统可以用于实现第二方面的任何实施例的方法。特别地,上述至少一个非暂时性计算机可读介质可以包含指令,当由至少一个处理器执行时,该指令使至少一个处理器执行包括关于第二方面描述的任何操作的操作。
根据第七方面,提供了一种用于优化生物过程的系统,该生物过程包括生物反应器中的细胞培养物,该系统包括:至少一个处理器;包含指令的至少一个非暂时性计算机可读介质,当由至少一个处理器执行时,该指令使至少一个处理器执行以下操作:使用第一组过程条件和至少另一组过程条件(例如,每组过程条件用于使用状态空间模型预测状态轨迹,从而获得与每组过程条件相关联的一个或多个状态变量的值)来执行上述第一方面的任何实施例的方法;通过比较与各组过程条件相关联的关键质量属性或从该关键质量属性导出的值,来确定另一组过程条件是否优于第一组过程条件。根据本方面的系统可以用于实现根据第三方面的任何实施例的方法。特别地,上述至少一个非暂时性计算机可读介质可以包含指令,当由至少一个处理器执行时,该指令使至少一个处理器执行包括关于第三方面描述的任何操作的操作。
根据第八方面,提供了一种提供用于监测和/或控制和/或优化生物过程的工具的系统,该生物过程包括生物反应器中的细胞培养物,该系统包括:至少一个处理器;包含指令的至少一个非暂时性计算机可读介质,当由至少一个处理器执行时,该指令使至少一个处理器执行以下操作:获得状态空间模型的多个生物过程的一个或多个成熟度的一个或多个状态变量的值以及可选地多个生物过程的一个或多个成熟度的从该一个或多个状态变量导出的一个或多个变量的值、以及可选地多个生物过程的一个或多个成熟度的一个或多个过程条件的值,该状态空间模型包括表示细胞培养物的状态的变化的动力学生长模型、以及可选地表示生物反应器中的一个或多个代谢物的主体浓度的变化的物质平衡模型;使用获得的值来训练机器学习模型基于输入变量来预测一个或多个关键质量属性的值,该输入变量包括一个或多个成熟度的一个或多个状态变量的值或者一个或多个成熟度的从该一个或多个状态变量导出的变量的值。根据本方面的系统可以用于实现根据第四方面的任何实施例的方法。特别地,上述至少一个非暂时性计算机可读介质可以包含指令,当由至少一个处理器执行时,该指令使至少一个处理器执行包括关于第四方面描述的任何操作的操作。
根据另一方面,提供了一种包括指令的非暂时性计算机可读介质,当由至少一个处理器执行时,该指令使至少一个处理器执行本文所述的任何方面的任何实施例的方法。
根据另一方面,提供了一种包括代码的计算机程序,当在计算机上执行时,该代码使计算机执行本文所述的任何方面的任何实施例的方法。
附图说明
作为示例,现在将参考附图来描述本公开的实施例,在附图中:
图1示出了根据本公开的实施例的一般生物过程的简化过程图;
图2示出了根据本公开的实施例的所选参数对动力学生长模型的变量的影响;图2A是示出对于参数θi,n的三个示例性值,捕获了生长抑制变量对生长速率的影响的校正因子(y轴)的值随生长抑制变量(x轴,例如具有细胞抑制作用的代谢物的浓度)的值变化的曲线图,在该示例中参数θi,n表示变量zn的近似值,在大于该近似值时,变量zn开始抑制生长;图2B是示出对于参数θs,n的三个示例性值,捕获了底物限制变量对生长速率的影响的校正因子(y轴)的值随底物限制变量(x轴,例如代谢物(如营养物)的浓度)的值变化的曲线图,在该示例中,参数θs,n表示变量zn的近似值,在小于该近似值时,变量zn开始对生长产生限制作用;图2C和图2D是示出对于参数θq,n的三个示例性值(μq,n的值固定)(D)和参数μq,n的三个示例性值(θq,n的值固定)(C),捕获了对生长具有二次影响的变量的作用的校正因子(y轴)的值随二次影响变量(x轴,例如温度、pH)的值变化的曲线图,其中,在这些示例中,参数θq,n表示效应的扩散,并且参数μq,n表示发生最大生长的值;
图3是示出了根据本公开的实施例的预测一个或多个代谢条件变量的方法的流程图;特别地,A中的该流程图示出了模型部署过程,通过该过程可以预测生物过程中的产物的关键质量属性,B中的该流程图更详细地示出了如何获得用于预测生物过程中的产物的关键质量属性的变量;
图4是示出了根据本公开的实施例的提供工具的方法的流程图;特别地,该流程图示出了模型校准过程,该过程得到可用于预测生物过程中的产物的一个或多个关键质量属性的校准后的模型;
图5示意性地示出了根据本公开的实施例的系统;
图6示意性地示出了用于实现根据本公开的实施例的方法的计算架构;
图7示出了使用如本文所述的混合模型监测生物过程的示例性方法的流程图;
图8示出了使用如本文所述的混合模型模拟生物过程的示例性方法的流程图;
图9示出了使用如本文所述的混合模型的示例;图9A-图9C示出了根据本公开的自变量调整对生长廓线(growth profile)的影响的示例:对于每个图,以实线示出预测的生长状态的廓线,并且包括测量的状态的相关联数据以用于比较;(A)是具有温度变化(抑制生长)的批次的测量和预测的轨迹的示例,(B)是具有pH变化和低进料速率(葡萄糖耗竭(glucose depletion))的批次的测量和预测的轨迹,(C)是具有pH和温度变化的批次的测量和预测的轨迹;图9D示出了根据本公开的由混合模型进行的细胞状态分类的示例输出;该图示出了PCA得分散点图,提供了对由葡萄糖耗竭引起的代谢紊乱的可观察性(例如,来自使用PCA的状态观察器的预测);以原点为中心的圆圈内的葡萄糖浓度表示正常运行——超出此范围的葡萄糖值表明滴度降低或产物质量问题的风险增加;
图10示出了根据本公开的示例性实施例的生物过程监测/控制过程的结果(A-B),并且示出了使用本公开的方法和比较方法获得的预测之间的比较(C);(A-B)对于相应的批次,每个图比较:对于所预测的每个糖基化特征,在左侧,相应批次中的相应特征的测量值,以及在右侧,使用如本文所述的方法获得的预测值;(C)对于相应的糖基化特征,每个图示出了:(i)在左侧(标记为‘F’),(a)神经网络使用所有可用测量代谢物浓度作为输入特征来预测的糖基化特征的值和(b)对应的测量的糖基化特征之间的均方误差(mean squareerror,MSE);(ii)在中间(标记为‘R’),(a)神经网络使用可用测量代谢物浓度的子集作为输入特征来预测的糖基化特征的值和(b)对应的测量的糖基化特征之间的MSE;以及(iii)在右侧(标记为‘B’),计算为除正在预测该特征的批次之外的所有批次的平均值的糖基化特征的值和(b)对应的测量的糖基化特征之间的MSE。在(C)中的每个图中,条(bar)的高度表示6折(6folds)模型交叉验证过程的平均MSE,误差条(error bar)指示围绕平均MSE的95%置信区间;
图11示出了根据本公开的示例性实施例的生物过程监测/控制过程的结果:对于正在预测的相应的糖基化特征,每个图比较:(i)在左侧,神经网络预测的糖基化特征和对应的测量的糖基化特征之间的MSE(其中,条的高度表示6折网络交叉验证过程的平均MSE,误差条指示95%的置信区间);以及(ii)在右侧,计算为5个批次(即,除了正在预测该特征的批次之外的所有批次)的平均值的糖基化特征和对应的测量的糖基化特征之间的MSE(其中,条的高度表示6个批次的平均MSE,误差条指示95%的置信区间);
图12示出了如本文示例3所述的生物过程模拟过程的结果:每个图示出了250补料分批实验1至4的测量(点)和使用整组实验中识别的参数值进行的模型模拟(实曲线)之间的比较。虚线表示模型预测中的不确定性——该不确定性是使用正态分布伪随机参数值(由θ±2σθ定义的参数空间)的蒙特卡洛(Monte Carlo)模拟(1000个样本)计算的;
图13示出了如本文示例3所述的生物过程模拟过程的结果:每个图示出了250补料分批实验1至4的测量(红点)和使用每个实验分别识别的参数值进行的模型模拟(蓝色曲线)之间的比较。蓝色虚线表示模型预测中的不确定性——该不确定性是使用正态分布伪随机参数值(由θ±2σθ定义的参数空间)的蒙特卡洛模拟(1000个样本)计算的;
图14示出了如本文示例3所述的生物过程模拟过程的结果,比较了强化实验(培养基更换)和补料分批实验。A.强化培养5至7(叉形、星形、以及空心圆)的活细胞密度测量与使用整组补料分批实验1至4中识别的参数值对强化培养(黑色实线)和补料分批培养(红色实线)进行的模型模拟之间的比较。B、C、以及D分别示出了使用整组补料分批实验1至4中识别的参数值对强化培养(黑色实线)和补料分批培养(红色实线)模拟的裂解细胞密度、生物材料浓度、以及生长速率的比较;
图15示出了如本文示例3所述的生物过程模拟过程的结果,比较了2L灌注实验8的测量(点)和使用整组补料分批实验1至4中识别的参数值进行的模型模拟(曲线);
图16示出了在2L灌注实验8过程中由PI控制器实现的进料速率、收获速率、以及出料速率(点)和使用整组补料分批实验1至4中识别的参数值进行的模型模拟(曲线)之间的比较。
本文所示的附图示出了本发明的实施例,这些附图不应解释为限制本发明的范围。在适当的情况下,将在不同的图中使用相同的附图标记,以表示所示实施例中的相同结构特征。
具体实施方式
下面将参考附图描述本发明的具体实施例。
如本文所使用的,术语“计算机系统”包括用于实现根据上述实施例的系统或执行根据上述实施例的方法的硬件、软件和数据存储设备。例如,计算机系统可以包括诸如中央处理单元(central processing unit,CPU)和/或图形处理单元(graphical processingunit,GPU)、输入装置、输出装置、以及数据存储器的一个或多个处理单元,该计算机系统可以实现为一个或多个连接的计算设备。优选地,该计算机系统具有显示器或包括具有显示器的计算设备,以(例如在业务过程的设计中)提供可视输出显示。数据存储器可以包括RAM、磁盘驱动器或其他计算机可读介质。该计算机系统可以包括通过网络连接并能够通过该网络彼此通信的多个计算设备。例如,计算机系统可以实现为云计算机。
可以将本文描述的方法提供为计算机程序或计算机程序产物或承载计算机程序的计算机可读介质,当在计算机上运行时,计算机程序用于执行本文描述的方法。术语“计算机可读介质”包括但不限于任何非暂时性介质或可由计算机或计算机系统直接读取和访问的介质。上述介质可以包括但不限于磁存储介质(例如软盘、硬盘存储介质和磁带);光存储介质(例如光盘或CD-ROM);电存储介质(例如存储器,包括RAM、ROM和闪存);以及上述介质的混合和组合,例如磁/光存储介质。
生物过程
如本文所使用的,术语“生物过程”(在本文中也称为“生物制造过程”)指的是一种过程,在这种过程中,生物成分(例如细胞、细胞部分(如细胞器)或多细胞结构(如有机体或球体))被保存在人工环境(如生物反应器)中的液体培养基中。在实施例中,生物过程指的是细胞培养。生物过程通常产生产物,产物可以包括生物质和/或由于生物成分的活性而生产的一个或多个化合物。生物反应器可以是一次性的容器或可重复使用的容器,生物反应器中可以容纳适用于进行生物过程的液体培养基。在US2016/0152936和WO2014/020327中描述了适用于生物过程的示例生物反应器系统。例如,生物反应器可选自:先进微生物反应器(例如The Automation Partnership Ltd的250或/>15生物反应器)、一次性生物反应器(例如袋式生物反应器,例如Sartorius Stedim Biotech GmbH的/>STR生物反应器)、不锈钢生物反应器(例如Sartorius Stedim Systems GmbH的/>系列可用的5至2000L生物反应器)等。本发明适用于任何类型的生物反应器,尤其适用于从台式系统(benchtop system)到制造规模系统(manufacturing scale system)的任何供应商和任何规模的生物反应器。
细胞培养(cell culture)指的是将活细胞保存在人工环境(如生物反应器)中的生物过程。本文所述的方法、工具和系统适用于使用可在培养物中保存的任何类型的细胞(无论是真核细胞还是原核细胞)的生物过程。特别地,本发明可用于使用细胞类型监测和/或控制生物过程,细胞类型包括但不限于哺乳动物细胞(例如中国仓鼠卵巢(Chinesehamster ovary,CHO)细胞、人胚胎肾(human embryonic kidney,HEK)细胞、Vero细胞等)、非哺乳动物动物细胞(例如鸡胚成纤维(chicken embryo fibroblast,CEF)细胞)、昆虫细胞(例如黑腹果蝇(D.melanogaster)细胞、家蚕(B.mori)细胞等)、细菌细胞(例如大肠杆菌(E.coli)细胞)、真菌细胞(例如酿酒酵母(S.cerevisiae)细胞)和植物细胞(例如拟南芥(A.thaliana)细胞)。生物过程通常会生产产物,该产物可以是细胞本身(例如用于进一步生物过程的细胞群、用于细胞治疗的细胞群、用作产物(如益生菌、原料等)的细胞群)、大分子或大分子结构(例如蛋白质、肽、核酸或病毒颗粒(如单克隆抗体、免疫原性蛋白质或肽、用于基因治疗的病毒或非病毒载体、例如用于食品工业和诸如水净化、去污染等环境应用的酶))、或小分子(例如醇、糖、氨基酸等)。
图1示出了一般生物过程的简化过程图。该生物过程在反应器2中实现,在所示的实施例中,反应器2配备有搅拌装置22。描述了四个流(flow)(在本文中也称为“流(stream)”),但是根据特定情况,这些流中的任何一个流或全部流可能不存在。第一流24是包含任何添加到生物反应器中的培养物的物质的进料流(feed flow)FF(通常包括新鲜培养基,在这种情况下,生物过程可称为“补料分批(fed-batch)”过程,“灌注(perfusion)”过程或“连续(continuous)”过程),第二流26是与生物反应器中的培养物具有相同成分的出料流(bleed flow)FB,第三流28A是通过使用细胞分离装置28处理辅助收获流(auxiliaryharvest flow)28C而获得的收获流FH,细胞分离装置28用于生产第三(收获)流和第四流28B,第四流28B是包括细胞和在细胞分离装置28中尚未完全分离的任何培养基的循环流(recycle flow)FR。在实施例中,因为仅考虑收获流FH足以捕获通过收获和细胞分离过程从生物反应器有效输出的流,因此可以忽略循环流FR。因此,对存在或不存在的收获流的提及可以指存在或不存在辅助收获流28C(以及导出的收获流和循环流——FH和FR)。可以假设收获流FH包括与反应器中的培养基具有相同成分的培养基,但不存在细胞或存在的细胞很少。进料流、出料流和收获流(FF、FB、FH和FR)可能都不存在,在这种情况下,生物过程被称为“无补料分批过程(unfed batch process)”或简称为“分批过程”。当提供进料流FF和收获流FH时,该生物过程可称为“灌注”培养。当提供进料流FF和出料流FB使得生物过程在(伪)稳态(从过程条件的观点来看,即,尤其是保持培养物的体积恒定)下运行时,生物过程可称为“连续”培养。当提供进料流FF但不存在输出流(出料流和收获流,FB和FH)时,生物过程可称为“补料分批”过程。本发明适用于上述所有运行模式。
生物过程的产物(在本文中也称为“生物材料”或“目标生物”)可以包括代谢物、细胞、期望蛋白质、抗体、免疫球蛋白、毒素、一个或多个副产物、目标分子、或使用生物过程制造的任何其他类型的分子。可以存在不止一种感兴趣的生物材料。
生物过程的产物可以具有一个或多个关键质量属性(CQA)。如本文所使用的,“关键质量属性”是可以被定义和测量以表征产物的质量的产物的任何属性(尤其包括任何化学、物理、生物和微生物属性)。可以定义产物的质量特性(以一个或多个CQA的值表示),以确保产物的安全性和有效性保持在预定的边界内。根据本发明,使用机器学习来预测生物过程的产物(或多个产物)的一个或多个CQA的值,CQA可以包括以下中的一个或多个:小分子或大分子的分子结构(尤其包括肽或蛋白质的一级、二级和三级结构中的任何一种)、蛋白质或肽的糖基化谱(也称为“聚糖谱(glycan profile)”或“聚糖分析”)、产物的活性(例如,蛋白质产物的酶活性、细胞产物的活性等)、产物的产率(也称为生物过程的“生产率”,可以指相对于生物过程的输入(例如生物质)的量的生产的产物的量——例如,术语“单位生产率”可以指在每个细胞的基础上生产的产物的量——或提供或消耗的饲料的量)、一个或多个宿主细胞蛋白的存在或不存在、产物的纯度、以及任何物理、化学、生物或微生物属性或特性,这些属性或特性应该低于或高于适当的阈值、在适当的范围内、或者属于适当的分布,以确保产物的所需质量(其中,适当的阈值、范围或分布可以根据这些属性或特性以及产物的所需质量来预先确定)。蛋白质产物(例如,治疗性蛋白质)的糖基化谱可能会影响其安全性、免疫原性、以及半衰期。糖基化谱通过影响细胞的代谢(各种酶和代谢物的可用性)而受到细胞环境的影响。可以使用本领域中已知的任何方案和技术,例如通过液相色谱-质谱法(liquid chromatograph-mass spectrometry,LC-MS),或者通过毛细管电泳(capillary electrophoresis),例如使用诸如LabChip GX Touch Microchip-CE平台(PerkinElmerTM),来测量蛋白质产物的糖基化谱。
产物可与“规范”相关联,该“规范”提供一个或多个CQA的值或值的范围,产物需要符合这些值或值的范围才会被认为是可接受的。如果产物的所有CQA都符合规范,则该产物可称为“规范”(或“符合规范”、“在规范内”等),否则可称为“不规范”(或“不符合规范”)。CQA可以与一组关键过程参数(CPP)以及实现可接受CQA的CPP值的范围(可选地,成熟度相关范围)相关联。如果CPP在被认为实现可接受的CQA的预定范围内,则生物过程运行(即生物过程的执行的特定实例)可以称为“正常”或“规范”,否则可以称为“不正常”或(“不符合规范”)。类似地,如果生物过程产生具有可接受CQA(即,符合规范的CQA的值)的产物,则生物过程运行可以(通常回顾性地)称为“正常”或“规范”,否则可以称为“不正常”或(“不符合规范”)。
如本文所使用的,术语“成熟度”指的是生物过程完成的度量。成熟度通常以从生物过程开始到生物过程结束的时间来衡量。因此,术语“成熟度”或“生物过程成熟度”可以指从参考时间点(例如生物过程开始)开始的时间量。因此,措辞“随生物过程成熟度变化”(例如,将变量量化为“随生物过程成熟度变化”)在一些实施例中可以指“随时间变化”(例如,将变量量化为“随时间变化,例如自生物过程开始以来”)。反之,除非上下文另有指示,否则对时间相关变量的提及(无论是在文本中还是在方程中)应理解为适用于任何成熟度度量(包括但不限于时间)。特别地,可以使用随时间单调增加的任何度量,例如,可以使用自生物过程开始以来在培养基中积累或提取的所需产物(或不需要的副产物)的量、积分细胞密度等。成熟度可以用百分比(或其他分数度量)来表示,也可以用绝对值来表示,该绝对值逐渐变为某个值(通常是最大值或最小值),在该绝对值变为该值时,生物过程被认为是完整的。
如本文所使用的,术语“过程条件”指的是生物过程运行的任何可测量的物理化学参数。过程条件可以尤其包括培养基和生物反应器运行的参数,例如pH、温度、培养基密度、材料进出生物反应器的体积/质量流速、反应器的体积、搅拌速率等。过程条件还可以包括生物反应器中生物质(例如总细胞密度、活细胞密度等)的测量或生物过程的整个室中代谢物的数量(尤其包括任何细胞室、包括细胞室、包括培养基和细胞的培养物室和培养基室中代谢物的数量)的测量。特别地,过程条件可以包括一个或多个过程参数,该一个或多个过程参数选自溶解氧、溶解CO2、pH、温度、渗透压、搅拌速度、搅拌功率、顶空气体成分(例如,CO2压力)、流速(例如,进料速率、出料速率、收获速率)、进料介质成分、以及培养物的体积。过程条件可以替代地或另外包括选自活细胞密度、总细胞密度、细胞活力、死细胞密度、以及裂解细胞密度的一个或多个生物质相关度量。
如本文所使用的,术语“过程输出”指的是量化过程的期望结果的一个值或一组值。过程的期望结果可以是生产诸如生物质本身或者一个或多个代谢物的产物(生物材料)、降解一个或多个代谢物、或这些结果的组合。因此,过程输出可以指所生产的生物材料的量。该生物材料的量可以表示为总量(例如,根据产物,以克或其他单位表示)或滴度(生物反应器中每体积培养物的量)。
术语“代谢物”指的是在生物过程中由细胞消耗或生产的任何分子。代谢物尤其包括营养物(如葡萄糖、氨基酸等)、副产物(如乳酸和氨)、所需产物(如重组蛋白或肽)、参与生物质生产的复合分子(如脂质和核酸)、以及由细胞消耗或生产的任何其他分子(如氧(O2))。如本领域技术人员所理解的,根据特定的情况,同一分子可以认为是营养物、副产物或所需产物,并且这甚至可以随着生物过程的运行而改变。然而,所有参与细胞代谢的分子(无论是作为由细胞机器(cellular machinery)进行的反应的输入或输出)在本文中称为“代谢物”。特别地,代谢物可以包括任何合适的分析物,包括但不限于:氨基酸(例如,丙氨酸、精氨酸、天冬氨酸、天冬酰胺、半胱氨酸、半胱氨酸、谷氨酸、谷氨酰胺、甘氨酸、组氨酸、羟脯氨酸、异亮氨酸、亮氨酸、赖氨酸、蛋氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸、缬氨酸等)、糖类(例如,岩藻糖、半乳糖、葡萄糖、葡萄糖-1-磷酸葡萄糖、乳糖、甘露糖、棉子糖、蔗糖、木糖等)、有机酸(例如,乙酸、丁酸和2-羟基丁酸、3-羟基丁酸、柠檬酸、甲酸、富马酸、异戊酸、乳酸、马来酸、丙酸、丙酮酸、琥珀酸等)、其他有机化合物(例如,丙酮、乙醇、焦谷氨酸等)。对一个或多个“代谢物浓度”的提及可以包括培养基室中的一个或多个代谢物的浓度。除非上下文另有指示,否则代谢物浓度通常指培养基中的代谢物浓度。
多元统计模型
术语“多元统计模型”指的是旨在捕获多个变量之间的关系的数学模型。常用的多元统计模型有主成分分析(PCA)、偏最小二乘回归(PLS)和正交PLS(OPLS)。术语“多元统计分析”指的是建立(包括但不限于设计和参数化)和/或使用多元统计模型。
主成分分析(PCA)用于识别一组正交轴(称为“主成分”),这些轴捕获数据中量逐渐减少的方差。第一主成分(PC1)是使一组数据在PC1轴上的投影的方差最大化的方向(轴)。第二主成分(PC2)是与PC1正交的方向(轴),该方向(轴)使数据在PC1轴和PC2轴上的投影的方差最大化。数据点在由一个或多个主成分定义的新空间中的坐标有时被称为“得分”。PCA作为降维方法,为每个数据点获得得分,这些得分捕获多个基础变量对数据多样性的贡献。PCA可以用于生物过程的一组运行的历史数据,以表征和区分好的(正常的)和坏的(不正常的)过程条件。这实现了对历史批次何时偏离了可接受的过程条件的回溯识别,并解释了各个过程变量中哪个过程变量对全局过程条件中观察到的偏差影响最大。这可以用来研究如何在未来避免这样的偏差。
PLS是一种回归工具,PLS通过将一组预测变量和对应的可观察变量投影到新空间来标识线性回归模型。换言之,PLS将预测矩阵X(维数mxn)和响应矩阵Y(维数mxp)之间的关系标识为:
X=TPt+E (1)
Y=UQt+F (2)
其中,T和U是维数为mxl的矩阵,T和U分别是X得分(X在“潜在变量”的新空间上的投影)和Y得分(Y在新空间上的投影);P和Q是正交载荷矩阵(定义新空间并分别具有维数nxl和pxl);矩阵E和F是误差项(假设E和F都是独立且同分布(independent andidentically distributed,IID)的随机正态变量)。得分矩阵T概括了X中的预测变量的变化,得分矩阵U概括了Y中的响应的变化。矩阵P表示X和U之间的相关性,矩阵Q表示Y和T之间的相关性。将X和Y分解成得分和对应载荷的矩阵,以最大化T和U之间的协方差。OPLS是PLS的一种变型,其中,X中的变化被分成三个部分:与Y相关的预测部分(如PLS模型中的TPt)、正交部分(捕获与Y不相关的系统变化的TorthPortht)和噪声部分(如PLS模型中的E,捕获残差)。偏最小二乘(PLS)和正交PLS(OPLS)回归可以用来表征过程条件对期望过程输出(产物浓度、质量属性等)的影响。这可以通过拟合如上所述的(O)PLS模型来执行,其中,X包括被认为对过程输出有影响的一个或多个过程变量,并且Y包括过程输出的对应度量。这可以用来确定可以控制哪些过程变量以及应该如何控制这些变量,以改进或控制期望输出。
软件套件(Sartorius Stedim Data Analytics)还包括所谓的“批次演化模型(batch evolution model,BEM)”,BEM描述了过程条件的时间序列演化,称为过程“路径”。通过拟合如上所述的(O)PLS模型来获得过程路径,但是在该模型中,X包括在过程的演化中的多个时间(成熟度值)测量的被认为具有潜在相关性的一个或多个过程变量,并且Y包括对应的成熟度值。例如,可以在m个成熟度值下测量一组n个过程变量,这nxm个值可以作为系数包括在矩阵X中。对应的矩阵Y是成熟度值的mx1矩阵(即长度为m的向量)。因此,T矩阵包括对于描述与成熟度最相关的过程变量的各个方面的m个成熟度值中的每个成熟度值和l个识别的潜在变量中的每个潜在变量的得分值。通过使用T中的得分值来训练关于在过程结束时实现所需产物质量的过程路径的BEM,可以定义“黄金BEM(golden BEM)”,“黄金BEM”描述对于未来批次可接受的过程路径的范围(实现在规范内的CQA)。这使得通过监测批次能够知道正在进行的批次在规范内。这还意味着,如果一个正在进行的批次看起来将偏离接受的路径范围,则可以向操作者发出警报,让操作者知道需要采取校正动作来防止产物损失。此外,可以向操作者强调导致过程条件偏差的过程测量(通过分析X中对T中观察到已经偏离期望进程的得分贡献最大的变量),以帮助诊断问题和识别适当的校正动作进程。这都可以实时完成。此外,操作者只需要在正常的批次处理操作中考虑一小组概要参数,只有当出现问题时,操作者才选择与适当的主题专家一起深入讨论。/>
机器学习模型
根据本发明,机器学习模型用于预测生物过程中的一个或多个关键质量属性。术语“机器学习模型”指的是已被训练用于基于输入数据预测一个或多个输出值的数学模型,其中,训练指的是使用训练数据学习数学模型的参数的过程,该过程获得可以预测出与训练数据相关联的比较(已知)值相比误差最小的输出值的模型,其中,这些比较值通常称为“标签”。术语“机器学习算法”或“机器学习方法”指的是训练和/或部署机器学习模型的算法或方法。本公开中使用的机器学习模型可以视为回归模型,因为这些机器学习模型捕获因变量(正在预测的单位转运速率)和一组自变量(也称为预测因子)之间的关系。根据本发明,可以使用任何机器学习回归模型。在本发明的上下文中,通过使用学习算法来训练机器学习模型以识别函数F:u,m,s→qi,其中,F是由一组参数θ参数化的函数,使得:
其中,是预测的CQA值,qi是机器学习模型旨在预测的(真实/观察)CQA值,θ是标识为满足方程(4)的一组参数:
其中,L是基于观察到和预测的CQA值来量化模型预测误差的损失函数。函数F、参数θ和函数L的具体选择以及用于获得θ的具体算法(学习算法)取决于所用的具体机器学习方法。可以在本发明的上下文中使用满足上述方程的任何方法,尤其包括损失函数、模型类型、以及架构的任何选择。在实施例中,机器学习模型(F(.|θ))是线性回归模型。线性回归模型是根据方程(5)形式的模型,也可以根据方程(5b)写为:
Y=Xβ+ε (5)
yi=β01xi1+..βpxipi i=1,…,n (5b)
其中,Y是具有n个元素yi(每个因变量一个元素)的向量,X是具有针对p个预测变量中的每个预测变量和n个因变量中的每个因变量的元素xi1..xip和n个元素1作为截距值的矩阵,β是p+1个参数的向量,ε是n个误差项(每个因变量一个误差项)的向量。
在实施例中,机器学习模型是随机森林回归器(random forest regressor)。在例如Breiman,Leo."Random forests."Machine learning 45.1(2001):5-32中描述了随机森林回归器。随机森林回归器是一种模型,该模型包括决策树的集合,并输出一个分类,该分类是各个树的平均预测。决策树对特征空间进行递归分区,直到每个叶子(最终分区集)与目标的单个值相关联。回归树具有可以被认为形成一组连续的数字的叶子(预测的结果)。通常通过获得浅决策树(shallow decision trees)的集合来参数化随机森林回归器。在实施例中,机器学习模型是人工神经网络(ANN,也简称为“神经网络(neural network,NN)”)。通常通过一组权重w来参数化ANN,这些权重w被应用于多个连接神经元中的每个连接神经元的输入x,以获得被馈送到激活函数(Φ)以产生神经元输出的加权和(xTw)。常用的激活函数是修正线性激活函数(rectified linear activation function):
Φ(z)=max(0,z) (6)
其中,z是线性组合xTw。可以使用称为反向传播(backpropagation)(参见例如Rumelhart,David E.,Geoffrey E.Hinton,and Ronald J.Williams."Learningrepresentations by back-propagating errors."Nature 323.6088(1986):533-536)的方法来训练神经网络的参数,通过反向传播,调整了连接权重以补偿学习过程中发现的错误,并结合权重更新过程,该权重更新过程例如是随机梯度下降(stochastic gradientdescent)(参见例如Kiefer,Jack,and Jacob Wolfowitz."Stochastic estimation ofthe maximum of a regression function."The Annals of Mathematical Statistics23.3(1952):462-466)。可以在称为轮数(epoch)的训练中通过多次迭代来重复该过程。在每个轮数中,可以使用整个训练数据或训练数据的子集(通过称为“批次大小”的超参数设置),例如随机子集,以在训练过程中引入噪声并增加模型泛化的可能性。训练数据可以分为训练集和验证集,其中,在训练过程中使用验证集以降低对训练数据过拟合的风险(即,增加模型泛化至新数据的可能性)。可以使用验证集以与训练损失相同的方式计算验证损失,验证损失可以用于决定何时(例如,当验证损失停止减少时)停止训练以避免过拟合。这可以称为“提前停止”。作为替代或除此之外,可以将最大轮数设置为训练过程的超参数。
在回归问题中使用的合适的损失函数(例如本文所述的那些函数)包括均方误差、平均绝对误差和Huber损失。可以根据本发明使用这些损失函数中的任何损失函数。均方误差(mean squared error,MSE)可以表示为:
平均绝对误差(mean absolute error,MAE)可以表示为:
对于离群值观察,MAE被认为比MSE更鲁棒。Huber损失(参见例如Huber,Peter J."Robust estimation of a location parameter."Breakthroughs instatistics.Springer,New York,NY,1992.492-518)可以表示为:
其中,α是参数。对于离群值,Huber损失被认为比MSE更鲁棒,并且在其最小值附近强凸。然而,因为MSE可以更容易地解决优化问题,因此特别是当不期望存在较强的离群值影响时,MSE仍然是一个非常常用的损失函数。
在实施例中,机器学习模型包括多个模型(这些模型的预测被组合)的集合。或者,机器学习模型可以包括单个模型。在实施例中,可以训练机器学习模型以预测单个CQA。或者,可以训练机器学习模型以联合预测多个CQA。在这种情况下,所使用的损失函数可以修改为所有预测变量的平均值(可选地,加权平均值),如方程(10)所述:
其中,αi是可以为每个CQA i单独选择的可选的权重,Q是所有CQA的集合,q和是CQA的实际值和预测值的向量。可选地,可以在包括在损失函数之前对qi的值进行缩放(例如,通过归一化使得所有联合预测的变量的标签具有相等的方差),例如,以降低一些联合预测的/>主导训练的风险。
如下文将进一步描述的,类似的考虑适用于用于预测一个或多个代谢物的单位分泌速率/消耗速率(δi)的机器学习模型。
代谢条件
术语“细胞代谢条件”(在本文中也称为“代谢条件”或“细胞条件”)指的是表征生物过程中的细胞的代谢(即生物过程中的细胞的代谢活性)的一个或多个变量的值。细胞代谢条件可以尤其包括代谢物进出细胞的单位转运速率——在本文中也称为单位消耗速率(例如当代谢物(如营养物)主要由细胞消耗时)或单位分泌速率(当代谢物主要由细胞生产时;特别是当代谢物是所需产物时,这也可以称为单位生产速率(SPR)),或从包括以下一个或多个变量(例如如下文将进一步描述的,使用多元分析技术的变量)的一组变量中导出的任何变量。例如,在一些实施例中,细胞培养物的代谢条件可以表示为[metaboliccondition]=f(δ,u,m,s),其中f是将原始变量集合转换为捕获原始变量之间关系的一个或多个变量的函数,δ是一个或多个代谢物的单位分泌速率/消耗速率,u是诸如温度、pH等的过程变量,m是代谢物浓度,s是表示细胞培养物系统的状态的变量。如下文将进一步阐述的,细胞培养物系统的状态可以是由微分方程系统建模的变量,这些微分方程共同构成了动力学生长模型。例如,细胞培养物系统的状态变量可以包括活细胞密度、裂解细胞密度、总细胞密度、死细胞密度、或者相关变量(例如细胞活力)中的一个或多个。如下文进一步阐述的,可以使用状态空间模型获得这些状态变量。可以例如使用PCA、PLS或OPLS来获得函数f。代谢物的细胞消耗速率或分泌速率/生产速率(即代谢物进出细胞的单位转运速率)和细胞内代谢物的浓度(可以用每体积或每细胞的质量单位表示)可以认为表示代谢变量(因为这些变量表征细胞的代谢)。注意,代谢物可以转运到细胞内,也可以运转到细胞外(例如,代谢物可以被消耗也可以被生产),在这种情况下,单位转运速率量化了在两个方向上移动的联合影响。换言之,代谢物的单位转运速率量化了细胞和液体培养基之间转运的代谢物的净量(例如,作为培养基中代谢物的量的变化,反映了从培养基到细胞的移动,反之亦然)。此外,生物过程的室中的同一代谢物的浓度(例如在主体成分或液体培养基中,可以用每体积的质量单位表示)可以认为表示过程变量(因为该浓度表征了一个宏观过程变量)。例如,液体培养基中的氧或葡萄糖浓度(例如以质量/体积为单位)可以认为是在宏观水平描述过程(过程条件)的过程变量(在本文中也称为“过程参数”),而细胞中的氧或葡萄糖浓度(例如以质量/细胞为单位)可以认为是描述细胞的代谢条件的代谢变量。
状态空间模型-动力学生长模型
术语“动力学生长模型”指的是任何捕获生物过程中细胞群动力学的模型。因此,动力学生长模型可用于监测或模拟生物反应器中活细胞的数量(和其他培养相关参数),并预测在未来时间点的生物反应器中的细胞数量。例如,动力学生长模型可包括一个或多个微分方程,这些微分方程对一个或多个细胞群变量的成熟度相关(通常是时间相关)行为进行建模。细胞群变量是特定类型的过程条件,细胞群变量表征生物过程中的活细胞群、死细胞群、裂解细胞群和/或总细胞群。一般的细胞群变量包括活细胞密度(VCD)、死细胞密度和裂解细胞密度,分别捕获生物反应器中活细胞、死细胞和裂解细胞的浓度。在实施例中,动力学生长模型使用Monod方程来捕获限制性营养物(limiting nutrient)的浓度与细胞生长速率的函数。以下方程(11)至方程(14)中提供了动力学生长模型的一个示例,这些方程分别描述了活细胞密度xv、死细胞密度xd、总细胞密度xt和裂解细胞密度xl随时间/成熟度的变化:
/>
xt=xv+xd+xl (14)
在方程(11)-(14)中,Fb和Fh分别是出料速率和收获速率(参见上文和图1),V是反应器体积,μeff、μd和kl分别是有效生长速率、有效死亡速率和裂解速率。如果允许生物反应器中培养物的体积在生物过程中变化,则方程(11)至方程(13)也可以分别写为: 以及 (其中,Ff为进料流,Fh为收获流)。方程(11)包含以下假设:(i)活细胞以有效生长速率μeff形成活细胞;(ii)活细胞可以通过出料流Fb(如果存在的话)离开反应器;(iii)活细胞能以有效死亡速率μd转化为死细胞;(iv)没有活细胞通过收获流Fh离开反应器(换言之,当存在收获流时,包括一个完美的细胞截留过滤器——这在通过收获流离开生物反应器的任何细胞的量忽略不计时可以是一种有效的假设)。有效生长速率的计算对该模型的运作至关重要,详见下文。
方程(12)包含以下假设:(i)活细胞以有效死亡速率μd形成死细胞;(ii)死细胞通过一阶过程(first-order process)以速率kl转化为裂解细胞;(iii)死细胞可以通过出料流Fb(如果存在的话)离开反应器;(iv)没有死细胞通过收获流Fh离开反应器。有效死亡速率的计算详见下文。方程(13)包含以下假设:(i)死细胞以速率kl形成裂解细胞;(ii)裂解细胞可以通过出料流Fb(如果存在的话)离开反应器;(iv)裂解细胞可以通过收获流Fh(如果存在的话)离开反应器。方程(14)包含了这样的假设:细胞要么存活,要么死亡,要么裂解。这可以用于通过打破活细胞和死细胞的平衡来从其他变量计算其中一个变量,例如裂解细胞(通常不能直接测量)。
在实施例中,例如,如以下方程(15)所提供的,可以将(通过参数μd捕获的)死亡过程建模为基本死亡速率和毒性因子的组合:
μd=kd+ktφt (15)
在方程(15)中,kd是初级(基本)死亡速率,kt是“毒性速率”,φt是毒性的度量。该变量φt可以表示对细胞有毒性作用的一个或多个成分的浓度。在实施例中,假设φt等于裂解细胞的浓度xl(即φt=xl)。在其他实施例中,假设φt等于由于细胞生长而在培养物中积累并抑制细胞生长和/或对细胞有毒的未知生物材料的浓度,该浓度被指定为φb(使得φt=φb)。可以例如使用以下方程(16)来捕获该变量的演化:
该方程假设未知产物的生产速率与活细胞密度xv成正比,并且该产物可以通过出料流和收获流(Fb、Fh)(如果存在的话)离开生物反应器。如果允许生物反应器中培养物的体积在生物过程中变化,则方程(16)也可以写为
在实施例中,可以将(通过参数μeff捕获的)生长过程建模为理想条件下的生长速率μmax(假设在理想条件下生长速率最大)和描述其他系统变量对生长的影响的一个或多个因子的乘积。这些因子在一些情况下可以采取以下三种功能形式之一:底物限制vs、二次ηq、或抑制ηi。这些因子与所实现的有效生长速率之间的关系可以在方程(17)中捕获:
μeff=μmaxηsηqηi (17)
其中,校正因子ηs捕获Ns个底物限制变量的贡献,ηq捕获Nq个二次影响变量的贡献,ηi捕获Ni个抑制变量的贡献。Ns可以等于0(无底物限制变量)、1(一个底物限制变量)或任何自然数。Nq可以等于0(无二次影响变量)、1(一个二次影响变量)或任何自然数。Ni可以等于0(无抑制变量)、1(一个抑制变量)或任何自然数。上述校正因子可以计算为多个校正因子的乘积,其中的每个校正因子捕获底物限制变量/二次影响变量/抑制变量的贡献,如以下方程(18)-(20)所示:
在实施例中,使用具有以下方程(21)提供的形式的校正因子捕获抑制作用:
其中,zn是具有生长抑制作用的物质(或多个物质)的浓度,θi,n是表示zn水平的参数,高于该水平会产生抑制作用。图2A示出了对于参数θi,n的不同值,生长抑制因子的值随生长抑制物质(其影响由校正因子建模)的浓度变化的示例。上述方程(15)和(16)中的变量φt可以视为抑制作用的特例,其中,抑制物质的浓度取决于活细胞密度(例如,因为抑制物质是由存在的细胞产生或由于存在细胞而产生)。该变量φt有时也可以使用方程(21)中提供的公式来建模。因此,在一些实施例中,方程(17)可以写为:
其中,θt(或θb,视情况而定)是表示生物材料的积累对生长的抑制作用的系数(例如,/>可以等于xl或/>)。如本领域技术人员所理解的,在一些实施例中,可以存在不止一种物质/>其中的每种物质都可以使用方程(17)和(22)以及相应的方程(16)中的相应项来建模。具有生长抑制作用的物质以及由培养物中的细胞产生或由于存在细胞而产生的物质(即物质/>)的示例包括有毒的副产物,例如氨。具有不一定与活细胞密度相关的生长抑制作用的物质的示例包括包含在培养基中以具有期望作用但也可能对细胞培养物具有(理想条件下,轻微的)生长抑制作用的物质(例如抗生素)。
在实施例中,使用具有以下方程(23)提供的形式的校正因子捕获底物限制影响:
其中,θs,n是表示近似水平的参数,低于该水平时变量zn(限制生长的底物)开始对生长产生限制影响。图2B示出了对于参数θs,n的不同值,底物限制因子的值随限制性底物(其影响由校正因子建模)的浓度变化的示例。在方程(23)中,因子2用于赋予参数θs,n一个直观的生物学含义:近似浓度,当zn低于该近似浓度时,可以看到限制影响(例如,该值使得当zn的值低于θs,n时,抑制作用超过~0.95阈值的值)。该因子可以是任何值,以实现相同的行为,同时使得参数θs,n被相应调整并且不再具有相同的直观解释。特别地,可以完全省略该因子(即设置为1)。类似地,在方程(21)和(22)中,立方项(即(zni,n))可以包括一个系数,该系数赋予参数θi,n一个直观的生物学含义:近似浓度,当zn高于该近似浓度时,可以看到限制影响(例如,该值使得当zn的值达到θi,n(例如0.37)时,抑制作用超过~0.95阈值的值)。具有底物限制影响的物质的示例包括营养物,如葡萄糖、氨基酸等。
在实施例中,使用具有以下方程(24)提供的形式的校正因子捕获二次影响:
其中,μq,n是表示目标值(即发生最大生长的值)的参数,θq,n是表示影响的“扩散”的参数。因子1/25用于赋予参数θq,n一个直观的含义,其中,θq,n的值等于1意味着二次影响在目标值μq,n±1的范围内超过95%的阈值。该因子可以是任何值,以实现相同的行为,同时使得参数θq,n被相应调整并且不再具有相同的直观解释。特别地,可以完全省略该因子(即设置为1)。因为可以使用户更容易设置这些参数(使用例如生物学知识或假设)或这些参数的实际边界,因此使用提供这些参数(例如θs,n和θq,n)的直观解释的因子可能是有利的。图2C示出了对于参数μq,n的不同值(θq,n的值固定等于1),二次影响因子的值随物质(其影响由校正因子建模)的浓度变化的示例。图2D示出了对于参数θq,n的不同值(μq,n的值固定等于5),二次影响因子的值随物质(其影响由校正因子建模)的浓度变化的示例。
如本领域技术人员所理解的,作为上述方程的替代或除上述方程之外,可以使用其他方程来对细胞群变量和影响这些变量的因子进行建模。这些方程一起可以形成状态空间模型(有时也称为状态观察器)。实际上,这些方程基于随系统的输入变化的一系列状态变量xv、xd、xt、xl描述了细胞培养物状态(本文也称为“细胞状态”)的演化,该输入包括例如影响细胞状态的各种物质的浓度。
如下所述,该状态空间模型(包括动力学生长模型)可以被扩展为包括捕获主体培养物中一个或多个代谢物(尤其包括营养物、副产物和所需产物)的浓度的演化的一个或多个方程(例如,方程(26)和其等价方程,或者捕获方程(25)中的物质平衡的任何其他此类方程)。
状态空间模型-代谢物的主体浓度
表示代谢物(特别包括营养物、副产物和所需产物)的主体浓度的演化的方程可以基于物质平衡方程,例如以下方程(25)来表示:
[反应器内代谢物的量的总变化]=[进入反应器的代谢物的总的流]-
[离开反应器的代谢物的总的流]+[反应器内细胞分泌的代谢物]-
[反应器内细胞消耗的代谢物](25)
方程(25)以数学形式表示系统(反应器)中研究的代谢物的质量守恒。在每个时间点t都需要满足方程(25)。方程(25)中代谢物的流可以表示为质量流(mass flow)或摩尔流(molar flow)(因为摩尔流可以通过摩尔质量转换为质量流,反之亦然,使得无论选择何种单位,都可以核实方程中表示的质量守恒),并且本领域技术人员能够将其中一个转换为另一个。因此,对质量流的提及旨在包括在对方程内的单位的一致性进行对应调整的情况下使用对应的摩尔流。类似地,对浓度的提及可以指质量浓度或摩尔浓度。进入生物反应器的代谢物的流取决于进料流FF(如果存在该流,即FF≠0)和该流中代谢物的浓度的值。离开生物反应器的代谢物的流取决于收获流FH(如果存在的话)的值和出料流FB(如果存在的话)的值,以及在这些相应流中代谢物的浓度。生物反应器中细胞对代谢物的消耗和分泌取决于反应器中的活细胞密度和称为“单位转运速率”(有时也称为“代谢速率”)的变量,该变量也可以称为细胞对代谢物的“单位消耗速率”(通常,如果“单位转运速率”是负值,则细胞正在消耗代谢物)或细胞对代谢物的“单位分泌速率/生产速率”(通常,如果“单位转运速率”是正值,则细胞正在生产代谢物)。因此,对于一般系统(例如,如图1所示),对于代谢物i,方程(25)中描述的物质平衡可写为以下方程(26):
其中,δm,i是培养物中细胞对代谢物i的单位转运速率,mi是反应器中代谢物i的浓度,V是生物反应器中培养物的体积,mF,i是进料流中代谢物i的浓度,mH,i是收获流中代谢物i的浓度,mB,i是出料流中代谢物i的浓度,xv是反应器中的活细胞密度,并且FF、FH和FB分别是体积进料流速、体积收获流速和体积出料流速(虽然质量流速可以与相应流的密度的适当系数等同地使用)。在实施例中,项δm,i*xv可以被项替代,其中,ε是一个常数,选择ε以确保低于代谢物检出限的mi的值不会导致单位转运速率估计中的误差。通常,将ε选择为约等于代谢物的检出限(例如,在代谢物浓度被标准化的情况下,可以将ε选择为0.05)。
方程(25)假设收获流28A包含通过辅助收获流28C离开系统的唯一物质(即,因为代谢物仅通过收获流离开系统,所以模型中无需包括辅助收获流和回流),并且细胞分离设备28的作用使得可以假设收获流28A不包含细胞。方程(26)可适用于包括辅助收获流28C(如果使用质量流速,则包括对应的mA,i和密度ρA)和回流28B(以及对应的mR,i和ρR)。此外,可以修改方程(26)以对通过收获流移除某些细胞进行建模。换言之,取决于生物过程的设置和所作的假设,可以在方程(26)中添加附加项,并且可以移除一些项。下面提供了一些常见的生物过程设置及其对应的简化方程的示例。
如技术人员所理解的,取决于运行模式(例如,补料分批、无补料分批等)和所作的假设(例如,各种流和生物反应器中的可变体积、可变浓度等),(25)中的一般方程表示可以不同。根据本文提供的教导,技术人员将能够相应地表示和求解方程(25)。此外,一个特定假设是否合理可能视情况而定,技术人员将能够使用众所周知的技术来核实是否是这样的情况。例如,技术人员将能够核实培养物的体积是否恒定(例如通过检查流入和流出生物反应器的材料的量或使用液位传感器)、培养基密度是否恒定(例如使用比重计)、一个或多个代谢物的浓度在一个或多个室和/或流中是否相同(例如使用一个或多个代谢物传感器分别测量这些室和/或流中的代谢物浓度)等。技术人员还将意识到,一个特定假设在一种情况下可能是合理的,但在另一种情况下可能是不合理的。例如,培养基中的小分子代谢物的浓度在生物反应器和流出的流(收获流和/或出料流)中可能是相同的,但是如果大分子可能会被过滤器或其他结构拦截,则大分子的浓度在生物反应器和一个或多个流出的流之间可能是不同的。
重要的是,这样的模型(在本文中称为“物质平衡模型”或“主体代谢物浓度模型”)捕获代谢物的细胞外通量与培养基中的代谢物的浓度之间的关系。因此,这些关系从外部角度提供了关于细胞代谢(即,细胞代谢如何影响生物反应器中主体流体的成分)的信息。该模型的确对细胞内代谢通量进行了建模,这些代谢通量是使用代谢模型捕获的并且明显更加复杂(因此更难以求解,并且需要大量数据和/或假设来参数化),代谢模型对一起形成细胞代谢网络的反应的通量进行建模。因此,本文使用的这些模型有利地提供关于细胞代谢状态的信息,同时保持相对简单的求解和参数化,允许以简单有效的方式获得重要的系统状态变量,例如代谢物的单位转运速率(如下文将进一步阐述的)。如本文进一步描述的,然后这些重要的系统状态变量可以用于预测CQA。
使用物质平衡方程计算单位转运速率
代谢物i的单位转运速率(上文表示为δm,i)(即单位消耗速率或生产速率/分泌速率,取决于从反应器的角度来看该速率是正值还是负值)是捕获生物过程中细胞代谢条件方面的重要变量。此外,在代谢物是所需产物的情况下,该代谢物的单位分泌速率/生产速率提供了对细胞培养物生产率的有用指示。可以如下文所述的在特定时间点使用物质平衡方程计算这些变量δm,i(每个感兴趣的代谢物一个变量δm,i),同时在两个连续的时间点测量相应代谢物的浓度和活细胞密度。
可以基于方程(26)(或如下所述,其简化变型),使用已知的(即测量或模拟的)代谢物浓度和活细胞密度的值,并使用一阶有限差分近似来计算在特定时间点的代谢物的单位转运(消耗/分泌)速率。例如,使用这样的近似,方程(26)可以根据方程(27)求解以得出在时间k的δm,i(表示为δm,i(tk)或δm,i,k):
其中,下标k和k+1表示在代谢物浓度和活细胞密度的值可用的第k个时间点和第k+1个时间点的值,IVCDk是时间点k和时间点k+1之间的积分活细胞密度(integratedviable cell density)。注意,第k个观察到的消耗速率是具有前瞻性的,意味着其表示了时间间隔k→k+1的消耗速率。
如下文将进一步阐述的,一个或多个感兴趣的代谢物的单位转运(消耗/分泌)速率可用作代谢条件模型的变量,该代谢条件模型将细胞的代谢条件分类为例如用于生物材料生产的最佳或次最佳状态或类别。
对于灌注培养(其中存在进料流FF、出料流FB和收获流FH),可以通过做出一些假设来简化方程(26)。例如,假设在生物反应器的培养基中各处代谢物浓度相同,因此在收获流和出料流中的代谢物浓度也是相同的(换言之,假设可以忽略反应器内的浓度梯度,使得mB,i=mH,i=mi),并且可以忽略在出料流和收获流中损失的细胞数量,则方程(26)可以写为:
进一步假设培养物的体积是恒定的(即FF=FH+FB),流是恒定的,并使用导数的一阶有限差分近似,可以求解方程(26a)以得出在时间tk的代谢物的单位消耗速率/分泌速率为:
对于补料分批培养物(其中存在进料流,但不存在出料流或收获流,即FH=FB=0),方程(26)可以写为:
可以使用导数的一阶有限差分近似求解方程(26b)以得出在时间tk的代谢物的单位消耗速率/分泌速率为:
在进料流是连续或半连续的实施例中(例如对于滴入的进料流),方程(27b)中的方法可能特别有用。在实施批式(bolus)进料策略的实施例中(即,瞬时添加的进料流相对较大),可以使用伪代谢物浓度pmi重写方程(26b),伪代谢物浓度pmi允许从方程(26b)中消除进料流,即:
对于在进料流中提供的代谢物,可以通过以下来获得伪代谢物浓度pmi:(i)使用测量的(或以其他方式确定的,例如基于初始反应器的体积和一个或多个进料批次提供的体积)反应器体积和已知的进料浓度来确定每次进料中有多少代谢物被添加到反应器中,以及(ii)从进料后的代谢物浓度的所有测量中减去(i)中的值。对于进料中不存在的代谢物(或可假设进料中不存在的代谢物),可以通过以下来获得伪代谢物浓度pmi:(i)使用测量的(或以其他方式确定的,例如基于初始反应器的体积和一个或多个进料批次提供的体积)反应器体积来确定由于每次进料引起的稀释而导致的浓度变化,以及(ii)从进料后的代谢物浓度的所有测量中加上(i)中的值。可以用导数的一阶有限差分近似求解方程(26d)以得出在时间k的代谢物的单位转运速率:
方程(27c)也可以写为:
其中,mi,k是在时间k的代谢物i的浓度,mAddi,k是在时间k的代谢物i的批式添加(bolus addition)中代谢物i的量,Vk是生物反应器中的总体积,iVCD是积分活细胞密度。此外,如果该代谢物是细胞的产物(即预期不存在于进料中的代谢物,例如所需产物),则该代谢物的单位生产速率可以写为:
其中,δm,i(tk)也可以写为qIgG(tk),并且mi,k+1、mi,k也可以写为CIgG,k+1、CIgG,k,以表示该代谢物是所需产物,例如重组抗体(IgG)。
对于无补料分批培养物(不存在进料流、出料流或收获流,即FF=FH=FB=0),方程(26)可以写为:
可以求解该方程,以得出在时间k的单位消耗速率/分泌速率为:
在本文描述的方法中可以使用任何用于计算积分活细胞密度的方法。例如,可以使用方程(28)计算IVCDk
IVCDk=(αxv,k+βxv,k+1)*(tk+1-tk) (28)
其中,系数α和系数β对两个活细胞密度值的相对影响进行加权,并且使得α+β=1。例如,这两个值的权重可以相同,即α=β=0.5。在实施例中,可以选择α和β以使得α>β(例如α=0.6和β=0.4)。可以选择这些系数来反映观察到的细胞生长行为,并且可以针对每个时间点独立地选择这些系数。如果可以假设指数增长,则可以使用对数变换来计算积分活细胞密度。例如,可以使用方程(28a)来计算积分细胞密度:
其中,
可以使用已知的(通常测量的)在时间/成熟度k和k+1的生物质浓度和代谢物浓度来求解上述在时间k的δm,i的方程(或考虑到过程的配置和所作的一组假设而定义的任何对应的方程),以获得在可获得上述测量的每个时间点/成熟度值的代谢物转运速率。此外,这可以针对每种测量的代谢物单独进行。所得到的代谢物转运速率表征培养物中细胞的随成熟度变化的代谢条件,并表示为针对每单位成熟度(即通常每单位时间)每细胞的代谢物的量(质量或摩尔)。这表示关于细胞代谢条件的非常有价值的信息,如上文阐述的,代谢条件模型(例如,PCA、PLS、或者OPLS等多元统计模型)可以使用这些信息来监测细胞培养物。注意,在用于单位转运速率的所有方程中,所有项的符号都可以取反,这取决于是使用负速率来表示细胞消耗代谢物,使用正速率来表示细胞生产代谢物(即,从培养基的角度来描述速率),还是相反的情况(即,使用正速率来表示细胞消耗代谢物,使用负速率表示细胞生产代谢物,换言之,从细胞室的角度来描述速率)。
使用机器学习预测单位转运速率
使用上述方法,只有在代谢物浓度和活细胞密度数据可用的时间点才能准确计算单位转运速率。或者,可以使用机器学习方法(即,训练和/或部署特定机器学习模型的机器学习算法)来基于表征在一个或多个先前时间点的生物过程的一个或多个变量的已知的(测量的或计算的)值来预测在未来时间点的一个或多个代谢物的单位转运速率。
因此,在实施例中,可以获得代谢物的单位消耗速率/分泌速率δi=fML,i(u,m,s),其中,fML,i是已被训练用于预测与以下内容相关的单位消耗速率/分泌速率δi(单独或与其他δi一起)的模型:选自过程变量u(例如温度、pH等)的一个或多个变量、一个或多个代谢物浓度m(其中,代谢物浓度也可以被认为是过程变量的一部分,即符号u可以指物理-化学过程变量和/或主体培养基中的代谢物浓度)、以及一个或多个表示细胞培养系统的状态的变量s(例如活细胞密度,裂解细胞密度,总细胞密度,细胞活力)。为了避免任何疑义,上述这些类别的变量中的任何变量可以不存在,即模型fML,i(u,m,s)可以不包括选自过程变量u的变量,不包括选自代谢物浓度m的变量,和/或不包括选自细胞培养物状态变量s的变量(前提是包括这些类别中的至少一个类别的至少一个变量)。在实施例中,上述一个或多个变量至少包括代谢物浓度m。因此,在一些实施例中,过程变量和/或细胞状态变量可以不存在,并且训练的模型可以至少(或仅)基于一个或多个代谢物浓度来预测单位消耗速率/分泌速率δi。优选地,上述一个或多个代谢物浓度包括已预测单位消耗速率的代谢物的浓度,和/或其浓度与已预测单位消耗速率的代谢物(例如,直接产物或其前体)的浓度高度相关的代谢物。在不希望被理论束缚的情况下,因为代谢物浓度与单位转运速率自然相关,因此仅使用这些代谢物浓度就可以获得在预测单位转运速率的任务中表现令人满意的机器学习。然而,过程变量和细胞培养物状态变量可以承载互补信息,机器学习模型可以有利地学习使用这样的信息来提高其预测准确性。因此,包括数量更多和/或种类更多的预测变量(例如,包括来自u、m和s类别中的一个或多个或每个类别的变量)可以获得具有提高的预测准确性和/或能够在更多情况下实现良好和/或提高的准确性的模型。
在实施例中,基于输入值来训练机器学习模型以预测一个或多个代谢物的单位转运速率,输入值包括表征在时间点k或在多个时间点(k、k-1、…)的生物过程的一个或多个变量的已知的(测量的或计算的)值。例如,输入值可以包括表征在第一时间点k和在第二时间点k-1的生物过程的一个或多个变量的已知的(测量的或计算的)值。上述输入变量可以包括在多个时间点中的每个时间点的一个或多个变量的值,其中,可以针对每个时间点独立地选择一个或多个变量。例如,在一个时间点的一个或多个变量可以与在另一时间点的一个或多个变量部分重叠、完全重叠、或不重叠。在一些实施例中,训练数据(用于训练模型的数据)或提供给使用中的模型的数据中可以存在缺失值。训练和/或使用机器学习模型可以包括输入一个或多个缺失值。插补法(imputation method)是本领域中已知的。在本上下文中适于使用的插补法包括例如线性插值、均值代换等。可以基于输入值来训练机器学习模型以预测在未来时间的一个或多个代谢物的单位转运速率,输入值包括表征在一个或多个时间点k、k-1等的生物过程的一个或多个变量的已知的(测量的或计算的)值。换言之,所使用的训练数据可以使得:根据在时间j>k、k-1、…的已知对应值来评估基于在一个或多个时间点k、k-1等的数据的模型预测。用于训练的输入数据中的多个时间点可以相隔预定时间段(例如1小时、2小时、3小时、12小时、1天、2天等)。例如,用于训练的输入数据可以包括在一个时间点和在与第一时间点相隔固定时间段的第二时间点的值。在模型的训练过程中,可以根据在时间j>k、k-1、…的已知对应值(标签值)来评估基于在一个或多个时间点k、k-1等的数据的模型预测,其中,时间点j与k、k-1、…中的一个或多个时间点相隔预定时间段。在简单的示例中,训练机器学习模型以预测从输入上述输入值中的最晚输入值的一天起的第二天(即1天/24小时内)的一个或多个代谢物的单位转运速率。在该示例中,如果输入值包括相隔一天的固定时间段的两个时间点,则训练机器学习模型以基于当前一天和前一天的一个或多个变量的值来预测第二天的一个或多个代谢物的单位转运速率。
对于整个训练数据集,上述时间段(无论是在输入值之间还是在输入值和预测值之间)可以近似相同。或者,训练数据可以包括不相隔相同时间差的输入值的集合和/或输入值和对应的已知(标签)值的集合。例如,训练数据可以包括对多个生物过程的测量,其中,在多个生物过程中的一些生物过程中每天获取数据,而在其他生物过程中每半天获取数据。优选地,所使用的训练数据包括相隔近似相同的时间(或成熟度,视情况而定)差的输入值的集合以及输入值和对应的标签值的集合。在上述示例中,这可以通过仅使用训练数据的与连续多天相关联的测量(不止包括每日测量)来实现,或者相反地通过输入未获取测量的时间点的测量来实现。训练后的机器学习模型可以有利地用于预测与时间差相关联的单位转运速率,该时间差是预测和最晚输入值之间的时间差和/或是与训练数据中的对应时间差类似的多个输入值之间的时间差。时间和时间差的提及可以指代对应的成熟度和成熟度差。此外,已被训练用于基于包括在多个时间点的值的输入值来预测单位转运速率的机器学习模型可用于基于包括缺失值(例如,包括的时间点比训练机器学习模型的时间点更少)的输入值来预测单位转运速率。例如,当单个时间点的值可用时(例如,当机器学习模型用于基于初始条件进行预测时),情况可能就是这样。因此,例如,已被训练用于基于包括在两个连续时间点的值的输入值来预测单位转运速率的机器学习模型可用于基于包括在一个时间点的值和两个连续时间点中机器学习模型期望作为输入的另一个时间点的零值或估算值的输入值来预测单位转运速率。通常,可以使用各种方法来估算缺失数据,例如用对应的值的集合的平均值、中值或众数、从对应的值的集合中随机提取的值等来替换缺失值。或者,可以使用支持缺失值的机器学习算法。这样的算法可能包括k最近邻(k-nearestneighbour)或分类和回归树。例如,机器学习模型可以是随机森林。
在状态空间模型中使用单位转运速率
如上文所述,捕获主体代谢物浓度的演化的方程可用于计算在代谢物浓度测量可用的特定时间点的单位分泌速率/消耗消耗率。使用物质平衡方程计算的单位转运速率可用于识别已经发生故障,例如使用上文阐述的代谢条件模型。但这些方程不能预测在未来时间点的单位消耗速率/分泌速率的值。因此,也不能精确计算在未来时间点可以预期的代谢物的浓度,因为这需要在方程(26)(或等价方程)中包括随时间变化的单位转运速率。因为底物限制、抑制或具有二次影响的代谢物的浓度将影响细胞状态变量(通过上文阐述的动力学生长模型),因此这反过来限制了计算在这样的未来时间点可以预期的细胞状态变量的能力。
或者,如上文所述,可以通过机器学习模型预测一个或多个感兴趣代谢物的单位转运速率。可以通过将这些预测包括在方程(26)和等价方程中,即通过用一个或多个代谢物的以下方程来扩展上述动力学生长模型,将这些预测集成到状态空间模型中:
其中,ε可以设置为0或反映上述代谢物的检出限的值,并且fML,i中的(u,m,s)是在一个或多个先前时间点的相应变量的值。可以在每个时间点t求解这样的扩展的状态空间模型,以预测mi、xv、xd和xl的新值,这些新值又可以用于使用机器学习模型预测下一时间点的单位转运速率的新值,该预测可以插入状态空间模型以预测mi、xv、xd和xl的新值等。
使用机器学习预测关键质量属性
图3是示出了根据本公开的模型部署过程的流程图,通过该过程可以预测生物过程的关键质量属性。在步骤300,接收与生物过程相关联的多个过程变量300a和代谢物浓度300b(其中过程变量和代谢物浓度可以统称为过程条件变量)的值、以及一个或多个细胞状态变量200c(例如,细胞状态变量和/或单位转运速率)的值。在步骤300接收的值在步骤310被训练后的机器学习模型用于计算在步骤320输出的关键质量属性的一个或多个预测。然后可以在步骤330使用上述预测来监测、控制、优化或模拟生物过程。在步骤300接收的所有值可能已经使用传感器测量、从测量结果推断、由模型预测或由用户设置(或这些方式的组合)。优选地,至少一些值已通过如本文所述的状态空间模型进行计算。例如,在步骤300接收的值优选地包括一个或多个系统状态变量,该一个或多个系统状态变量包括:使用如本文所述的动力学生长模型计算的一个或多个细胞状态变量、使用如本文所述的物质平衡模型(主体代谢物浓度模型)或者已被训练用于预测如本文所述的单位生产速率/消耗速率的机器学习模型计算的一个或多个单位生产速率/消耗速率、和/或使用如本文所述的物质平衡模型(主体代谢物浓度模型)计算的一个或多个代谢物浓度。在实施例中,在步骤300接收的值包括使用如本文所述的状态空间模型计算的至少一个细胞状态变量(例如,如方程(11)-(14)中提供的,活细胞密度、死细胞密度、裂解细胞浓度、总细胞密度、由于细胞生在而在培养物中积累并抑制细胞生长和/或对该细胞有毒的生物材料的浓度),该状态空间模型包括动力学生长模型、以及可选地物质平衡模型。在实施例中,在步骤300接收的值包括使用如本文所述的物质平衡模型或机器学习模型计算的至少一个单位转运速率。在实施例中,在步骤300接收的值包括使用如本文所述的动力学生长模型计算的至少一个细胞状态变量,优选地,其中动力学生长模型是包括动力学生长模型和物质平衡模型的状态空间模型的一部分。例如,至少一个细胞状态变量可以包括裂解细胞密度(也称为“裂解细胞浓度”)。用使用如本文所述的模型确定的,而不是测量的细胞状态变量使得可以对CQA做出更多信息预测,因为这扩大了可用于进行这种预测的可能的信息度量的范围,使其超出了通常或容易测量的范围。在实施例中,在步骤300接收的值包括使用如本文所述的状态空间模型计算的至少一个代谢物浓度,该状态空间模型包括动力学生长模型和物质平衡模型。优选地,在步骤300接收的值包括至少一个过程参数,该至少一个过程参数选自温度、pH、溶解氧、介质成分(例如,新鲜培养基中和/或主体流体(也称为主体流体成分)中的一个或多个代谢物和/或一个或多个其他物质的浓度)、以及灌注速率(如果使用的话)。
图3B提供了用于获得在步骤300接收的值的过程的更多细节。在步骤340,生物过程运行(至完成或至当前成熟度),在步骤350,获得过程数据。该过程数据可以包括来自传感器的一个或多个测量和/或被设置为生物过程的参数的一个或多个过程条件,其中一些数据可以被认为表示符合先前建立的规范的关键过程参数。在步骤360,针对一个或多个代谢物,计算单位生产速率/消耗速率。该步骤可以使用如本文所述的物质平衡方程(在本文中也称为“物质平衡模型”或“主体代谢物浓度模型”)(参见“使用物质平衡方程计算单位转运速率”部分)、如本文所述的机器学习模型(参见“使用机器学习预测单位转运速率”部分)、或其组合。例如,一些单位转运速率可以使用物质平衡方程进行计算,其他单位转运速率可以使用机器学习模型进行计算,例如,这取决于可用的代谢物浓度数据(例如,在代谢物浓度数据可用的情况下,代谢物浓度数据可以用于使用物质平衡方程来计算该代谢物的单位转运速率,而对于浓度数据不可用的其他代谢物,可以使用机器学习模型来预测这些代谢物的一个或多个单位转运速率)。在步骤370,在步骤360获得的该一个或多个单位转运速率与在步骤350接收的任何相关的过程条件一起可以用于使用如上所述的物质平衡模型来计算新的代谢物浓度(参见“在状态空间模型中使用单位转运速率”部分),这进而可以用于使用如上所述的动力学生长模型来计算诸如活细胞密度(VCD)、死细胞密度、以及裂解细胞密度的细胞状态变量(参见“状态空间模型-动力学生长模型”部分)。物质平衡模型和动力学生长模型一起可以形成混合状态空间模型,并且使用这些模型计算的变量与单位转运速率一起可以被称为“系统状态”。在仅从可用代谢物数据计算出代谢物单位转运速率的实施例中,步骤370可以不使用单位转运速率,并且可以替代地使用动力学生长模型来计算细胞状态变量。在这种情况下,在步骤360使用物质平衡模型,在步骤370使用动力学生长模型,这些步骤一起使用混合状态空间模型并产生一组系统状态,该组系统状态包括一个或多个代谢物单位转运速率和一个或多个细胞状态变量的值。在步骤310,在步骤350获得的过程数据、在步骤360获得的代谢物单位转运速率、以及在步骤370获得的其他系统状态变量用于使用机器学习模型来预测一个或多个关键质量属性,该机器学习模型已经被训练用于从这些输入数据预测一个或多个CQA。
在步骤310/320获得的预测可以用作出于各种目的而模拟、监测和/或控制生物过程的过程的一部分。例如,在模拟生物过程的背景下,预测的CQA可以用于建立过程条件(包括关键过程参数(CPP))和CQA的定量映射,以改进对过程的理解,更明智地建立CPP的运行目标。实际上,可以量化各种过程条件对CQA的影响(通过使用具有过程条件的不同集合的混合状态空间模型模拟过程,以及通过预测对应的CQA来量化),以评估这些过程条件对CQA的影响。这可以例如通过对所评估的过程条件进行网格搜索并检查由此获得的图来执行,或者通过从此类模拟数据导出雅可比(Jacobian)矩阵来执行,雅可比矩阵将CQA的变化量化为随各个感兴趣的运行区域中的过程条件的变化而变化。在模拟生物过程的背景下,CQA预测还可用于运行优化研究,以确定CPP的最佳条件和其他条件,从而最大化产率并保持质量。例如,可以在优化一个或多个其他目标(例如,最大化产率)的同时设置期望函数,该期望函数对在CQA的预定规范之外的任何输出施加惩罚。该期望函数可以用于估计使用各组过程条件模拟的生物过程的输出,作为优化过程的一部分来识别优化期望函数的过程条件。在监测生物过程的背景下,预测的CQA可以用于实时评估产物的质量。这进而可以用于通知其他步骤,例如,针对质量偏差实施校正动作,或者实施可能需要考虑这些质量度量的下游运行。此外,这可以与模拟步骤组合,从而可以在其实施之前评估校正动作的潜在效果,以识别适当的校正动作。在过程控制的背景下,本文描述的方法可以用作CQA的实时软传感器,可以并入高级控制策略(闭环控制)。例如,预测的CQA可以用于识别是否应该采取校正动作(例如,因为预测的CQA已经偏离了预定的目标范围或值),以及用于(可选地,在基于预测的CQA或与模拟步骤相关联的一个或多个其他预测的CQA已经确定了合适的校正动作来预测一个或多个候选校正动作对CQA的影响之后)自动实施校正动作,例如通过控制一个或多个效应器自动实施。
机器学习模型可以被训练用于基于输入值来预测一个或多个CQA,该输入值包括表征在一个时间点k或在多个时间点(k、k-1、…)的生物过程的一个或多个变量(例如,过程条件、代谢物浓度、细胞状态变量和/或单位转运速率)的值。例如,机器学习模型可以被训练用于基于输入值来预测一个或多个CQA,该输入值包括表征在第一时间点k和在第二时间点k-1的生物过程的一个或多个变量的值。预测的CQA可以与为当前/最晚时间点k或未来时间点j k,k-1的时间点相关联(即,被认为表示在所述时间点的期望CQA,并且在训练过程中对在所述时间点的CQA进行估计)。输入变量可以包括在多个时间点中的每个时间点的一个或多个变量的值,其中,可以针对每个时间点独立地选择该一个或多个变量。因此,在一个时间点的一个或多个变量可以与在另一时间点的一个或多个变量完全重叠(即,对于多个时间点中的每个时间点,一个或多个变量可能是相同的)、部分重叠、或不重叠(即,在多个时间点中的至少两个时间点之间,一个或多个变量可能是不同的)。训练数据(用于训练模型的数据)或提供给使用中的模型的数据中可以存在缺失值。因此,训练和/或使用机器学习模型可以包括输入一个或多个缺失值。在本上下文中适于使用的插补法包括例如线性插值、均值代换等。用于训练的输入数据中的多个时间点可以相隔预定时间段(例如1小时、2小时、3小时、12小时、1天、2天等),可以是任意两个连续时间点之间独立设置或相同设置的固定时间段。类似地,时间点j可以与最近时间点k相隔预定时间段。例如,机器学习模型可以被训练用于预测从输入上述输入值中的最晚输入值的一天起的第二天(即,1天内)的CQA。在该示例中,如果输入值包括相隔一天的固定时间段的两个时间点,则机器学习模型被训练用于基于当前一天和前一天的一个或多个变量的值来预测第二天的CQA。
对于整个训练数据集,上述时间段(无论是在输入值之间还是在输入值和预测值之间)可以近似相同。或者,训练数据可以包括不相隔相同时间差的输入值的集合和/或输入值和对应的已知(标签)值的集合。例如,训练数据可以包括多个生物过程的测量,其中,在多个生物过程中的一些生物过程中每天获取数据,而在其他生物过程中每半天获取数据。优选地,所使用的训练数据包括相隔近似相同的时间(或成熟度,视情况而定)差的输入值的集合以及输入值和对应的标签值的集合。在上述示例中,这可以通过仅使用训练数据的与连续多天相关联的测量(不止包括每日测量)来实现,或者相反地通过输入未获取测量的时间点的测量来实现。训练后的机器学习模型可以有利地用于预测与时间差相关联的CQA,该时间差是预测和最晚输入值之间的时间差和/或是与训练数据中的对应时间差类似的多个输入值之间的时间差。时间和时间差的提及可以指代对应的成熟度和成熟度差。此外,已被训练用于基于包括在多个时间点的值的输入值来预测CQA的机器学习模型可用于基于包括缺失值(例如,包括的时间点比训练机器学习模型的时间点更少)的输入值来预测CQA。例如,当单个时间点的值可用时(例如,当机器学习模型用于基于初始条件进行预测时),情况可能就是这样。因此,例如,已被训练用于基于包括在两个连续时间点的值的输入值来预测CQA的机器学习模型可用于基于包括在一个时间点的值和两个连续时间点中机器学习模型期望作为输入的另一个时间点的零值或估算值的输入值来预测CQA。通常,可以使用各种方法来估算缺失数据,例如用对应的值的集合的平均值、中值或众数、从对应的值的集合中随机提取的值等来替换缺失值。或者,可以使用支持缺失值的机器学习算法。这样的算法可能包括k最近邻或分类和回归树。例如,机器学习模型可以是随机森林。
使用机器学习预测一个或多个CQA可以根据用例和过程模型以两种方式应用。在第一种情况下,该方法可用于使用从过程开始到当前成熟度的过程轨迹中选择的输入数据来估计分批或补料分批过程的最终CQA值。换言之,机器学习模型可用于使用在从生物过程开始到当前成熟度(即,k至多为当前成熟度)选择的一个或多个成熟度k、k-1、…的输入数据来预测在对应于生物过程结束的时间j的一个或多个CQA。这在生物过程具有明确定义的“结束”的情况下,例如,在分批或补料分批生物过程中可能特别有用,因为在这种情况下通常在过程结束时收获并表征产物。因此,在生物过程的运行期间预测任何成熟度的最终CQA的能力在这种情况下可能特别有利。在第二种情况下,该方法可用于使用从到当前时间点为止的历史数据(例如,1天)的移动窗口的过程轨迹中选择的输入数据来估计一个或多个CQA的当前值。换言之,机器学习模型可用于使用在从过程开始到当前成熟度(即,k至多为当前成熟度)选择的一个或多个成熟度k、k-1、…的输入数据来预测在对应于当前时间的时间k的一个或多个CQA。输入数据可以选择为包括在当前时间之前的时间窗口内(例如,在当前时间k之前的1或2天内)的一个或多个成熟度k、k-1、…的数据。这在生物过程没有明确定义的“结束”的情况下,例如,在灌注过程中可能特别有利,因为在这种情况下通常在至少一些过程中收获产物(并且因此,在该过程进行时收获的产物的CQA的值具有相关性)。在训练过程中,可以通过识别得到性能最佳的机器学习模型(例如,对合适的验证数据和/或测试数据评估时具有最小损失的机器学习模型)的输入数据的特性(例如,哪些输入变量和时间点)、或通过使用关于生物过程的属性的先验知识、或上述方式的组合(例如,通过使用先验知识测试不同的输入数据集来识别待测试的相关输入数据集)来设置适当的时间窗口。
如上所述,虽然存在识别“不符合规范”运行的生物过程的多元方法,但这些方法当前的实施方式仅允许基于特定关键过程参数的值,而不允许基于任何过程参数通过其影响细胞状态和代谢而对CQA产生的影响来确定生物过程当前是否预期正常运行。这些方法不允许预测在未来时间点的生物过程是否正常运行,或者如果一个或多个过程条件改变,该生物过程是否正常运行。本方法通过使用提取生物相关度量(例如来自混合状态空间模型的代谢物和状态的单位消耗速率)的转换来增强测量数据,以及使用更适合用于拟合CQA的变化的更灵活的建模方法(机器学习模型)改进了这种情况。
图4是示出了模型校准过程的流程图,该模型校准过程可用于获得用于预测生物过程的一个或多个CQA的校准后的机器学习模型(例如,图3A中的模型310)。在步骤400,获得与多个生物过程相关联的多个过程变量400a和代谢物浓度400b(其中过程变量和代谢物浓度可以统称为过程条件变量)的值、以及一个或多个系统状态变量400c的值。这些变量的值可能已经使用传感器测量(如下文将进一步阐述),和/或已经从测量中推断(例如,通过使用如本文所述的动力学生长模型和/或物质平衡模型来获得一个或多个系统状态变量)。在步骤400接收的值包括可用于训练机器学习模型的输入数据,并且一起表示训练数据集。在步骤430,也接收可用于验证机器学习模型的输出的数据(即,标签或可从中计算标签的数据),该数据包括与在步骤400获得数据的生物过程相关联的一个或多个测量的CQA。这也形成了训练数据集的一部分。在步骤410,将接收的一个或多个值作为输入提供给机器学习模型,机器学习模型在步骤420中提供一个或多个CQA的一组预测作为输出。例如,当训练数据集被划分为训练集和验证集时和/或当每次训练迭代都从训练集中抽取训练数据时,这些可以表示训练数据集的子集。将预测的CQA与在步骤430获得的对应测量CQA进行比较。或者,通过基于上述预测的CQA计算一个或多个其他值,并将该一个或多个值与对应的测量值(或从测量值导出的值)进行比较,可以间接地将预测的CQA与对应的测量值进行比较。例如,预测的产率可用于计算培养物中的对应产物的浓度,并且该浓度可与对应的测量值(即,测量的浓度或从测量值导出的浓度)进行比较。比较预测值和对应的已知值通常包括计算如上所述的损失函数值。在步骤440,优化算法使用计算的损失值来修改机器学习模型。
通常使用在步骤400接收的不同或部分重叠的输入值集合来重复步骤400、410、420、430和440,所有这些输入值集合共同构成训练数据。可以重复该过程,直到满足一个或多个停止准则。例如,停止准则可以包括最大迭代次数、与一个或多个先前迭代相比损失函数的值的变化量的阈值(例如,当对形成训练数据集的一部分的验证数据集评估时)、在一个或多个迭代中已经达到的目标损失函数值等。因此,获得训练后的机器学习模型,如关于图3所阐述的,该机器学习模型可以用于进行预测。可以使用不同类型的机器学习模型和/或不同的模型架构来重复该过程,以识别具有一个或多个期望特性(例如,期望计算速度、期望预测精度等)的特定机器学习模型。不同架构的模型可能因以下而异:模型的输入变量(例如,不同的滞后值、不同成熟度的值、不同变量的值)、输出变量(例如,预测CQA的不同集合的每个模型)、神经网络的隐藏层的参数(例如,层数、每层节点数、使用的激活函数等)、模型的集合中使用的模型数量和/或从该集合中的模型中预测的组合方式、和/或用于训练的超参数。如关于图3所阐述的,然后可以将一个或多个机器学习模型提供给用户以进行部署。该一个或多个机器学习模型可以使用输入变量的不同集合,例如使得用户可以选择使用他们能够为其提供输入数据的机器学习模型。可以提供多个机器学习模型,每个机器学习模型预测不同的CQA或CQA的集合,例如使得用户可以选择使用提供他们感兴趣的预测的一个或多个机器学习模型。
当多个CQA以类似方式受到至少一些输入变量的影响时,联合预测多个CQA的机器学习模型可能是有利的。例如,可以有利地联合预测以类似方式受到代谢变化影响的CQA,该代谢变化反映在所使用的输入变量的值中或受其影响。可以使用机器学习模型来有利地预测以与其他CQA不同的方式受到代谢变化影响的CQA,该机器学习模型不联合预测未以相同方式受到影响的其他CQA。这些情况可以通过试错来识别,例如通过测试输入变量和输出变量的不同组合、和/或使用可能影响待预测的多个CQA的值的因子的先验知识、和/或使用多元统计方法来识别彼此独立的(或者相反地,彼此相关的)一个或多个CQA的集合。
图5示出了根据本公开的实施例的用于监测和/或控制生物过程的系统的实施例。该系统包括计算设备1,计算设备1包括处理器101和计算机可读存储器102。在所示的实施例中,计算设备1还包括用户界面103,用户界面103被示为屏幕,但可以包括例如通过声音或视觉信号向用户传送信息的任何其他装置。计算设备1例如通过网络6可操作地连接到生物过程控制系统,该生物过程控制系统包括生物反应器2、一个或多个传感器3、以及一个或多个效应器4。计算设备1可以是智能手机、平板电脑、个人电脑或其他计算设备。计算设备1用于实现如本文所述的用于监测和/或控制生物过程的方法。在替代实施例中,计算设备1用于与远程计算设备(未示出)通信,远程计算设备本身用于实现如本文所述的监测生物过程的方法。在这种情况下,远程计算设备还可以用于向计算设备1发送监测生物过程的方法的结果。计算设备1和远程计算设备之间的通信可以通过有线或无线连接,并且可以在本地网络或公共网络上(例如在公共互联网上)进行。传感器3和可选的效应器4中的每一个可以与计算设备1有线连接,或者能够通过无线连接(即,通过网络6,如图所示,例如通过WiFi)进行通信。计算设备1与效应器4和传感器3之间的连接可以是直接的或间接的(例如通过远程计算机)。一个或多个传感器3用于获取与在生物反应器2中执行的生物过程相关的数据,可以如图1所示地实现该生物过程。一个或多个效应器4用于控制在生物反应器2中执行的生物过程的一个或多个过程参数。
一个或多个传感器3可以分别是在线传感器(有时也称为“内联传感器”)或离线传感器(无论是手动还是自动,均获得样本,并随后进行处理以获得测量结果),在线传感器(在获取或不获取待提取的培养物的样本的情况下)在生物过程进行时自动测量生物过程的属性。来自传感器的每个测量值(或从这样的测量值导出的值)表示一个数据点,该数据点与时间(或对应的成熟度)值相关联。一个或多个传感器3可以包括用于记录生物反应器2中的生物质的传感器,本文称为“生物质传感器”。生物质通常是以活细胞密度或参数(从该参数可以估计活细胞密度)的形式。该生物质传感器可以记录物理参数,从该物理参数可以估计生物反应器中的生物质(通常以总细胞密度或活细胞密度的形式)。例如,基于光密度或电容的生物质传感器是本领域已知的。一个或多个传感器还可以包括测量一个或多个代谢物浓度的一个或多个传感器,本文称为“代谢物传感器”。代谢物传感器可以测量整个培养物、培养基室、生物质室(即整个细胞)或单位细胞室中的单个或多个代谢物(例如,从几个代谢物到数百甚至数千个代谢物)的浓度。代谢物传感器的示例是本领域已知的,这些示例包括NMR光谱仪、质谱仪、基于酶的传感器(有时称为“生物传感器”,例如用于监测葡萄糖、乳酸等)等。大多数常用的代谢物传感器测量培养基中代谢物的浓度。如本文所使用的,传感器3(例如,代谢物传感器和生物质传感器)还可以指从一个或多个测量变量(例如,由其他传感器提供的测量变量)估计代谢物浓度或生物质量的系统。例如,代谢物传感器实际上可以实现为处理器(例如处理器101),该处理器从(例如测量系统的物理/化学属性的)一个或多个传感器接收信息,并使用一个或多个数学模型来根据这样的信息估计代谢物浓度。例如,代谢物传感器可以实现为处理器,该处理器从近红外光谱仪接收光谱并从这些光谱估计代谢物的浓度。这样的传感器可以称为“软传感器”(指的是使用软件获得这些传感器的“测量值”,而不是通过直接测量获得“测量值”)。一个或多个传感器3还可以包括测量其他过程条件的一个或多个传感器,这些过程条件例如是pH、培养物的体积、材料进出生物反应器的体积/质量流速、培养基密度、温度等。这样的传感器是本领域已知的。测量其他过程条件的一个或多个传感器3是否必要或有利可至少取决于如下文将进一步阐述的运行模式和由物质平衡模块做出的假设。例如,在生物过程不以无补料分批运行的情况下,包括用于测量进入和/或离开生物反应器的流的量和/或成分的一个或多个传感器可能是有利的。此外,在物质平衡模块不假设生物反应器中的体积恒定的情况下,包括用于测量生物反应器中液体的体积的传感器(例如液位传感器)可能是有利的。来自传感器3的测量被传送到计算设备1,计算设备1可以将数据永久地或暂时地存储在存储器102中。计算设备的存储器102可以存储如本文所述的一个或多个训练后的机器学习算法。处理器101可以执行指令,以如本文所述(例如,通过参考图3)使用相应的训练后的机器学习模型和来自一个或多个传感器3的数据和/或模拟数据来预测一个或多个关键质量属性、以及可选地一个或多个单位转运速率。注意,如参考图5所述的系统也可用于如本文所述(例如,通过参考图4)训练机器学习模型。
在过程模拟的背景下,一些值可能已经由用户测量,而其他值可能已经由用户预测或设置。例如,用户可能希望研究特定地改变一个或多个过程条件对生物过程性能的一个或多个度量的影响。为此,可以基于测量的时间进程设置一个或多个值,并且可以设置其他值以表示预期变化。或者,可以将所有值设置为表示打算使用的一组条件。在使用机器学习预测单位转运速率的实施例中,上述值至少包括足以用于机器学习模型预测第一组单位转运速率的初始条件。这些预测可用于(例如使用如本文所述的物质平衡方程和/或动力学生长模型)计算未来代谢物浓度和/或细胞状态。这些值可以被反馈到预测单位转运速率的机器学习模型,可选地与用户打算设置的其他过程参数相结合。然后,可以如上所述的得到一组新的预测,并且可以根据需要多次重复该过程。如上所述,这些预测本身可以提供对正在被模拟的生物过程中的细胞代谢条件的指示。此外,作为模拟过程的一部分(例如,使用如本文所述的物质平衡方程和/或动力学生长模型)计算的代谢物浓度和/或细胞状态也可以提供指示细胞培养物性能的信息。然后,作为模拟过程的一部分计算的代谢物浓度和/或细胞状态可用于使用如本文所述的一个或多个机器学习模型来预测一个或多个关键质量属性。因为上述模拟复制了生物信息学(in silico)中的真实过程条件以了解这些过程件对细胞培养物性能的影响,因此这样的应用可以称为“数字孪生”。例如,这样的模拟过程可用于研究过程条件(例如温度廓线(temperature profile)、pH、溶解氧廓线、搅拌、培养基成分、流参数等)对生物过程的关键质量属性的影响。在这种情况下,初始条件可以包括机器学习模型使用的包括代谢物浓度的所有起始过程条件,并且除了代谢物浓度(将由模型计算)之外的在每个后续时间点的过程条件(例如用作机器学习模型的输入和/或用作物质平衡/动力学生长模型的参数)可以被设置为所研究的那些过程条件。
在过程优化的背景下,上述模拟过程可以被集成为优化过程的一部分,通过该优化过程,能够基于包括至少一个关键质量属性标准的一个或多个期望标准研究和比较多个过程条件或其组合。例如,其他期望标准可以包括所需产物的浓度或在预定时间量内生产的所需产物的总量。
如技术人员所理解的,来自任何机器学习模型的预测的准确性取决于用于训练该模型的数据和该模型的特定用途的组合。例如,当输入数据具有基于多个时间点之间的时间差(与用于训练模型的训练数据中的至少一些时间差类似)的特征时,机器学习模型可以提供更准确的预测。作为另一示例,相较于已使用捕获一组范围较窄的条件的训练数据训练的机器学习模型,已使用反映各种过程条件的训练数据训练的机器学习模型可以为前所未见的过程条件提供更准确的预测。因此,在不希望被理论束缚的情况下,为了预测过程的监测(其中该过程预期在正常条件下运行),使用表示一组(通常,范围相对较窄)正常条件(已知实现在规范内的过程的条件)的数据可能就够了。相反,为了模拟或优化,使用表示各种条件的数据来训练机器学习可能会表现得更好。然而,请注意,在不存在预测的情况下,这样的模拟或优化是不可能实现的,因此即使是不完美的机器学习模型也可能提供优势。作为又一示例,当输入数据具有与用于训练模型的训练数据中的至少一些数据类似的,基于诸如搅拌/混合、气体递送、温度廓线(例如是否实施温度变化)等的过程参数的特征时,机器学习模型可以提供更准确的预测。例如,相较于使用具有不同形状和混合参数的反应器(例如,15生物反应器)运行的生物过程,使用从在/>250生物反应器、2l和/或高达1000l的生物反应器中运行的生物过程获得的数据训练的模型可以为在这些生物反应器中的任一生物反应器中运行的生物过程提供更有用的预测。
现在将描述使用用于生物过程监测、控制、模拟和优化的状态空间模型的具体实施例,其中该状态空间模型可以用于获得可预测关键质量属性的变量。
用于预测性生物过程监测、控制、模拟和优化的混合模型
图6示出了如本文所述的用于混合模型的计算架构的示例性实施例,该混合模型包括状态空间模型和关键质量属性预测模型。动力学和代谢状态观察系统105包括多个特定处理模块,包括动力学生长模型150、代谢条件模型160、状态校正模型175、过程监测引擎180、标记和报警引擎185、以及消耗速率和分泌速率模块190。代谢条件模型160可以包括附加模块,包括多元统计建模引擎165(本文也称为PCA和PLS统计建模引擎)和数据驱动的机器学习引擎170。动力学生长模型150和代谢条件模型160一起形成称为“混合模型”的模型。动力学模型是用于确定活细胞(live cell)、裂解细胞、活细胞(viable cell)的量以及细胞密度等(如上文所述)的模型。代谢条件模型160是用于提供关于生物过程的质量控制信息,例如关于生物过程的产物和属性(例如,副产物等)的产物滴度和信息的模型。代谢条件模型160的输出可以被馈送给动力学生长模型150,即使用代谢条件模型160计算的一些值可用作动力学生长模型150中的输入变量。状态校正模型175可用于基于实验数据更新对动力学生长模型150的状态的估计。可以基于测量的实验输出和估计的混合模型输出之间的差值来导出误差,并且可以基于误差信号来调整混合模型的参数,以随时间将误差信号驱动到零。
动力学生长模型150可以是基于Monod生长方程(参见方程(11)-(24))和物质平衡方程(代谢物主体浓度方程,参见方程(25)-(29))的状态空间模型。因此,动力学生长模型150可以包括上述动力学生长模型和主体代谢物浓度模型,一起形成状态空间模型。如上所述,Monod生长方程和代谢物物质平衡方程是可用于描述细胞生长(例如微生物细胞生长)、细胞密度和活细胞密度、总细胞(例如活细胞、死细胞和裂解细胞)等的一系列微分方程。动力学生长模型的输入可以包括温度、进料条件、pH等,并且输出包括状态估计。动力学生长模型可以看作典型的状态空间模型。在该背景下,内部建模的参数称为状态。例如,这些参数可以包括xv、xd、xl、mi。动力学生长模型可用于监测生物反应器中活细胞的数量(和其他参数),并预测在未来时间点的生物反应器中的细胞数量。除了动力学生长方程(上述方程(11)-(24))和物质平衡方程(例如方程(28)或方程(25)-(26)和等价方程中的任何方程)之外,动力学生长模型可以包括用于描述期望的生物材料随时间变化的速率的单独方程。这可以表示为:
其中,是生物材料随时间变化的速率,Qp是一个函数,该函数的输入包括代谢物浓度m,δ(m,i)(t)是当前时间的代谢物的单位生产速率或单位消耗速率,u是一组自变量(即,作为输入提供给该模型并且模型不计算新值的变量,例如,这些变量可以包括诸如温度、pH等的过程参数),xv是活细胞密度。在生物材料本身是代谢物的情况下,方程(30)可以采取如上所述的物质平衡方程的形式(并且因此该方程(30)可以作为一组物质平衡方程的一部分包括在内)。类似地,在生物材料本身是生物质的情况下,方程(30)可以采取相关的动力学生长方程(例如捕获活细胞密度的方程)的形式。换言之,如果期望的生物材料是生物质或在模型中包括的物质平衡方程中已经捕获的代谢物,则方程(30)可以已经形成如上所述的模型的一部分。动力学生长模型150的输出可以包括产物滴度、代谢物浓度、活细胞密度、以及活力。动力学生长模型150还可用于根据上述测量数据计算在给定时间的一个或多个代谢物的单位消耗(或分泌)速率。或者,可以使用如本文所述的训练后的机器学习模型来预测未来时间的一个或多个代谢物的单位消耗(或分泌)速率。此外,还可以使用动力学生长模型和测量数据来计算一些单位转运速率,以及使用机器学习模型来预测其他单位转运速率。
代谢条件模型160执行两个功能:(i)预测过程的一个或多个关键质量属性,以及(ii)可选地将系统的内部代谢状态分类为例如用于生物材料生产的最佳或次最佳状态或类别。为了执行这两项任务,代谢条件模型160使用以下中的一个或多个作为输入:过程条件、测量(例如,代谢物测量)、来自动力学生长模型150的状态空间变量(例如,诸如活细胞密度的生长方程的变量和/或诸如代谢物浓度的物质平衡方程的变量)、以及代谢物的单位转运速率。可选地,输入到代谢条件模型的输入可以包括温度、进料条件等。通常,代谢条件模型独立于动力学生长模型,并且可以独立于动力学生长来执行代谢条件监测。在实施例中,代谢条件模型可用于通过提供对滴度和/或质量的估计以改进滴度预测,来增强动力学生长模型。为了对系统的内部代谢状态进行分类,代谢条件模型可以使用代谢物的单位消耗/单位生产作为最小输入。如上所述,这些速率可以从代谢物浓度和活细胞密度数据计算,或者可以使用机器学习模型预测。代谢条件模型可选地使用附加测量参数和/或未测量的状态作为输入来改进产物滴度和/或质量的预测。在一些实施例中,代谢条件模型包括统计建模引擎165,统计建模引擎165用于使用单位消耗速率/生产速率(以及可选地,从过程测量的附加参数或状态)作为输入来构建主成分分析(PCA)或偏最小二乘(PLS)或正交偏最小二乘(OPLS)模型,并产生一个或多个多元得分作为输出。统计建模引擎可以包括任何合适的引擎,包括(PCA)模型、偏最小二乘(PLS)模型、偏最小二乘判别分析(PLS-DA)模型和/或正交偏最小二乘判别分析(OPLS-DA)模型。PCA可用于表征数据集中的变化,即,在这种情况下,用于表征代谢变化。PLS可用于将代谢变化与重要质量度量(产物质量)的生产率(滴度)或生产相关。用于执行PLS的技术可以参见例如in Wold et al.,PLS-regression:abasic tool of chemometrics,Chemometrics and Intelligent Laboratory Systems 58(2001)109-130。用于执行PCA的技术可以参见例如in Wold et al.,Principal ComponentAnalysis,Chemometrics and Intelligent Laboratory Systems 2(1987)37-52。PCA和PLS都可以用于降低数据集的维数,即提取一组尽可能多地捕获数据中的可变性的概要变量。PCA是一种无监督降维技术,PCA可以在不丢失大量信息的情况下通过变量的线性组合对数据进行概括。PLS是一种有监督降维技术,PLS基于因变量与自变量之间的相关性而应用。这些技术被认为在本领域现有技术的范围内。
在一些实施例中,代谢条件模型160的输出被馈送到动力学生长模型50。代谢条件模型160还可以允许对生物过程中细胞的代谢条件进行可视化。因此,代谢条件模型160的输出既可用作动力学生长模型150的输入,也可以促进细胞代谢的代谢条件的监测和可视化。代谢条件模型可以包含数据驱动的机器学习引擎170或链接到数据驱动的机器学习引擎170。机器学习引擎170可以包括一个或多个机器学习模型,例如神经网络、深度学习模型或其他机器学习模型。可以使用已知的技术来训练机器学习引擎170以将生物系统/生物反应器的状态分类为最佳状态或次最佳状态。此外,可以使用已知的技术来训练机器学习引擎170以将代谢物的状态分类为最佳状态或次最佳状态。在实施例中,机器学习引擎170执行可比拟统计建模引擎165的分类,并且在一些情况下,机器学习引擎170以比统计建模引擎165更高的准确性和精确性执行分类。在实施例中,机器学习引擎170还包括一个或多个机器学习模型,这些机器学习模型如本文所述被训练用于预测一个或多个代谢物的单位生产/消耗速率。机器学习引擎170还包括一个或多个机器学习模型,这些机器学习模型如本文所述被训练用于预测关键质量属性。为了如本文所述预测关键质量属性,代谢条件模型160和更具体地机器学习引擎170使用动力学生长模型的一个或多个变量(例如,代谢物浓度)作为输入。可选地,为了预测CQA而输入到代谢条件模型的输入可以包括诸如温度、进料条件等的过程条件。
状态校正模型175减少了系统中的误差。可以确定混合模型的输出与测量数据之间的差值,并将该差值作为误差信号提供给状态校正模型175。状态校正模型用于使误差最小化,并用于随时间将误差信号驱动到零。状态校正可以对应于与扩展卡尔曼滤波器(Kalman filter)相关联的技术。在实施例中,状态校正模型175可以是单独的模块,或者可选地,可以集成到动力学生长模型中。过程监测引擎180可以连接到用于测量与生物反应器相关联的一个或多个参数的多个传感器。这些参数可以包括温度、氧气水平、进料条件、pH值或生物过程的可以实时或几乎实时地监测的其他方面。可以将这些测量提供给模拟生物反应的混合模型。还可以将这些测量提供给代谢条件模块160,以监测细胞代谢并生成CQA估计。标记和报警引擎185监测系统的过程偏差。如果生物反应器的输出偏离其预期/预测输出,则向用户提供报警。例如,生物过程可能被系统暂停,直到该过程被校正。作为另一示例,系统可以补偿上述偏差(例如,调整进料或过程条件以达到期望状态(例如,最佳状态))。标记和报警引擎185还可以向用户发送关于生物反应器状态的通知。例如,当内部代谢状态被分类为次最佳类别时,或者在一个或多个关键质量属性不在规范内的情况下,可以向用户发送通知。消耗速率和分泌速率模块190确定生物过程反应器中代谢物/分析物的单位消耗速率和单位生产速率。这可以通过调用机器学习引擎170使用如上所述的已知的代谢物浓度和物质平衡方程、或使用如上所述的机器学习模型来执行。单位消耗数据由代谢条件模型160使用。可以将代谢条件模型160的输出提供到动力学生长模型中以预测产物滴度。控制器195可以接收反馈(例如,生物反应器的输出)以控制生物反应器自动调整实验过程条件,以最小化与最佳过程条件的偏差。
数据库130包含用于动力学和代谢状态观察系统105的各种类型的数据。训练数据132包括用于训练代谢条件模型160(特别是机器学习引擎170)以预测CQA的数据。训练数据132还可以包括用于识别动力学模型系数、计算代谢物的单位消耗速率/生产速率(在一些实施例中,包括用于训练预测单位消耗速率/分泌速率的机器学习模型的数据)、和/或训练代谢条件模型160以将细胞的状态分类为最佳状态或次最佳状态或确定估计生物材料的生产量(例如单位生产率)的数据。过程条件134对应于当前生物过程反应的过程条件。过程条件134还可以包含已实验确定的理想过程条件。可以将这些条件提供给混合模型(150、160),以促进当前生物过程运行的过程监测或生物反应器的模拟/预测。输出136是动力学和代谢状态观察系统105的输出,并且可以从实验系统的输出中减去该输出,以生成反馈到混合模型的输入中的误差信号。
可以通过过程监测引擎180获得代谢物和细胞密度的测量,并将测量提供给单位消耗和分泌速率模型190,以通过使用如上所述的物质平衡方程或通过调用机器学习引擎170来确定代谢物的单位消耗速率或单位分泌速率。可以提供单位消耗速率和单位分泌速率作为代谢条件模型的输入。单位消耗速率和单位分泌速率允许将过程条件转换为每个细胞对每种代谢物消耗或产生的量(即代谢条件变量)。在实施例中,可以将单位消耗速率和单位分泌速率提供给代谢条件模型160,其中,PCA和PLS统计建模引擎165和/或数据驱动的机器学习引擎170对细胞的状态进行分类,以确定系统是处于例如关于过程参数(例如温度、进料浓度、pH等)的最佳条件还是次最佳条件。
如图7所示,上述架构可以用于监测生物过程。通过使用这样的架构而不是仅使用生物过程的可测量特征来监测,可以估计生物过程的内部状态(即细胞培养和细胞代谢的特征),从而提供对生物过程状态更丰富的描绘。例如,可以在步骤705测量一组过程参数(也称为生物反应器的“输入”或“输出”,这取决于这些参数是否被设置为运行条件或这些参数是否由生物过程中的细胞活性而产生),并将这些参数用作混合模型的输入。这些参数可以包括代谢物浓度、活细胞密度(VCD)、产物滴度、产物质量、细胞活力、产物质量、温度、pH、溶解氧(dissolved oxygen,DO)等。通常随时间测量上述过程参数。在实施例中,零阶保持(zero-order hold)用于估计采样间隔的值。将测量的过程参数提供给动力学生长模型150。在步骤710,动力学生长模型可以使用一些这样的数据(特别是初始条件)来初始化状态值(例如,细胞培养物变量以及可选地一个或多个代谢物值),状态包括xv、xd、xl、以及可选地mi注意,/>是由于细胞生长而在细胞培养物中积累的理论代谢物的特例(实际上该理论代谢物可以捕获多个代谢物的影响)。因此,对作为代谢物浓度(mi)的状态的提及还包括指代理论代谢物/>的状态。还可以在步骤715用参数初始化动力学生长模型150,这些参数可以由用户提供、作为默认值检索或与测量数据一起接收。然后,在步骤725,仅通过求解模型中的方程,就可以使用动力学生长模型150来确定状态xv、xd、xl、以及可选地mi或/>的值。这可以通过以下来实现:给定过程参数的测量值,从反应开始的时间到当前时间,对动力学生长模型中的动力学方程组求积分。求解动力学生长模型需要了解在每个建模时间点的单位消耗速率/生产速率。在步骤720,可以从先前的实验了解在每个建模时间点的单位消耗速率/生产速率,即通过从先前的实验中的代谢物浓度测量和活细胞密度测量中计算速率,并假设这些速率也适用于本过程(特别是如果使用在对应时间获得的值)。或者,在步骤720,如本文所述,可以基于在先前时间点的过程参数和/或动力学生长模型状态估计,使用机器学习模型来预测一个或多个单位消耗速率/分泌速率。动力学生长模型150的输出可以包括产物滴度、代谢物浓度、活细胞密度、以及活力。如本领域技术人员所理解的,动力学生长模型可以包括捕获一个代谢物或多个代谢物浓度变化的方程。类似地,可以预测一个或多个代谢物的单位消耗速率/分泌速率,并将其用于代谢条件模型。
如果细胞遭受过程条件的波动或偏差(例如,温度的变化,代谢物的增加或减少,进料条件的变化等),细胞可能进入次最佳状态,并且输出(例如,生产中的生物滴度)可能是次最佳的。因此,可以用代谢条件模型160来补充动力学生长模型150。这提供了一种方法来预测关键质量属性并且可选地估计细胞的内部状态,从而(通过状态变量)将输出生产与环境变量相关联,以优化生产。在具有大量状态(包括一些彼此相关的状态)的多维系统中,由于在这种情况下很难确定应调整的过程条件,因此这可能特别有用。因此,代谢条件模型160提供了一种方法来预测CQA、估计细胞的内部状态、并将输出生产与环境条件(变量)相关联,以优化滴度生产。此外,如果系统偏离最佳范围,则用户可以接收通知,该通知提示用户校正生物过程以使反应返回到最佳条件。在一些实施例中,系统可以自动校正进料或环境条件以使系统返回到最佳条件。例如,通过向控制生物反应器的控制器提供反馈,可以自动调整实验过程条件以最小化与最佳过程条件的偏差。如下所述,还可以使用优化进程来确定过程调整。
现在将描述示例性代谢条件模型160的功能。在步骤750,基于如上所述在步骤745已经计算和/或预测的单位消耗速率和单位生产速率,使用代谢条件模型确定代谢条件。在步骤745,尽管一个或多个CQA的值不用于确定代谢条件,但也预测了该值,该值表示可用于监测生物过程的附加信息。在步骤755,可选地,代谢条件还可以用于计算单位生产率或一个或多个质量属性。例如,这可以使用(O)PLS模型来完成,该(O)PLS模型已被训练用于根据代谢条件预测这些值。在动力学生长模型中可以使用单位生产率(靶蛋白(targetprotein)的生产)来估计产物滴度。为了进行过程监测,在步骤760,可以使用一个或多个分类方法(例如,机器学习分类器或通过将当前代谢条件与被认为对应于正常状态和/或最佳状态的代谢条件或条件范围进行比较)对当前代谢条件进行分类。此外,本文提供的数据驱动方法(例如,PCA和PLS统计建模引擎165和数据驱动的机器学习引擎170)可用于降低系统的维数,和/或允许识别影响滴度的条件。例如,当观察具有包括相关变量的大量状态变量(例如包括多个过程条件、代谢物浓度、生长变量和单位消耗速率/分泌速率)的系统时,甚至很难识别与最佳情况的偏差,更不用说确定应调整的过程条件以影响滴度。本技术通过识别在最佳确定范围之外的过程变量来提供对生物反应器的细致而具体的控制。在实施例中,“最佳”指的是与最佳的滴度生产对应的过程条件或进料条件的范围。然而,可以任意定义“最佳”。
在步骤730,可以将混合模型的输出(例如,状态估计、代谢状态等)或单独的动力学生长模型的输出(在代谢条件模型仅用于预测CQA而不用于确定代谢条件的实施例中)与生物反应器的输出进行比较,并且测量的参数和估计的参数之间的差值可以通过状态校正模型175反馈到混合模型220的输入中,以改进模型。状态校正模型175设法修改参数以最小化测量的生物反应器输出和混合模型输出之间的差值,以随时间将误差信号驱动到零。通常,当不能直接测量系统的状态时,状态估计器可以用来估计系统的内部状态。特别地,在步骤740,卡尔曼滤波器可用于基于噪声环境中的间接测量来确定内部系统状态的最佳估计。也就是说,卡尔曼滤波器可以用于基于过程条件和动力学模型最佳地估计系统的内部状态。卡尔曼滤波器特别适用于在有噪声系统中实现系统状态的最佳估计。在该示例中,状态校正模型175可以包括卡尔曼滤波器或扩展卡尔曼滤波器。卡尔曼滤波器或扩展卡尔曼滤波器(extended Kalman filter,EKF)可用于确定最佳状态值,其中,误差与模型状态估计中的不确定性、状态测量中的不确定性以及误差的协方差组合。卡尔曼滤波器可以应用于动力学生长模型,以提高该模型提供的细胞状态估计的准确性。如本领域已知的,可以使用历史训练数据来校准(该过程指的是识别模型中的合适参数)动力学生长模型和/或代谢条件模型。
上述混合模型也可用于优化。优化可以包括通常使用优化算法来搜索各种输入变量,以获得(可选地在最大化滴度或其他期望结果的同时)满足一个或多个关键质量属性的集合。可以在运行时(例如当如上所述的监测生物过程时)执行优化以预测过程条件,这些过程条件可用于将已识别为使用混合模型以次最佳方式执行的过程恢复为最佳状态。也可以独立于任何特定运行来执行优化,例如,以识别用于未来的生物过程的最佳过程条件。输入变量通常包括营养物添加和独立的过程参数,例如温度和pH值。通过参考图8,可以如下所述进行优化过程。在步骤810,接收输入变量(ui)的轨迹集合,该输入变量可以包括营养物添加。在步骤815,根据初始测量数据初始化状态值(xv、xd、xl、以及可选地mi)(即,动力学生长模型的状态)。然后在步骤820,对动力学生长模型的方程求积分,以确定在适当时间范围的生长轨迹和代谢物轨迹。在步骤825,使用如上所述在步骤825已经计算的生长轨迹和代谢物轨迹(或其部分)来预测一个或多个CQA。因此,根据本发明,使用将预测变量作为输入的机器学习模型来预测CQA,该预测变量包括建模为捕获动力学生长和物质平衡的模型的状态的至少一个值(例如,诸如活细胞密度的生长方程的变量和/或诸如代谢物浓度的物质平衡方程的变量,和/或单位转运速率)。换言之,使用将至少一个预测变量作为输入的机器学习模型来预测CQA,该至少一个预测变量并不是过程的测量变量,而是如本文所述进行建模。可选地,在步骤830,使用代谢条件模型确定细胞代谢条件,并且使用数据驱动分类(通过多元统计建模引擎和/或数据驱动的机器学习引擎)对代谢条件进行分类。在可选的操作835,使用代谢条件模型(例如,使用训练为根据代谢条件变量预测滴度的多元模型)和/或动力学生长模型(例如,通过对捕获产物滴度和/或质量变化的方程求积分)来预测单位生产率和产物质量,并据此预测生物材料的滴度和质量。该步骤不同于在步骤825执行的CQA预测,步骤825使用将动力学生长模型的一个或多个状态变量的值作为输入的机器学习模型。实际上,在可选的步骤835,可选地在步骤830确定的代谢条件变量(例如,通过应用于代谢条件的PCA或(O)PLS获得的变量、单位转运速率、以及一个或多个其他状态变量)用于使用多元模型来预测可从中获得的材料的滴度和质量的特征,例如副产物的存在等。相反,在步骤825,机器学习模型用于根据在步骤820求积分的系统方程的变量直接预测CQA。图8的方法可以使用一组不同的输入变量轨迹和/或初始状态值来重复,以识别满足一个或多个最佳标准的这些变量的值,上述一个或多个最佳标准包括应用于预测的CQA的一个或多个最佳标准,例如,实现在规范内的一个或多个CQA的值。优化算法实施各种步骤以探索可能值的空间,以识别满足这些最佳标准的一个或多个值的集合。
找到过程的最佳调整或设置可以定义为找到使数学目标函数j最小化(或最大化)的操纵变量(u或自变量,在这种情况下是过程条件和进料)的集合。例如,用于最大化未来时间点t(t+k)的滴度的目标函数可以采用以下形式:
其中,是未来时间点的预测的滴度,x|[t]是状态的当前值,u|[t]是从现在时间点[t]到未来时间点[t+k]之间要实施的操纵变量的集合。在实施例中,同时优化了多个目标。这可以通过根据这些目标的重要性来对这些目标进行加权来实现。例如,为了最大化滴度并使质量度量始终符合目标,目标函数可以采用以下形式:
其中,θ是待优化的每个参数的相对权重,qsp是质量参数q的目标或设定点。存在与用于IgG的函数类似的函数(fq),该函数用于预测未来时间点的未来质量变量。此外,可以将约束添加到函数中。例如,在将质量保持在运行规范内的前提下最大化滴度的优化目标可以由受到以下约束的方程(32)控制:
此外,为了防止优化算法选择一组新的不可行的输入,也可以对u设置限制。此外,当探索可能值的空间或向控制器提供改变当前运行条件的指令时(例如,其中,已经识别了次最佳状态,并且该模型已经与优化算法一起用于识别可以校正该次最佳状态的过程条件的变化),可以通过对来自配方(recipe)或当前设置的u的改变施加惩罚来调整优化算法修改条件u的程度。这防止控制器对过程条件做出不稳定或大的改变,从而无法改进目标参数。然后将整个目标函数描述为获得可行的u的最佳集合,该最佳集合最大化滴度(IgG)并使质量始终符合目标且在规定限制内。这可能由受到方程(33)中的约束并且满足umin≤u|[t]≤umax的以下方程控制:
其中,θu是u的惩罚权重(注意,可能存在不止一个u),usp是u的目标值,该目标值通常是设定点值或当前值。
本文提供的技术提供了准确模拟生物反应器中的细胞行为的模型。使用实验数据,预测的VCD和活力廓线被示为与在不同进料、pH和温度廓线下测量的实验值相匹配。如图9所示,上述混合模型能够复制实验测量的行为,并识别不同的功能细胞状态。特别地,如图9A-图9C所示,由动力学生长模型预测的抑制生长的温度变化被证实确实会抑制生长。pH值的变化看起来会略微增加细胞的死亡速率,但似乎不会抑制细胞的生长速率。细胞看起来能很好地适应葡萄糖耗竭和谷氨酰胺耗竭并从葡萄糖耗竭和谷氨酰胺耗竭恢复。因此,因为细胞可能代谢其他碳源,所以在生长中未观察到明显的变化。如图9D所示,使用数据驱动方法(在该示例中为PCA)对基于测量数据计算的单位消耗速率进行的细胞状态分类能够识别生物过程在次最佳范围内运行。
此外,混合模型有效地充当用于细胞代谢和代谢物的软传感器,以允许监测和表征代谢物的单位消耗和单位生产,以及监测和表征细胞状态和代谢活性的变化。与不估计裂解细胞或以其他方式考虑裂解细胞的其他模型不同,混合模型考虑裂解细胞的数量,这影响了主体流体的毒性。这样的方法使得混合模型比其他不考虑该特征的模型更准确,并且时间维度比其他模型更长。混合模型的其他优点包括能够更多地了解细胞代谢和驱动细胞生长、细胞死亡、活力、滴度和产物质量的因子。混合模型还能够模拟新过程条件(例如,进料、温度、pH廓线等)的性能,以最大化生产率并观察细胞状态(例如,代谢活性等)或其变化。在其他方面,可以从补料分批运行中预测灌注性能。这些技术改进了预测,改进了CQA预测以及可选地基于监测和预测的滴度和其他产物相关度量的预测。本技术可应用于各种应用领域,这些应用领域包括简单的单变量代谢物状态估计器、综合的多元代谢物状态估计器、自生系统(例如,数字孪生模拟)等。因此,本技术对生物反应器控制和生物制品制造领域提供了改进。
示例
现在将描述校准机器学习模型的示例性方法以及用于预测状态变量和基于生物过程中的状态变量预测CQA的示例性方法。
材料和方法-示例1和示例2
数据
这些示例中使用的数据是从工作体积约为200ml的微型生物反应器(Ambr250TM)中的6批次细胞培养物中收集的。允许每个单独的批次运行8至14天。一个批次对应于一个完整的运行周期:填充生物反应器、生长阶段、生产阶段和衰减阶段、然后清空容器。生物反应器中的细胞是产生重组抗体(简称IgG)的中国仓鼠卵巢(chinese hamster ovary,CHO)细胞。这样的产物的浓度称为“滴度”。在该示例中,对氨执行批式添加,以评估细胞对氨胁迫的响应(与本示例无关)。在8至14天的时间内,这些批次处于活性状态,每天测量一次生物反应器的状态。测量了以下变量:活细胞密度(VCD)、细胞活力(可以作为VCD/TCD而获得,其中,TCD是总细胞密度并且可以等于VCD+DCD,其中DCD是死细胞密度——在该示例中,通过测量TCD然后在存在染料(该染料例如是荧光染料,用于给活细胞染色以获得VCD)的情况下对细胞计数来获得上述细胞活力和VCD)、溶解氧(DO)、pH、温度、体积、采样体积、活细胞的积分(IVC)和积分活细胞浓度(integral viable cell concentration,IVCC)(根据测量的VCS计算)、以及添加的氨的量(通过批式添加,以mmol为单位)。此外,还通过质谱法每天测量一次多个代谢物的浓度,上述代谢物包括:丙氨酸、胆碱、组氨酸、蛋氨酸、苏氨酸、葡萄糖、精氨酸、半胱氨酸、异亮氨酸、苯丙氨酸、色氨酸、乳酸、天冬酰胺、谷氨酸、亮氨酸、脯氨酸、酪氨酸、氨、天冬氨酸、甘氨酸、赖氨酸、丝氨酸和缬氨酸。最后,在每个批次的运行周期结束时,通过LC-MS测量一次产物的聚糖谱。这包括以下变量的值:G0F-N、G2、G0、G2F、G0F、G1FS1、G1、G1’、G1F、G1F’、G2S1、G2FS1’、和G2FS1。在6个批次中,有4个批次可获得附加变量(G2S1’)。
用于训练的每个测量的数据被标准化(每个观察X被缩放为其中μ是变量的平均值,σ是标准偏差)。因为标准化降低了值较大的变量对训练产生不成比例的影响的风险(因为这些变量的值,而不是因为这些变量对预测的重要性),所以标准化预期将提高训练的速度和稳定性。标准化使得所有的变量Z被分布为具有平均值=0、标准偏差=1。
其中两个批次缺乏温度、溶解氧、以及pH的测量。为了保留尽可能多的批次用于训练,从所有批次中删除并且不再使用温度、溶解氧、以及pH变量。因此,与氨的批式添加相关的信息是该示例中使用的唯一过程参数。注意,上述过程参数在可用时预期会为模型提供有用的信息。然而,下面的示例表明,即使存在与可用的过程参数信息相关的实际限制,该方法仍具有鲁棒性。
术语“标签”指的是由机器学习模型预测的变量的(假设的)真实值。在这些示例中,机器学习模型被训练用于预测每个批次的测量的聚糖谱。因此,每个批次的标签是聚糖谱变量的值。如上所述,对训练数据集上的所有标签进行标准化。
模拟变量
本文所述的状态空间模型(参见上文,称为“混合状态空间模型”(hybrid statespace model,HSSM),在内部Python库中实现)用于使用初始条件来模拟每个批次的多个状态变量的值,该初始条件包括:过程开始时上文所列的代谢物的测量浓度、HSSM中建模的任何其他代谢物的初始主体浓度(基于培养基成分)、细胞密度(包括活细胞密度和死细胞密度)、初始裂解细胞浓度(假设为0)、初始生物材料浓度(假设为0)、以及任何模型输入(即已知的过程变量,无论是设置的过程变量还是测量的过程变量,例如pH、温度、体积、以及溶解氧)。模拟的状态变量包括:谷氨酰胺浓度(根据方程(26))、活细胞密度(VCD;根据方程(11))、细胞活力(VCD/TCD,根据方程(11)-(14))、死细胞密度(根据方程(12))、裂解细胞密度(根据方程(13))、生物材料(根据方程(16),生物材料是由于细胞生长而在细胞培养物中积累的未知生物材料)、产物浓度(滴度,根据方程(26)或方程(30))、以及时间。其他变量从这些状态变量中导出,包括有效生长速率(使用方程(22)计算)、死亡速率(方程(15))、以及滴度的单位生产率(如关于图7所阐述的,使用基于代谢条件的PLS模型来预测)。上文所列的代谢物(即丙氨酸、胆碱、组氨酸、蛋氨酸、苏氨酸、葡萄糖、精氨酸、半胱氨酸、异亮氨酸、苯丙氨酸、色氨酸、乳酸、天冬酰胺、谷氨酸、亮氨酸、脯氨酸、酪氨酸、氨、天冬氨酸、甘氨酸、赖氨酸、丝氨酸和缬氨酸)的浓度的测量用于(使用方程(27c))计算模型中使用的单位转运速率。
机器学习模型
在这些示例中,独立训练了三个机器学习模型:第一模型使用与测量可用的最晚时间点对应的单个成熟度的所有可用测量变量作为输入,第二模型使用与测量可用的最晚时间点对应的单个成熟度的可用测量变量的子集(特别是体积、活细胞密度、谷氨酸、葡萄糖、乳酸和氨,这些变量通常在工业生物过程中测量)作为输入,第三模型使用都与代谢物浓度测量可用的最晚时间点对应的单个成熟度的,通过如上所述的生物过程模拟产生的所有状态变量和从这些状态变量导出的变量(除代谢物浓度之外)作为输入。
因此,第一模型使用30个输入变量:体积、采样体积、活力、活细胞密度(VCD)、活细胞的积分(IVC)、积分活细胞浓度(IVVC)、添加的氨的量、以及23个代谢物(丙氨酸、胆碱、组氨酸、蛋氨酸、苏氨酸、葡萄糖、精氨酸、半胱氨酸、异亮氨酸、苯丙氨酸、色氨酸、乳酸、天冬酰胺、谷氨酸、亮氨酸、脯氨酸、酪氨酸、氨、天冬氨酸、甘氨酸、赖氨酸、丝氨酸和缬氨酸)的浓度,所有这些变量都在单个时间点(最晚可用测量时间点,其中两个批次为8.5天,其他四个批次为14.5天)测量/模拟。在示例2中,使用的所有代谢物浓度均使用本文描述的混合状态空间模型和测量的初始代谢物浓度来模拟。实际上,如上所述,当特定时间点的代谢物浓度不可用时,可以使用本文描述的混合状态空间模型来模拟这些代谢物浓度。换言之,可以获得例如与过程的最晚计划测量时间点对应的时间点的模拟值,使得可以在计划测量时间点实际到达之前预测CQA,从而能够例如实施校正动作。
第二模型使用6个输入变量:体积、活细胞密度、谷氨酸、葡萄糖、乳酸和氨浓度,所有这些变量都在单个时间点(最晚可用测量时间点)测量/模拟。
第三模型使用34个输入变量(所有这些变量都在最晚可用时间点测量/模拟):23个代谢物(丙氨酸、胆碱、组氨酸、蛋氨酸、苏氨酸、葡萄糖、精氨酸、半胱氨酸、异亮氨酸、苯丙氨酸、色氨酸、乳酸、天冬酰胺、谷氨酸、亮氨酸、脯氨酸、酪氨酸、氨、天冬氨酸、甘氨酸、赖氨酸、丝氨酸和缬氨酸)的测量浓度、谷氨酰胺的模拟浓度、模拟活细胞密度、模拟细胞活力、模拟死细胞密度、模拟裂解细胞密度、模拟产物浓度、生物材料、时间(即,其中两个批次为8.5天,其他四个批次为14.5天)、以及从包括有效生长速率、死亡速率、以及滴度的单位生产率的模拟变量导出的变量。
所有模型都被训练用于联合预测所有聚糖谱特征。训练了第三模型的两个版本:一个版本使用所有批次但不使用G2S1’作为输出,另一个版本仅使用G2S1’可用的4个批次。第一模型和第二模型均使用所有批次进行训练,但不使用G2S1’、G1’、G1F’、以及G2FS1’作为输出。
所有网络都是前馈神经网络(neural network,NN)。在选择具有三个隐藏层的全连通神经网络之前,测试了各种架构(数据未示出)。测试了多个滞后值(无滞后,滞后=1,滞后=2),但如上所述,使用输入值的单个时间点的架构被用于最终的网络。
所有网络都是4隐藏层的多层感知器(multilayer perceptron,MLP),每层有15个隐藏节点。对于第一模型,该模型的输入层有30个节点,输出层有10个节点(G0F-N、G0、G0F、G1、G1F、G2、G2F、G1FS1、G2S1和G2FS1)。对于第二模型,其输入大小为6,输出大小为10(G0F-N、G0、G0F、G1、G1F、G2、G2F、G1FS1、G2S1和G2FS1)。对于第三模型,其输入大小为34,输出大小为13或14(取决于是否预测G2S1’,即G0F-N、G2、G0、G2F、G0F、G1FS1、G1、G1’、G1F、G1F’、G2S1、G2FS1’、G2FS1和(G2S1’))。
在网络的四层中的每一层中,使用ReLU(修正线性单元)作为所有网络的激活函数。
机器学习模型的训练
通过使用训练数据集来完成网络的训练或拟合。该数据集包含输入值和对应的真实输出值或标签。输入值通过网络馈送,并且通过损失函数将该网络的输出与标签进行比较。
损失函数确定网络预测与标签的接近程度,如果损失为0,则网络预测与标签相同。用于回归问题的常见损失函数是均方误差(MSE)。然后,该损失或误差通过网络向后馈送,根据权重计算损失函数的梯度。这称为误差的反向传播。然后,优化器通过使用上述梯度(例如基于梯度下降),调整权重,以最小化损失函数。
通常,网络对整个数据集进行多次训练,每次迭代数据集都称为一个轮数。计算整个数据集的损失和梯度花费的计算时间和存储较多,所以通常在数据集的小样本上计算损失,该小样本称为批次。在数据集的小样本上计算梯度和更新权重将导致针对整个数据集的最小化损失函数的准确性较低,但多次这样做将得到类似的结果,同时使用较少的计算能力资源和时间。
在本示例中,Adam(Diederik P.Kingma,Jimmy Ba,arXiv:1412.6980,Dec 2014)用作优化器,MSE用作损失函数,所有网络的批次大小都是1。对于第一模型和第二模型的训练,没有使用验证集的提前停止,而是对所有折使用了固定数量的75个轮数。对于第三模型的训练,使用了测试集的提前停止。训练完成后,测试集的预测变量的值通过网络向前传递以进行预测。将这些预测与实际测量值进行比较,并通过范数相对误差(方程(35))计算误差:
其中,x是真实值,是x的近似值。计算全部6折的误差的平均值及其标准偏差。当使用提前停止时(第三模型),对模型进行训练,直到观察到验证损失不减少为止,之后,使用验证损失最小的模型。训练在连续训练20个轮数后停止,验证损失没有减少(通常总共60-100个轮数)。注意,这样的“提前停止”的方法也适用于训练另外两个模型。
本示例使用了k折交叉验证(k-fold cross-validation),k折交叉验证基于对原始数据集的随机选择的不同子集重复训练和测试计算。该过程使得通过将数据集划分为k个不重叠的子集来形成数据集的分区。然后通过计算k个试验的平均测试损失来估计测试损失。在第i个试验,数据的第i个子集用作测试集,数据的其余子集用于训练。
在本示例中,使用了6折交叉验证。为了分配验证集,替代随机分配观察值的标准做法,将来自单个完整批次的观察值分配为验证集。由于一个批次中的观察是相关的,因此该策略降低了过于乐观(overly optimistic)的验证性能的风险。因此,使用了6折留一法交叉验证(leave-one-out cross-validation),即一个批次作为测试集,另外五个批次作为训练集。
评估
将机器学习模型的预测与通过仅取所有批次(除了要预测的一个批次)中的平均标签值构建的基准进行比较。例如,批次6的‘G0F-N’的基准预测将是批次1至批次5的‘G0F-N’的平均测量值。这反映了这样一种情况,即在没有本方法的情况下,预测CQA的值的唯一方法是使用从假设遵循类似进程的一组批次中导出的值,因此可能产生具有相同CQA的产物。
对于机器学习预测值和基准预测值,预测误差均计算为MSE,并使用以下方程计算每个MSE的95%置信区间:
其中,是每个折的MSE的估计平均值,m是样本数(在该示例中为折数),/>是标准误差,σ是样本的标准偏差(近似值为/>估计标准偏差)。
材料和方法-示例3
下面的示例3表明并验证了如本文所述使用生长模型来模拟不同运行模式和不同尺度下的生物过程中的培养动力学,该生长模型跟踪细胞培养群的密度和活力。这表明,这种模型的变量真正捕获了生物过程中的培养动力学,因此可以有助于如本文所述的预测生物过程的CQA。
细胞系、接种物发育、培养基、以及分析方法
使用表示单克隆抗体(mAb、IgG1)的CHO DG44细胞系(Sartorius)。所有实验均使用同一化学成分确定的培养基(Sartorius)进行。储备培养基(stock culture medium,SCM)用于种子训练。种子训练培养分5个步骤进行。对于补料分批过程,这些预培养步骤均在(无挡板)摇瓶中进行。对于灌注培养,最后的预培养步骤在2L univessel中进行。第一个预培养步骤和第二个预培养步骤在含有15nM MTX的SCM中进行,而其他步骤则不含MTX。细胞以0.2x106个细胞/mL的速度接种,每3至4天分裂一次。摇瓶的培养箱设置为:7.5% CO2、温度36.8℃、湿度80%、搅拌转速120rpm(其轨道直径为50mm)。使用生产培养基(PM-Sartorius)和两个进料培养基(FMA和FMB-Sartorius)执行补料分批培养、强化培养和灌注培养。使用Flex分析仪(Nova Biomedical)测量细胞生长(VCC和活力)。
Ambr250中的补料分批培养和强化培养
补料分批培养(实验1至4)和强化培养(实验5至7)分别在工作体积为200mL的Ambr250生物反应器和工作体积为210mL的Ambr250生物反应器中进行。以0.3x106个细胞/mL的速度接种培养物。按照在Sartorius中实施的标准应用离线计算进料廓线。对于强化培养,从培养的第3天开始每天调整流速。培养条件控制在温度36.8℃、pH 7.1(含CO2)、60%DO(含O2和进气口)、搅拌转速855rpm(在培养过程中进行调整,以将DO保持在60%)。每12小时自动添加,必要时手动添加30μl的消泡剂(Sigma消泡剂C 2%)。如果测量的葡萄糖浓度低于5g/L,则从培养的第5天开始每天执行葡萄糖推注(400g/L的储备葡萄糖溶液)。
2L生物反应器中的灌注培养
如上文关于图1所述,灌注培养是一种连续运行,其中生物反应器a2内的细胞浓度和体积保持恒定。具体地,向细胞培养物连续注入新鲜培养基(进料流24),同时连续移除无细胞收获(流28C),以保持培养物体积恒定。为此,首先引导收获流(流28C)通过细胞截留装置(细胞分离装置28),该细胞截留装置将使用后的培养基(收获流28A)与细胞(活细胞和死细胞)分离。然后,将细胞重新注射到生物反应器中(回流28B),同时收集无细胞流以进一步纯化药物产物(收获流28A)。“出料”流(与生物反应器具有相同成分的流,出料流26)还用于使培养物保持在稳态(即,保持生物反应器内的细胞浓度恒定)。在该运行中交换培养基的速率可以由细胞单位灌注速率(CSPR-细胞每天所需的培养基供给量)或灌注速率(P-每天更新的生物反应器体积的量)来定义。具体地,细胞单位灌注速率(CSPR)定义为灌注速率(P)与活细胞密度(XV)之间的比率,而灌注速率(P)定义为进料速率Ff与生物反应器的体积V之间的比率:
注意,与灌注速率相反,CSPR具有细胞和培养基特异性,因此表示一个重要的性能标准。
通常,灌注培养设置为两个阶段:强化阶段和稳态阶段。首先,细胞呈指数增长,直到达到预定义的目标活细胞浓度(XV,target)。在该强化阶段,进料速率(Ff)等于收获速率(Fh),而出料流(Fb)设置为零。使用方程(35)和(36),给定灌注速率的最佳进料速率可定义如下:
其中,Ff,ti、XV,ti、V,ti分别为在时间i的进料速率、活细胞浓度、以及生物反应器体积。
灌注培养的第二部分称为稳态阶段。稳态阶段旨在通过作用于出料速率(Fb)将生物反应器中的活细胞浓度保持在预定义的目标值(XV,target)。对于该阶段,进料速率的定义(方程(37))可以简化为:
在稳态阶段,出料流用作操纵过程变量,以控制生物反应器中的活细胞浓度。在本研究的背景下,比例积分(proportional-integral,PI)控制器用于使用方程(39)-(41)来定义出料速率:
其中,εbleed,ti是在时间i的细胞浓度(XV,ti)与设定点/目标细胞浓度(XV,target)的偏差,δbleed,ti是控制器输出(KP和TI分别为比例项和积分项),该控制器输出将用于调整施加在时间i-1的出料速率以保持目标设定点(XV,target)。对于本研究,PI控制参数已经过手动调整,并被设置为KP=-0.2和TI=0.5。
最后,可以基于对进料速率和出料速率的了解,使用方程(42)来确定收获速率,以保持恒定的体积:
灌注培养(实验8)在工作体积为200mL的2L univessel生物反应器中进行。以0.3x106个细胞/mL的速度接种培养物。灌注培养基是91.2%的PM(4CellTM XtraCHO生产培养基)、8%FMA(4CellTM XtraCHO进料培养基A)、0.8%的FMB(4CellTM XtraCHO进料培养基B)、以及6mM的L-谷氨酰胺的混合物。培养条件控制在温度36.8℃、搅拌转速260rpm(在培养过程中根据O2需求调整至300rpm和320rpm)、pH 6.95±0.05(含CO2和1M NaCO3)、60% DO(含O2和进气口)。每天自动添加,必要时手动添加1ml的消泡剂(Sigma消泡剂C 2%)。
模型
该模型由一组常微分方程(ordinary differential equation,ODE)组成,该组常微分方程描述了在细胞经历以下三个阶段时细胞群的动力学:活细胞、死细胞、以及裂解细胞(方程(11a)-(13a),假设根据方程(42)Fb=Ff–Fh,则方程(11a)-(13a)映射到方程(11)-(13))。
其中,Xv是活细胞密度(VCD-活细胞的浓度),Xd是死细胞密度(死细胞的浓度),Xl是裂解细胞密度(裂解细胞的浓度)。Fb是出料速率,Fh是收获速率,V是反应器体积。μeff、μd、以及kl分别是有效生长速率、有效死亡速率、以及裂解速率。该模型还包括一个全方位的“生物材料”变量该变量表示细胞分泌的代谢副产物的主体集合(方程(16a),假设根据方程(42)Ff=Fb+Fh,则方程(16a)映射到方程(16)):
这些质量平衡方程是基于以下假设建立的:假设存在裂解细胞和生物材料通过的理想分离过滤器,并且只有活细胞和死细胞被截留在生物反应器中,则出料流(Fb)与生物反应器具有相同的含量,并且收获流(Fh)不含细胞。细胞生长速率(μeff)表示为最大生长速率(μmax)和描述由于副产物(由生物材料变量表示)的积累而对生长的抑制的非线性因子的乘积。所实现的有效生长速率在方程(22a)中捕获,当不考虑附加的底物限制ηs、二次ηq、或抑制ηi校正因子时,方程(22a)映射到方程(22):
其中,是表示生物材料的浓度/>的参数,高于该浓度会产生抑制作用(如图2A所示,其中/>如方程(15a)所述,有效死亡速率μd取决于基本死亡速率和与裂解细胞的积累相关的毒性因子(Xl),方程(15a)对应于φt=xl的方程(15):
μd=kd+ktXl (15a)
其中,kd是初级死亡速率,kt表示与生物反应器中裂解细胞的积累相关联的毒性速率。最后,裂解过程由kl通过一阶速率定律控制。裂解细胞材料可以通过收获流或出料流离开反应器(方程(13)、(13a))。跟踪活细胞和死细胞的物质平衡可以指示生成的总细胞,进而指示已经裂解且无法再检测到的细胞的数量。死细胞数量通过细胞活力测量进行间接评估,该测量捕获了活细胞与总细胞之间的比率(方程(43)):
参数识别
动态方程根据MATLAB的常微分方程求解函数ode15s求解。通过使用Nelder-Mead单纯形优化算法(函数fminsearch)执行参数识别,以最小化最小二乘标准(模型预测与实验测量之间的平方差之和,方程(44)):
其中,θ是待识别的参数的向量(dimθ=5), 是在第j个实验中第i个时间点的模拟变量的向量(使用质量平衡方程(11a)、(12a)、(13a)、(16a)的模型),/>是对应测量的向量。
参数敏感性分析和预测模型输出不确定性
按照Richelle等人(Computers&Chemical Engineering.2014;61:220-233)的方法执行模型输出对参数的敏感性的分析。为此,四个状态变量(Xv、Xd、Xl、以及)被定义为系统输出yj,其中i=1:4。参数表示为θj,其中j=1:5。然后,4×5敏感性函数/>的时间演化计算如下:
对于i=1:4、j=1:4、以及m=dim(y)=4,其中,dyi/dt=fi(y,qj,t)由模型方程(11a)、(12a)、(13a)、(16a)表示。这些敏感性函数用于基于费舍尔(Fischer)信息矩阵来计算参数估计误差的方差的下界(克拉美-罗界(Cramer-Rao bound))
其中,在第j个实验中第i个时间点并且/> 协方差矩阵S还可以用于测量参数之间的相关性(线性相关性):
其中,Sij是参数估计θi和参数估计θj的误差的协方差;Sii和Sjj分别是参数估计θi的误差的方差和参数估计θj的误差的方差。为了根据参数估计误差分析模型输出的不确定性,使用了基于蒙特卡洛采样方法的全局方法。与基于一阶泰勒级数(Taylor series)近似的局部方法相反,该方法并不假设模型会对在参数空间的特定点评估的扰动做出线性响应。相反,这种基于采样的方法对定义参数空间中的参数值进行重复随机采样。在此过程中,整体模型用于通过模型模拟的迭代过程生成相关联的预测模型输出。
示例1-测量变量
在该示例中,如方法部分所阐述的,训练机器学习模型以使用测量的代谢物和细胞培养物变量预测多个聚糖谱特征,并且如上文所阐述的,将网络的预测与从先前获取的数据计算出的对应基准值进行比较。
其结果如图10所示。图10A和图10B示出了第一模型对两个代表性批次的预测(分别在图10A和图10B中)、以及对应的(真实)测量值。图10A和图10B示出了第一模型能够以相对较高的准确度(平均相对误差约为10%-20%)预测大部分聚糖峰。在图10C中,每个图比较:在左侧,第一模型预测的聚糖谱特征的CQA和对应标签之间的MSE(其中,条的高度表示6折交叉验证的平均MSE,误差条指示95%的置信区间);在中间,第二模型预测的聚糖谱特征的CQA和对应标签之间的MSE(其中,条的高度表示6折交叉验证的平均MSE,误差条指示95%的置信区间);以及在右侧,计算为5个批次的聚糖谱特征的平均值的CQA和对应标签之间的MSE(其中,条的高度表示6个批次的平均MSE,误差条指示围绕该平均值的95%的置信区间)。
使用各个配对t检验将图10C中的每个模型和每个聚糖谱特征计算的范数相对误差相互比较。这些检验中的p值如表1所示,其中第一列将第一模型的预测与对应基准预测进行比较,第二列将第一模型的预测与第二模型的对应预测进行比较。如表1所示,对于预测质量属性中的至少4个预测质量属性(G0、G1、G1FS1、以及G2S1),第一模型的预测比基准预测明显更准确(p值<0.05)。对于所有其他的预测质量属性,第一模型的预测都比基准预测更准确,但这些预测均未达到明显更准确(尽管大多数预测已经接近),这很可能是由于训练数据集的大小较小。表1还示出了,对于预测质量属性中的至少5个预测质量属性(G0、G0F、G1、G2S1、G2FS1),第一模型的表现明显优于第二模型。这表明,模型中包括更多的预测变量是有益的。特别地,这强调了这样一个假设,即如上所述使用从状态空间模型导出的附加变量将有利地提高这些模型的预测准确性。实际上,数据表明,(相较于从输入变量的集合中移除了第一模型中使用的一些细胞状态变量和代谢物浓度的第二模型)使用可以由这种状态空间模型计算的类型的更多预测变量可以改善模型的预测。如上所述,已经表明了这种状态空间模型能够准确预测细胞状态的进程(例如,活细胞密度、裂解细胞密度等)以及代谢状态变量(单位转运速率、代谢物浓度等)。因此,将这些计算变量/模拟变量作为预测因子包括在机器学习模型中,可能会将机器学习模型的预测准确性提高至与使用测量变量时的预测准确性类似的程度,但其额外的好处是减轻了测量负担(实际运行中,很少有许多测量值是可用的)并且可以在生物过程运行的同时进行预测(这在许多情况下在使用实际测量值时是不可能的,因为获得这些测量值存在显著的延迟)。
请注意,第二模型的结果还表明,即使是用相对较少的输入变量训练的模型,也可能仍然有用,因为这些模型的表现与基准预测一样好。然而,只有在利用测量的CQA的比较生物过程可用时,基准预测才可用,但情况可能并非总是如此。
表1将第一模型和第二模型的预测与基准预测进行比较的单侧分批配对t检验(one-sided batch-wise paired t-test)中的p值
聚糖谱特征 REF<REB REF<RER
G0F-N 0.156137 0.341746
G0 0.027334 0.029195
G0F 0.095006 0.042673
G1 0.012038 0.016407
G1F 0.052576 0.053633
G2 0.103484 0.173918
G2F 0.083867 0.055545
G1FS1 0.019786 0.053571
G2S1 0.036021 0.019181
G2FS1 0.066915 0.033573
正在预测的特定聚糖谱特征通过细胞的代谢而在生物上相关。因此,如果网络架构能够捕获多个聚糖谱特征的值之间的相关性(这些相关性反映了这些聚糖谱特征的生物学特性),则联合预测多个聚糖谱特征的值可以提高网络的性能。然而,对于其他CQA,训练要预测的CQA的子集或每个CQA的单独模型可能是有利的。
此外,该数据表明,可以通过将预测变量的滞后值包括在模型中来改善这些网络的预测,以便模型能够使用更丰富的信息进行预测。
示例2-模拟变量
在该示例中,如材料和方法部分所阐述的,除了使用测量变量之外还使用模拟变量来训练机器学习模型。通过以初始条件和过程条件模拟生物反应器来获得模拟变量,其中,初始条件对应于材料和方法部分中示出的数据中的初始条件,过程条件为数据中除活细胞密度(由模型预测)之外的过程条件(即pH、温度、DO、体积)。其结果如图11所示。
在图11中,每个图比较:在左侧,第三机器学习模型预测的聚糖谱特征和对应测量浓度之间的MSE(其中,条的高度表示6个批次的平均MSE,误差条指示围绕该平均值的95%的置信区间);以及在右侧,计算为5个批次的平均值的聚糖特征和对应标签之间的MSE(其中,条的高度表示5个批次的平均MSE,误差条指示围绕该平均值的95%的置信区间)。
图11中的数据表明,对于所有的预测质量属性,使用该扩展模型可以获得非常好的预测准确性。实际上,在所有情况下,基于机器学习的预测都明显优于基准预测。通过比较图11和图10C中的结果,可以看出,在许多情况下,使用状态空间模型中的变量来扩展训练数据进一步改善了模型的预测准确性(至少G0F-N、G1F、G2、G2F、G1FS1、G2S1、G2FS1)。
示例3-使用细胞培养的模型来预测生物过程状态的示范
在该示例中,本文描述的生物过程模型用于模拟生物过程,特别是用于仅使用在小规模补料分批实验期间捕获的知识来设计CHO细胞的优化灌注培养。该模型有利地包括表示在细胞培养过程中由细胞分泌的副产物的主体的一个全方位的变量,从而提供了一个简单的形式体系,无需改变其形式体系就能成功预测不同运行模式下的细胞行为。这提供了首个经过实验验证的模型,该模型能够用单组参数捕获不同运行模式和不同规模下的培养动力学。因此,该示例表明这种模型具有提供在这些条件下准确捕获细胞培养动力学的信息的潜力,从而能够基于包括这种模型的状态变量的预测变量对CQA进行相应的知情预测。
引言
如今,单克隆抗体等蛋白质生产的行业标准是补料分批过程。然而,通过实施连续培养策略来提高体积生产率,可以显著提升这种过程的生产率。这种方法可以使时空产率增加到10倍,从而减少生产时间,并且能够建造更小的设施来实现类似或更大的生产率输出。然而,由于仍然存在许多负担,连续制造的采用速度相对较慢。实际上,目前大多数公司采用的缩小模型、决策工具、设备和程序都是为补料分批过程开发的,如果没有明显的变化就无法转换。在这一背景下,先进计算工具可能会被证明是非常有价值的,该先进计算工具可以阐明过程动力学的变化并评估各种运行场景的影响,以便提早确定过程瓶颈并设计将会以最小实验成本实现最佳且稳定的运行的先进优化策略。
与其他工业环境相比,生物制药面临着额外的挑战,即生物制药的运行依赖于复杂的生物系统,而这些生物系统无法使用已知的第一性原理(first principle)规则来轻易描述。文献中存在成功表征可测量过程条件对培养动力学的影响的建模研究。遗憾的是,这些建模研究通常依赖于在制造规模上通常不可用的大量测量和/或需要重要计算专业知识的复杂的建模和优化过程。因此,这些基于模型的强化策略很难在工业规模上移植。在该示例中,发明人展示了一种建模结构的使用,该建模结构能够描述上游生物过程动力学,并在不同规模(从Ambr250到2L)的运行(具体地,从补料分批到连续培养)之间使用单组动力学参数进行转移。发明人表明,使用补料分批培养确定的生长模型可以用于以一步策略设计强化培养条件。这被认为是首个经过实验验证的方法,该方法提供了适用于在生物制药过程开发和先进控制活动中进行优化和系统配置决策的模拟能力。
使用补料分批培养进行模型识别
发明人开发了一种跟踪细胞培养群(活细胞、死细胞和裂解细胞)的密度和活力的生长模型。基于在Ambr250中执行的4个重复的补料分批实验(实验1至4,详见方法)来识别该模型的参数。为了避免优化算法出现局部最小值和收敛问题,考虑采用多起点策略来初始化参数值。给定范围(表2)内的100个均匀分布的伪随机值用于算法的初始化。为了根据参数估计误差分析模型输出的不确定性,使用蒙特卡洛模拟的全局方法,以1000个正态分布伪随机参数值集为基础(图12)。为了确保参数空间的覆盖范围,每个参数的范围(变化)由表2示出的置信区间确定。
表2每个实验分别识别的参数值和整组实验1至4识别的参数值
*使用整组实验识别的参数值的标准偏差
**在整组实验1至4中识别的参数值的变异系数(coefficient of variation,CV)(σθ/θ-以%表示)
表3在整组实验中识别的参数的相关矩阵(绝对值)
(基于4个实验)识别的参数值如表2所示,相关矩阵(参数之间的相关系数的绝对值)如表3所示。模型模拟和相关联置信区间、以及用于识别模型的实验数据如图12和图13所示。该模型很好地捕获了细胞生长的动力学以及随4个实验的细胞活力测量的时间而下降的情况。参数识别具有良好的置信度,这也反映在模型输出不确定性的模拟中(表2和图12)。最大的不确定性与参数的裂解细胞kl相关联。这是因为由于没有可用的测量结果,因此裂解细胞状态变量为模型的自由度。正如预期的那样,在μmax之间观察到了最高参数相关性,其次是在kt和kl之间,这是因为它们分别表示有效生长速率和死亡速率(方程22a和15a)。
基于模型对强化运行性能的预测
使用同样在Ambr250中执行的强化培养的数据来进一步交叉验证该模型(实验5、实验6和实验7——详见方法)。模型模拟成功预测了在使用培养基交换进行强化运行中转移时的培养动力学。对于这些强化培养,以与培养基进料相同的速率收获培养基;在由于细胞截留装置(图1)的存在而移除裂解细胞和分泌生物材料的同时,将活细胞和死细胞保留在生物反应器中。在此过程中,生长不再受到副产物(用生物材料变量表示)的积累的抑制,并且死亡速率受到培养基中裂解细胞的积累的影响变小。具体地,在强化条件下经过10天的培养后,裂解细胞和生物材料的浓度分别比补料分批运行低10倍和4倍(图14)。
与文献中示出的模型相比,所提出的模型具有简单的结构。描述细胞的不同状态的整体形式体系在现有模型中是保守的:细胞生长和死亡并行发生,而死细胞则随时间裂解。该示例中所使用的模型的主要区别在于对生长速率和死亡速率的描述。实际上,众所周知,哺乳动物细胞代谢会受到营养物耗竭或抑制代谢物积累的限制。因此,死亡速率和生长速率通常被描述为考虑不同的激活化合物和抑制化合物的扩展莫诺德定律(不止一种化合物影响反应速率)。例如,Shirahata等人(Chemical Engineering Research and Design,Volume 150,October 2019,Pages 218-233)对连续运行中的生长速率(受到氨的积累的抑制)进行建模。da Silva等人(Mathematics and Computers in Simulation,42(2–3):197-205)开发了一种动力学模型,该动力学模型描述了补料分批培养中杂交瘤细胞的生长,一方面,葡萄糖、氨基酸、血清和氧气耗竭,另一方面,氨和乳酸积累,均具有降低的作用和增加死亡的作用。Craven等人(Biotechnol Progress 2013,29:186-196)在其生长模型中考虑了底物(葡萄糖和谷氨酰胺)的激活和副产物(乳酸和氨)的抑制。Papathanasiou等人(Biotechnol Progress 2017,33:966-988)使用了五种代谢物(葡萄糖、谷氨酰胺、精氨酸、天冬氨酸、天冬酰胺)来描述这些代谢物的激活和抑制对各自生长和死亡过程的影响。
由于潜在限制因子中的几个因子通常同时起到限制作用,导致生长速率和死亡速率的模型形式体系中产生观察多样性,因此评估这些潜在限制因子的各自影响是一项艰巨的任务。此外,对多个代谢物的这种激活作用和抑制作用的描述也会使模型结构迅速复杂化。实际上,通过该形式体系,这些化合物作为状态变量被引入模型,并且需要描述与这些化合物相关联的动力学。本文描述的模型使用一个全方位的“生物材料”变量。该变量捕获了大量分泌副产物对生长的抑制,但没有详细说明每个潜在抑制因子的特性和作用。因此,由于不需要描述与这些化合物相关联的动力学,该变量简化了模型结构(并减少了模型参数的数量)。
灌注过程条件的设计与分析
使用以下假设来模拟灌注运行模式中的预期生长廓线:(i)针对2L生物反应器容器执行模拟;(ii)初始接种密度和活力设置为与Ambr250补料分批实验相同;(iii)将裂解细胞和抑制生物材料初始化为0;(iv)模拟过程中不考虑生长变化的调整;(v)假设培养基成分和灌注速率足以提供营养物。
引入过程运行变化的不同事件来测试模型的能力以及细胞对运行中切换的响应(表4)。培养从强化阶段开始,以达到细胞密度目标(XV,target=50.106个细胞/mL)。进料速率和收获速率相等(Ff=Fh),并如方法中所示进行定义,灌注速率(P)为2.25体积/天。出料速率(Fh)等于零。一旦细胞密度达到期望目标XV,target的95%,PI控制器就会用于调整出料速率并保持期望设定点(方法中示出的PI控制设置的细节)。将灌注速率(P)增加一天以上,以测试PI控制(在12.9至14.1天之间),然后再将灌注速率(P)设置回其原始定义值(2.25体积/天)。在21.1天时降低灌注速率(P),以评估细胞对生物材料积累增加的响应。最后,将细胞密度目标增加(至XV,target=70.106个细胞/mL),以评估细胞应对运行中强切换的能力。
该灌注实验的模拟以及在表4所列的相同运行下执行的2L灌注生物反应器运行期间收集的实验数据如图15和图16所示。基于使用Ambr250补料分批实验识别的参数值,模型预测准确捕获了灌注中的细胞培养物的动力学。该模型还准确识别了细胞活力随着由于生物材料的积累而导致的灌注速率降低(P=1.75体积/天)而降低,并识别了在最后一次过程运行切换时的最大稳定目标细胞密度(XV,target=70.106个细胞/mL)。PI控制器充分调整了出料速率,以保持稳定的细胞密度(模拟结果与在线PI控制器实现的流速一致——参见图16)。
这被认为是使用基于补料分批实验识别的模型进行灌注培养的首个设计。通常,模型是针对一种类型的培养(分批培养、补料分批培养或连续培养)开发的,在模型结构和/或参数值不发生变化的情况下不能移植到其他过程运行。Shirahata等人(同上)根据运行模式修改了生长速率函数的形式体系。具体地,在批处理模式下,Shirahata等人使用葡萄糖的激活以及葡萄糖耗竭时大量细胞死亡的发生来模拟活细胞动力学。在灌注模式下,生长速率不再根据底物消耗进行建模,而是由于培养基中的氨积累而受到抑制。daSilva等人(同上)没有提供证明其用于杂交瘤补料分批培养的动力学模型可以模拟在分批过程和连续过程中获得的实验结果的任何数据。最后,Craven等人(同上)开发了一种用于CHO细胞培养的独特模型结构,CHO细胞培养可在3种不同模式(批处理模式、批式补料分批模式、以及连续补料分批模式)下运行并在2种规模(3L和15L)下生长,但识别的模型参数随规模和运行模式的变化而变化。
所示出的基于模型的方法表示一种现有实验过程的可靠替代方法(例如,依赖于不同进料策略、收获策略和出料策略的评估和优化的协议),类似于一种实验设计(designof experiments,DoE)方法。虽然这种方法已被证明是成功的,但该方法是实验密集的,并且不允许用户测试系统对多个控制变量和设定点的联合变化的响应。
表4——用于灌注模拟和实验运行的过程运行中的切换的细节
结论
该示例展示了一种基于模型的策略,以凭借其过程转移能力,改善生物制药制造中的上游细胞培养开发。通过这种“计算机模拟实验(in silico experimentation)”方法,所提出的框架可以用于在实验室中验证之前对各种假设的运行策略进行数字化测试。本模型是根据有限的数据构建的,重点关注核心生长动力学和对生物材料的敏感性。本模型可以用于研究生长轨迹并评估培养基交换运行模式(强化生长和灌注)。为了展示这些能力,该模型用Ambr250补料分批实验进行了校准,并成功用于预测各种运行模式下的生长廓线,该生长廓线包括细胞系对培养基交换的响应。
随着收集更多数据,由于包括来自pH、温度、培养基成分和其他重要过程条件的变化的附加代谢信息,可能会使该通用模型结构变得更加复杂。这种模型可以用于优化培养基成分和配方决策,以在将CQA保持在规范内的同时使生产率最大化。然而,描述废弃培养基成分对生产率和产物质量的影响的模型要复杂得多,而且目前还不如用于生长描述的模型成熟。生产率和CQA(例如,聚糖谱)通过细胞内代谢中更轻微的变化受到影响,因此很难直接建模。目前,细胞内测量非常昂贵,并且对于一般的产物开发工作流程或高通量实验设计而言并不实用。因此,诸如本文所述的机器学习的分析工具可以用于将本文所述的细胞外过程测量和模拟变量与CQA相关联。
等效物和范围
本规范中提及的所有文档都通过引用全部并入本文。
除非上下文另有规定,否则上述特征的描述和定义不限于本发明的任何特定方面或实施例,而是同样适用于所描述的所有方面和实施例。
本文所使用的“和/或”应理解成具体公开了两个特定特征或成分中间的每一个,涵盖了包括或不包括另外的特征或成分的情形。例如,“A和/或B”表示具体公开了(i)A,(ii)B以及(iii)A和B中的每一种情形,就像将每一种情形都单独列在这里一样。
注意,除非上下文另有明确规定,否则如在说明书和所附权利要求书中使用的单数形式“一”、“一个”和“该”包括复数指称。在本文中,范围可以表示为从“大约”一个特定值,和/或到“大约”另一个特定值。当表示这样的范围时,另一实施例包括从一个特定值和/或到另一个特定值。类似地,当通过使用先行语“大约”或“近似”将值表示为近似值时,可以理解为该特定值形成另一实施例。与数值相关的术语“大约”或“近似”是可选的,并且表示例如+/-10%。
贯穿本说明书和权利要求书,除非上下文另有要求,否则词语“包含”和“包括”及其变体应理解为意味着包括所述整数或一组整数但不排除任何其他整数或一组整数。
除非上下文另有规定,否则通过使用术语“由...组成”或“基本上由...组成”替换术语“包括”,本发明的其他方面和实施例可以提供上述方面和实施例。
在前述描述或权利要求中或在附图中公开的特征可以以其特定形式表示,或者可以通过用于执行所公开的功能的装置或用于获得所公开的结果的方法或过程来表示,可以单独地表示这些特征,或者可以以这些特征的任何组合来表示这些特征,以通过不同的形式实现本发明。
虽然已经结合上述示例性实施例描述了本发明,但基于本公开,许多等效的修改和变化对于本领域技术人员将是显而易见的。因此,本发明的上述示例性实施例被认为是说明性的而非限制性的。在不脱离本发明的精神和范围的情况下,可以对描述的实施例进行各种改变。
为了避免任何疑义,本文提供的任何理论解释均用于促进读者的理解。发明人不希望受这些理论解释的束缚。
本文使用的任何部分标题仅用于组织目的,不应解释为限制所描述的主题。

Claims (15)

1.一种用于监测生物过程的计算机实现方法,所述生物过程包括生物反应器中的细胞培养物,所述方法包括:
获得状态空间模型的一个或多个成熟度的一个或多个状态变量的值以及可选地一个或多个成熟度的从所述一个或多个状态变量导出的一个或多个变量的值,所述状态空间模型包括:表示所述细胞培养物的状态的变化的动力学生长模型以及可选地,表示所述生物反应器中的一个或多个代谢物的主体浓度的变化的物质平衡模型;以及
使用机器学习模型预测所述生物过程的产物的一个或多个关键质量属性的值,所述机器学习模型被训练用于基于输入变量来预测所述一个或多个关键质量属性的值,所述输入变量包括一个或多个成熟度的所述一个或多个状态变量的值或者一个或多个成熟度的从所述一个或多个状态变量导出的变量的值。
2.根据权利要求1所述的方法,其中,所述方法还包括获得一个或多个过程条件的值,所述一个或多个过程条件包括一个或多个成熟度的一个或多个过程参数和/或一个或多个代谢物浓度,并且所述输入变量还包括所述一个或多个过程条件的值,和/或其中,所述输入变量包括所述一个或多个状态变量中的至少一个的值。
3.根据权利要求1或2所述的方法,其中,所述产物包括:诸如所述细胞产生的一个或多个小分子或大分子的一个或多个生物分子、和/或所述培养物中的生物质、和/或诸如一个或多个细胞器的所述生物质的部分;和/或其中,所述一个或多个关键质量属性选自:包括在所述产物中或者是所述产物的小分子或大分子的分子结构、包括在所述产物中或者是所述产物的蛋白质或肽的糖基化谱、所述产物的活性、所述产物的产率、一个或多个宿主细胞蛋白的存在或不存在、以及所述产物的纯度。
4.根据前述权利要求中任一项所述的方法,其中,所述一个或多个状态变量或者从所述一个或多个状态变量导出的变量包括选自以下的至少一个变量:代谢物的单位转运速率、代谢物的主体流体浓度、产物的主体流体浓度、由于细胞生长而在所述培养物中积累并抑制细胞生长的生物材料的主体流体浓度、滴度的单位生产率、以及细胞状态变量,和/或其中,所述一个或多个状态变量是所述生物过程的动态模型的变量,所述动态模型包括动力学生长模型,可选地,其中,所述细胞状态变量选自:活细胞密度、死细胞密度、总细胞密度、细胞活力、有效生长速率、死亡速率、以及裂解细胞密度,优选地,其中,所述细胞状态变量包括裂解细胞密度;和/或可选地,其中,使用方程(11)-(30)和其等价方程中的任何方程,尤其使用方程(11)-(16)、(22)、(25)-(27)和其等价方程中的任何或所有方程,来获得所述一个或多个状态变量或者从所述一个或多个状态变量导出的变量;和/或可选地,其中,动力学生长模型包括描述所述活细胞密度、死细胞密度、以及裂解细胞密度的动力学的方程;和/或其中,所述动力学生长模型包括表示生物材料的浓度的变量,所述生物材料由于细胞生长而在所述培养物中积累并抑制细胞生长和/或对所述细胞有毒;和/或其中,所述动力学生长模型包括描述变量的动力学的方程,所述变量表示由于细胞生长而在所述培养物中积累的生物材料的浓度;和/或其中,所述动力学生长模型包括使用细胞生长速率参数描述所述活细胞密度的动力学的方程,所述细胞生长速率参数是最大生长速率和描述由于细胞生长而在所述培养物中积累的生物材料对生长的抑制的因子的乘积。
5.根据权利要求4所述的方法,其中,代谢物i的单位转运速率是每细胞和每单位成熟度在所述细胞和培养基之间转运的所述代谢物的净量。
6.根据权利要求2至5中任一项所述的方法,其中,所述一个或多个过程条件包括一个或多个过程参数,所述一个或多个过程参数选自溶解氧、溶解CO2、pH、温度、渗透压、搅拌速度、搅拌功率、顶空气体成分(例如,CO2压力)、流速(例如,进料速率、出料速率、收获速率)、进料介质成分、以及所述培养物的体积;和/或其中,所述一个或多个代谢物浓度包括细胞室、培养基室、或者整个所述细胞培养物中的一个或多个代谢物的浓度。
7.根据前述权利要求中任一项所述的方法,其中,所述方法还包括将所述一个或多个关键质量属性的值与一个或多个预定值进行比较,以及可选地,基于所述比较确定所述生物过程是否正常运行。
8.根据前述权利要求中任一项所述的方法,其中,所述机器学习模型是回归模型,或者其中,所述机器学习模型选自线性回归模型、随机森林回归器、人工神经网络(ANN)、及其组合,适合地,其中,所述机器学习模型是人工神经网络;和/或其中,所述机器学习模型包括多个机器学习模型,其中,每个机器学习模型已经被训练用于预测所述一个或多个关键质量属性的单独选择的子集的值;和/或其中,所述机器学习模型已经被训练用于联合预测所述一个或多个关键质量属性的值。
9.根据前述权利要求中任一项所述的方法,其中,所述机器学习模型已经被训练用于基于输入变量来预测与所述生物过程的结束对应的成熟度的所述一个或多个关键质量属性的值,所述输入变量包括一个或多个先前成熟度的所述一个或多个状态变量的值或者一个或多个先前成熟度的从所述一个或多个状态变量导出的变量的值、以及可选地一个或多个过程条件的值,可选地,其中,所述生物过程是分批过程或补料分批过程;和/或
其中,所述机器学习模型已经被训练用于基于输入变量来预测当前成熟度的所述一个或多个关键质量属性的值,所述输入变量包括一个或多个成熟度的所述一个或多个状态变量的值或者一个或多个成熟度的从所述一个或多个状态变量导出的变量的值、以及可选地一个或多个过程条件的值,所述一个或多个成熟度包括所述当前成熟度和/或一个或多个先前成熟度,可选地,其中,所述一个或多个成熟度包括所述当前成熟度,和/或其中,所述生物过程是灌注过程。
10.根据前述权利要求中任一项所述的方法,其中,获得一个或多个成熟度的一个或多个状态变量的值以及可选地一个或多个成熟度的一个或多个过程条件的值包括获得多个成熟度的所述一个或多个状态变量的值以及可选地多个成熟度的一个或多个过程条件的值;并且所述机器学习模型已经被训练用于使用输入来预测所述多个成熟度中的最晚成熟度或较晚成熟度的所述一个或多个关键质量属性,所述输入包括所述多个成熟度的所述一个或多个状态变量的值以及可选地所述多个成熟度的所述生物过程的一个或多个过程条件的值。
11.根据前述权利要求中任一项所述的方法,其中,获得状态空间模型的一个或多个成熟度的一个或多个状态变量的值或者一个或多个成熟度的从所述一个或多个状态变量导出的变量的值包括:可选地,通过查找表示所述状态空间模型的解的所述一个或多个成熟度的所述一个或多个状态空间变量的值,使用所述状态空间模型预测所述生物过程的状态轨迹。
12.一种用于控制生物过程的计算机实现方法,所述方法包括:
执行权利要求1至11中任一项所述的方法;
将所述一个或多个关键质量属性的值或者从所述一个或多个关键质量属性导出的值与一个或多个预定值进行比较;以及
基于所述比较确定是否实施校正动作。
13.根据权利要求12所述的方法,还包括如果所述确定步骤指示要实施校正动作,则向一个或多个效应器装置发送信号以实施校正动作。
14.一种提供用于监测生物过程的工具的方法,所述生物过程包括生物反应器中的细胞培养物,所述方法包括以下中的步骤:
获得状态空间模型的多个生物过程的一个或多个成熟度的一个或多个状态变量的值以及可选地多个生物过程的一个或多个成熟度的从所述一个或多个状态变量导出的一个或多个变量的值和/或多个生物过程的一个或多个成熟度的一个或多个过程条件的值,所述状态空间模型包括:表示所述细胞培养物的状态的变化的动力学生长模型以及可选地,表示所述生物反应器中的一个或多个代谢物的主体浓度的变化的物质平衡模型;以及
使用获得的所述值来训练机器学习模型基于输入变量预测一个或多个关键质量属性的值,所述输入变量包括一个或多个成熟度的所述一个或多个状态变量的值和/或一个或多个成熟度的从所述一个或多个状态变量导出的变量的值。
15.一种用于监测生物过程、控制生物过程、和/或提供用于监测和/或控制生物过程的工具的系统,所述系统包括:
至少一个处理器;以及
至少一个非暂时性计算机可读介质,包含指令,当由所述至少一个处理器执行时,所述指令使所述至少一个处理器执行根据前述权利要求中任一项所述的方法;
可选地,其中,所述系统还包括与所述处理器可操作地连接的以下中的一个或多个:
用户界面,可选地,其中,所述指令还使所述处理器向所述用户界面提供以输出到用户的以下中的一个或多个:所述一个或多个关键质量属性的值或从所述一个或多个关键质量属性导出的变量的值、所述比较步骤的结果、以及指示所述生物过程已经被确定为正常运行或不正常运行的信号;
一个或多个生物质传感器;
一个或多个代谢物传感器;
一个或多个过程条件传感器;以及
一个或多个效应器装置。
CN202280060644.2A 2021-07-07 2022-07-07 生物过程的监测、模拟、以及控制 Pending CN117940552A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP21184299.2 2021-07-07
EP21184299.2A EP4116403A1 (en) 2021-07-07 2021-07-07 Monitoring, simulation and control of bioprocesses
PCT/EP2022/068990 WO2023281016A1 (en) 2021-07-07 2022-07-07 Monitoring, simulation and control of bioprocesses

Publications (1)

Publication Number Publication Date
CN117940552A true CN117940552A (zh) 2024-04-26

Family

ID=77042693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280060644.2A Pending CN117940552A (zh) 2021-07-07 2022-07-07 生物过程的监测、模拟、以及控制

Country Status (3)

Country Link
EP (1) EP4116403A1 (zh)
CN (1) CN117940552A (zh)
WO (1) WO2023281016A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116386038B (zh) * 2023-04-11 2023-10-24 沃森克里克(北京)生物科技有限公司 一种dc细胞检测方法及系统
CN116577190B (zh) * 2023-07-13 2023-11-28 南京华建检测技术有限公司 一种t型实验试块的智能化检测方法
CN117497037A (zh) * 2023-11-17 2024-02-02 上海倍谙基生物科技有限公司 一种基于广义线性模型的培养基组分敏感性分析方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201213506D0 (en) 2012-07-30 2012-09-12 Tap Biosystems Phc Ltd Bioreactor vessels and associated bioreactor systems
GB2515751A (en) 2013-07-01 2015-01-07 Tap Biosystems Phc Ltd Bioreactor consumable units
EP3639171A4 (en) * 2017-06-16 2021-07-28 Cytiva Sweden AB PROCESS FOR PREDICTING THE RESULT AND MODELING A PROCESS IN A BIOREACTOR
WO2019129891A1 (de) * 2017-12-29 2019-07-04 F. Hoffmann-La Roche Ag Vorhersage des metabolischen zustands einer zellkultur
GB201909082D0 (en) * 2019-06-25 2019-08-07 Ge Healthcare Bio Sciences Ab Methods for control of a bioprocess
US11542564B2 (en) * 2020-02-20 2023-01-03 Sartorius Stedim Data Analytics Ab Computer-implemented method, computer program product and hybrid system for cell metabolism state observer

Also Published As

Publication number Publication date
EP4116403A1 (en) 2023-01-11
WO2023281016A1 (en) 2023-01-12

Similar Documents

Publication Publication Date Title
EP4107589A1 (en) Monitoring, simulation and control of bioprocesses
CN117940552A (zh) 生物过程的监测、模拟、以及控制
Yuan et al. Soft sensor model development in multiphase/multimode processes based on Gaussian mixture regression
Montague et al. Neural-network contributions in biotechnology
Jin et al. Adaptive soft sensor modeling framework based on just-in-time learning and kernel partial least squares regression for nonlinear multiphase batch processes
Jin et al. Adaptive soft sensor development based on online ensemble Gaussian process regression for nonlinear time-varying batch processes
Komives et al. Bioreactor state estimation and control
CN116261691B (zh) 生物过程的监测和控制
Walsh et al. Harnessing the potential of machine learning for advancing “quality by design” in biomanufacturing
Glassey Multivariate data analysis for advancing the interpretation of bioprocess measurement and monitoring data
JP7410273B2 (ja) 細胞培養プロセスにおけるプロセス変数を測定するための方法
US20220282199A1 (en) Multi-level machine learning for predictive and prescriptive applications
Zalai et al. Advanced development strategies for biopharmaceutical cell culture processes
Krausch et al. High‐throughput screening of optimal process conditions using model predictive control
González-Martínez et al. Metabolic flux understanding of Pichia pastoris grown on heterogenous culture media
US20230279332A1 (en) Hybrid Predictive Modeling for Control of Cell Culture
Liu et al. Multiple hypotheses testing-based operating optimality assessment and nonoptimal cause identification for multiphase uneven-length batch processes
US20230077294A1 (en) Monitoring, simulation and control of bioprocesses
Zheng et al. Opportunities of Hybrid Model-based Reinforcement Learning for Cell Therapy Manufacturing Process Control
Yan et al. Enhancing quality of statistic monitoring models by training set design with active learning approach
Acosta-Pavas et al. Soft sensors based on interpretable learners for industrial-scale fed-batch fermentation: Learning from simulations
Mu'azzam et al. A roadmap for model-based bioprocess development
Aizpuru et al. Latent State Space Extension for interpretable hybrid mechanistic models
WO2023237614A1 (en) Control of perfusion flow bioprocesses
Jørgensen MODELING INDUSTRIAL FERMENTATION DATA USING GRID OF LINEAR MODELS (GOLM) Mads Thaysen*,**, 1 Dennis Bonné

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication