CN101419216B

CN101419216B - 基于gp学习建模的发酵制药产物质量软测量方法

Info

Publication number: CN101419216B
Application number: CN2008101216703A
Authority: CN
Inventors: 蒋宁; 盛颂恩; 陈挹
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2008-10-16
Filing date: 2008-10-16
Publication date: 2012-06-27
Anticipated expiration: 2028-10-16
Also published as: CN101419216A

Abstract

一种基于GP学习建模的发酵制药产物质量软测量方法，包括以下步骤：1)、采集发酵制药过程的历史数据集合L，该数据集合L由不超过200个采集时刻的数据样本{x，y}组成，其中，x是模型的广义输入向量，y是拟预报的质量向量；2)、利用GP学习算法建立拟预报的关键质量指标的模型f^*；3)、在线采集过程变量x^*，代入产物质量模型f^*，得到实时预报的产物质量指标。本发明提供一种具有很高的建模精度、测量准确性高的基于GP学习建模的发酵制药产物质量软测量方法。

Description

基于GP学习建模的发酵制药产物质量软测量方法

技术领域

本发明涉及一种工业间歇生产过程的软测量方法，尤其是一种发酵制药产物质量软测量方法。

背景技术

微生物/基因制药是战略性的高附加值产业，而间歇发酵是其工业化培养的主要方式。微生物发酵制药不仅是现代生物技术的重要组成部分之一，而且与人类的健康和生活品质息息相关。发酵制药过程伴随着微生物体的生长繁殖，兼有生命体代谢反应和化工传递现象的特性，是一个内部机理十分复杂，多种因素在不同尺度(基因、细胞和工程)上相互影响、相互制约的总和过程。

此外，发酵过程中一些关键变量，如菌体浓度、产物浓度、基质浓度等，很难进行在线测量，这给发酵过程的建模、监测、优化与控制带来了极大的困难。比如，微生物发酵过程的优化控制是提高产物收率的关键技术之一，因此建立适当形式的发酵数学模型和获得相关质量指标信息是实施优化控制的前提。

由于发酵培养是细胞分子尺度和过程工程尺度的综合，并且关键生化状态变量通常难以在线测量，试图建立精确的非结构化机理模型或者代谢网络模型通常是困难的，而且这类模型的复杂形式可能会导致难以用于工业优化控制。比如发酵工程中通常采用的非构造动力学模型，如Monod增殖模型、Luedeking-Piret产物生成模型等，实质上是化工动力学理论在工程宏观尺度上对发酵过程的描述和应用。非构造动力学模型不仅建模成本高、参数难以精确获得，而且建模简化和理想化使其在工程实践中的局限性较大。

因此设计新型的、基于数据驱动的发酵建模和关键指标的预报方法对指导制药生产中具有重要意义。针对流加发酵在模型化和检测方面存在的困难，国内外近年来相关的技术解决思路主要有两大类：第一类是利用多元统计类方法建立发酵过程模型，并进行产物质量的预报。2003年，葡萄牙里斯本大学的Lopes等提出一种多线性PLS(偏最小二乘)的建模方法，用于β-内酰胺类抗生素生产过程，找到了对终端产物活性成份影响最大的发酵时间区间(Chemo.Intell.Lab.Sys.，2003，Vol.68，75-81)；2004年，英国曼彻斯特大学的Lennox等也利用PLS实现了青霉素发酵过程模型，对菌体浓度和代谢产物浓度的变化进行了预报、监测(J.Process Control，2004，Vol.14，41-50)；2006年，浙江大学王海清等利用Pensim青霉素软件，设计了一种多向PLS建模与监测，实现了对流加补料系统故障的诊断(计算机与应用化学，2006，Vol.23(3)，227～232)。

第二类方法是采用人工智能方法，比如神经网络、模糊理论和遗传算法等建立(黑箱)过程模型或确定有关动力学参数(混合模型)，进而实现产物的质量预报。1996年，浙江大学王树青教授等就提起了混合神经网络建模的思路，应用到了2-酮基-1-古龙酸生产过程，即维生素C两步发酵法的第2个环节(化工学报，1996，Vol.47(4)，433-439)；2004年，英国纽卡尔斯的Zhang等利用前馈仿射神经网络研究了乙醇发酵的建模(Neurocomputing，2004，Vol.61，317-337)。

上述第一类方法的主要缺点是由于采取了针对线性的、统计平稳的技术，因此难以处理发酵过程的非线性和动态特性，建模的效果不可靠。第二类方法的主要问题是需要选择的算法参数和结构参数很多，通常依靠人工经验或更复杂的方法来调整。而且，这两类方法还有一个共同的问题，即需要非常大的训练样本数量才能进行有效建模，对第一类方法一般要求在上千个样本以上，而对于第二类方法通常要求样本数就更多了。尽管数字化的工业自动测控设备已越来越多地应用于工业现场，数据采集已很方便(尤其是对于常规过程变量)，但对于一些重要的生物量，如底物浓度、生物质浓度、比生长率、摄氧率(OUR)等，仍难以在线测量或者不能直接测量，想要以较高的频率获得大量的测量样本还是很困难的。目前国内尚未有针对发酵制药过程的软测量方面的专利成果。

发明内容

为了克服已有现有发酵制药产物质量软测量方法的建模精度低、测量准确性低的不足，本发明提供一种具有很高的建模精度、测量准确性高的基于GP学习建模的发酵制药产物质量软测量方法。

本发明解决其技术问题所采用的技术方案是：

一种基于GP学习建模的发酵制药产物质量软测量方法，包括以下步骤：

1)、采集发酵制药过程的历史数据集合L，该数据集合L由不超过200个采集时刻的数据样本{x，y}组成，其中，x是模型的广义输入向量，y是拟预报的质量向量；

2)、利用GP学习算法建立拟预报的关键质量指标的模型f^*，包括以下步骤：

①计算数据样本的协方差子矩阵K₁

K(i，j)＝k(x_i，x_j) (1)

式(1)中：元素下标i，j∈[1，l]的正整数，其中变量l≤200表示历史数据集合L的长度；算子k称为协方差函数；

②计算待求模型的发酵质量模型f^*的对数边缘似然函数logp(y|x)，及其关于超参数θ的导数信息：

\log p (y | X) = - \frac{1}{2} y^{T} {(K + σ_{n}^{2} I)}^{- 1} y - \frac{1}{2} \log | K + σ_{n}^{2} I | - \frac{l}{2} \log 2 π - - - (2)

式中：第1项

为数据拟合项，第2项

为复杂度惩罚项，最后是一个与训练数据长度有关的归一化常数项；

关于超参数θ的导数信息由下式计算得到：

\frac{&PartialD;}{&PartialD; θ_{j}} \log p (y | X, θ) = \frac{1}{2} tr ((β β^{T} - {(K + σ_{n}^{2})}^{- 1}) \frac{&PartialD; K}{&PartialD; θ_{j}}), β = {(K + σ_{n}^{2})}^{- 1} y - - - (3)

利用式(3)的计算结果，采用优化算法优化对数边缘似然，求出不同协方差函数下的最优超参数θ_opt，从而确定出最合适的协方差函数；

③计算在线样本的GP后验概率模型f(x^＊)，简记为产物质量模型f^*，当新数据x^*利用后，先计算其对应的协方差参数向量k_＊：

k_*＝k(x_i，x^*)，i＝1，…，l (4)

其中，协方差函数和超参数θ采用步骤②中计算的结果，则可得GP后验概率模型为f^*～N(f^*，V[f^*])，其中：

{\overset{&OverBar;}{f}}^{*} = k_{*}^{T} {(K + σ_{n}^{2} I)}^{- 1} y - - - (5)

3)、在线采集过程变量x^*，代入产物质量模型f^*，得到实时预报的产物质量指标。

作为优选的一种方案：在所述步骤③中，同时计算V[f^*]，其算式为(6)：

V [f *] = k (x^{*}, x^{*}) - k_{*}^{T} {(K + σ_{n}^{2} I)}^{- 1} k_{*} - - - (6)

在所述步骤3)中，在线采集过程变量x^*，代入式(6)中，得到预报准确性的概率估计。

进一步，在所述步骤②中，式(1)计算得到的协方差子矩阵K需要利用所述的最优化协方差函数和相应的超参数θ_opt进行更新。

本发明的技术构思为：高斯过程(GP)学习算法是统计学习理论的重要分支(Rasmussen CE and Williams CKI.Gaussian processes formachine learning.London：The MIT Press，Cambridge，2006)，相对于其他统计学习算法和传统神经网络等，GP学习方法不仅给出了一种简洁的求解小样本建模问题的贝叶斯概率方法，而且还给出了一种通过快速的迭代优化方式自动确定输入变量和模型超参数(GP后验模型为非参数模型)的理论算法，对使用者的经验依赖较少。而且GP学习算法具有很高的建模精度，非常符合采样数据少、过程非线性显著的发酵过程特点，而且模型形式简单，为实施发酵制药过程的优化调控提供更合适的实现技术。而且采用GP学习算法建立发酵过程的软测量模型还有一个其他方法不具备的特点，就是这种模型不仅能够计算出发酵产物的预报指标，还能够同时给出这个预报的准确性(或可靠性)估计。

本发明的有益效果为：1、发酵产物模型的建模方法实现起来较简单(虽然背景理论知识要求较高)，步骤少而且计算量小；2、所获模型的精度较高，不仅能够给出所关心的产物质量指标的预报值，而且能够给出这个预报值的准确性(或概率可靠性)估计；3、比其他两类建模方法所需要的训练样本数少，便于工程实现和应用；4、能够同时给出这个预报的准确性(或可靠性)估计。

附图说明

图1是发酵制药产物质量的GP学习建模与预报方法框图；

图2是GP学习算法特征长度与边缘似然函数的关系图；

图3是利用本发明方法获得的比转化酶活性的预报结果图；

图4是利用本发明方法获得的比转化酶活性的预报精度图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图4，一种基于GP学习建模的发酵制药产物质量软

测量方法，具体方法的步骤如下：

1)、采集一批发酵过程的过程历史数据集合L。

该数据集合L由不超过200个采集时刻的数据样本{x，y}组成，其中x是模型的广义输入向量，其构成一方面取决于所采用的非线性模型形式(如串-并型结构)，另一方面也取决于生化反应的定性工艺知识、反应动力学等。一般地，取x为可测量的常规过程变量及其延迟量的组合即可。

y是拟预报的质量向量，即本发明可以同时预报产物的多个质量指标，而且历史数据集合L可以不进行常规软测量建模方法中必须的标准化处理步骤(即减去对应的各变量的均值和方差)。

2)、利用GP学习算法建立拟预报的关键质量指标的模型f^*。

具体包括以下步骤：

①计算训练样本的协方差子矩阵K₁

K(i，j)＝k(x_i，x_j) (1)

式中：元素下标i，j∈[1，l]的正整数，其中变量l≤200表示数据集合L的长度；算子k称为协方差函数，常用的一般有SE(平方指数协方差函数)，RQ(有理二次型协方差函数)和Matérn3这三类协方差函数，如表1所示，表1是GP模型的不同协方差函数(r＝x_i-x_j)：

表1

协方差函数的参数记为一个数据结构θ，称为超参数。在超参数向量θ中：特征尺度矩阵M又分为“各向同性(iso)”和“自动相关检测(ard)”两种情况，分别对应于M₁＝λ^-2I和M₂＝diag(λ^-2)，λ＝[λ₁，…，λ_m]^T。这里标量λ(或向量λ)称为建模输入变量的特征尺度参数，它的物理意义是反映了对建模输入变量x的各个组成元素的变化程度的一种估计。为简化起见，表1中Matérn3协方差函数只考虑iso情况，SE和RQ则两种情况都考虑(见下面表2)。

表1中其他变量：为被建模的产物质量指标的波动幅度，α>0为RQ协方差函数的专有参数。

\log p (y | X) = - \frac{1}{2} y^{T} {(K + σ_{n}^{2} I)}^{- 1} y - \frac{1}{2} \log | K + σ_{n}^{2} I | - \frac{l}{2} \log 2 π - - - (2)

式中：第1项

为数据拟合项，第2项

为复杂度惩罚项，最后是一个与训练数据长度有关的归一化常数项。通过这两项的平衡可以实现对预报模型的推广能力的控制。测量噪声的方差参数

可以人为指定，也可以作为超参数的一部分通过下面的优化环节计算得到。参数

的作用是可以用于调节建模逼近的精度。

关于超参数θ的导数信息由下式计算得到：

\frac{&PartialD;}{&PartialD; θ_{j}} \log p (y | X, θ) = \frac{1}{2} tr ((β β^{T} - {(K + σ_{n}^{2})}^{- 1}) \frac{&PartialD; K}{&PartialD; θ_{j}}), β = {(K + σ_{n}^{2})}^{- 1} y - - - (3)

利用式(2-3)的计算结果，采用常规的优化算法(如共轭梯度法)可以优化对数边缘似然，求出不同协方差函数下的最优超参数θ_opt，从而确定出最合适的协方差函数。

这个过程的计算量不大，因此可以自动实现对GP学习参数的优化设定，无需依靠人工经验来选取。式(1)计算得到的协方差子矩阵K需要利用上面得到的最优化协方差函数和相应的超参数θ_opt进行更新。

③计算在线样本的GP后验概率模型f(x^＊)，简记为f^*

当在线的新数据x^*可以利用后，先计算其对应的协方差参数向量k_＊

k_*＝k(x_i，x^*)，i＝1，…，l (4)

其中协方差函数和超参数θ采用②中计算的结果。则可得GP后验概率模型为f^*～N(f^*，V[f^*])，其中：

{\overset{&OverBar;}{f}}^{*} = k_{*}^{T} {(K + σ_{n}^{2} I)}^{- 1} y - - - (5)

V [f *] = k (x^{*}, x^{*}) - k_{*}^{T} {(K + σ_{n}^{2} I)}^{- 1} k_{*} - - - (6)

3)、利用DCS或PLC等工业测控设备在线采集的过程变量x^*，代入产物质量模型f^*，得到实时预报的产物质量指标，以及预报准确性(或可靠性)的概率估计。

在线的新数据x^*由发酵测控DCS或PLC系统送上来后，代入到式(5)中就可以在线获得关于发酵产物质量指标y^*的预报值f^*，以及预报准确性的概率估计V[f^*]。因此本发明所获得的产物模型f^*是一种贝叶斯后验概率模型，即可以同时得到产物质量指标的预报值，以及预报准确性的概率估计。预报准确性是以后验方差带的形式给出，其宽度越窄表明准确性越高，反之则越低。并且该方法是一种基于统计学习理论的非线性建模，所获模型的推广能力是受控的(通过对式2中的前两项进行折中平衡)，而且模型的训练样本数远远少于常规的软测量建模方法。

图1是本发明提出的发酵制药产物质量的GP学习建模与预报方法的计算流程，本实施例采用卡氏酵母(S.Carlsbergensis)培养生产转化酶过程来说明本发明的技术设施步骤。

(1)采集发酵过程历史数据

卡氏酵母初始培养条件为：X＝0.1g/L，S＝0.17g/L，P＝0g，E＝0.5kU，V＝0.6L。卡氏酵母培养的过程参数说明：变量X，S，P和E分别为细胞浓度，葡萄糖浓度，乙醇浓度和转化酶活性单位；V为发酵液体积。

卡氏酵母培养最优初始条件是培养基中葡萄糖和细胞都具有较高的浓度。即首先将进行短暂的分批培养，然后进行补料培养，最后再进入一个短暂的分批培养直至放罐。这是因为在培养的早期，较高的葡萄糖浓度有助于保证高的比生长率；在后期由于乙醇同时得到消耗，保证了细胞得率。

本例共收集了19个发酵批次的历史数据。共有4个可测变量Meas＝[X，P，S，V]^T，测量周期为30min；假设无先验工艺知识指导，且考虑到测量已具有较大延迟，取建模(广义)输入变量x为一个8维的向量：x(t)＝[Meas(t)，

也就是说，可以先初步选取所有可利用的过程信息，关于输入变量选择问题后面还将讨论到。设置放罐时间为t_f＝10.6h，即每个发酵批次仅能够获得22个测量值(向量)，是典型的小(学习)样本建模问题。

因此为了缩短发酵时间，降低制药成本，理想情况应该是：酵母在经过短时间的分批培养后，就开始流加料液(此时葡萄糖的浓度仍很高)，以获得高的比生长率。相应地，乙醇也将迅速大量产生，随后流加速率可显著降低(减少原料投入，且降低碳源抑制作用)，使得在补料后期的葡萄糖浓度降至低值，细胞开始同时利用累积的乙醇和少量流加的葡萄糖，从而实现对比生长率和细胞得率的平衡优化。

因此在线获得比转化酶活性的(软测量)模型并对其进行实时预报，对于确定最优的流加策略和放罐时间，提高目标产物的得率，均具有重要意义。

(2)利用GP学习算法建立拟预报的质量指标模型

如前所述，表1给出的几种代表性的平稳协方差函数和相应的超参数向量θ中，其特征尺度矩阵M又分为“各向同性(iso)”和“自动相关检测(ard)”两种情况，分别对应于M₁＝λ^-2I和M₂＝diag(λ^-2)，λ＝[λ₁，…，λ_m]^T。这里标量λ(或向量λ)称为建模输入变量的特征尺度参数。对表1中Matérn3协方差函数只考虑iso情况，平方指数协方差函数(SE，Squared Exponential)和有理二次型协方差函数(RQ，Rational Quadratic)则两种情况都考虑(见表2)。

首先以协方差函数SEiso为例，分析特征尺度参数和训练样本数量对GP建模效果。图2给出了特征尺度参数λ与对数边缘似然logp(y|X)在采用不同数量训练样本下的变化关系(为便于比较，人为统一设定输出的方差

σ_{f}^{2} = 1,

噪声方差

σ_{n}^{2} = 0.1

)。可见logp(y|X)存在极大值，而且随着学习样本的增加(1、5和10个发酵批次数据)，其极大值将增加(即所得模型综合性能更好)。

对于只采用1个发酵批次的训练数据情况，图2中进一步给出了logp(y|X)的数据拟合项(三角实线)和负复杂性惩罚项的曲线(圆圈实线)，其中前者随着特征尺度λ的增大而单调衰减，后者则相反。这是由于λ变大则GP模型的数值逼近能力减弱，模型复杂度降低(注意图2中为负复杂性惩罚项)，反之则相反。因此GP学习算法自动实现了模型逼近性能和复杂度的平衡。

GP学习算法的另外一个重要优点是，在上述优化过程中得到超参数向量θ_opt，可以间接实现对建模输入变量的自动选择。表2给出了采用全部19批次发酵数据下的不同协方差函数的θ_opt数值。注意到在SEard和RQard协方差函数下(表中黑体数据)，第2和第6输入变量的特征尺度λ均大幅高于其他输入变量(对应于乙醇浓度及其延迟量)，表明乙醇浓度对比转化酶活性的建模影响甚微，实际上可以排除而不影响模型精度。这是由于酵母对乙醇的利用还很有限等因素所致。表2是GP模型在不同协方差函数下的超参数：

表2

(3)计算实时预报的产物质量指标，以及预报精度(或可靠性)的概率估计。

利用DCS或PLC等工业测控设备在线采集的过程变量x^*，代入式(5)中的产物质量模型f^*，就可以在线得到发酵产物质量指标y^*的预报值f^*，以及预报精度的概率估计V[f^*]

表3给出了采用5种不同协方差函数，经过不同批次数据量的GP优化学习后(将优化结果代入式5即得到相应的比转化酶活性模型)，利用5批新的发酵数据进行验证的结果(黑体数据为相应的最好结果)。其中采用SEard协方差函数、在19个数据批次训练后(相应的θ_opt在表2中给出)的GP模型具有最好的性能，随机均方误差(RMSE)达到3.45×10^-4。实际上从本实施例可以看出，采用不超过200个的历史训练数据(约10个发酵批次)，预报精度已达到9.45×10^-4，已能够满足工程的应用。表3是比转化酶活性模型在不同协方差函数下的预报性能：

表3

图3给出了采用该比转化酶活性GP模型，相应的5个新发酵批次的预报曲线和预报误差带(阴影部分)，其中圆圈点为测量数据，实线为模型拟合输出(注：横轴坐标为验证样本数，由于广义输入向量有1拍延迟，因此5个培养批次共100个样本)。可见该GP模型的推广性较好，所预报的比转化酶活性基本与验证样本重合(与表3的结果相符)。为了考察模型的不确定界，图4进一步给出了图3中第2个验证批次(虚线框部分)的局部放大图，可见即使在活性变化较大的流加后期，GP后验模型仍给具有很高的精度，全部测量数据均落在后验方差带内(阴影部分为95％置信限)，这与其他各种输出为确定性、单值的软建模方法相比有很大的不同，对理解预报结果的准确性提供了更多信息。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于GP学习建模的发酵制药产物质量软测量方法，其特征在于：所述发酵制药产物质量软测量方法包括以下步骤：

1)、采集发酵制药过程的历史数据集合L，该数据集合L由不超过200个采集时刻的数据样本{x，y}组成，其中，x是模型的广义输入向量，取x为可测量的常规过程变量及其延迟量的组合；y是拟预报的质量向量，取y为可以同时预报产物的多个质量指标；

①计算数据样本的协方差子矩阵K₁

K(i，j)＝k(x_i，x_j) (1)

\log p (y | X) = - \frac{1}{2} y^{T} {(K + σ_{n}^{2} I)}^{- 1} y - \frac{1}{2} \log | K + σ_{n}^{2} I | - \frac{l}{2} \log 2 π - - - (2)

式中：第1项

为数据拟合项，第2项

关于超参数θ的导数信息由下式计算得到：

\frac{&PartialD;}{{&PartialD; θ}_{j}} \log p (y | X, θ) = \frac{1}{2} tr (({ββ}^{T} - {(K + σ_{n}^{2})}^{- 1}) \frac{&PartialD; K}{{&PartialD; θ}_{j}}),

β = {(K + σ_{n}^{2})}^{- 1} y - - - (3)

③计算在线样本的GP后验概率模型f(x^*)，简记为产物质量模型f^*，当过程变量x^*利用后，所述过程变量x^*为利用DCS或PLC等工业测控设备在线采集得到的模型的广义输入向量，先计算其对应的协方差参数向量k_＊：

k_*＝k(x_i，x^*)，i＝1，…，l (4)

其中，协方差函数和超参数θ采用步骤②中计算的结果，则可得GP后验概率模型为

其中：

{\overset{&OverBar;}{f}}^{*} = k_{*}^{T} {(K + σ_{n}^{2} I)}^{- 1} y - - - (5)

2.如权利要求1所述的基于GP学习建模的发酵制药产物质量软测量方法，其特征在于：在所述步骤③中，同时计算V[f^*]，其算式为(6)：

V [f^{*}] = k (x^{*}, x^{*}) - k_{*}^{T} {(K + σ_{n}^{2} I)}^{- 1} k_{*} - - - (6)

3.如权利要求1或2所述的基于GP学习建模的发酵制药产物质量软测量方法，其特征在于：在所述步骤②中，式(1)计算得到的协方差子矩阵K需要利用所述的最优化协方差函数和相应的超参数θ_opt进行更新。