CN109492265B - 基于动态非线性pls软测量方法的废水出水指标预测方法 - Google Patents

基于动态非线性pls软测量方法的废水出水指标预测方法 Download PDF

Info

Publication number
CN109492265B
CN109492265B CN201811212785.3A CN201811212785A CN109492265B CN 109492265 B CN109492265 B CN 109492265B CN 201811212785 A CN201811212785 A CN 201811212785A CN 109492265 B CN109492265 B CN 109492265B
Authority
CN
China
Prior art keywords
pls
model
data
gpr
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811212785.3A
Other languages
English (en)
Other versions
CN109492265A (zh
Inventor
刘鸿斌
杨冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Forestry University
Original Assignee
Nanjing Forestry University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Forestry University filed Critical Nanjing Forestry University
Priority to CN201811212785.3A priority Critical patent/CN109492265B/zh
Publication of CN109492265A publication Critical patent/CN109492265A/zh
Application granted granted Critical
Publication of CN109492265B publication Critical patent/CN109492265B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于动态非线性PLS软测量方法的废水出水指标预测方法,该方法可用于存在较强的时变性、耦合性以及非线性的工业过程。首先,采用增广矩阵捕捉工业数据的动态特性;之后,采用高斯过程回归替代偏最小二乘建模过程中输入、输出得分向量间的线性关系,使偏最小二乘方法具备非线性建模能力;为验证模型的预测能力,将该方法分别应用于废水处理仿真基准1号模型和某工厂的废水处理过程进行软测量建模。实验结果表明,动态方法与高斯过程回归的应用可明显提高偏最小二乘回归模型的预测能力,更适用于复杂工业过程的软测量建模。

Description

基于动态非线性PLS软测量方法的废水出水指标预测方法
技术领域
本发明涉及废水处理过程出水指标的软测量方法,具体涉及一种基于高斯回归的动态非线性软测量建模方法。
背景技术
为确保化工领域的安全性、经济性及控制过程的有效性,对于某些过程变量的准确测量至关重要。然而,由于成本和技术的限制,这些过程变量一般难以用传统传感器测得。因此,根据易测变量与重要过程变量间的相关性,建立软测量模型以完成数据预测,已逐渐成为过程控制领域的重要选择。由于工业过程中存在着较多的独立过程参数,因此数据的样本量和变量数目的比值较小;此外,过多的过程变量间一般存在着较高的相关性,这些缺点均会增加模型的复杂程度,并可能导致软测量模型的过拟合。使用潜变量模型可有效解决上述问题。
潜变量模型的优点在于降低数据维度以及简化数据空间。在潜变量模型中,较为常用的软测量模型为偏最小二乘法(Partial Least Squares,PLS),但传统PLS为线性方法,无法充分解释工业数据的非线性特征。通过改变PLS建模过程中输入、输出得分向量间的线性关系为非线性关系,并保持其余框架不变,可使得PLS具备非线性建模能力。已存在的非线性PLS模型包括二次非线性PLS、神经网络PLS、基于模糊模型的PLS以及最小二乘支持向量机偏最小二乘法(Least Squares Support Vector Machine-PLS,LSSVM-PLS)。相比于以上PLS建模过程中的非线性方法,高斯过程回归(Gaussian Process Regression,GPR)具有容易实现、协方差函数可调、灵活的非参数推广以及超参数自适应调节等优点,对数据内部的非线性特征具备更强的解释能力,且对预测输出可以做出概率解释;近年来,在地铁室内空气质量监测等领域,GPR模型已得到初步应用,且相比于一般的线性方法、神经网络、最小二乘支持向量机等模型均具备更优秀的软测量建模能力。
通过建立PLS得分向量间的非线性内在关系,PLS的非线性建模能力可得到显著提升,同时考虑到大多工业过程数据具备的时变性特征,将动态方法与非线性PLS相结合可进一步提高软测量模型的预测效果。在多元统计过程监测中,可采用构建增广矩阵的方法来把握数据的动态特征,提升模型的监测效果。
在废水处理过程领域,二次非线性PLS、神经网络PLS和基于模糊模型的PLS等非线性PLS方法均已被应用于出水指标的预测,且相比于线性PLS的软测量建模能力有不同程度的提升;此外,LSSVM-PLS模型已被用于燃煤锅炉中氮氧化合物排放含量的预测,相比于线性PLS、二次非线性PLS以及神经网络PLS,该模型的预测精度最高。在流程工业领域中,非线性PLS模型的应用虽已日趋广泛,但非线性PLS模型对于数据非线性特征的解释能力还可进一步提升;而且非线性PLS模型与动态技术结合应用的案例较少,数据的动态特性有待进行更充分地研究。
发明内容
本发明针对上述现有技术中存在的问题,提供一种基于动态非线性PLS软测量方法的废水出水指标预测方法,以充分把握工业过程数据中的非线性与时变性,提高对重要过程变量的预测精度。
本发明是通过以下技术方案实现的:
本发明提供的基于高斯过程回归的动态非线性偏最小二乘软测量(Dynamic-Gaussian Process Regression-Partial Least Squares,D-GPR-PLS)建模方法,采用增广矩阵捕捉数据的动态特性,在此基础上使用GPR构建PLS建模过程中输入、输出得分向量间的非线性关系,使模型具备动态、非线性的建模能力,实现模型预测能力的提升。
具体的说,该过程包括以下步骤:
S1.构建增广矩阵:选择样本输入数据X∈Rn×m(n代表样本个数,m代表变量个数)与输出数据Y∈Rn×s(s代表变量个数)构建增广矩阵Xa和Ya,并完成对增广矩阵的标准化处理;
S2.构建GPR模型:构建PLS得分向量间的GPR模型,以解释数据的非线性特征;
S3.构建D-GPR-PLS模型:如图1所示,对增广矩阵Xa和Ya进行PLS分解,采用GPR替代输入与输出得分向量间的线性关系,完成PLS模型的构建;
S4.D-GPR-PLS的数据预测:根据训练好的模型确定PLS模型参数,完成对新的输入数据Xnew的预测;
S5.完成模型预测能力的评估:将测试集输入数据带入模型进行预测,根据输出数据的预测值与真实值计算出均方根误差(Root Mean Square Error,RMSE)与决定系数(Coefficient of Determination,R2),完成模型预测能力的评估。
步骤S1中,增广矩阵Xa和Ya的构建如下:
Xa=[X1,X2,K,Xm] (1)
Ya=[Y1,Y2,K,Ys] (2)
Figure GDA0003111276150000031
Figure GDA0003111276150000032
式中,m和s分别为输入和输出数据的变量个数,Xi代表第i个输入变量的增广矩阵,Yj代表第j个输出变量的增广矩阵,x(r)为某样本点,a和b分别代表输入和输出变量的迟滞样本数。
步骤S2包括:
S21:高斯过程表示为:
f(x)~GP(m(x),k(x,x')) (5)
式中m(x)为均值函数,k(x,x')为协方差函数,分别表示为:
Figure GDA0003111276150000033
式中x和x'为随机变量。数据经标准化处理后均值为0,因此高斯过程可简化表示为:
f(x)~GP(0,k(x,x')) (7)
将噪声考虑到观测目标值y中,考虑如下回归模型:
y=f(xi)+ε (8)
式子中xi为样本输入数据,f(xi)为函数值,y为目标观测值,
Figure GDA0003111276150000041
为高斯白噪声。则y的先验分布可表示为:
Figure GDA0003111276150000042
观测值y与预测值f*的联合联合先验分布为:
Figure GDA0003111276150000043
X为训练集的输入,X*为测试集的输入;K(X,X*)=K(X*,X)T代表着训练集X与测试集X*样本点间的协方差矩阵,K(X*,X*)为测试集X*样本自身的协方差;In为n维单位矩阵。由此,高斯过程回归的预测值可表示为:
Figure GDA0003111276150000044
其中
Figure GDA0003111276150000045
Figure GDA0003111276150000046
S22:协方差函数的选择:
采用平方指数协方差函数构建高斯过程回归模型::
Figure GDA0003111276150000047
式中,M=diag(l2),l为方差尺度,
Figure GDA0003111276150000048
为信号方差。参数的集合θ={l,σf}为超参数;
S23:超参数的获取:
超参数的集合一般通过最大似然法求得:
Figure GDA0003111276150000049
其中
Figure GDA00031112761500000410
令式(15)对超参数θ求偏导,然后可以采用共轭梯度法得到超参数的最优解;获得超参数后,利用式(12)和(13)对测试点X*对应的预测值f*和方差
Figure GDA00031112761500000411
进行计算。
步骤S3中,D-GPR-PLS模型的构建如下:
S31:使用偏最小二乘模型对训练集输入与输出数据的增广矩阵Xa和Ya作如下分解:
Figure GDA0003111276150000051
式中T∈Rn×d和U∈Rn×d分别为Xa和Ya的得分矩阵;P∈Rm×d和Q∈Rs×d分别为Xa和Ya的负载矩阵;E和F分别为Xa和Ya的残差矩阵,d为PLS潜变量的个数;其中得分向量间的内在关系表示为:
ui=f(ti)+ei (17)
式中,ei为对应的残差,f(x)代表高斯过程回归。
S32:采用非线性迭代最小二乘法求解D-GPR-PLS的模型参数:
S321:将增广矩阵Xa和Ya进行标准化,h=1时,令E0=Xa,F0=Ya
S322:提取Fh-1中的一列作为uh
S323:执行以下步骤迭代至收敛;
Figure GDA0003111276150000052
Figure GDA0003111276150000053
th=Eh-1wh0 (20)
Figure GDA0003111276150000054
Figure GDA0003111276150000055
uh=Fh-1ch0 (23)
S324:计算X的负载向量;
Figure GDA0003111276150000061
S325:利用GPR计算出对于u值的预测;
Figure GDA0003111276150000062
S326:计算Y的负载向量;
Figure GDA0003111276150000063
S327:计算输入与输出数据的残差矩阵
Figure GDA0003111276150000064
Figure GDA0003111276150000065
S328:令h=h+1,返回S322,直至计算出所有的潜变量。
步骤S4中,D-GPR-PLS对测试集数据Xnew预测如下:
S41:将测试集数据Xnew构建为增广矩阵Xnewa,并进行数据标准化处理;
S42:采用D-GPR-PLS模型参数P,Q和W的值确定Xnewa的输入得分矩阵:
Tnew=XnewaW(PTW)-1 (29)
式中,W为权重矩阵,Tnew=[tnew1,tnew2,L,tnewd];
S43:根据GPR模型预测每一个输出得分向量:
Figure GDA0003111276150000066
式中,i=1,2,L,d;
S44:计算输出数据的预测值
Figure GDA0003111276150000071
并根据训练集Y的均值和方差进行数据反标准化处理;
Figure GDA0003111276150000072
的计算公式可表示为:
Figure GDA0003111276150000073
步骤S5包括:
S51:根据输出数据的预测值与真实值计算出不同模型对应的均方根误差RMSE:
Figure GDA0003111276150000074
式中,
Figure GDA0003111276150000075
是估计值,yi是测量值,n为样本数;
S52:根据输出数据的预测值与真实值计算出不同模型对应的决定系数R2
Figure GDA0003111276150000076
式中:
Figure GDA0003111276150000077
Figure GDA0003111276150000078
SSres代表残差平方和,SStot代表总变异平方和,
Figure GDA0003111276150000079
是平均值。
S53:RMSE越接近于0,代表该模型预测实验数据具有更好的精确度;R2的结果一般在0到1之间,R2越接近1,拟合程度越高。
该方法优势在于,通过增广矩阵的构建与GPR模型的应用,D-GPR-PLS模型同时具备较强的动态与非线性软测量建模能力。因此,面对废水处理过程中某机构控制惯性或闭环控制所造成的数据时变性,以及生化反应带来的数据非线性,该模型均具备较高的准确性和鲁棒性;此外,将该模型与传统传感器同时使用,可将系统的可靠性提升至较高的程度。
附图说明
图1是D-GPR-PLS模型构建流程图;
图2是基于高斯过程回归的动态非线性偏最小二乘软测量建模方法流程图;
图3是仿真基准模型1废水处理流程图;
图4是D-GPR-PLS模型对测试集数据的出水SHN预测结果图;
图5是D-GPR-PLS模型对测试集数据的出水SHO预测结果图;
图6是某废水处理厂营养物去除流程图;
图7是PLS、LSSVM-PLS和GPR-PLS模型对实际废水处理过程数据的第一得分向量散点图;
图8是DPLS、D-LSSVM-PLS和D-GPR-PLS模型对实际废水处理过程数据的第一得分向量散点图;
图9是实际废水处理过程数据测试集出水COD测量值与PLS、D-LSSVM-PLS和D-GPR-PLS模型预测值的散点图。
具体实施方式
该方法对废水处理的出水指标进行预测所采取的技术方案是:
S1.构建增广矩阵:选择样本输入数据X∈Rn×m(n代表样本个数,m代表变量个数)与输出数据Y∈Rn×s(s代表变量个数)构建增广矩阵Xa和Ya,并完成对增广矩阵的标准化处理;
S2.构建GPR模型:构建PLS得分向量间的GPR模型,以解释数据的非线性特征;
S3.构建D-GPR-PLS模型:如图1所示,对增广矩阵Xa和Ya进行PLS分解,采用GPR替代输入与输出得分向量间的线性关系,完成PLS模型的构建;
S4.D-GPR-PLS的数据预测:根据训练好的模型确定PLS模型参数,完成对新的输入数据Xnew的预测;
S5.完成模型预测能力的评估:将测试集输入数据带入模型进行预测,根据输出数据的预测值与真实值计算出均方根误差RMSE与决定系数R2,完成模型预测能力的评估。
步骤S1中,增广矩阵Xa和Ya的构建如下:
Xa=[X1,X2,K,Xm] (1)
Ya=[Y1,Y2,K,Ys] (2)
Figure GDA0003111276150000091
Figure GDA0003111276150000092
式中,m和s分别为输入和输出数据的变量个数,Xi代表第i个输入变量的增广矩阵,Yj代表第j个输出变量的增广矩阵,x(r)为某样本点,a和b分别代表输入和输出变量的迟滞样本数。
步骤S2包括:
S21:高斯过程表示为:
f(x)~GP(m(x),k(x,x')) (5)
式中m(x)为均值函数,k(x,x')为协方差函数,分别表示为:
Figure GDA0003111276150000093
式中x和x'为随机变量。数据经标准化处理后均值为0,因此高斯过程可简化表示为:
f(x)~GP(0,k(x,x')) (7)
将噪声考虑到观测目标值y中,考虑如下回归模型:
y=f(xi)+ε (8)
式子中xi为样本输入数据,f(xi)为函数值,y为目标观测值,
Figure GDA0003111276150000101
为高斯白噪声。则y的先验分布可表示为:
Figure GDA0003111276150000102
观测值y与预测值f*的联合联合先验分布为:
Figure GDA0003111276150000103
X为训练集的输入,X*为测试集的输入;K(X,X*)=K(X*,X)T代表着训练集X与测试集X*样本点间的协方差矩阵,K(X*,X*)为测试集X*样本自身的协方差;In为n维单位矩阵。由此,高斯过程回归的预测值可表示为:
Figure GDA0003111276150000104
其中
Figure GDA0003111276150000105
Figure GDA0003111276150000106
S22:协方差函数的选择:
采用平方指数协方差函数构建高斯过程回归模型::
Figure GDA0003111276150000107
式中,M=diag(l2),l为方差尺度,
Figure GDA0003111276150000108
为信号方差。参数的集合θ={l,σf}为超参数;
S23:超参数的获取:
超参数的集合一般通过最大似然法求得:
Figure GDA0003111276150000109
其中
Figure GDA00031112761500001010
令式(15)对超参数θ求偏导,然后可以采用共轭梯度法得到超参数的最优解;获得超参数后,利用式(12)和(13)对测试点X*对应的预测值f*和方差
Figure GDA00031112761500001011
进行计算。
步骤S3中,D-GPR-PLS模型的构建如下:
S31:使用偏最小二乘模型对训练集输入与输出数据的增广矩阵Xa和Ya作如下分解:
Figure GDA0003111276150000111
式中T∈Rn×d和U∈Rn×d分别为Xa和Ya的得分矩阵;P∈Rm×d和Q∈Rs×d分别为Xa和Ya的负载矩阵;E和F分别为Xa和Ya的残差矩阵,d为PLS潜变量的个数;其中得分向量间的内在关系表示为:
ui=f(ti)+ei (17)
式中,ei为对应的残差,f(x)代表高斯过程回归。
S32:采用非线性迭代最小二乘法求解D-GPR-PLS的模型参数:
S321:将增广矩阵Xa和Ya进行标准化,h=1时,令E0=Xa,F0=Ya
S322:提取Fh-1中的一列作为uh
S323:执行以下步骤迭代至收敛;
Figure GDA0003111276150000112
Figure GDA0003111276150000113
th=Eh-1wh0 (20)
Figure GDA0003111276150000114
Figure GDA0003111276150000115
uh=Fh-1ch0 (23)
S324:计算X的负载向量;
Figure GDA0003111276150000121
S325:利用GPR计算出对于u值的预测;
Figure GDA0003111276150000122
S326:计算Y的负载向量;
Figure GDA0003111276150000123
S327:计算输入与输出数据的残差矩阵
Figure GDA0003111276150000124
Figure GDA0003111276150000125
S328:令h=h+1,返回S322,直至计算出所有的潜变量。
步骤S4中,D-GPR-PLS对测试集数据Xnew预测如下:
S41:将测试集数据Xnew构建为增广矩阵Xnewa,并进行数据标准化处理;
S42:采用D-GPR-PLS模型参数P,Q和W的值确定Xnewa的输入得分矩阵:
Tnew=XnewaW(PTW)-1 (29)
式中,W为权重矩阵,Tnew=[tnew1,tnew2,L,tnewd];
S43:根据GPR模型预测每一个输出得分向量:
Figure GDA0003111276150000126
式中,i=1,2,L,d;
S44:计算输出数据的预测值
Figure GDA0003111276150000131
并根据训练集Y的均值和方差进行数据反标准化处理;
Figure GDA0003111276150000132
的计算公式可表示为:
Figure GDA0003111276150000133
步骤S5包括:
S51:根据输出数据的预测值与真实值计算出不同模型对应的均方根误差RMSE:
Figure GDA0003111276150000134
式中,
Figure GDA0003111276150000135
是估计值,yi是测量值,n为样本数;
S52:根据输出数据的预测值与真实值计算出不同模型对应的决定系数R2
Figure GDA0003111276150000136
式中:
Figure GDA0003111276150000137
Figure GDA0003111276150000138
SSres代表残差平方和,SStot代表总变异平方和,
Figure GDA0003111276150000139
是平均值。
S53:RMSE越接近于0,代表该模型预测实验数据具有更好的精确度;R2的结果一般在0到1之间,R2越接近1,拟合程度越高。
实施例1:
以废水处理仿真基准模型1(Benchmark Simulation Model 1,BSM1)为例,废水处理流程如图3所示,包含2个厌氧反应、3个好氧反应、1个沉降池、1个内循环和1个外循环。
仿真平台数据输入的种类对应三种不同的天气状况:干旱天气、雨天和暴风雨天气。每种天气状况对应14天的数据输入,平均每隔15分钟进行一次数据采样。本次实施案例使用干旱天气下的数据,共包含8个输入变量和2个输出变量,输入变量包括进水氨浓度(SNHin),进水流量(Qin),第二反应器硝酸盐浓度(SNO2),第四反应器总固体悬浮物浓度(TSS4),第三和第四反应器的溶氧量(SO3和SO4),第五反应器的氧气转换系数(KLa5),内循环比率(Qintr),输出变量包括出水氨浓度(SNH)和出水硝酸盐浓度(SNO)。
S1.构建增广矩阵:选择样本输入数据X∈Rn×m(n代表样本个数,m代表变量个数)与输出数据Y∈Rn×s(s代表变量个数)构建增广矩阵Xa和Ya,并完成对增广矩阵的标准化处理;
S2.构建GPR模型:构建PLS得分向量间的GPR模型,以解释数据的非线性特征;
S3.构建D-GPR-PLS模型:对增广矩阵Xa和Ya进行PLS分解,采用GPR替代输入与输出得分向量间的线性关系,完成PLS模型的构建;
S4.D-GPR-PLS的数据预测:根据训练好的D-GPR-PLS模型参数,完成对新的输入数据Xnew的预测;
S5.完成模型预测能力的评估:将测试集输入数据带入模型进行预测,根据输出数据的预测值与真实值计算出均方根误差RMSE与决定系数R2,完成模型预测能力的评估。
通过MATLAB对上述算法进行仿真并结合图2所示,对本发明做进一步详述:
第一步:将1345组仿真测量数据的前672组样本作为训练集用于模型的建立,后673组样本作为测试集,用于检测模型的预测能力。预测模型的输入端是SNHin、Qin、SNO2、TSS4、SO3、SO4、KLa5和Qintr等8个输入变量构成;输出端由SNH和SNO等2个变量构成;根据输入端与输出端变量分别构建增广矩阵Xa和Ya,并进行数据标准化处理。
第二步:选择平方指数协方差函数构建高斯过程回归模型。
第三步:对输入和输出的增广矩阵Xa和Ya进行PLS模型分解,且使用GPR建立输入输出得分向量间的非线性关系,完成D-GPR-PLS模型的构建。根据表1可得出输入与输出数据的累计方差贡献率在潜变量超过4后变化平缓,故选4个潜变量采集模型参数。
表1 D-GPR-PLS模型潜变量数量对贡献率及累计贡献率的影响
Figure GDA0003111276150000141
Figure GDA0003111276150000151
第四步:根据训练好的D-GPR-PLS模型参数,完成对新的输入数据Xnew的预测;
第五步:完成D-GPR-PLS模型预测能力的评估,并与PLS、DPLS、LSSVM-PLS、D-LSSVM-PLS和GPR-PLS对比。表2显示,基于LSSVM-PLS和GPR-PLS的软测量模型优于传统PLS软测量模型,对于出水SHN和SNO,GPR-PLS在静态方法中可达最优预测效果。对于出水SHN,GPR-PLS较传统PLS模型RMSE降低15.76%,R2提高了2.61%;对于出水SNO,GPR-PLS较传统PLS模型RMSE降低19.72%,R2提高了9.02%。增广矩阵的使用,对于3种静态模型的预测能力均有影响。对于出水SHN,DPLS较PLS模型的预测能力无提升;D-LSSVM-PLS和D-GPR-PLS模型对相应静态模型的预测能力提升较为明显;其中D-GPR-PLS在6种模型中预测效果最佳,RMSE为0.686,较PLS模型降低了20.51%,R2为0.948,较PLS提升了3.27%。对于出水SNO,DPLS、D-LSSVM-PLS和D-GPR-PLS对于相应的静态模型均有预测能力的提升;其中D-LSSVM-PLS在6种模型中预测效果最佳,RMSE为0.452,较PLS模型降低了36.78%,R2为0.919,较PLS提升了15.16%;D-GPR-PLS模型的预测精度与D-LSSVM-PLS相近。D-GPR-PLS模型对出水SHN和SNO的预测分别如图4和图5所示。
表2出水SHN和出水SNO的测试集预测结果
Figure GDA0003111276150000152
Figure GDA0003111276150000161
实施例2:
以某废水处理厂的营养物去除过程为例,如图6所示,废水处理过程包括脱氮、无氧反应、厌氧反应和好氧反应等4个反应过程,前后2个沉淀器,1个污泥增稠罐以及脱水系统。用于软测量建模的废水处理数据包含6个输入变量和1个输出变量,输入变量包含入水流速(Fin),入水总体固态悬浮物(TSSin),入水生化需氧量(BODin),入水化学需氧量(CODin),入水总氮(TNin)和总磷(TPin)含量,输出变量为出水化学需氧量(CODeff)。数据的采样源自于各变量的日平均值,样本总数为346。
通过MATLAB对上述算法进行仿真并结合图2所示,对本发明做进一步详述:
第一步:将346组仿真测量数据的前232组样本作为训练集用于模型的建立,后114组样本作为测试集,用于检测模型的预测能力。预测模型的输入端是Fin、TSSin、BODin、CODin、TNin和TPin等6个输入变量构成;输出变量为CODeff;根据输入端与输出端变量分别构建增广矩阵Xa和Ya,并进行数据标准化处理。
第二步:选择平方指数协方差函数构建高斯过程回归模型。
第三步:对输入和输出的增广矩阵Xa和Ya进行PLS模型分解,且使用GPR建立输入输出得分向量间的非线性关系,完成D-GPR-PLS模型的构建。根据表3可得出输出数据的累计方差贡献率在潜变量超过3后变化平缓,故选3个潜变量采集模型参数。
表3 D-GPR-PLS模型前6个潜变量对贡献率及累计贡献率的影响
Figure GDA0003111276150000162
Figure GDA0003111276150000171
第四步:根据训练好的D-GPR-PLS模型参数,完成对新的输入数据Xnew的预测;
第五步:完成D-GPR-PLS模型预测能力的评估,并与PLS、DPLS、LSSVM-PLS、D-LSSVM-PLS和GPR-PLS对比。图7分别列出了(a)PLS、(b)LSSVM-PLS和(c)GPR-PLS在建模时第一输入与输出得分向量间的散点图,根据散点图可得出潜变量间的无十分明显的非线性关系,因此线性PLS较LSSVM-PLS与GPR-PLS建模能力较强。图8分别列出了(a)DPLS、(b)D-LSSVM-PLS和(c)D-GPR-PLS在建模时第一输入与输出得分向量间的散点图,根据散点图可得出潜变量间的非线性关系在结合增广矩阵进行建模后变得相对明显,因此D-LSSVM-PLS与D-GPR-PLS对数据的解释能力较DPLS更强。图9分别列出了出水COD的测量值与(a)PLS、(b)D-LSSVM-PLS和(c)D-GPR-PLS模型预测值的散点图,数据点越接近对角线代表数据预测越精准;根据图(a)可得出PLS对出水COD的预测存在较明显的偏差;图(b)中的数据点在对角线两侧的分布较为均匀,但同时也比较分散,代表D-LSSVM-PLS对出水COD的预测存在一定的误差;图(c)中的数据点较为均匀且紧凑地分布在对角线两侧,表示D-GPR-PLS对出水COD的预测精准度较高。表4(表中接近或小于0的R2均以“\”表示)列出了6种模型对出水COD测试集的具体预测结果,结果显示,PLS在3种静态模型中的预测精度最高,RMSE为1.417;动态方法的使用对3种静态模型的预测能力均有提升,预测结果最优的动态模型为D-GPR-PLS,RMSE为0.979,R2为0.523,RMSE较PLS降低了30.91%。
表4出水COD测试集的预测结果
Figure GDA0003111276150000172
Figure GDA0003111276150000181
考虑到废水处理过程中的生化反应与过程工艺参数的时变性与复杂性,使用传统的线性PLS建模方法很难得到理想的数据预测效果。本发明方法采用增广矩阵改变数据结构,使得数据的动态特性更容易把握,数据的非线性特征更加明显;此外,PLS建模时使用高斯过程回归模型建立得分向量间的非线性关系,为PLS模型提供较强的非线性建模能力。因此,动态技术与非线性PLS模型的结合,使得D-GPR-PLS软测量模型具备较高的预测精度,更适于实际工业数据的软测量建模。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (5)

1.基于动态非线性PLS软测量方法的废水出水指标预测方法,其特征在于,所述方法采用增广矩阵进行偏最小二乘Partial Least Squares,PLS软测量建模方法以控制数据的动态特性,所述数据包含8个输入变量和2个输出变量,输入变量包括进水氨浓度SNHin,进水流量Qin,第二反应器硝酸盐浓度SNO2,第四反应器总固体悬浮物浓度TSS4,第三和第四反应器的溶氧量,SO3和SO4,第五反应器的氧气转换系数KLa5,内循环比率Qintr,输出变量包括出水氨浓度SNH和出水硝酸盐浓度SNO;其次,在建模时使用高斯过程回归GaussianProcess Regression,GPR建立得分向量间的非线性关系以控制数据的非线性特征,以此提供不同模型的对比实现最优预测;实现对出水氨浓度SNH和出水硝酸盐浓度SNO的在线预测;
该方法包括以下步骤:
S1.构建增广矩阵:选择样本输入数据X∈Rn×m,n代表样本个数,m代表输入变量个数,输出数据Y∈Rn×s,s代表输出变量个数,分别构建增广矩阵Xa和Ya,并完成对增广矩阵的标准化处理;输入变量包括进水氨浓度(SNHin),进水流量(Qin),第二反应器硝酸盐浓度(SNO2),第四反应器总固体悬浮物浓度(TSS4),第三和第四反应器的溶氧量(SO3和SO4),第五反应器的氧气转换系数(KLa5),内循环比率(Qintr);输出变量包括出水氨浓度(SNH)和出水硝酸盐浓度(SNO)
S2.构建GPR模型:根据S1步骤中的增广矩阵构建PLS模型,建立得分向量间的GPR模型,用来解释数据的非线性特征;所述GPR模型构建如下:
S21:求取高斯过程回归的预测值为:
Figure FDA0003467592320000011
其中
Figure FDA0003467592320000012
Figure FDA0003467592320000013
X为训练集的输入,X*为测试集的输入;K(X,X*)=K(X*,X)T代表着训练集X与测试集X*样本点间的协方差矩阵,K(X*,X*)为测试集X*样本自身的协方差;In为n维单位矩阵;y为观测目标值;σ为高斯白噪声;
S22:采用平方指数协方差函数构建高斯过程回归模型:
Figure FDA0003467592320000014
式中,
Figure FDA0003467592320000015
为信号方差,M=diag(l2),l为方差尺度;参数的集合θ={σf,l}为超参数;
S23:超参数的获取:
超参数的集合通过最大似然法求得:
Figure FDA0003467592320000021
其中
Figure FDA0003467592320000022
令式(9)对超参数θ求偏导,采用共轭梯度法得到超参数的最优解;获得超参数后,利用式(6)和(7)对测试点X*对应的预测值f*和方差
Figure FDA0003467592320000023
进行计算;
S3.构建D-GPR-PLS模型:对所述增广矩阵Xa和Ya进行PLS分解,采用GPR替代输入与输出得分向量间的线性关系,完成D-GPR-PLS模型的构建;所述D-GPR-PLS模型构建如下:使用偏最小二乘模型对训练集输入与输出数据的增广矩阵Xa和Ya作如下分解:
Figure FDA0003467592320000024
式中T∈Rn×d和U∈Rn×d分别为Xa和Ya的得分矩阵;P∈Rm×d和Q∈Rs×d分别为Xa和Ya的负载矩阵;E和F分别为Xa和Ya的残差矩阵,d为PLS潜变量的个数;其中得分向量间的内在关系表示为:
ui=f(ti)+ei (17)
式中,ei为对应的残差,f(x)代表高斯过程回归;
S4.D-GPR-PLS模型的数据预测:根据训练好的D-GPR-PLS模型参数,完成对新的输入数据Xnew的预测;所述D-GPR-PLS模型的数据预测过程如下:
S41:将测试集数据Xnew构建为增广矩阵Xnewa,并进行数据标准化处理;
S42:采用D-GPR-PLS模型参数P,Q和W的值确定Xnewa的输入得分矩阵:
Tnew=XnewaW(PTW)-1 (29)
式中,W为权重矩阵,Tnew=[tnew1,tnew2,…,tnewd];
S43:根据GPR模型预测每一个输出得分向量:
Figure FDA0003467592320000025
式中,i=1,2,…,d;
S44:计算输出数据的预测值
Figure FDA0003467592320000026
并根据训练集Y的均值和方差进行数据反标准化处理;
Figure FDA0003467592320000027
的计算公式表示为:
Figure FDA0003467592320000031
S5.完成模型预测能力的评估:将测试集输入数据带入模型进行预测,根据输出数据的预测值与真实值计算出均方根误差Root Mean Square Error,RMSE与决定系数Coefficient of Determination,R2,完成模型预测能力的评估。
2.根据权利要求1所述的基于动态非线性PLS软测量方法的废水出水指标预测方法,其特征在于,步骤S1中,增广矩阵Xa和Ya的构建如下:
Xa=[X1,X2,…,Xm] (1)
Ya=[Y1,Y2,…,Ys] (2)
Figure FDA0003467592320000032
Figure FDA0003467592320000033
式中,m和s分别为输入和输出数据的变量个数,Xi代表第i个输入变量的增广矩阵,Yj代表第j个输出变量的增广矩阵,x(r)为某样本点,a和b分别代表输入和输出变量的迟滞样本数。
3.根据权利要求1所述的基于动态非线性PLS软测量方法的废水出水指标预测方法,其特征在于,采用非线性迭代最小二乘法求解D-GPR-PLS的模型参数。
4.根据权利要求1所述的基于动态非线性PLS软测量方法的废水出水指标预测方法,其特征在于,所述步骤S5包括:
S51:根据输出数据的预测值与真实值计算出不同模型对应的均方根误差RMSE:
Figure FDA0003467592320000034
式中,
Figure FDA0003467592320000035
是估计值,yi是测量值,n为样本数;
S52:根据输出数据的预测值与真实值计算出不同模型对应的决定系数R2
Figure FDA0003467592320000036
式中:
Figure FDA0003467592320000041
Figure FDA0003467592320000042
SSres代表残差平方和,SStot代表总变异平方和,
Figure FDA0003467592320000043
是平均值。
5.根据权利要求4所述的基于动态非线性PLS软测量方法的废水出水指标预测方法,其特征在于,所述RMSE值越接近于0,代表该模型预测实验数据具有越高的精确度;R2的结果在0到1之间,R2越接近1,拟合程度越高。
CN201811212785.3A 2018-10-18 2018-10-18 基于动态非线性pls软测量方法的废水出水指标预测方法 Active CN109492265B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811212785.3A CN109492265B (zh) 2018-10-18 2018-10-18 基于动态非线性pls软测量方法的废水出水指标预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811212785.3A CN109492265B (zh) 2018-10-18 2018-10-18 基于动态非线性pls软测量方法的废水出水指标预测方法

Publications (2)

Publication Number Publication Date
CN109492265A CN109492265A (zh) 2019-03-19
CN109492265B true CN109492265B (zh) 2022-04-22

Family

ID=65691457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811212785.3A Active CN109492265B (zh) 2018-10-18 2018-10-18 基于动态非线性pls软测量方法的废水出水指标预测方法

Country Status (1)

Country Link
CN (1) CN109492265B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609476B (zh) * 2019-09-19 2022-04-12 太原理工大学 一种基于高斯过程模型的多变量非线性动态系统模型预测控制方法
CN111027611A (zh) * 2019-12-04 2020-04-17 南京林业大学 基于动态贝叶斯网络的模糊pls建模方法
CN111863151B (zh) * 2020-07-15 2024-01-30 浙江工业大学 基于高斯过程回归的聚合物分子量分布的预测方法
CN113190956B (zh) * 2021-03-19 2022-11-22 广东工业大学 一种面向制造业大数据的回归建模方法
CN113379002B (zh) * 2021-07-20 2022-05-03 浙江大学 一种基于深度偏最小二乘模型的工业软测量方法
CN114124517B (zh) * 2021-11-22 2024-05-28 码客工场工业科技(北京)有限公司 一种基于高斯过程的工业互联网入侵检测方法
CN115759291B (zh) * 2022-11-21 2023-07-18 武汉大学 一种基于集成学习的空间非线性回归方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009082586A1 (en) * 2007-12-21 2009-07-02 Honda Motor Co., Ltd. Online sparse matrix gaussian process regression and visual applications
CA2704107A1 (en) * 2009-05-13 2010-11-13 The University Of Sydney A method and system for data analysis and synthesis
CN104778298A (zh) * 2015-01-26 2015-07-15 江南大学 基于egmm的高斯过程回归软测量建模方法
CN106056127A (zh) * 2016-04-07 2016-10-26 江南大学 一种带模型更新的gpr在线软测量方法
CN108197380A (zh) * 2017-12-29 2018-06-22 南京林业大学 基于偏最小二乘的高斯回归软测量建模方法
CN108445867A (zh) * 2018-03-06 2018-08-24 宁波大学 一种基于分散式icr模型的非高斯过程监测方法
CN108595892A (zh) * 2018-05-11 2018-09-28 南京林业大学 基于时间差分模型的软测量建模方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205224B (zh) * 2015-08-28 2018-10-30 江南大学 基于模糊曲线分析的时间差高斯过程回归软测量建模方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009082586A1 (en) * 2007-12-21 2009-07-02 Honda Motor Co., Ltd. Online sparse matrix gaussian process regression and visual applications
CA2704107A1 (en) * 2009-05-13 2010-11-13 The University Of Sydney A method and system for data analysis and synthesis
CN104778298A (zh) * 2015-01-26 2015-07-15 江南大学 基于egmm的高斯过程回归软测量建模方法
CN106056127A (zh) * 2016-04-07 2016-10-26 江南大学 一种带模型更新的gpr在线软测量方法
CN108197380A (zh) * 2017-12-29 2018-06-22 南京林业大学 基于偏最小二乘的高斯回归软测量建模方法
CN108445867A (zh) * 2018-03-06 2018-08-24 宁波大学 一种基于分散式icr模型的非高斯过程监测方法
CN108595892A (zh) * 2018-05-11 2018-09-28 南京林业大学 基于时间差分模型的软测量建模方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A soft sensor based on adaptive fuzzy neural network and support vector regression for industrial melt index prediction;ZHANG M等;《Chemometrics and Intelligent Laboratory Systems》;20131231;83-90 *
基于RPLS的造纸废水处理过程软测量建模;杨浩等;《中国造纸》;20161015(第10期);37-41 *
局部特征关系下的数据回归及软测量建模;张勤等;《自动化仪表》;20171231(第06期);10-15 *
造纸废水处理过程的高斯过程回归软测量建模;宋留等;《中国环境科学》;20180720(第07期);166-173 *

Also Published As

Publication number Publication date
CN109492265A (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
CN109492265B (zh) 基于动态非线性pls软测量方法的废水出水指标预测方法
CN111291937A (zh) 基于支持向量分类与gru神经网络联合的处理污水水质预测方法
CN104376380B (zh) 一种基于递归自组织神经网络的氨氮浓度预测方法
US10919791B2 (en) Intelligent identification method of sludge bulking based on type-2 fuzzy neural network
CN104965971B (zh) 一种基于模糊神经网络的氨氮浓度软测量方法
US20180029900A1 (en) A Method for Effluent Total Nitrogen-based on a Recurrent Self-organizing RBF Neural Network
Han et al. Hierarchical neural network modeling approach to predict sludge volume index of wastewater treatment process
CN110320335B (zh) 一种关于污水处理出水水质指标的多元鲁棒软测量方法
CN107688701B (zh) 基于wasp模型的水质软测量及水体富营养化评价方法
Hansen et al. Modeling phosphorous dynamics in a wastewater treatment process using Bayesian optimized LSTM
CN102262147A (zh) 一种废水处理系统出水cod的软测量方法和系统
CN110981021B (zh) 一种基于模糊bp神经网络的废水高级氧化处理智能加药系统及方法
CN103235096A (zh) 污水水质检测方法与装置
Chang et al. Over-complete deep recurrent neutral network based on wastewater treatment process soft sensor application
CN112989704A (zh) 一种基于de算法的irfm-cmnn出水bod浓度预测方法
Wang et al. A soft sensor modeling method with dynamic time-delay estimation and its application in wastewater treatment plant
CN112417765A (zh) 一种基于改进师生网络模型的污水处理过程故障检测方法
Liu et al. Intelligent decision method of sludge bulking using recursive kernel principal component analysis and Bayesian network
CN108549740A (zh) 一种基于混合智能算法的厌氧系统出水氨氮软测量方法
CN113011102B (zh) 基于多元时间序列的Attention-LSTM的青霉素发酵过程故障预测方法
CN201330211Y (zh) 污水处理厂运行参数自寻优模拟系统
CN110542748B (zh) 一种基于知识的鲁棒型出水氨氮软测量方法
CN116339275A (zh) 基于全结构动态自回归隐变量模型的多尺度过程故障检测方法
CN113838542B (zh) 化学需氧量智能预测方法和系统
CN114861543A (zh) 一种数据驱动的石化污水可生化性智能评价方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant