一种基于多近邻保持嵌入回归模型的工业软测量方法
技术领域
本发明涉及一种软测量方法,尤其涉及一种基于多近邻保持嵌入回归模型的工业软测量方法。
背景技术
稳定而持续地生产质量合格的产品是保证企业盈利的基本途径,实时地监控产品质量指标因此在整个过程控制系统中必不可少。在生产过程中,通常希望能实时地测量产品质量的有效信息。若某些质量指标信息无法直接测得,也会间接的测量能直接反应产品质量信息的其他指标。一般来讲,在线实时测量质量指标的仪器设备相比于测量压力、温度、流量的仪表而言,价格高昂且后期维护成本较高。若是采用离线分析仪器设备,无法做到及时地测量产品质量的相关信息。为此,软测量方法技术应运而生,其基本思想是利用生产过程历史数据库,建立容易测量变量与产品质量指标间的回归模型,实现对产品质量的软测量从而取代产品质量分析仪。在历史采样数据库中,容易测量变量通常指温度、压力、流量等等。在现有的方法技术中,神经网络、支持向量回归、多变量统计回归法等现都已经成功应用于工业过程软测量。相比于多变量统计回归法,神经网络与支持向量回归方法需要更为庞大的训练数据量,而且训练时间相对较长不利于软测量模型的在线更新。因此,多变量统计回归法在某些领域具备较大的优势。目前,广泛研究与应用的多变量统计回归方法主要有偏最小二乘与主元回归法等。值得强调的是,这些方法都是通过挖掘容易测量变量数据中的潜藏信息来建立其与质量指标数据的回归模型。以主元回归法为例,挖掘出的潜藏信息通常是数据的方差信息。在流形学习领域看来,方差信息体现的是数据的全局结构特征。从数据空间分布的几何结构来看,数据间的局部近邻关系体现了数据局部分布结构情况,在潜藏信息挖掘中同样重要。
近年来,挖掘数据局部近邻结构的算法也有很多,主要包括局部线性嵌入、局部保持投影、以及近邻保持嵌入。这类算法挖掘的是数据的局部结构特征,虽已在故障检测、模式识别等领域得到了广泛应用,但还未充分应用于软测量建模。在已有的科研文献中,有科研人员将近邻保持嵌入(Neighborhood Preserving Embedding,NPE)用于软测量,验证了这类算法用于软测量的可实施性。另一方面,还有专利文献指出,数据的局部近邻结构不仅限于空间距离上的近邻关系,还可以包括体现在采样时间与空间角度上的近邻关系。因此,NPE方法用于软测量虽已经起步,但是在数据局部近邻关系的挖掘上还有待进一步的研究拓展。简单来讲,NPE单纯考虑的是空间距离相近的局部结构特征,在建立软测量模型时未曾考虑采样时间近邻局部特征与空间角度近邻局部特征。此外,单个NPE软测量模型可以达到的软测量精度是有限的,而且不具备多个软测量模型较强的泛化能方。因此,利用NPE建立回归模型实施软测量还有待深入研究。
发明内容
本发明所要解决的主要技术问题是:如何全面挖掘数据的局部近邻特征关系,并同时建立多个回归模型以实现对产品质量的在线软测量目的。为此,本发明公开一种基于多近邻保持嵌入回归模型的工业软测量方法。该发明方法首先为输入数据的每个样本点搜寻距离近邻、时间近邻、和角度近邻,然后对应建立距离NPE回归模型、时间NPE回归模型,和角度NPE回归模型。其次,将各个NPE回归模型对输出的估计值重新作为输入,利用偏最小二乘算法再次建立其与输出之间的回归模型。最后,将建立起来的多NPE回归模型用于在线软测量。
本发明解决上述技术问题所采用的技术方案为:一种基于多近邻保持嵌入回归模型的工业软测量方法,包括以下步骤:
(1)从生产过程的历史数据库中找出容易测量变量所对应的采样数据组成输入数据矩阵X∈Rn×m,能直接或间接反映产品质量的指标所对应的数据组成输出向量y∈Rn×1。其中,n为训练样本数,m为过程测量变量数,R为实数集,Rn×m表示n×m维的实数矩阵。
(2)将向量y与矩阵X中的每一列进行标准化处理,得到均值为0,标准差为1的新输出向量与新输入数据矩阵记录向量y的均值μ与标准差δ,上标号T表示矩阵或向量的转置。
(3)设置距离近邻个数k、时间近邻个数t、和角度近邻阀值δ,分别为数据矩阵中的每个样本点搜寻与之相近的距离近邻、时间近邻、和角度近邻,其中各参数的取值范围分别为k∈[6,12]、t∈[1,4]、和δ∈[0.6,0.7]。
(4)根据距离近邻、时间近邻、和角度近邻构造对应的系数矩阵W1∈Rn×n、W2∈Rn×n、以及W3∈Rn×n。
(5)求解广义特征值问题:得到前d个最小特征值所对应的特征向量α1,α2,…,αd,以组成投影变换矩阵Ag=[α1,α2,…,αd]∈Rm×d。其中,λ表示特征值,α为特征向量,Mg=(I-Wg)T(I-Wg),I为n×n维的单位矩阵,下标号g=1,2,3。
(6)根据计算对应的得分矩阵S1,S2,S3,并计算Sg与输出之间的回归系数向量
(7)计算输出估计值yg=Sgbg,并组建新输入数据矩阵Y=[y1,y2,y3]。
(8)利用偏最小二乘算法建立Y与输出之间的回归模型其中c∈R3×1为回归系数向量,e∈Rn×1表示模型误差。
(9)利用各回归系数向量b1,b2,b3与c实施在线软测量。
与现有方法相比,本发明方法的优势在于:
首先,本发明方法在挖掘输入训练数据局部近邻结构特征方面,较全面地考虑了距离近邻、时间近邻、以及角度近邻特征。相比于传统的NPE回归方法,本发明方法能挖掘出更多的潜藏有用信息。而且本发明方法实施软测量时,使用了多个NPE回归模型保证了软测量模型的泛化能力。此外,本发明方法还将多个NPE回归模型的输出估计值再次作为新输入,利用偏最小二乘算法再次建立回归模型,这可以进一步地缩小最终输出估计值与实际测量值之间测误差。因此,从这两个方面来看,本发明方法能够较好的保证软测量模型的精度,是一种更为优选的软测量实施方案。
附图说明
图1为本发明方法的实施流程图。
图2为构造系数矩阵W1第i行的实施流程图。
图3为利用偏最小二乘算法建立Y与输出之间的回归模型的实施流程图。
具体实施方式
下面结合附图对本发明方法进行详细的说明。
如图1所示,本发明提供了一种基于多近邻保持嵌入回归模型的工业软测量方法,该方法的具体实施步骤如下所示:
步骤1:从生产过程的历史数据库中找出容易测量变量所对应的采样数据组成输入数据矩阵X∈Rn×m,能直接或间接反映产品质量的指标所对应的数据组成输出向量y∈Rn ×1。其中,n为训练样本数,m为过程测量变量数,R为实数集,Rn×m表示n×m维的实数矩阵。
步骤2:将向量y与矩阵X中的每一列进行标准化处理,得到均值为0,标准差为1的新输出向量与新输入数据矩阵记录向量y的均值μ与标准差δ,上标号T表示矩阵或向量的转置。
步骤3:设置距离近邻个数k、时间近邻个数t、和角度近邻阀值γ,分别为数据矩阵中的每个样本点搜寻与之相近的距离近邻、时间近邻、和角度近邻,其中各参数的取值范围分别为k∈[6,12]、t∈[1,4]、和δ∈[0.6,0.7]。搜寻近邻样本点的具体操作过程如下所示:
①初始化i=1;
②按照如下所示公式计算第i个样本xi与矩阵中除xi以外的其他样本之间的距离Di,j:
Di,j=||xi-xj|| (1)
其中,j=1,2,…,n且j≠i,||||表示计算向量的长度;
③对这些计算出来的距离Di,1,Di,2,…,Di,n按大小进行升序排列,并记录前k个最小距离所对应的样本,从而得到样本xi的距离近邻集N1(xi);
④根据采样时间的先后次序,从数据矩阵中找出位于第i个数据样本xi采样时间的前后各t个数据样本,从而得到样本xi的时间近邻集N2(xi);
值得注意的是,对于第一个采样时刻的样本x1,只能搜寻得到采样时间位于x1之后的t个数据样本;而对于最后一个采样时刻的样本xn,只能搜寻得到采样时间位于xn之前的t个数据样本;
⑤按照如下所示公式计算第i个样本xi与矩阵中除xi以外的其他样本之间的角度余弦值cosθi,j:
⑥根据角度近邻阀值γ,选择满足甄别条件|cosθi,j|>γ所对应的样本,从而得到样本xi的角度近邻集N3(xi);
⑦判断是否满足i<n?若是,置i=i+1后,返回②;若否,执行步骤4。
步骤4:根据距离近邻、时间近邻、和角度近邻构造对应的系数矩阵W1∈Rn×n、W2∈Rn ×n、以及W3∈Rn×n,具体的实施过程如下所示:
①初始化i=1;
②根据第i个样本xi的距离近邻集N1(xi),构造系数矩阵W1中的第i行ui∈R1×n,相应的实施流程如图2所示,具体的操作过程如下所示:
(A).初始化系数向量ui=0∈R1×n(1×n维的零向量);
(B).将距离近邻集N1(xi)中的k个样本组成一个矩阵后,再将矩阵中的每一列减去向量xi,以得到新矩阵
(C).判断是否满足k>m?若是,则置中间参数若否,置
(D).计算矩阵后,求出矩阵C中对角线元素之和ξ,并按照下式更新矩阵C:
上式中,Ik表示k×k的单位矩阵;
(E).计算向量w=(CTC)-1CTf∈Rk×1,并进行单位化处理w=w/||w||,其中,向量f∈Rk×1中各元素都为1;
(F).根据距离近邻集N1(xi)中各样本的下标号,将向量w中各元素对应赋予系数向量ui中相对应的元素,那么更新后的向量ui即为系数矩阵W1中第i行;
③根据第i个样本xi的时间近邻集N2(xi),构造系数矩阵W2中的第i行,相应的实施流程与构造矩阵W1中第i行类似,这里不再赘述;
④根据第i个样本xi的角度近邻集N3(xi),构造系数矩阵W3中的第i行,相应的实施流程与构造矩阵W1中第i行类似,这里不再赘述;
⑤判断是否满足i<n?若是,置i=i+1后返回步骤②;若否,则系数矩阵W1、W2、和W3都构造完成。
步骤5:求解广义特征值问题:得到前d个最小特征值所对应的特征向量α1,α2,…,αd,以组成投影变换矩阵Ag=[α1,α2,…,αd]∈Rm×d。其中,λ表示特征值,α为特征向量,Mg=(I-Wg)T(I-Wg),I为n×n维的单位矩阵,下标号g=1,2,3。
步骤6:根据计算对应的得分矩阵S1,S2,S3,并计算Sg与输出之间的回归系数向量
步骤7:计算输出估计值yg=Sgbg,并组建新输入数据矩阵Y=[y1,y2,y3]。
步骤8:利用偏最小二乘算法建立Y与输出之间的回归模型其中c∈R3 ×1为回归系数向量,e∈Rn×1表示模型误差。实施偏最小二乘算法的基本流程如图3所示,具体的实施步骤如下所示:
①初始化h=1,并设置向量与向量
②依据公式ψh=YTv/(vTv)计算输入权值向量ψh,并用公式ψh=ψh/||ψh||单位化向量ψh;
③依据公式sh=Yψh/(ψh Tψh)计算得分向量sh;
④依据公式qh=y0 Tsh/(sh Tsh)计算输出权值qh;
⑤依据公式v=y0qh更新向量v;
⑥重复②~⑤直至v收敛(即向量v中各元素不再变化);
⑦保留输入权值向量ψh与输出权值qh,并依据公式ph=YTsh/(sh Tsh)计算投影向量ph;
⑧依据公式Y=Y-shph T更新输入矩阵Y;
⑨令h=h+1后,若h≤3,重复②~⑧求解下一个ψh、qh、和ph;若h>3,则执行⑩;
⑩将得到的所有输入权值向量组成矩阵Φ=[ψ1,ψ2,ψ3]、所有输出权值组成行向量Q=[q1,q2,q3]、以及所有投影向量组成矩阵P=[p1,p2,p3],那么PLSR模型的回归系数向量c=Φ(PTΦ)-1QT。
步骤9:利用各回归系数向量b1,b2,b3与c实施在线软测量,具体的实施过程如下所示:
①采集新时刻易测量变量的样本数据z∈R1×m,并对其实施与矩阵X相同的标准化处理得到
②调用回归系数向量b1,b2,b3,并根据公式计算各个NPE回归模型对输出的估计值和
③根据公式计算最终输出估计值其中行向量
④计算对应于样本z采样时刻的产品质量指标数据
上述实施例仅是对本发明的优选实施方式,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,不应排除在本发明的保护范围之外。