CN113420815A

CN113420815A - 半监督rsdae的非线性pls间歇过程监测方法

Info

Publication number: CN113420815A
Application number: CN202110702352.1A
Authority: CN
Inventors: 任世锦; 开红梅; 任珈仪; 巩固; 刘小洋
Original assignee: Jiangsu Normal University
Current assignee: Jiangsu Normal University
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-09-21
Anticipated expiration: 2041-06-24
Also published as: CN113420815B

Abstract

本发明涉及一种半监督鲁棒稀疏深度自编码网络(robust sparse deep auto‑encoder,RSDAE)的非线性偏最小二乘（partial least square,PLS）间歇过程监测方法，该方法包括以下步骤：建立半监督鲁棒稀疏深度自编码网络RSDAE从高维、含噪、稀疏数据集抽取低维数据特征；基于低维特征数据集建立PLS模型；根据建立的非线性PLS模型对间歇过程进行故障监测。本发明充分利用标记和未标记样本信息并考虑了样本的稀疏性，更好地获取数据中隐藏的有用信息，降低深度自编码网络隐藏节点数量选取难度，有效地消除了数据中不确定性、冗余信息，提高了模型的鲁棒性。

Description

半监督RSDAE的非线性PLS间歇过程监测方法

技术领域

本发明属于工业过程监测技术领域，具体涉及一种半监督RSDAE(robust sparsedeep auto-encoder,鲁棒稀疏深度自编码)的非线性PLS(partial least square,偏最小二乘)间歇过程监测方法。

背景技术

间歇过程作为一种重要的工业生产方式，在生物制药、食品饮料和精细化工等小批量、高附加值产品生产中得到广泛应用。随着生产规模扩大、产品品种增多以及复杂性增加,间歇过程具有强非线性、多模态特性、产品质量测量代价高和不及时等特征。因此，采用合适的质量软测量工具进行故障检测与诊断方法，保障复杂工业过程安全运行及产品质量平稳，已经逐渐成为过程控制领域研究的重要问题[参考文献1-5]。

针对间歇过程监测与质量预测，很多学者提出回归模型，比如偏最小二乘(partial least squares,PLS)、规范变量分析(canonical variate analysis,CVA)、多线性回归(Multiple linear regression，MLR)、主成分回归(principal componentregression,PCR)等质量相关的过程监测技术[参考文献6-11]。这些方法通过易于测量的过程变量监测质量变量的波动，更有助于对产品质量指标的波动进行实时、在线监控和预测。PLS从高维数据中抽取少量隐藏变量解释与质量相关的问题，能够消除过程数据和质量数据中的噪声，提高过程监测的准确性。PLS可以实现多种数据分析方法的综合应用,可以集MLR、CVA与PCA的基本功能于一体，基于PLS及其相关扩展模型的质量相关故障检测与诊断技术成为化工、冶金、食品等领域中最常用的方法[参考文献3,5,6,8,12,13]。为解决质量预测的非线性问题，参考文献[3]提出了一种自适应KPLS(Kernel PLS，KPLS),通过引入核函数使得输入数据线性可分，提高了与质量相关故障的监控效果；参考文献[8]提出带有改进贡献率的核PLS的炼铁高炉质量预测；为降低冗余特征对质量预测的影响，参考文献[13]提出一种特征选取KMPLS，提高了预测精度。虽然PLS以及扩展算法在处理数据隐藏特征抽取、非线性数据建模以及数据不确定数据描述方面取得一些进展，成为化工、冶金等多领域故障监测、软测量建模的有力工具，然而PLS及其扩展方法仍然存在如下问题：(1)工业过程复杂的过程变量具有强耦合性、非线性和稀疏性，存在大量质量无关的冗余过程变量，现有的KPLS本质上是一种单隐层非稀疏数据特征抽取方法，限制了KPLS性能的提高；(2)核函数类型和参数选取影响KPLS模型性能，核函数参数选取仍然依赖先验知识，难以保证KPLS性能；(3)数据离群点极大地影响PLS以及KPLS模型性能，亟需提高模型的鲁棒性；(4)目前工业过程质量数据获取代价较大导致标记数据样本数量远小于过程数据样本，而大多数PLS以及扩展算法难以利用未标记样本信息。据我们所知，目前还没有完全考虑上述问题的改进非线性PLS算法，PLS扩展算法往往只考虑其中一个或者两个问题。比如在概率框架下的鲁棒PPLS、半监督PPLS均为线性模型[参考文献14,15]，使用混合建模思想的混合PPLS解决非线性问题。非概率框架下的PLS以及扩展算法在上述方面研究还比较薄弱。

深度学习能够自适应地从复杂故障数据提取信息丰富、强判别能力的深度特征，在故障诊断、软测量等领域显著提高识别和预测精度[参考文献16-19]。深度学习模仿人脑的机制对多源异类数据进行解释，减少对先验知识和信号处理技术的依赖，降低人工提取特征导致的不完整性和不确定性。与比浅层网络特征抽取相比，多层架构的深度学习构建含有多个隐含层的深层模型，使用非线性映射进行多级抽象获取更深层次特征表示，更精准描述复杂高维数据分布，能够很好表征过程数据与质量数据/故障状态之间的复杂映射关系。深度自编码器(deep auto-encoder,DAE)是一种常用深度学习算法，其中，编码被称为数据隐藏压缩表示，不同故障激活相应的隐藏节点。对于复杂非线性过程数据，DAE模型可以表达任意复杂函数，能够学习局部-整体关系，即浅层表征过程全局状态信息，深层融合过程全局信息和工况内局部信息刻画过程高级抽象信息[参考文献20-22]。现有DAE模型往往基于重构误差均方最小准则调整模型参数，对在野点数据鲁棒性能不高。另外，目前常用的机器学习方法如支持向量机(support vector machine)、KPCA、KPLS、核Fisher鉴别分析(kernel Fisher discriminant analysis,KFDA)、前向传播神经网络(BPNN)均为单层特征抽取方法，对复杂数据特征抽取方面还存在一定的不足、难以解释异常现象。

发明内容

本发明的目的在于：针对上述现有技术存在的不足，设计一种半监督RSDAE的非线性PLS间歇过程监测方法。

本发明提出一种半监督鲁棒稀疏深度自编码的非线性PLS(robust semi-supervised sparse deep auto-encoder-based nonlinear partial least squares,RSDAE-NPLS)的间歇过程故障监测方法。该方法使用具有非对称性、平滑、有界和一致逼近以及ε-不敏感区特性的SRE损失函数与正则化作为深度自编码器(DAE)学习准则，提高模型的稀疏性和鲁棒性。首先，使用标记和未标记样本以无监督形式训练RSDAE模型,然后以RSDAE对训练数据集隐藏表示代替有标记新数据样本的输入特征构建新的标记样本集，使用MLP对标记样本进行回归，对DAE中各个编码器参数进行精细调整。最后，使用RSDAE对数据样本抽取隐藏表示(非线性特征)作为输入数据与样本标记输出构建PLS模型，实现了非线性PLS建模。该方法充分利用所有样本信息并考虑了样本的稀疏性，更好地获取数据中隐藏的有用信息，有效地消除了数据中不确定性、冗余信息，提高了模型的鲁棒性。

1.核偏最小二乘(KPLS)

KPLS就是在高维线性特征空间构建经典PLS模型，实现非线性数据回归。其实现方法就是首先通过非线性映射函数φ(·)把原始非线性数据的输入映射到高维空间，然后基于高维特征数据构建经典线性PLS模型。设有样本集X＝{(x₁,y₁),(x₂,y₂),…,(x_N,y_N)}，x_i∈R^D，y_i∈R^d，由非线性函数φ(·)将原始样本数据的输入映射到高维特征空间，即

Φ＝[φ(x₁),φ(x₂),…,φ(x_N)]^T (1)

其中，φ(·)的维数为任意维，满足k(x,x')＝φ(x)^Tφ(x')，k(x,x')为满足Mercer条件的核函数，x')为与x维数相同的向量数据，T为矩阵或向量装置。那么由样本数据构成的核矩阵为

式中，Φ^T如式(1)定义。

对特征空间数据中心化，即

其中，1_N为坐标全部为1的列向量。那么基于中心化数据的核矩阵为

其中，

为

的装置，

为长度为N、元素全部为1的行向量，K为如(2)定义的N×N核函数矩阵，I为N×N的单位矩阵。由参考文献[5,6]可知，KPLS模型形式如下：

Y＝TQ^T+Y_r (6)

其中，P为样本输入空间的得分向量矩阵，

为样本输入空间的残差矩阵，TQ^T为样本输出空间的得分向量矩阵，Y_r为样本输出空间的残差矩阵；输出预测

其中，U为向量正交的左奇异矩阵，D_C为对角矩阵，V_C为向量正交的右奇异矩阵，Q_c＝V_cD_c。由参考文献[6]可知，根据中心化核矩阵

和输出数据Y，KPLS的预测输出数据为

其中，

回归系数

对新的数据x_new，KPLS的预测输出y_new和重构

为

其中，

k(x_j)＝[k(x₁,x_j),…,k(x_N,x_j)]^T。

令

上式可重新写为

从式(10)可以看出，对已经训练好的KPLS回归模型，C可以认为回归系数，

为KPLS模型样本从输入x_new抽取的特征，显然其抽取的特征完全依赖于核函数参数和核函数类型。虽然有学者使用组合核函数代替单一核函数降低核函数选择的困难，但是过多的核函数会导致模型参数(核函数组合系数和核函数参数)迅速增加，从理论上仍然难以保证KPLS模型性能的提高。另外，模型性能受到在野点数据影响，难以利用未标记样本信息，隐藏特征

是非稀疏的，不利于大规模稀疏数据的特征抽取。

2.深度自编码器

深度自编码器(deep auto-encoder,DAE)由编码器、解码器以及多个隐层组成，具有极佳的分类性能。如图1自编码网络结构图所示，自编码器(auto-encoder,AE)由编码器和解码器组成，其中编码器实现数据低维空间表示或者高维空间的数据完备表示，通过选择自编码器隐层节点数量确定输入数据隐藏变量的维数K，一般隐变量维数远小于输入数据维数。解码器主要从编码中重构输入数据。当重构误差

足够小时，可以认为编码就是表示输入数据的隐藏特征Z。考虑到过程数据的复杂性和冗余性，自编码器往往在编码过程中生成数据的完备表示，因此可以学习更多的特征。自编码器是一个无监督数据特征抽取模型，编码器把输入数据映射到隐含数据z，(w_i,b_i)表示编码器的连接权重矩阵和偏置，σ_f(·)表示编码器输出节点的激活函数，可以为线性函数和非线性函数，非线性激活函数一般取sigmoid函数。自编码器表达形式为

z＝σ_f(W₁x+b₁) (11)

这里，W₁、b₁分别为编码器的权重矩阵与偏差，σ_f(x)为非线性激活函数，通常使用如下形式所示的Logic函数

h为标量变量，解码器把隐层输出数据映射到重构数据

其映射函数为

这里，σ_g(h)为解码器激活函数，通常为线性函数或非线性函数，W₂、为解码器的连接权重矩阵，z为解码器的输入，b₂为解码器的偏置向量。非线性函数一般为sigmoid函数σ_g(h)＝1/(1+e^-h)。训练自编码器AE过程就是通过最小化重构误差进行模型参数的优化。优化准则往往采用MSE或者交叉熵(cross entropy)，其形式分别为

为解码器对x的重构输出，x_il为x的第i个元素，

为

的第i个元素。

为了提高AE的泛化性以及避免过拟合，往往对输入数据加入一些噪声。通过梯度下降方法。注意到实际抽取特征往往是稀疏的，而隐层节点的数量往往很多，一般在损失函数中加入控制隐层节点稀疏的项，即

其中，K为隐含节点数量，μ为通常接近于0的稀疏参数，

为隐含节点i的平均激活值，

为样本n在隐层节点i的编码输入，N为样本的样本数量。

表示均值为μ的伯努利随机变量与均值为

伯努利随机变量之间的相对熵，其值随着两个随机变量距离增大而单调递增，且

取值0或1时熵值趋于无穷。当通过施加稀疏约束项，即使隐层节点数据量较大时AE仍然能够发现感兴趣的数据结构。最优SAE模型参数一般通过求解下面优化问题得到，即

γ>0为正则化因子，实现上述两项之间的平衡，一般使用反向传播算法求解上面优化问题。

深度自编码器(deep auto-encoder,DAE)模型由多个AE单独训练后堆叠在一起组成的，一般由多个隐层组成的深度学习网络，每个隐层由一个AE单独训练得到。图2给出由2个AE构建成一个DAE示例。图中上面为2个AE,其中第1个AE的隐层输出T作为第2个AE的输入，第2个AE的隐层输出Z作为数据的提取特征。把两个AE堆叠在一起形成3个隐层的网络，其中，前面2个隐层分别对应上面2个自编码器的编码，后面两层分别对应重构结果。从上面分析可以看出，第2个自编码器将第1个自编码器抽取特征再进行一次非线性变换组合，从而获得更加高级抽象特征，更好的描述复杂数据分布形式。DAE能够层次的方式表达比浅层网络更复杂的函数集合，即浅层网络必须采用更多的隐层节点才能取得与多层次抽取特征等价的特征。在实际中，可以根据数据的复杂程度适当增加隐层，达到更抽象表示的目的。

深度自编码网络一般采用“逐层贪婪”训练方法，每次训练1个子网络模块，1次推进整个网络的训练，再基于最终的损失函数对整个网络进行微调。可以使用有监督或者无监督方法对每层网络进行训练。

3.SRE—损失函数

需要指出的是，式(17)所示基于MSE准则的无监督DAE模型参数学习方法。由于MSE具有无界性，MSE损失函数对噪声和在野点鲁棒性不强。因此，很多学者关注于非凸损失的鲁棒学习，比如ramp损失，截断pinball损失等[参考文献24,25]。最近，基于相关熵(correntropy)损失的鲁棒学习算法受到人们的关注，已经成功应用于信号处理和机器学习领域[参考文献26-29]。相关熵是一个核空间上的二阶统计量测度，用于度量2个随机变量之间的局部相似性。相关熵不仅提供了一个有效机制减弱在野点的影响，还可以度量样本空间上样本相似性。比如，靠近两个样本的相关熵近似于L₂范数，偏远两个样本的相关熵近似于L₁范数，远离两个样本相关熵近似于L₀范数。一些相关熵诱导出的损失函数，比如，重伸缩(rescale)hing损失，C-损失，p-指数损失，RE-损失函数，混合相关熵损失等[参考文献27-30]。其中，对含有噪声数据尤其对于含有在野点数据集，RE损失准则的鲁棒学习算法学习性能均优于传统鲁棒学习算法。

对于回归问题，稀疏性是一个良好的性质。借鉴hing损失思想，参考文献[28]把ε-不敏感函数加入到RE-损失函数，给出如下形式的稀释RE(sparse resacle expectile)-损失函数,其形式为

其中，τ∈(0,1)控制不对称程度，β>0为正则化因子，σ>0为尺度因子。图3给出

和SRE损失函数L^ε(u)(τ＝0.7，σ＝0.5)，从图3可以看出，稀疏RE-损失函数(sparse resacle expectile loss function,SRE-loss)，对无噪声数据集学习性能得到提高或者没有明显差别。对含有噪声数据的学习性能均优于传统鲁棒学习算法，尤其对于含有在野点数据集的SRE-loss算法的学习性能优于基于RE损失算法。SRE损失函数值是有界的(L^ε(u)∈[0,1])且存在ε-不敏感区域，因此通过设置β值即可控制在野点的影响。SRE损失函数可以作为鲁棒学习算法的准则函数。SRE-损失函数包含类似于支持向量机损失函数中具有的ε-不敏感区域，降低微小噪声的影响，提高模型的鲁棒性和算法收敛速度。不敏感区域的大小由ε确定。在固定正则化因子β>0和尺度因子σ>0条件下，不管误差e变化如何总能够使得SRE-损失函数L^ε(e)值限制到一个确定值。该函数的优点是，当训练数据集中存在的离群点导致拟合误差很大时，损失函数L^ε(e)总是把离群点造成大误差影响限制在一定范围内，降低离群点对模型影响，因此提高建模的鲁棒性。β确定L^ε(e)变化范围，尺度因子σ决定L^ε(e)曲线的陡峭程度。当σ增加时L^ε(e)变化变缓慢，即曲线变化平缓；反之L^ε(e)变化迅速。

SRE函数还可以表示为

其中，

和

形式为

为凸函数，

为非凸函数。

本发明的技术方案如下：

一种半监督RSDAE的非线性PLS间歇过程监测方法，包括以下步骤：

S1、建立半监督RSDAE(即鲁棒稀疏深度自编码网络)，深度自编码器DAE由多个编码器、解码器堆叠而成，编码器实现数据低维空间表示或者高维空间的数据完备表示，并通过选择隐层的节点数量确定输入数据隐藏变量的维数，解码器主要从编码中重构输入数据；

S101、使用标记样本输入样本和无标记样本学习RSDAE模型初始参数；

S102、基于SRE-损失函数的无监督RSDAE网络参数训练；

S103、基于SRE-损失函数的有监督RSDAE网络参数微调；

S2、基于半监督鲁棒稀疏深度自编码网络进行非线性PLS建模；

S201、离线训练半监督RSDAE；

S202、使用在隐藏特征空间数据集建立PLS模型；

S3、根据步骤S2建立的PLS模型进行故障监测；

S301、对测试数据进行归一化处理；

S302、使用半监督RSDAE从测试样本提取隐藏特征；

S303、计算故障监测统计量。

本发明建立半监督鲁棒稀疏深度自编码网络RSDAE从高维、含噪、稀疏数据集抽取低维数据特征；基于低维特征数据集建立PLS模型；根据建立的非线性PLS模型对间歇过程进行故障监测。

本发明进一步细化的技术方案如下：

优选地，所述步骤S101中，RSDAE由L个AE堆叠组成，其第l(l＝1,2,…,L)层编码器的输出(编码)h^(l)为

h^(l)＝f(z^(l))，z^(l)＝W^(l,1)h^(l-1)+b^(l,1) (22)

其中，z^(l)为第l层编码器输出隐含层的输入，h^(l-1)为第l-1层编码器的输出，非线性激活函数f(z^(l))为编码器的输出(编码)，一般为sigmoid函数

z^(l)为第l层编码器的输入，W^(l,1)和b^(l,1)分别为第l层编码器输入层与输出层节点连接的权重矩阵和偏置向量，l＝1,2,…,L，L为RSDAE模型编码器的数量。第l个解码器输出为

其中，

为RSDAE的第l个解码器的输出，表示第l个编码器输入的重构，l＝1,2,…,L，L为RSDAE模型编码器的数量，h^(l)为第l个编码器的输出，W^(l,2)、b^(l,2)分别为RSDAE模型中第l个解码器输入层与输出层连接的权重矩阵和偏置向量，

表示RSDAE模型中第l个解码器输出层节点的输入，

可以为非线性函数或线性函数，上述参数的含义及在网络上的位置可参考图2；

对每个AE模型参数由式(17)所示优化问题确定，稀疏隐层节点以及模型参数通过求解下面优化问题求取，

式中，L(W,b)为优化问题目标函数，N为所有样本的数量，W,b分别表示AE的连接权重矩阵和偏置向量，x_i为编码器的输入，

为AE解码器的输出，表示解码器对输入数据x_i的重构，i＝1,2,…,N,γ为加权系数且γ>0，用于控制模型稀疏性与重构误差的折中，K为隐含节点数量，μ为通常接近于0的稀疏参数，

为隐含节点i的平均激活值且

本步骤求取每个AE模型参数值作为下一步的初始值。

优选地，所述步骤S102中，对第l层AE编码器参数Θ的优化问题形式为

式中，nJ(Θ)为输入样本与其重构之间的损失函数，用于网络训练的目标函数，N为训练样本的数量，

和

分别为第l个AE模型的输入和重构输出，实际上K^(l)为第l个AE隐含节点数量，L^ε(·)为SRE-损失函数，SRE-损失函数表示为

其中，

和

形式为

式中，

为凸函数，

为非凸函数，τ∈(0,1)控制不对称程度，β>0为正则化因子，σ>0为尺度因子，ε>0为不敏感参数。其它参数行里与权利2相同。

对模型参数采用误差反向传播方法进行整体或者局部修正，适用于任意多层的DAE模型；

采用梯度下降方法求解式(21)所示优化问题，降低在野点对模型性能的影响，保证模型的鲁棒性。上述方法与常规DAE训练方法相同(后面给出了详细实现)。该步骤实现利用标签样本的输入和无标签样本确定RSDAE模型参数。

优选地，所述步骤S103中，给定样本(x,y)，由RSDAE抽取x的隐藏表示记为h^(L)，(RSDAE模型第L个AE模型的编码器隐含节点输出)，假设h^(L)与y之间为线性关系，那么基于RSDAE的关于x的预测输出

为

式中，

为基于RSDAE关于样本x的预测输出，矩阵W'和向量b'为回归模型的参数。

在上述步骤的基础上，利用有标签样本对RSDAE模型参数进行精细调整，通过下面最小化准则函数实现模型参数的微调，

其中，Θ＝{W',b',W^(1,1),W^(2,1),b^(1,1),b^(2,1)}表示需要调整参数集，N_Lab为有标签样本

数量，L^ε为SRE-损失函数，

为RSDAE对样本输入x_i的隐藏表示，W^(1,1)为编码器第1隐藏层的输入权重矩阵，W^(2,1)为编码器的第2隐藏层的输入权重矩阵，详细意义可以参见图2。||W^(2,1)||²表示矩阵W^(2,1)的L₂-范数。第2项为权重衰减正则化项，用于避免过拟合；C>0是权重衰减参数，用于控制上述2项之间的重要性；第1项对SRE-损失函数，第1项主要用于控制模型的稀疏性、提高鲁棒性；

根据式(20)、(25)，式(26)所示优化问题转化为

上式中第2项和第3项为凸函数，β为正则化因子，用于控制拟合精度的重要性。令u_i＝||W'z_i+b'-y_i||²，L^ε(u_i)为可导函数，其导数为

其中，τ∈(0,1)用于控制误差区域的不对称程度，σ>0为尺度因子，ε>0为不敏感因子，用于控制不敏感区间的宽度，第2项是防止模型的过拟合，提高模型的泛化性能。上式优化问题与SVR优化问题类似，因此该回归模型对小样本数据也具有很好的适应性。本文只对输出层连接权重矩阵W和偏置b、最后一个隐层连接权重矩阵W₂₁和偏置b₂₁进行调整。由于式(27)目标函包含凸函和非凸函数，求取最优W和偏置b方法可以采用凹-凸过程(concave–convex procedure，CCCP))和对偶理论求取最优值[28]，也可以采用梯度下降方法求取。采用梯度下降法寻找模型参数Θ的最优值。下面给出使用梯度下降方法可以实现调整参数，首先更新回归模型参数W'和b'：

其中，λ_t为t_th迭代的步长，且

然后，更新第2个AE模型编码器参数W^(2,1)和b^(2,1)：令

表示第2个编码器关于样本x_i的隐藏表示，K₂为相应隐藏表示的维数，T为矩阵或向量的转置。注意，

为矩阵W^(2,1)的行向量，

为向量b^(2,1)的第k个元素，k＝1,2,…,K₂，

对第1个编码器关于样本x_i的隐藏表示，关于

和

的更新形式为，

这里，

k＝1,2,…,K₂，e_i ^k表示第k个元素为1其余元素为0且长度为K₂的列向量；

精细调整第1个AE编码器参数W^(1,1)和b^(1,1)：第1个编码器关于输入样本x_i的隐藏表示记为

k＝1,2,…,K₁，这里，K₁为第1个AE编码器输出节点数量，

为矩阵W^(1,1)的第k个行向量，

为向量b^(1,1)的第k个元素。关于

和

(k＝1,2,…,K₁)的更新形式为，

其中，

这里，

其中，

z_i＝σ(g_i)，当j＝k时

其余为0，

其中I_k为第k个元素为1其余元素为0且长度为K₁的向量。

根据算法的迭代结果进行自适应调整步长长度，自适应步长调整策略，即

其中，ΔJ_t＝为t_th迭代式(27)所示目标函数的变化值，即ΔL_t＝L_t-L_t-1，γ为尺度因子，用于控制步长变化速度。

在梯度迭代优化过程中，步长直接影响模型收敛速度。过大步长往往会造成算法震荡，过小步长会造成收敛时间太长。因此，需要根据算法的迭代结果进行自适应调整步长长度。本发明给出如下，自适应步长调整策略，即

其中，，ΔJ_t＝为t_th迭代式(27)所示目标函数的变化值，即ΔL_t＝L_t-L_t-1，γ为尺度因子，用于控制步长变化速度。在迭代开始时，一般损失函数相对变化率ΔJ_t/J_t-1为正值或者绝对值较小时，步长变化必须减小较小且保持梯度下降状态；反之，ΔJ_t/J_t-1为负值且变化较大时表示，表示损失函数下降很快，步长需要根据变化率增大学习步长，加快算法收敛速度。

优选地，所述步骤S201中，离线训练半监督RSDAE的具体过程如下：

1)数据预处理

首先在间歇过程无故障工况下获取若干批次过程数据X(I×J×K)并采用图5所示的3维数据按照批次-变量方式展开，得到标准化处理的二维数据X(IK×J)，其中，I表示批次数量，J表示过程数量，K采样时间；对于不等长度的批次数据采取“最短长度”策略[参考文献31]。

2)给定有标记和无标记数据集，分别对数据集归一化为均值为0、方差为1的标准化数据集；

3)模型初始化—根据经验确定深度自编码网络的隐层数量以及每个隐层的节点数量，初始化每个隐层连接权重矩阵、偏置向量；

4)无监督训练阶段1—利用有无标记数据集和有标记数据集输入部分，采用RSDAE步骤S101方式逐层贪婪方法基于式(17)所示优化问题学习模型参数；

5)无监督训练阶段3—按照步骤102方式基于全体样本求解式(24)所示优化问题，使用反向传播算法求解微调网络参数；

6)有监督训练阶段—按照步骤103方式基于有标记样本求解式(26)所示优化问题，使用反向传播算法对隐藏特征层参数微调。

优选地，所述步骤S202中，使用在隐藏特征空间建立PLS模型的具体过程如下：

1)将所有数据{x₁,x₂,…,x_N}作为RSDAE模型的输入，假设RSDAE模型的对数据样本的隐藏表示记为Φ＝[φ(x₁),φ(x₂),…,φ(x_N)]^T，这里φ(·)表示RSDAE最后隐层输出函数，其维数由该层节点数量确定。假设k(x,x')＝φ(x)^Tφ(x')，注意这里k(x,x')不是Mercer函数，具体形式也是隐藏的，其复杂度可由RSDAE隐藏层数量和隐藏层节点数量调节；

2)对隐藏输出样本Φ进行中心化后得到数据

使用有标记样本集

根据参考文献[5,6]的方法得到非线性PLS模型。

优选地，所述步骤303中，对于新来数据x，根据求取的重构

计算SPE统计量，

SPE控制限可由χ²-分布近似获得，即

其中，α为置信度，在实际中α一般取95％或者99％，g为SPE的加权，h为自由度；令a和b分别为SPE的均值和方差，则g和h可以设置为g＝b/2h，h＝2a²/b；

新样本对应的得分向量t及其T²统计量为

T²＝t^TΛ^-1t

其中，Λ表示训练样本集得分矩阵的协方差且Λ＝T^TT/(N_L-1)；其控制限

为

其中，

为自由度为A、N_L-A以及置信度α的F分布控制限；

对于新样本，当T²和SPE的值均超出其控制限时就可以判定过程发生故障。

本发明充分利用标记和未标记样本信息并考虑了样本的稀疏性，更好地获取数据中隐藏的有用信息，降低深度自编码网络隐藏节点数量选取难度，有效地消除了数据中不确定性、冗余信息，提高了模型的鲁棒性。

附图说明

下面结合附图对本发明作进一步的描述。

图1是本发明中基本自编码器的结构示意图。

图2为本发明中深度自编码器模型构建图。

图3为本发明中SRE-损失函数图。

图4为本发明中基于RSDAE回归模型图。

图5为本发明中间歇过程数据展开方式图。

具体实施方式

下面结合实施例及说明书附图对本发明进行详细说明。

实施例1半监督棒鲁棒稀疏深度自编码网络(RSDAE)

深度自编码器(deep auto-encoder,DAE)有多个编码器、解码器堆叠而成，编码器实现数据低维空间表示或者高维空间的数据完备表示，并通过选择隐层数量确定输入数据隐藏变量的维数，解码器主要从编码中重构输入数据。如图2所示，深度自编码器模型由多个AE单独训练后堆叠在一起组成的，图中给出由2个AE构建成一个DAE示例，其中第1个AE的隐层输出T＝[t₁,t₂,…,t_M]作为第2个AE的输入，第2个AE的隐层输出Z＝[z₁,z₂,…,z_K]作为数据的提取特征。把两个AE堆叠在一起形成3个隐层的网络，其中，前面2个隐层分别对应上面2个自编码器的编码，后面两层分别对应重构结果，W_L,1表示第L个AE的编码权重矩阵，W_L,2表示第L个AE的解码权重矩阵，L＝1,2。从上面分析可以看出，第2个自编码器将第1个自编码器抽取特征T再进行一次非线性变换，从而获得更加高级抽象特征Z，更好的描述复杂数据分布形式。DAE能够以层次的方式表达比浅层网络更复杂的函数集合，即浅层网络必须采用更多的隐层节点才能取得与多层次抽取特征等价的特征。

RSDAE的非线性PLS方法首先学习如图3所示的RSDAE回归模型，然后在以隐层输出作为PLS的输入训练PLS模型。RSDAE学习算法分为使用全部样本的无监督训练和使用有标签样本有监督微调阶段，因此最终模型包含了有标签和无标签样本信息。

在给出RSDAE训练算法前，首先分析RSDAE与KPLS之间的关系。给定新的样本x_new，根据图3所示模型，使用向前传播算法可以计算最后隐含层输出向量z_new，基于RSDAE模型的回归输出为

这里，z_new就是RSDAE关于x_new的隐藏表示，隐藏表示和样本输出之间呈现线性关系。由于x_new与RSDAE关于x_new隐藏表示z_new为非线性映射关系，因此z_new＝F(x_new)，F(·)是任意的非线性映射函数，其非线性复杂度随着隐层数增加而增大。换句话说，RSDAE模型可以抽取原始输入数据的深度特征，只需通过优化问题求解模型参数，受到激活函数选取影响很小。相比较而言，KPLS只能抽取原始输入数据的浅层特征，其性能依赖核函数参数和类型。注意到式(21)与式(10)形式相同，意味着RSDAE回归模型与KPLS在理论上是等价的。

通过上述内容可以看出，RSDAE生成的深度表示可以根据需要增加堆叠AE层数进行控制，克服了现有KPLS依赖经验选择核函数且核函数复杂度无法改变的问题。另外一个优秀的性质就是自适应调整模型参数和隐藏层特征具有稀疏性，克服了KPLS模型中核函数参数需要试验确定、只能抽取浅层非稀疏特征的问题。

RSDAE回归训练过程分为3个步骤：第1步基于式(17)所示优化问题采用“逐层贪婪”策略学习RSDAE模型初始参数；第2步以SRE-损失函数为准则，使用梯度下降法对隐含层参数进行微调，使得模型参数达到局部极值；第3步使用有标签样本微调RADAE回归模型参数，通过求解包含SRE-损失函数与正则化项的优化问题得到最优的隐含向量空间，提高RSDAE模型的鲁棒性。下面给出每个训练步骤的详细描述。

第1步、使用标记样本输入样本和无标记样本学习RSDAE模型初始参数

堆叠式自编码网络的每层编码器的编码过程为

h^(l)＝f(z^(l))，z^(l)＝W^(l,1)h^(l-1)+b^(l,1) (22)

z^(l)为第l层编码器的输入，W^(l,1)和b^(l,1)分别为第l层编码器输入层与输出层节点连接的权重矩阵和偏置向量，l＝1,2,…,L，L为RSDAE模型编码器的数量。第l个解码过程为

其中，

表示RSDAE模型中第l个解码器输出层节点的输入，

可以为非线性函数或线性函数。上述参数的含义及在网络上的位置可参考图2。对每个AE编码器使用式(17)所示优化问题确定稀疏隐层节点以及求取模型参数，

为AE解码器的输出，表示解码器对输入数据x_i的重构，i＝1,2,…,N,γ>0为加权系数，用于控制模型稀疏性与重构误差的折中，K为隐含节点数量，μ为通常接近于0的稀疏参数，

为隐含节点i的平均激活值且

本步骤求取每个AE模型参数值作为下一步的初始值。

第2步、基于SRE-损失函数的无监督RSDAE网络参数微调

对第l个AE编码器参数的优化问题形式为

为输入数据

的输出重构，实际上K^(l)为第l个AE隐含节点数量，L^ε为SRE-损失函数，SRE-损失函数表示为

其中，

和

形式为

式中，

为凸函数，

为非凸函数，τ∈(0,1)控制不对称程度，β>0为正则化因子，σ>0为尺度因子，ε>0为不敏感参数。

这里微调就是对模型参数采用误差反向传播方法进行整体或者局部修正，适用于任意多层的DAE模型。该步骤采用梯度下降方法求解式(21)所示优化问题，其方法与常规DAE训练方法相同(后面给出了详细实现)。该步骤的目的就是降低在野点对模型性能的影响，保证模型的鲁棒性。给定新的样本x_new，通过RSDAE求取的x_new的隐藏表示为z_new，基于RSDAE的回归模型对x_new预测输出为

式中，

为x_new的预测输出，z_new为新样本x_new的隐藏表示，W'、b'分别为基于RSDAE的回归模型权重矩阵和偏置向量。

第3步、有监督RSDAE网络参数微调

RSDAE模型训练完毕后，需要根据有标签样本对网络进行微调，更好的抽取样本特征。对N_Lab个有标签数据为

和未标签数据

使用如图4所示的RSDAE回归模型，对样本对(X_DI,y)，z_new为基于RSDAE对x_new的隐藏表示，隐藏表示和样本输出之间存在线性关系，即

为观测噪声。最后一层为线性回归输出。RSDAE模型包括2个隐含层，每个隐含层的激活函数均为非线性sigmoid函数。最后输出层激活函数为线性函数。训练过程包含有监督和无监督两种方式，优化问题目标函数涉及到SRE-函数、权重矩阵的正则化项以及稀疏控制项，保证RSDAE模型是稀疏、鲁棒的，包含标记样本与非标记样本信息，提高建模精度。设基于RSDAE模型的回归模型的权重矩阵、偏置分别记为W'和b'，那么给定样本(x,y)，基于RSDAE的回归模型预测输出为

式中，

为基于RSDAE回归模型的预测输出，Wz为RSDAE模型对样本x的隐藏表示；

RSDAE模型参数调整通过下面最小化准则函数实现，

数量，L^ε为SRE-损失函数，

为RSDAE对样本输入x_i的隐藏表示，W^(1,1)为编码器第1隐藏层的输入权重矩阵，W^(2,1)为编码器的第2隐藏层的输入权重矩阵，详细意义可以参见图2。||W^(2,1)||²表示矩阵W^(2,1)的L₂-范数。第2项为权重衰减正则化项，用于避免过拟合；C是权重衰减参数，用于控制上述2项之间的重要性；第1项对SRE-损失函数，第1项主要用于控制模型的稀疏性、提高鲁棒性。

根据式(20)、(21)，式(26)所示优化问题转化为

上式中第2项和第3项为凸函数。注意到，β为正则化因子，用于控制拟合精度的重要性。令u_i＝||W'z_i+b'-y_i||²，L^ε(u)为可导函数，其导数为

其中，τ∈(0,1)用于控制误差区域的不对称程度，σ>0为尺度因子，ε>0为不敏感因子，用于控制不敏感区间的宽度，第2项是防止模型的过拟合。上式优化问题与SVR优化问题类似，因此该回归模型对小样本数据也具有很好的适应性。本发明只对输出层连接权重矩阵W'和偏置b'、编码器连接权重矩阵和偏置进行调整。由于式(27)目标函包含凸函和非凸函数，求取最优编码的连接权重矩阵和偏置向量方法可以采用凹-凸过程(concave–convexprocedure，CCCP))和对偶理论求取最优值[参考文献28]，也可以采用梯度下降方法求取。这里采用梯度下降法寻找最优W₂₁和偏置b₂₁。下面给出使用梯度下降方法可以实现调整参数，首先更新回归模型参数W'和b'：

其中，λ_t为t_th迭代的步长，且

然后更新第2个AE模型编码器参数W^(2,1)和b^(2,1)：令

为矩阵W^(2,1)的行向量，

为向量b^(2,1)的第k个元素，k＝1,2,…,K₂，

对第1个编码器关于样本x_i的隐藏表示，关于

和

的更新形式为，

这里，

k＝1,2,…,K₂，

表示第k个元素为1其余元素为0且长度为K₂的列向量；

k＝1,2,…,K₁，这里，K₁为第1个AE编码器输出节点数量，

为矩阵W^(1,1)的第k个行向量，

为向量b^(1,1)的第k个元素。关于

和

(k＝1,2,…,K₁)的更新形式为，

其中，

当j＝k时

其余为0，

z_i＝σ(g_i)，其中e_k为第k个元素为1其余元素为0且长度为K₁的向量。

在梯度迭代优化过程中，步长直接影响模型收敛速度。过大步长往往会造成算法震荡，过小步长会造成收敛时间太长。因此，需要根据算法的迭代结果进行自适应调整步长长度。本发明给出如下自适应步长调整策略，即

其中，ΔJ_t＝为t_th迭代式(27)所示目标函数的变化值，即ΔJ_t＝J_t-J_t-1，γ为尺度因子，用于控制步长变化速度。在迭代开始时，一般损失函数相对变化率ΔJ_t/J_t-1为正值或者绝对值较小时，步长变化必须减小较小且保持梯度下降状态；反之，ΔJ_t/J_t-1为负值且变化较大时表示，表示损失函数下降很快，步长需要根据变化率增大学习步长，加快算法收敛速度。

从图4可以看出，本发明的方法在微调阶段对最后2层网络参数进行了调整，而最后3层就是一个MLP网络，因此最终RSDAE模型能够很好地拟合有标签数据样本。

根据上述编码和解码公式，使用下面步骤训练图4的RSDAE模型：

初始化阶段：确定隐含层的层数以及每个隐含层包含的隐含节点数量，初始学习步长

步骤1：使用自学习机制进行无监督训练，生成初始的RSDAE模型

1)首先基于式(17)所示优化问题训练网络的第一个自编码器，权重矩阵和偏置向量为W^(1,1),b^(1,1)；

2)将上次训练好AE的隐层输出作为下个AE输入，然后对此AE进行训练；

3)重复步骤2)，直到训练的隐层数量达到要求。

步骤2：使用基于重构误差的SRE-损失函数对RSDAE进行微调

1)分别计算所有隐层的激活值h^(l)(l＝1,2,…,L)以及输出层的输出值

2)使用如下的反向传播方法对RSDAE进行微调。

输出层数据为样本x_i的重构

优化问题

其中

i＝1,2,…,N，d＝1,2,…,D。

3)对输出层，计算其偏导数，

其中，

4)对l＝2隐层，令，

k＝1,2,…,K₂，K₂为该隐层节点数量，计算其偏导数，

其中，

6)对l＝1隐层，令

c＝1,2,…,K₁，K₁为该隐层节点数量，计算其偏导数

其中，令

使用上述梯度对模型参数进行微调，微调后具有更好的局部极值。

步骤3：基于有标签数据样本，RSDAE回归模型输出层为样本输出，输出层函数为线性函数。使用式(28)～(33)所示的梯度下降法对式(27)所示优化问题进行求解，对输出层参数和最后隐藏层参数进行调整，得到最优隐藏变量空间。

实施例2基于RSDAE的非线性PLS建模以及故障监测

基于RSDAE的非线性PLS(nonlinear PLS，NPLS)的间歇过程质量相关故障诊断算法包括RSDAE建模、隐藏特征空间上的PLS建模和故障诊断3部分。基于SRSDA的NPLS的质量相关故障监测包括离线建模阶段和在线监测阶段两部分。

离线建模阶段

(1)离线训练RSDAE

1)数据预处理

首先在间歇过程无故障工况下获取若干批次过程数据X(I×J×K)并采用图5所示的3维数据按照批次-变量方式展开(具体为：首先在间歇过程无故障工况下获取若干批次过程数据X(I×J×K)采用图5所示3维数据按照批次-变量方式展开，得到标准化处理的二维数据X(IK×J)，其中，I表示批次数量，J表示过程数量，K采样时间)，得到标准化处理的二维数据X(IK×J)，其中，I表示批次数量，J表示过程数量，K采样时间；对于不等长度的批次数据采取“最短长度”策略[参考文献31]。间歇过程训练数据集包含多个批次的测量数据集，因此间歇过程数据本质上3D数据，即X(I×J×K)，其中，I表示批次数量，J表示测量变量数量，K批次周期。图中把3D数据沿着时间方向进行展开，每个时间片数据为2D数据，每个时间片数据表示所有批次在相同时刻的采样数据组成2D矩阵

这样共有K个2D数据矩阵组成I×KJ的2D数据矩阵，每一行表示一个批次内的所有测量数据组成，每一列表示同一变量在所有批次上的变化信息。该方法开能够保留了在批次方向上的信息，即就是将过程变量和采样时间这两个维度上的数据排列在一起。该展开方法提取了输入变量在多个正常运行批次下的平均变化轨迹，反映了间歇生产过程在不同运行批次间的某种随机波动，能够在一定程度上降低相似间歇过程中非线性和动态特性的影响。

3)模型初始化：根据经验确定深度自编码网络的隐层数量以及每个隐层的节点数量，初始化每个隐层连接权重矩阵、偏置向量；

4)无监督训练阶段1：利用有无标记数据集和有标记数据集输入部分，采用RSDAE步骤1方式逐层贪婪方法基于式(17)所示优化问题学习模型参数；

5)无监督训练阶段3：按照步骤2方式基于全体样本求解式(24)所示优化问题，使用反向传播算法求解微调网络参数；

6)有监督训练阶段：按照步骤3方式基于有标记样本求解式(26)所示优化问题，使用反向传播算法对隐藏特征层参数微调。

(2)使用在隐藏特征空间建立PLS模型

1)将所有数据{x₁,x₂,…,x_N}作为RSDAE模型的输入，假设RSDAE模型的最后隐层输出记为Φ＝[φ(x₁),φ(x₂),…,φ(x_N)]^T，这里φ(·)表示RSDAE最后隐层输出函数，其维数由该层节点数量确定。假设k(x,x')＝φ(x)^Tφ(x')，注意这里k(x,x')不是Mercer函数，具体形式也是隐藏的，其复杂度可由RSDAE隐藏层数量和隐藏层节点数量调节；

2)对隐藏输出样本Φ进行中心化后得到数据

使用有标记样本集

根据参考文献[5,6]的方法得到非线性PLS模型。

在线监测阶段

1)对测试数据进行归一化处理；

2)使用RSDAE从测试样本提取隐藏特征；

3)计算故障监测统计量

对于新来数据x，根据求取的重构

计算SPE统计量，

SPE控制限可由χ²-分布近似获得，即

其中，α为置信度，g为SPE的加权，h为自由度；令a和b分别为SPE的均值和方差，则g和h可以设置为g＝b/2h，h＝2a²/b。

新样本对应的得分向量t及其T²统计量为

T²＝t^TΛ^-1t

为

其中，

为自由度为A、N_L-A以及置信度α的F分布控制限。

对于新样本，当监测统计量T²和SPE的值均超出其控制限时就可以判定过程发生故障。

除上述实施例外，本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。

参考文献：

[1]Peng K X,Zhang K,Li G,et al.Contribution rate plot for nonlinearquality related fault diagnosis with application to the hot strip millprocess[J].Control Engineering Practice,2013,21(4):360-369。

[2]彭开香,马亮,张凯.复杂工业过程质量相关的故障检测与诊断技术综述.自动化学报，43(3):350-367,2017。

[3]Yu J.Multiway Gaussian mixture model based adaptive kernel partialleast squares regression method for soft sensor estimation and reliablequality prediction of nonlinear multiphase batch processes[J].Industrial&Engineering Chemistry Research,2012,51(40):13227-13237。

[4]Qin S J,Zheng Y Y.Quality-relevant and process-relevant faultmonitoring with concurrent projection to latent structures[J].AIChE Journal,2013,59(2):496-504。

[5]刘毅.基于KPLS数据重构的非线性过程监测与故障辨识.中国安全生产科学技术,2015,11(12):93-98。

[6]汪波；夏钦锋；钱龙；彭军；周伟.全相关KPLS故障诊断方法及在抽油机上的应用.控论与应用[J/OL],(12):-2020。

[7]Chuan-Quan Li,Zhaoyu Fng,Qing-Song Xu.A partition-based variableselection in partial least squares regression.Chemometrics&IntelligentLaboratory Systems,198:103935-103942,2020。

[8]Ping Zhou,Ruiyao Zhang,Mengyuan Liang,et al.Fault identificationfor quality monitoring of molten iron in blast furnace ironmaking based onKPLS with improved contribution rate.Control Engineering Practice,97,April2020,104354。

[9]Tian-Hong Pana,Bi-Qi Shenga,David Shan-Hill Wong.et al.A virtualmetrology model based on recursive canonical variate analysis withapplications to sputtering process.Journal of Process Control 21(2011)830-839。

[10]Hongbin Liu,Chong Yang Mingzhi Huang,ChangKyoo Yoo.Soft sensormodeling of industrial process data using kernel latent variables-basedrelevance vector machine.Applied Soft Computing,90,2020,106149。

[11]Xiaofeng Yuan,Zhiqiang Ge,Biao Huang,Zhihuan Song.SemisupervisedJITL Framework for Nonlinear Industrial Soft Sensing Based on LocallySemisupervised Weighted PCR.IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS,13(2):532-541,2017。

[12]Luo L,Bao S,Mao J,et al.Quality prediction and quality-relevantmonitoring with multilinear PLS for batch processes[J].Chemometrics&Intelligent Laboratory Systems,2016,150:9-22。

[13]Wang X C,Wang P,Gao X J,et al.On-line quality prediction of batchprocesses using a new kernel multiway partial least squares method[J].Chemometrics&Intelligent Laboratory Systems,2016,158:138-145。

[14]Junhua Zheng,ZhihuanSong Semisupervised learning forprobabilistic partial least squares regression model and soft sensorapplication.Journal of Process Control,64:123-131,2018。

[15]陈家益，赵忠盖，刘飞.鲁棒PPLS模型及其在过程监控中的应用.化工学报,2016,67(7):2907-2915。

[16]Le Yao,Zhiqiang Ge.Deep Learning of Semisupervised Process Datawith hierarchical exteme learning machine and soft sensor application.IEEETRANSACTIONS ON INDUSTRIAL INFORMATICS,65(2):1490-1498,2018。

[17]李宏坤，郝佰田，代月帮，杨蕊.基于压缩感知和加噪堆栈稀疏自编码器的铣刀磨损程度识别方化工学报法研究.机械工程学报,2019。

[18]Li Jiang,Zhiqiang Ge,Zhihuan Song.Semi-supervised faultclassification based on dynamic Sparse Stacked auto-encodersmodel.Chemometrics and Intelligent Laboratory Systems,168:72-83,2017。

[19]Bo Zhao,Xianmin Zhang,Hai Li,Zhuobo Yang.Intelligent faultdiagnosis of rolling bearings based on normalized CNN considering dataimbalance and variable working conditions.Knowledge-Based SystemsIn press,2020,105971。

[20]Zhou Xiang,Xining Zhang,Wenwen Zhang,Xinrui Xia.Fault diagnosisof rolling bearing under fluctuating speed and variable load based on TCOSpectrum and Stacking Auto-encoder.Measurement,138：162-174.2019Pages。

[21]Yi Qiu,Yiyang Dai.A Stacked Auto-Encoder Based Fault DiagnosisModel for Chemical Process.Computer Aided Chemical Engineering,1303-1308。

[22]Shifu Yan,Xuefeng Yan.Design teacher and supervised dual stackedauto-encoders for quality-relevant fault detection in industrialprocess.Applied Soft Computing Journal,81:,2019。

[23]Ping Zhou,Ruiyao Zhang,Mengyuan Liang,et al.Fault identificationfor quality monitoring of molten iron in blast furnace ironmaking based onKPLS with improved contribution rate.Control Engineering Practice,97:104354-104366,2020。

[24]A.Singh,R.Pokharel,J.Principe,The C-loss function for patternclassification,Pattern Recognit.47(1):441–453,2014。

[25]R.Zhuo,Y.Liming,Correntropy-based robust extreme learning machinefor classification,Neurocomputing 313(2018)74–84。

[26]Y.Liming,D.Hongwei,Robust support vector machine with generalizedquantile loss for classification and regression,Apply Soft Computation.J.81(2019)105483。

[27]L.Yang,Z.Ren,Y.Wang,H.Dong,A robust regression framework withlaplace kernel-induced loss,Neural Computation.29(11)(2017)1–26。

[28]Liming Yang,Guangsheng Ding,Chao Yuan,Min Zhang.Robust regressionframework withasymmetrically analogous to correntropy-induced loss.Knowledge-BasedSystems,1915:105211-105222,2020。

[29]B.Chen,L.Xing,X.Wang,J.Qin,N.Zheng,Robust learning with kernelmean p-powererror loss,IEEE Trans.Cybern.99(2017)1–13。

[30]Badong Chen,Xin Wang,Na Lu,Shiyuan Wang,Jing Qin.Mixturecorrentropy for robustlearning.Pattern Recognition,79:318-327,2018。

[31]Ping Zhou,Ruiyao Zhang,Mengyuan Liang,et al.Fault identificationfor qualitymonitoring of molten iron in blast furnace ironmaking based onKPLS with improvedcontribution rate.Control Engineering Practice,97:104354-104366,2020。

Claims

1.一种半监督RSDAE的非线性PLS间歇过程监测方法，其特征在于，包括以下步骤：

S1、建立半监督RSDAE，深度自编码器由多个编码器、解码器堆叠而成，编码器实现数据低维空间表示或者高维空间的数据完备表示，并通过选择隐层的节点数量确定输入数据隐藏变量的维数，解码器主要从编码中重构输入数据；

S102、基于SRE-损失函数的无监督RSDAE网络参数训练；

S103、基于SRE-损失函数的有监督RSDAE网络参数微调；

S201、离线训练半监督RSDAE；

S202、使用在隐藏特征空间数据集建立PLS模型；

S3、根据步骤S2建立的PLS模型进行故障监测；

S301、对测试数据进行归一化处理；

S302、使用半监督RSDAE从测试样本提取隐藏特征；

S303、计算故障监测统计量。

2.根据权利要求1所述一种半监督RSDAE的非线性PLS间歇过程监测方法，其特征在于，所述步骤S101中，RSDAE由L个AE堆叠组成，其第l层编码器的输出h^(l)为

h^(l)＝f(z^(l))，z^(l)＝W^(l,1)h^(l-1)+b^(l,1) (22)

其中，z^(l)为第l层编码器输出隐含层的输入，h^(l-1)为第l-1层编码器的输出，非线性激活函数f(z^(l))为编码器的输出，z^(l)为第l层编码器的输入，W^(l,1)和b^(l,1)分别为第l层编码器输入层与输出层节点连接的权重矩阵和偏置向量，l＝1,2,…,L，L为RSDAE模型编码器的数量；第l个解码器输出为