CN107748901A

CN107748901A - 基于相似性局部样条回归的工业过程故障诊断方法

Info

Publication number: CN107748901A
Application number: CN201711188778.XA
Authority: CN
Inventors: 张颖伟; 邓瑞祥; 张云洲
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2018-03-02
Anticipated expiration: 2037-11-24
Also published as: CN107748901B

Abstract

本发明提供一种基于相似性局部样条回归的工业过程故障诊断方法，涉及故障监测与诊断技术领域。该方法通过采集工业过程数据，并进行部分标记和标准化处理，利用LSR方法求得预测标签，采用相似性分析方法对预测标签进行处理，对故障识别模糊的点进行标签修正，然后基于样条函数构建在线诊断模型，并采用岭回归的方法求得系数矩阵，在工业生产过程中采集新数据，通过在线诊断模型和系数矩阵求出其相应的标签，进行故障诊断。本发明解决工业生产过程中包含有大量的物理化学变量和图像声音视频等多源异构大数据的故障诊断问题，无需对所有工业生产数据进行故障识别，节约大量时间与人力，能大大降低误报警，提高故障检测的准确性和灵敏度。

Description

基于相似性局部样条回归的工业过程故障诊断方法

技术领域

本发明涉及故障监测与诊断技术领域，尤其涉及一种基于相似性局部样条回归的工业过程故障诊断方法。

背景技术

在工业生产过程中，对工业系统的故障检测是比较关键的步骤，因为它直接关系到生产能否正常运行和生产产品的质量。过程监控的目的是监视系统运行状态。检测工业生产过程中是否发生故障，并对故障系统的异常变化幅度进行定量分析，判断故障类型、发生时间、变化幅度和影响程度，必要时，提出相应的维护与改进措施，就会大大减少企业生产过程的危险性，提高生产安全性和保障性。因此，适用于工业过程工况监控的过程监测方法得到了广泛的关注和迅速的发展。

传统的故障诊断方法仅仅是对工业过程物理化学变量等监测数据的统计分析，不足以支撑全流程复杂工况下生产流程的异常工况诊断。为了解决这个问题，大量监测手段被应用于生产流程中，获得了反映生产流程的异构、动态、多源的大数据。通过工业大数据的协同建模来提高异常工况诊断的准确率和灵敏度。因此，适用于工业大数据的故障诊断方法正逐步兴起。

工业大数据通常包括大量的物理化学变量和图像声音视频数据，数据的个数和维数都很大。在训练过程中，应用传统的故障诊断方法实现对故障的精准识别，需要对每一个训练样本对应的具体工业生产状况进行识别，要对其中的每一个样本所对应的实际生产状况进行标记，需耗费大量的人力及时间。LSR算法能利用少量的标记数据实现对大量的未标记数据的识别，对于特征明显，可区分性强的突发故障能以较高的准确率进行诊断。但对于衍变故障而言，在故障发生初期，其对整个工业生产流程的影响还不太明显，因此对应的故障数据与正常数据之间的分布十分接近，区别不够显著，而LSR在计算过程中未考虑数据的分布及数据间的内部特征等因素，因此将LSR直接用于故障诊断，异常工况的误报率和漏报率较高。此外，LSR方法是一种直推式的方法，仅能实现训练集内数据的故障识别，对于新来的数据，无法直接求得其对应的故障标签，故障检测的效率较差。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于相似性局部样条回归的工业过程故障诊断方法，简称SLSR方法，解决工业生产过程中包含有大量的物理化学变量和图像声音视频等多源异构大数据的故障诊断问题，无需对所有工业生产数据进行故障识别，节约了大量的时间与人力，不仅能大大降低误报警，还提高了故障检测的准确性和灵敏度。

为解决上述技术问题，本发明所采取的技术方案是：

一种基于相似性局部样条回归的工业过程故障诊断方法，包括以下步骤：

步骤1：采集工业过程数据，建立测量数据集X∈R^n×m，X＝{x₁，x₂，…，x_n}，数据集中包含n个采样样本，每个采样样本包含m个变量，即x_i＝[x₁，x₂，…，x_m]^T∈R^m×1，i＝1，2，…，n；根据有无故障及故障的具体类型将数据分为c类，并对其中l个采样样本进行类型标记，打上相应的标签，标为正常数据或故障数据，其中故障数据标记出具体的故障类型；然后对采集的所有数据进行标准化处理；

步骤2：用标准化后的n个采样样本，利用LSR方法求得初步的预测标签F，如式(13)所示；

F＝(M+γD)^-1γDY (13)

其中，F＝(F₁，F₂，…F_n)^T∈R^n×c，每一个样本x_i对应的标签F_i是一个c维行向量，向量的每一列对应一种具体的生产工况，向量F_i的每个元素值F_ij的大小代表x_i属于第j列所对应的工况类型的概率，元素值最大的一列所对应的工况类型即为x_i对应的工况类型；M是一个全局的拉普拉斯矩阵；γ是正定系数；Y＝(Y₁，Y₂，…，Y_n)^T∈R^n×c是标记矩阵，其中的元素为j＝1，2，…，c；c是工况类型的总个数；D∈R^n×n是一个对角矩阵，其对角线上对应于已标记样本的元素为1，其余元素均为0；

步骤3：针对步骤2得到的预测标签F，找到其中所属类型模糊的样本数据构成相似性分析数据集{x_1′，x_2′，…，x_n′}，对该数据集中的样本数据应用相似性分析方法对x_i′与其他故障类型已知的样本进行相似性分析，通过式(17)所示的目标函数对样本数据x_i′对应的预测标签F_i′进行进一步分析修正；

其中，h_t(x_i′)是相应的相似性处理函数，H(x_i′)是对所有h_t(x_i′)的输出进行的整合，最后根据H(x_i′)的输出对F_i′进行修正，得到修正后的标签矩阵F*＝(F′₁，F′₂，…F′_n)^T∈R^n×c；

步骤4：基于样条函数构建一个在线诊断模型g(x_i)，如式(18)所示，

其中，β_q、α_j为g(x_i)的模型参数；p_q(x_i)由一系列阶数小于s的基多项式组合而成，s是一个定值；φ_j(x_i)是格林函数；

采用岭回归的方法，求出g(x_i)对应的系数矩阵T^*，如式(24)所示；

T^*＝(U^TU+θI)^-1U^TF (24)

其中u_i＝[1，x₁，x₂，…，x_m，φ₁(x_i)，φ₂(x_i)，…φ_c(x_i)]∈R^1×(d+c)；θ是平衡系数，I是(d+c)×(d+c)阶的单位矩阵；

步骤5：在工业生产过程中，每次获得一个新的检测数据x_new时，首先根据步骤4建立的在线诊断模型g(x_i)求出对应的p_q(x_new)φ_j(x_new)，求得对应的u_new＝[p₁(x_new)，…，p_q(x_new)，φ₁(x_new)，…，φ_j(x_new)]，根据对应的系数矩阵T^*，利用式F_new＝u_newT^*求得对应的标签F_new，进行在线故障诊断。

所述步骤2中，利用LSR方法求得预测标签F的具体方法如下：

步骤2.1：在二分类情况下，即c＝2，样本的标记为f_i＝{+1，-1}；

任取一个样本x_i＝[x₁，x₂，…x_m]^T∈R^m及其k个近邻点其中第一个近邻点就是x_i；对于每一个C_i，构建一个对应的局部样条函数g_i(x)，使得函数的输出就是x的标签值，即任取x∈C_i，均有f(x)＝g_i(x)；局部样条函数g_i(x)的具体形式如下：

其中，β_iq、α_iε为g_i(x)的模型参数，s是一个定值，p_q(x)由一组阶数小于s的基多项式组合而成，多项式的个数为φ_iε(x)是格林函数，当m为偶数时，格林函数φ_iε(x)如下式所示；

当m为奇数时，格林函数φ_iε(x)如下式所示；

步骤2.2：对于每一个局部样条函数g_i(x)，构建损失函数，如下式所示，

其中，是对应的标签，S(g_i)是惩罚项，λ是补偿系数；

根据上式，得到如下方程，

其中，K_i是一个k×k阶的对称矩阵，其内部的元素为I是一个k×k阶的单位矩阵，P_i∈R^(d-1)×k，存储着与中每个采样点对应的d-1个非常数多项式的值；e＝[1，1，…，1]^T∈R^k，α_i，β_i1，β_i均为模型参数，其中α_i＝[α_i1，…，α_ik]^T∈R^k，β_i1∈R，β_i＝[β_i2，β_i3，…，βi_d] ^T∈R^d-1；

根据式(5)，式(4)的损失函数重新写成式(7)；

其中，是该采样点及其近邻的预测标签，求得式(5)左侧方阵的逆矩阵，M_i是位于该逆矩阵的左上角k×k阶子矩阵，它是一个拉普拉斯矩阵；

步骤2.3：将所有点的损失函数累计求和得到式(8)；

其中，f＝(f₁，f₂，…f_n)^T∈Rⁿ，是所有样本的预测标签，S_i∈R^k×n是一个选择矩阵，它的功能是从所有数据的预测标记f中找到与C_i对应的标记定义为M是全局化的拉普拉斯矩阵，

步骤2.4：对于l个已标记的样本，构建如下的优化函数：

其中，y是标记向量，y＝(y₁，y₂，…，y_n)^T∈Rⁿ，D是一个对角矩阵，D∈R^n×n，其对角线上对应于已标记样本的元素为1，其余元素均为0；

因此，二分类下最终的目标函数为：

其中，γ是正定系数；

通过对式(10)进行求解，得到二分类情况下最终的预测标签f如式(11)所示；

f＝(M+γD)^-1γDy (11)

步骤2.5：将上述理论扩充至多分类，得到c分类下最终的目标函数为

其中，Y＝(Y₁，Y₂，…，Y_n)^T∈R^n×c是c分类下的标记矩阵，其中的元素为j＝1，2，…，c；F＝(F₁，F₂，…F_n)^T∈R^n×c是预测标签，每一个样本x_i对应的预测标签F_i是一个c维行向量，向量的每一列对应一种具体的生产工况，向量F_i的每个元素值F_ii的大小代表x_i属于第j列所对应的工况类型的概率，元素值最大的一列所对应的工况类型即为x_i对应工况类型；

求解式(12)得到预测标签F，如式(13)所示：

F＝(M+γD)^-1γDY (13)。

所述步骤3中进行相似性分析的具体方法为：

步骤3.1：构建相似性分析数据集；预设一个阈值σ＞0，对于每一个预测标签F_i，比较其中最大元素值与其余元素值的差，若某一差值小于阈值σ，则认为对应的样本数据x_i处于某两类数据的分布边缘，将x_i放入待处理的相似性分析数据集中，将预测标签F_i所有元素均设置为0，并记录与该差值对应的元素值所在列的列标j_a和j_b，1≤j_a，j_b≤c；若所有差值均大于等于阈值σ，则认为x_i的标签预测结果F_i准确率高，无需修正，所属类型为最大元素值所在列对应的工况类型；

步骤3.2：对于相似性分析数据集中每一个待处理的数据，进行相似性分析，获得经过修正的标签，具体方法为：

步骤3.2.1：对于待处理数据x_i′，i′＝1，2，…，n′，n′为相似性分析数据集中数据个数，找到与数据x_i′近邻的k个标记类别为第j_a类工况的样本集Z_i′＝{z₁，z₂，…，z_k}以及k个标记类别为第j_b类工况的样本集V_i′＝{v₁，v₂，…，v_k}；

步骤3.2.2：调用相似性处理函数h₁(x_i′)、h₂(x_i′)、h₃(x_i′)对x_i′与Z_i′、V_i′间的相似性进行分析；

h₁(x_i′)采用相关系数来进行分析，h₁(x_i)的定义如下：

其中，表示x_i′与Z_i′中数据的相关程度，表示x_i′与V_i′中数据的相关程度，分别为和

h₂(x_i′)采用夹角余弦来进行分析，h₂(x_i′)的定义如下：

其中，cos(x_i′，Z_i′)表示x_i′与Z_i′中数据的夹角余弦大小，cos(x_i′，V_i′)表示x_i′与V_i′中数据的夹角余弦大小，分别为和z_ε＝[z₁，z₂，…，z_m]^T∈R^m×1，v_ε＝[v₁，v₂，…，v_m]^T∈R^m×1；||·||表示一范数；

h₃(x_i′)采用一个定义于高维空间的距离来衡量数据之间的相似性，h₃(x_i′)的定义如下：

其中，dist(x_i′，Z_i′)表示x_i′与Z_i′中数据的距离，cos(x_i′，V_i′)表示x_i′与V_i′中数据的距离，分别为：

和

步骤3.2.3：对相似性处理函数h₁(x_i′)、h₂(x_i′)和h₃(x_i′)的输出进行整合，得到式(17)所示的目标函数；

根据H(x_i′)推断出x_i′的真实工况类型对应的列标为

根据j^*的值，将x_i′对应的预测标签F_i′中对应的元素置一，其余元素为0，得到修正后的标签矩阵F*＝(F′₁，F′₂，…F′_n)T∈R^n×c。

采用上述技术方案所产生的有益效果在于：本发明提供的一种基于相似性局部样条回归的工业过程故障诊断方法，用于解决工业生产过程中包含有大量的物理化学变量和图像声音视频等多源异构大数据的故障诊断问题。通过局部样条回归和相似性分析的方法，利用少量的故障标识数据，实现对大量的未标记数据的精确识别，进行故障诊断；无需对所有工业生产数据进行故障识别，节约了大量的时间与人力，具有很高的实际应用价值；同时通过保持投影的方法求得样条函数，实现工业过程故障在线实时诊断，本发明提供的方法不仅能大大降低误报警，还提高了故障检测的准确性和灵敏度。

附图说明

图1为本发明实施例提供的超高温电熔镁炉生产流程示意图；

图2为本发明实施例提供的基于相似性局部样条回归的工业过程故障诊断方法的流程图；

图3为本发明实施例提供的高维工业生产数据的故障数据分布图；

图4为本发明实施例提供的LSR方法应用于工业过程故障诊断的效果图；

图5为本发明实施例提供的电熔镁炉生产数据的分布图；

图6为本发明实施例提供的基于LSR算法的电熔镁炉数据对应各类工况类型的预测图；

图7为本发明实施例提供的基于LSR算法电熔镁炉数据的故障诊断结果图；

图8为本发明实施例提供的基于SLSR的电熔镁炉数据的故障诊断结果图；

图9为本发明实施例提供的基于SLSR的电熔镁炉在线故障诊断结果图。

图中：1、变压器；2、短网；3、电极升降装置；4、电极；5、炉壳；6、车体；7、电弧；8、炉料。

具体实施方式

下面结合附图，并以电熔镁炉为例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

电熔镁炉实际上是一种埋弧炉，属于矿热炉而不是电弧炉，其主要以熔融状态下电流通过物料所产生的物料电阻热为主要热源，同时伴有电弧热，它的热量集中，能有效的将物料加热到熔点2800℃以上，有利于熔炼电熔镁砂。电熔镁炉生产流程如图1所示。电熔镁炉的设备主要包括：变压器、电路短网、电极、电极升降装置以及炉体等。炉边设有控制室，可控制电极升降。炉体是生产电熔镁砂的主要反应区，物料的熔化、排析、结晶过程都在炉体内完成，炉体由炉底及炉壳构成，熔炉被放置在小车上，炉壳一般为圆柱形。电极把持器是电极升降装置不可缺少的一部分，其不但可以用来调节电极的松紧程度，灵活的夹放电极，还可以把电流传送到电极上，电极把持器固定在升降台上，将电极夹持至一定的高度位置，就可以把经过变压器处理的电流传送到电极上，在熔化过程中，随着物料的不断熔化，同时向上提高电极，当炉体内物料熔化过程完成后，将电极移出炉体，通过小车将炉体送到冷却室进行自然冷却结晶，最终形成密度大、熔点高的氧化镁晶体。

对于电熔镁炉，基于相似性局部样条回归的工业过程故障诊断方法，如图2所示，本实施例的方法如下所述。

步骤1：采集数据，包括物理化学变量数据和图像视频数据，并对数据进行标准化处理。

实际生产中，工业大数据通常包括物理化学变量和图像声音视频数据，本发明中将图像的面积、运动速度、位置、有效像素比、方向分布比等特性，声音的频率位置、高低频比率、时长等特性，视频的高斯熵等特性以及物理化学变量并列作为数据池的变量总表，按照一定的拓扑结构来进行协同建模，建立测量数据集X。数据集中包含n个采样样本X＝{x₁，x₂，…，x_n}，每个样本包含m个变量。根据有无故障及故障的具体类型将数据分为c类，对其中的l个样本进行故障识别，打上相应的标签，然后对这些训练数据进行标准化处理。

在本实施例中，针对电熔镁炉的生产过程，由于执行器异常而导致的两个故障进行故障诊断。对于这两个故障来说，故障1是由于执行器故障而使得电极固定不动导致物料熔化过程中所产生的气体无法排出炉体，被压在了物料下面，这些气体在物料下不断运动，导致电极的电流和电压值不断的变化，当气体的压力达到一定值时候，其就会带着高温液态的氧化镁熔液从炉内喷发出来造成喷炉的事故发生，此故障被称为喷炉故障；故障2是由于执行器故障而导致电极过于靠近炉壁导致了炉壁被烧漏，从而漏炉事故发生，称为漏炉故障。

本实施例中采集的数据集共包含678个采样数据，包括视频数据及电流数据，其对应的数据类型可分为3类，其中正常数据293个，喷炉数据195个，漏炉数据199个，每个类别中分别取20、15、15个点作为标记样本，每个样本包含23个变量。其中对视频的每一帧图片计算其0°、45°、90°、135°方向上的灰度共生矩阵，每个灰度共生矩阵分别计算其对比度、相关性、能量、间质性和熵5个特征值。如表1所示，给出部分采样数据，分别在正常数据、漏炉数据、喷炉数据中各自选取2组数据。

表1部分采样数据表

步骤2：用步骤1标准化后的678个采样样本，利用LSR方法求得初步的预测标签F，具体方法如下。

其中，β_iq、α_iε为g_i(x)的模型参数，p_q(x)由一组阶数小于s的基多项式组合而成，s是一个定值，多项式的个数为φ_iε(x)是格林函数，当m为偶数时，格林函数φ_iε(x)如下式所示；

当m为奇数时，格林函数φ_iε(x)如下式所示；

其中，是对应的标签，S(g_i)是惩罚项，λ是补偿系数；

根据上式，得到如下方程，

其中，K_i是一个k×k阶的对称矩阵，其内部的元素I是一个k×k阶的单位矩阵，P_i∈R^(d-1)×k，存储着与中每个采样点对应的d-1个非常数多项式的值，改为e＝[1，1，…，1]^T∈R^k，α_i，β_i1，β_i均为模型参数，其中α_i＝[α_i1，…，α_ik]^T∈R^k，β_i1∈R，β_i＝[β_i2，β_i3，…，β_id]^T∈R^d-1；

根据式(5)，式(4)的损失函数可近似替换为式(6)；

当λ取值很小时，样条回归的精度非常高，即式(4)左半部分可看做0，则上式可重新写成式(7)；

步骤2.3：将所有点的损失函数累计求和可得式(8)；

其中，f＝(f₁，f₂，…f_n)^T∈Rⁿ是所有样本的预测标签，S_i∈R^k×n是一个选择矩阵，它的功能是从所有数据的预测标记f中找到与C_i对应的标记定义为M是全局化的拉普拉斯矩阵，

步骤2.4：对于l个已标记的样本，要求预测标签值与其真实标记要尽可能接近，保证预测的精度，因此构建如下的优化函数：

因此最终的目标函数为：

其中，γ是正定系数；

通过对式(10)进行求解，可得二分类情况下最终的预测标签为

f＝(M+γD)^-1γDy (11)

其中，Y＝(Y₁，Y₂，…，Y_n)^T∈R^n×c是c分类下的标记矩阵，其中的元素为j＝1，2，…，c；F＝(F₁，F₂，…F_n)^T∈R^n×c是预测标签，每一个样本x_i对应的预测标签F_i是一个c维行向量，向量的每一列对应一种具体的生产工况，向量F_i的每个元素值中每个元素F_ij的大小代表x_i属于第j列所对应的工况类型的概率，元素值最大的一列所对应的工况类型即为x_i对应的类标签；

求解式(12)可得预测标签F，如式(13)所示。

F＝(M+γD)^-1γDY (13)

在工业生产的实践中，故障可分为两种，突发故障和衍变故障。突发故障的显著性较强，可区分性强。衍变故障发生初期，其对整个工业生产流程的影响还不太明显，对应的故障数据与正常数据之间的区别不够显著，此时的故障数据处于正常数据的分布边缘，两者的分类界限十分模糊，其分布如图3所示。该数据集通过LSR算法得到的预测标签F如图4所示，在F中，每一个x_i对应的标签F_i是一个c维行向量，F_i的每一列向量对应一种工业生产状况，F_i的每个元素值F_ij的大小代表x_i属于第j类工况类型的概率，元素值最大的一列所对应的工况类型即为x_i的所属类型。由图4可看出，突发故障数据的预测标签准确性高，对应于突发故障这一列的元素值为1，其他列的元素接近于0。但在正常数据和衍变故障数据中，位于分布边缘的部分数据的标签中取值最大的两个元素之间的差值极小，即对应于突发故障与正常运行的两列元素值极为接近，此时若直接取最大值所在的类，则其误判率较高。因此引入相似性分析来发掘这些数据的内部特征，通过这些特征进一步分析数据的类别间的相似性，提高分类的准确性。

步骤3：针对步骤2得到的预测标签F，找到其中所属类型模糊的样本x_i，应用相似性分析的方法对x_i与其他故障类型已知的样本进行相似性分析，对预测标签F_i进行进一步分析修正，具体方法如下。

步骤3.1：构建相似性分析数据集；预设一个阈值σ＞0，对于每一个预测标签F_i，比较其中最大元素值与其余元素值的差，若某一差值小于阈值σ，则认为对应的样本数据x_i处于某两类数据的分布边缘，将x_i放入待处理的相似性分析数据集中，将预测标签F_i所有元素均设置为0，并记录与该差值对应的元素值所在列对应列标j_a，j_b，1≤j_a，j_b≤c；若所有差值均大于等于阈值σ，则认为x_i的标签预测结果F_i准确率高，无需修正，所属类型为最大元素值所在列对应的工况类型。

步骤3.2：对于相似性分析数据集中每一个待处理的数据，进行相似性分析，获得其经过修正的标签，具体方法为：

步骤3.2.1：对于待处理数据x_i′，i′＝1，2，…，n′，n′为相似性分析数据集中数据个数，找到与数据x_i′近邻的k个标记类别为第a类工况的样本集Z_i′＝{z₁，z₂，…，z_k}以及k个标记类别为第b类工况的样本集V_i′＝{v₁，v₂，…，v_k}；

h₁(x_i′)采用相关系数来进行分析；相关系数是衡量两个数据间相关程度的一种方法，相关系数的取值范围是[-1，1]，相关系数的绝对值越大，则表明两个随机变量相关度越高，h₁(x_i)的定义如下：

h₂(x_i′)采用夹角余弦来进行分析，夹角余弦取值范围为[-1，1]，夹角余弦越大表示两个向量的夹角越小，夹角余弦越小表示两向量的夹角越大，当两个向量的方向重合时夹角余弦取最大值1，当两个向量的方向完全相反夹角余弦取最小值-1，h₂(x_i′)的定义如下：

其中，cos(x_i′，Z_i′)表示x_i′与Z_i′中数据的夹角余弦大小，cos(x_i′，V_i′)表示x_i′与V_i′中数据的夹角余弦大小，分别为和z_ε＝[z₁，z₂，…，z_m]^T∈R^m×1，v_j′＝[v₁，v₂，…，v_m]^T∈R^m×1；||·||表示一范数；

h₃(x_i′)采用一个定义于高维空间的距离来衡量两个对象之间的相似程度，该距离的值越大，表明两个对象越相似；距离的最小值为0，表示在选择的各个维上，两个对象的值属于不同类别，说明两个对象的相似性最小；距离的最大值为1，表示在选择的各个维上，两个对象的值都相等或者都属于同一个类别，即两个对象在高维空间中是相互重合的，说明两个对象的相似性最高；h₃(x_i′)的定义如下：

和

根据H(x_i′)推断出x_i′的真实工况类型对应的列标为

根据j^*的值，将x_i′对应的预测标签F_i′中对应的元素置一，其余元素为0，得到最终标签。

在电熔镁的生产过程中，喷炉故障和漏炉故障的属于衍变故障，它们的发生存在是一个不断积累的过程，对应的数据分布如图5所示，喷炉故障数据和漏炉故障数据均与正常数据的分布存在交集。其经过LSR的预测标签F如图6所示，喷炉故障数据、漏炉故障数据与正常数据均存在漏报及误报的情况，因此，在电熔镁炉故障诊断中确实需要引入相似性分析这一环节提高故障预测的准确率。

步骤4：采用保持投影的方法，基于样条函数构建一个在线诊断模型g(x_i)，求出对应的系数矩阵T^*，具体方法如下。

步骤4.1：对于每一个x_i∈X，重新构建一个统一的样条函数g(x_i)，使f(x_i)＝g(x_i)，定义如下

其中，β_q、α_j为g(x_i)的模型参数，p_q(x_i)由一组阶数小于s的基多项式组合而成，s是一个定值；φ_j(x_i)是格林函数；

根据聚类假设，具有相同标签的数据在高维空间内也应该十分靠近，即呈现出堆结构。因此，找出每一类的中心点，对于新来的数据，计算其与每一类中心点的距离，通过分析其结构信息，也可提高数据的标签预测的准确率。因此，在这个在线诊断模型中，格林函数φ_j(x_i)被定义为

其中，为预测标签为j类的样本中心点；

则g(x_i)可改写为

其中，β＝[β₁，β₂，…，β_d]^T∈R^d，α＝[α₁，α₂，…，α_c]^T∈R^c，t∈R^d+c。

步骤4.2：为了求解模型参数β、α，引入岭回归的思想，构建如下损失函数：

其中，G(t)是损失函数，R(t)是正则项，用于衡量模型的复杂度，θ是平衡系数；

R(t)＝t^Tt；

f＝(f₁，f₂，…f_n)^T∈Rⁿ，

将式(21)展开可得

步骤4.3：求解式(22)，得到最优系数向量为

t^*＝(U^TU+θI)^-1U^Tf (23)

当扩充至多分类时，最终标签为F′＝(F′₁，F′₂，…F′_n)^T∈R^n×c，对应的系数向量变为系数矩阵，如下式所示，

T^*＝(U^TU+θI)^-1U^TF (24)

T^*＝[t₁，t₂，…，t_c]∈R^(d+c)×c，I是(d+c)×(d+c)阶的单位矩阵。

步骤5：在工业生产过程中，每次获得一个新的检测数据x_new时，首先根据步骤4建立的在线诊断模型g(x_i)求出对应的p_q(x_new)、φ_j(x_new)，求得对应的u_new＝[p₁(x_new)，…，p_q(x_new)，φ₁(x_new)，…，φ_j(x_new)]，根据对应的系数矩阵T^*，利用式F_new＝u_newT^*求得对应的标签F_new，进行在线故障诊断。

本实施例采用678个数据作为训练集，得到的LSR关于电熔镁炉生产过程的诊断结果如图7所示，本实施例提供的SLSR方法的诊断结果如图8所示，在不同的K近邻参数下，两者故障诊断的准确率如表2所示。

表2准确率对比图

由表2、图7和图8的对比可见，基于SLSR的方法通过挖掘数据内部特性，对数据间的相似性进行分析，第二类数据的误判点减少，故障诊断的准确性相比于LSR得到明显提高。

选取训练集以外的正常数据、喷炉数据、漏炉数据各50个共150构成测试数据集来进行电熔镁炉生产过程在线故障诊断，结果如图9所示，基于相似性的局部样条回归的电熔镁在线故障诊断结果精度很高，150个测试数据中只有6个数据点诊断错误，准确率达到96％，表明本实施例的SLSR方法保证了故障诊断的准确性和实时性。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于相似性局部样条回归的工业过程故障诊断方法，其特征在于：包括以下步骤：

F＝(M+γD)^-1γDY (13)

<mrow> <mi>H</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>3</mn> </munderover> <msub> <mi>h</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>17</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <msub> <mi>&beta;</mi> <mi>q</mi> </msub> <msub> <mi>p</mi> <mi>q</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <msub> <mi>&alpha;</mi> <mi>j</mi> </msub> <msub> <mi>&phi;</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>18</mn> <mo>)</mo> </mrow> </mrow>

T^*＝(U^TU+θI)^-1U^TF (24)

其中U＝[u₁ ^T，u₂ ^T，…u_n ^T]^T∈R^n×(d+c)，u_i＝[1，x₁，x₂，…，x_m，φ₁(x_i)，φ₂(x_i)，…φ_c(x_i)]∈R^1×(d+c)；θ是平衡系数，I是(d+c)×(d+c)阶的单位矩阵；

2.根据权利要求1所述的基于相似性局部样条回归的工业过程故障诊断方法，其特征在于：所述步骤2中，利用LSR方法求得预测标签F的具体方法如下：

<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>g</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <msub> <mi>&beta;</mi> <mrow> <mi>i</mi> <mi>q</mi> </mrow> </msub> <msub> <mi>p</mi> <mi>q</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>&epsiv;</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>&alpha;</mi> <mrow> <mi>i</mi> <mi>&epsiv;</mi> </mrow> </msub> <msub> <mi>&phi;</mi> <mrow> <mi>i</mi> <mi>&epsiv;</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>&epsiv;</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>&alpha;</mi> <mrow> <mi>i</mi> <mi>&epsiv;</mi> </mrow> </msub> <msub> <mi>p</mi> <mi>q</mi> </msub> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>&epsiv;</mi> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>&phi;</mi> <mrow> <mi>i</mi> <mi>&epsiv;</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <mi>x</mi> <mo>-</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>&epsiv;</mi> </msubsup> <mo>|</mo> <mo>|</mo> <mo>)</mo> </mrow> <mrow> <mn>2</mn> <mi>s</mi> <mo>-</mo> <mi>m</mi> </mrow> </msup> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <mi>x</mi> <mo>-</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>&epsiv;</mi> </msubsup> <mo>|</mo> <mo>|</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

当m为奇数时，格林函数φ_iε(x)如下式所示；

<mrow> <msub> <mi>&phi;</mi> <mrow> <mi>i</mi> <mi>&epsiv;</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <mi>x</mi> <mo>-</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>&epsiv;</mi> </msubsup> <mo>|</mo> <mo>|</mo> <mo>)</mo> </mrow> <mrow> <mn>2</mn> <mi>s</mi> <mo>-</mo> <mi>m</mi> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>J</mi> <mrow> <mo>(</mo> <msub> <mi>g</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>x</mi> <mo>&Element;</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> </mrow> </munder> <msup> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>-</mo> <msub> <mi>g</mi> <mi>i</mi> </msub> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <mi>&lambda;</mi> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>g</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>&epsiv;</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msup> <mrow> <mo>(</mo> <msubsup> <mi>f</mi> <mi>i</mi> <mi>&epsiv;</mi> </msubsup> <mo>-</mo> <msub> <mi>g</mi> <mi>i</mi> </msub> <mo>(</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>&epsiv;</mi> </msubsup> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <mi>&lambda;</mi> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>g</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

其中，f_i ^ε是对应的标签，S(g_i)是惩罚项，λ是补偿系数；

根据上式，得到如下方程，

<mrow> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mrow> <msub> <mi>K</mi> <mi>i</mi> </msub> <mo>+</mo> <mi>&lambda;</mi> <mi>I</mi> </mrow> </mtd> <mtd> <mi>e</mi> </mtd> <mtd> <msubsup> <mi>P</mi> <mi>i</mi> <mi>T</mi> </msubsup> </mtd> </mtr> <mtr> <mtd> <msup> <mi>e</mi> <mi>T</mi> </msup> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <msub> <mi>P</mi> <mi>i</mi> </msub> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> </mtable> </mfenced> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <msub> <mi>&alpha;</mi> <mi>i</mi> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>&beta;</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>&beta;</mi> <mi>i</mi> </msub> </mtd> </mtr> </mtable> </mfenced> <mo>=</mo> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <msub> <mi>F</mi> <mi>i</mi> </msub> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

其中，K_i是一个k×k阶的对称矩阵，其内部的元素为I是一个k×k阶的单位矩阵，P_i∈R^(d-1)×k，存储着与中每个采样点对应的d-1个非常数多项式的值；e＝[1，1，…，1]^T∈R^k，α_i，β_i1，β_i均为模型参数，其中α_i＝[α_i1，…，α_ik]^T∈R^k，β_i1∈R，β_i＝[β_i2，β_i3，…，β_id]^T∈R^d-1；

根据式(5)，式(4)的损失函数重新写成式(7)；

<mrow> <mi>J</mi> <mrow> <mo>(</mo> <msub> <mi>g</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&ap;</mo> <msubsup> <mi>&lambda;&alpha;</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msub> <mi>K</mi> <mi>i</mi> </msub> <msub> <mi>&alpha;</mi> <mi>i</mi> </msub> <mo>&ap;</mo> <mi>&lambda;</mi> <msup> <mrow> <mo>(</mo> <msubsup> <mi>f</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>)</mo> </mrow> <mi>T</mi> </msup> <msub> <mi>M</mi> <mi>i</mi> </msub> <msubsup> <mi>f</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

步骤2.3：将所有点的损失函数累计求和得到式(8)；

<mrow> <mi>E</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>)</mo> </mrow> <mo>&Proportional;</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msubsup> <mi>f</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>)</mo> </mrow> <mi>T</mi> </msup> <msub> <mi>M</mi> <mi>i</mi> </msub> <msubsup> <mi>f</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>=</mo> <msup> <mi>f</mi> <mi>T</mi> </msup> <mi>M</mi> <mi>f</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

步骤2.4：对于l个已标记的样本，构建如下的优化函数：

<mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mi>f</mi> <mo>-</mo> <mi>y</mi> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mi>D</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>-</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

因此，二分类下最终的目标函数为：

<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>f</mi> </munder> <mrow> <mo>(</mo> <msup> <mi>f</mi> <mi>T</mi> </msup> <mi>M</mi> <mi>f</mi> <mo>+</mo> <mi>&gamma;</mi> <msup> <mrow> <mo>(</mo> <mrow> <mi>f</mi> <mo>-</mo> <mi>y</mi> </mrow> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mi>D</mi> <mo>(</mo> <mrow> <mi>f</mi> <mo>-</mo> <mi>y</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

其中，γ是正定系数；

f＝(M+γD)^-1γDy (11)

<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>F</mi> </munder> <mi>t</mi> <mi>r</mi> <mrow> <mo>(</mo> <msup> <mi>F</mi> <mi>T</mi> </msup> <mi>M</mi> <mi>F</mi> <mo>+</mo> <mi>&gamma;</mi> <msup> <mrow> <mo>(</mo> <mrow> <mi>F</mi> <mo>-</mo> <mi>Y</mi> </mrow> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mi>D</mi> <mo>(</mo> <mrow> <mi>F</mi> <mo>-</mo> <mi>Y</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>

其中，Y＝(Y₁，Y₂，…，Y_n)^T∈R^n×c是c分类下的标记矩阵，其中的元素为j＝1，2，…，c；F＝(F₁，F₂，…F_n)^T∈R^n×c是预测标签，每一个样本x_i对应的预测标签F_i是一个c维行向量，向量的每一列对应一种具体的生产工况，向量F_i的每个元素值F_ij的大小代表x_i属于第j列所对应的工况类型的概率，元素值最大的一列所对应的工况类型即为x_i对应工况类型；

求解式(12)得到预测标签F，如式(13)所示：

F＝(M+γD)^-1γDY (13)。

3.根据权利要求2所述的基于相似性局部样条回归的工业过程故障诊断方法，其特征在于：所述步骤3中进行相似性分析的具体方法为：

h₁(x_i′)采用相关系数来进行分析，h₁(x_i)的定义如下：

h₂(x_i′)采用夹角余弦来进行分析，h₂(x_i′)的定义如下：

和

根据H(x_i′)推断出x_i′的真实工况类型对应的列标为

根据j^*的值，将x_i′对应的预测标签F_i′中对应的元素置一，其余元素为0，得到修正后的标签矩阵F*＝(F′₁，F′₂，…F′_n)^T∈R^n×c。