CN109409425A

CN109409425A - 一种基于近邻成分分析的故障类型识别方法

Info

Publication number: CN109409425A
Application number: CN201811213325.2A
Authority: CN
Inventors: 皇甫皓宁; 童楚东; 朱莹
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2019-03-01
Anticipated expiration: 2038-10-09
Also published as: CN109409425B

Abstract

本发明公开一种基于近邻成分分析的故障类型识别方法，旨在为各故障类型甄别出相应的故障特征变量及其权重大小后，实施在线故障数据对应故障类型的识别。具体来讲，本发明方法首先利用近邻成分分析这种依赖于单个样本之间近邻关系的算法，逐个找出各故障类型可用数据对比正常工况数据之间出现异常变化的特征变量及其权重系数。其次，在经特征变量加权处理后逐个计算在线故障数据与各个故障类型数据点的之间的距离。最后，通过最小距离识别故障类型。与传统方法相比，本发明方法不仅利用了各故障的特征变量而且还能区分出特征变量之间的重要性程度差异，能充分保证故障类型识别的正确率。因此，本发明方法是一种更为优选的故障类型识别方法。

Description

一种基于近邻成分分析的故障类型识别方法

技术领域

本发明涉及一种数据驱动的故障诊断方法，尤其涉及一种基于近邻成分分析的故障类型识别方法。

背景技术

通常意义上来讲，对生产过程运行状态实施监测的目的首先在于及时而准确地发现故障，其次在于识别出故障的根源或类型。因此，故障检测与故障类型识别两者缺一不可，它们对于保证安全生产与维持产品质量稳定是具有重要意义的。近十几年来，针对故障检测的研究层出不穷，涌现出了一大批故障检测新方法与新思路。相比之下，针对故障类型识别的研究却屈指可数。这种现象在数据驱动的故障诊断研究领域尤为突出，发展至今识别故障类型的数据驱动方法主要依赖于模式分类策略，借鉴模式识别领域的分类方法识别出故障类型。

然而，与传统分类问题不同的是，故障分类所能使用的数据皆采集自工况切换的过渡过程阶段。各故障类型的训练数据变化情况尤为复杂，且各故障发生后会导致不同测量变量出现不同程度的异常变化。此外，在故障发生后，现场操作人员会在第一时间内将过程修复至正常运行状态，各种故障工况下采集到的数据量通常也是有限的。针对故障分类的研究若是直接采用模式识别领域常用的分类算法如判别分析、支持向量机、神经网络等建立多分类模型通常得不到满意的效果。此外，支持向量机与神经网络需要大量的数据实施训练才能保证模型精度，它们通常不适合用作故障分类诊断。

从故障类型识别问题本身出发，各个故障类型会引起不同测量变量出现不同程度的异常变化，为各个故障类型甄别出相对应的故障特征变量是实施故障类型识别首先需要考虑的问题。其次，在有限的故障训练样本数据量下，如何甄别出这些特征变量同时给解决该问题提出了较大的挑战。最后，如何在甄别出的故障特征变量的基础上实施故障类型识别是最后一个需要考虑的问题。

发明内容

本发明所要解决的主要技术问题是：如何在各故障类型训练样本数据量有限的前提下，甄别出各故障类型的故障特征变量，并利用该特征变量实施故障类型识别。为此，本发明方法利用近邻成分分析(Neighborhood Component Analysis，NCA)这种依赖于单个样本之间近邻关系的算法，逐个找出各故障类型可用数据对比正常工况数据之间出现异常变化的特征变量。然后，在经特征变量加权处理后逐个计算在线故障数据与各个参考故障类型数据点之间的距离。最后，通过最小距离识别故障类型。

本发明解决上述技术问题所采用的技术方案为：一种基于近邻成分分析的故障类型识别方法，包括以下步骤：

(1)从生产过程历史数据库中找到不同故障工况条件下的采样数据，对应组成各参考故障数据矩阵X₁，X₂，…，X_C，其中N_c为第c种故障的可用样本数，c＝1，2，…，C，R为实数集，表示N_c×m维的实数矩阵，m为过程测量变量的个数，C为参考故障类别总数。

(2)采集生产过程处于正常运行工况下的N₀个样本数据，组成正常工况训练数据矩阵并计算数据矩阵X₀中各列向量的均值μ₁，μ₂，…，μ_m与标准差δ₁，δ₂，…，δ_m。

(3)利用均值μ₁，μ₂，…，μ_m与标准差δ₁，δ₁，…，δ_m分别标准化处理X₀，X₁，X₂…，X_C中对应的各列向量，得到标准化后的数据矩阵并初始化c＝1。

(4)将矩阵与合并一个矩阵并构建类标号向量其中上标号T为矩阵或向量的转置符号，向量y_c中前N₀个元素数值全部为0后N_c个元素数值全部等于1。

(5)利用近邻成分分析(NCA)算法优化求解出权重系数向量w_c，NCA算法的原理与具体实施过程如下所示。

NCA算法是一种简单易操作的距离测度学习算法，它通过优化留一法的交叉验证结果来求得在分类问题中各变量的权重系数，从而提高样本分类的效果。

给定n个样本x₁，x₂，…，x_n，各样本向量x_i∈R^1×m中对应有m个属性或变量的测量值，各个样本对应的类标号组成向量y∈R^n×1，在权重系数向量w∈R^1×m的条件下可根据如下所示公式计算出各样本之间的距离D_w(x_i，x_j)：

D_w(x_i，x_j)＝||(x_i-x_j)diag(w)|| (1)

其中，i＝1，2，…，n，j＝1，2，…，n，符号|| ||表示计算向量的长度，diag(w)表示将向量w转变成对角矩阵。定义一个概率指标p_ij：样本点x_i选择样本点x_j作为其近邻同时继承x_j对应的类标号的概率。p_ij的计算公式如下所示：

这样一来，将样本x_i通过近邻样本正确分类的概率p_i可按照如下所示公式计算：

上式中，当且仅当x_i与x_j归属同一类时，y_ij＝1，其他情况y_ij＝0。那么，NCA算法优化权重系数向量w的目标函数如下所示：

可通过梯度下降法求出最优化的权重系数向量w，在梯度法迭代过程中需计算其梯度Δf：

NCA算法优化权重系数向量的具体实施过程包括以下步骤：

①初始化梯度步长α＝1、初始化目标函数值f₀(w)＝-10⁶、以及初始化权重系数向量w＝[1，1，…，1]，即各变量的权重系数初始值统一设置为1。

②计算在当前权重系数向量w条件下的目标函数值f(w)。

③判断是否满足收敛条件|f(w)-f₀(w)|＜10^-6？若是，则输出权重系数向量w；若否，则继续实施④。

④设置f₀(w)＝f(w)后根据上述公式(5)计算梯度值Δf，并根据公式w＝w+αΔf更新权重系数向量。

⑤根据更新后的w计算目标函数值f(w)，并判断是否满足条件f(w)＞f₀(w)？若是，则根据公式α＝1.01α更新梯度步长α；若否，则根据公式α＝0.4α更新梯度步长α。

⑥返回步骤③继续下一次迭代优化，直至满足③中的收敛条件。

(6)将权重系数向量w_c中小于10^-3的元素全部变成零，得到更新后的权重系数向量那么向量中不等于0的元素所对应的变量即为第c类参考故障的特征变量。

(7)根据公式计算得到第c类参考故障数据经特征变量加权后的数据矩阵F_c，其中表示将向量中的各元素组成对角矩阵。

(8)判断是否满足条件c＜C？若是，则置c＝c+1后返回步骤(4)；若否，则得到最终的权重系数向量以及矩阵F₁，F₂，…，F_C。

上述步骤(1)至步骤(8)完成了对各个类型故障特征变量的甄别，以及相应特征变量权重系数大小的确定。以下所示步骤(9)至步骤(11)为在线识别故障类型的实施过程。

(9)当在线监测的数据样本x∈R^1×m被已有的故障检测系统判别为故障数据后，根据步骤(2)中的均值μ₁，μ₂，…，μ_m与标准差δ₁，δ₂，…，δ_m标准化处理向量x得到向量

(10)根据公式将向量分别经加权处理，对应得到加权向量g₁，g₂，…，g_C。

(11)计算向量g₁，g₂，…，g_C与矩阵F₁，F₂，…，F_C中各行向量的之间的距离，并找出最小距离样本所对应的故障类型，该故障类型即为识别出的故障类型。

与传统方法相比，本发明方法的优势在于：

首先，本发明方法利用的是近邻成分分析算法逐个地为各故障类型甄别出特征变量及其对应的权重系数。从NCA算法本身而言，其所涉及的计算都是针对单个样本点，不存在受样本个数有限问题的制约。其次，利用权重系数向量加权处理故障数据，不仅利用了各故障的特征变量而且还能区分出特征变量之间的重要性程度差异。这样一来，能保证故障类型识别的正确率。总而言之，本发明方法是一种行之有效的数据驱动的故障类型识别方法。

附图说明

图1为本发明方法甄别故障特征变量的实施流程图。

图2为本发明方法利用权重系数向量实施故障类型识别的流程图。

具体实施方式

下面结合附图对本发明方法的具体实施方式进行详细的说明。

本发明公开一种基于近邻成分分析的故障类型识别方法，图1中展示了为各个参考故障类型甄别故障特征变量的过程，具体包括以下实施步骤。

步骤(1)从生产过程历史数据库中找到不同故障工况条件下的采样数据，对应组成各参考故障的数据矩阵X₁，X₂，…，X_C，其中N_c为第c种故障的可用样本数，c＝1，2，…，C，R为实数集，表示N_c×m维的实数矩阵，m为过程测量变量的个数。

步骤(2)采集生产过程处于正常运行工况下的N₀个样本数据，组成正常工况训练数据矩阵并计算数据矩阵X₀中各列向量的均值μ₁，μ₂，…，μ_m与标准差δ₁，δ₂，…，δ_m。

步骤(3)利用均值μ₁，μ₂，…，μ_m与标准差δ₁，δ₂，…，δ_m分别标准化处理X₀，X₁，X₂…，X_C中对应的各列向量，得到标准化后的数据矩阵并初始化c＝1。

步骤(4)将矩阵与合并一个矩阵并构建类标号向量其中上标号T为矩阵或向量的转置符号，向量y_c中前N₀个元素数值全部为0后N_c个元素数值全部等于1。

步骤(5)利用近邻成分分析(NCA)算法优化求解出权重系数向量w_c。

步骤(6)将权重系数向量w_c中小于10^-3的元素全部变成零，得到更新后的权重系数向量那么向量中不等于0的元素所对应的变量即为第c类参考故障的特征变量。

步骤(7)根据公式计算得到第c类参考故障数据经特征变量加权后的数据矩阵F_c，其中表示将向量中的各元素组成对角矩阵。

步骤(8)判断是否满足条件c＜C？若是，则置c＝c+1后返回步骤(4)；若否，则得到最终的权重系数向量以及F₁，F₂，…，F_C。

在完成对各类型故障的特征变量甄别及其权重系数优化后，识别在线故障数据的故障类型的实施过程如图2所示，具体包括以下实施步骤。

步骤(9)当在线监测的数据样本x∈R^1×m被已有的故障检测系统判别为故障数据后，根据步骤(2)中的均值μ₁，μ₂，…，μ_m与标准差δ₁，δ₂，…，δ_m标准化处理向量x得到新的向量

步骤(10)根据公式将向量分别经加权处理，对应得到加权向量g₁，g₂，…，g_C；

步骤(11)计算向量g₁，g₂，…，g_C与矩阵F₁，F₂，…，F_C中各行向量的之间的距离，并找出最小距离样本所对应的故障类型，该故障类型即为识别出的故障类型。

Claims

1.一种基于近邻成分分析的故障类型识别方法，其特征在于，包括以下步骤：

步骤(1)从生产过程历史数据库中找到不同故障工况条件下的采样数据，对应组成各参考故障的数据矩阵X₁，X₂，…，X_C，其中N_c为第c种故障的可用样本数，c＝1，2，…，C，R为实数集，表示N_c×m维的实数矩阵，m为过程测量变量的个数，C为参考故障类别总数；

步骤(2)采集生产过程处于正常运行工况下的N₀个样本数据，组成正常工况训练数据矩阵并计算矩阵X₀中各列向量的均值μ₁，μ₂，…，μ_m与标准差δ₁，δ₂，…，δ_m；

步骤(3)利用均值μ₁，μ₂，…，μ_m与标准差δ₁，δ₁，…，δ_m分别标准化处理X₀，X₁，X₂…，X_C中对应的各列向量，得到标准化后的数据矩阵并初始化c＝1；

步骤(4)将矩阵与合并一个矩阵并构建类标号向量其中上标号T为矩阵或向量的转置符号，向量y_c中前N₀个元素数值全部为0后N_c个元素数值全部等于1；

步骤(5)利用近邻成分分析(NCA)算法优化求解出权重系数向量w_c；

步骤(6)将权重系数向量w_c中小于10^-3的元素全部变成零，得到更新后的权重系数向量那么向量中不等于0的元素所对应的变量即为第c类参考故障的特征变量；

步骤(7)根据公式计算得到第c类参考故障数据经特征变量加权后的数据矩阵F_c，其中表示将向量中的各元素组成对角矩阵的操作；

步骤(8)判断是否满足条件c＜C？若是，则置c＝c+1后返回步骤(4)；若否，则得到最终的权重系数向量以及矩阵F₁，F₂，…，F_C；

步骤(9)当在线监测的数据样本x∈R^1×m被已有的故障检测系统判别为故障数据后，根据步骤(2)中的均值μ₁，μ₂，…，μ_m与标准差δ₁，δ₂，…，δ_m标准化处理向量x得到向量