CN113032726A

CN113032726A - 基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法

Info

Publication number: CN113032726A
Application number: CN202110210676.3A
Authority: CN
Inventors: 吴海燕; 王子扬
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-06-25
Anticipated expiration: 2041-02-25
Also published as: CN113032726B

Abstract

本发明公开了基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法，通过核概率密度估计估计故障样本的概率密度分布函数，对难以学习的决策边界样本，对边界样本生成率进行加权，使难学习样本获得更多的生成样本，提高新样本集的多样性。在最近邻求解过程中用核距离代替欧式距离，以满足高维、非线性的工业对象应用要求。最后使用接受拒绝采样判断新生成样本是否符合原始结块故障样本的分布，符合则接受，反之则拒绝，以保证新生成样本的合理性。该方法在一定程度上解决了原始上采样方法缺乏理论可行性，不能度量生成样本的质量，易发生“数据侵入”的问题，同时还能提高样本集的多样性。实例应用证明了该方法的有效性。

Description

基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法

技术领域

本发明属于工业设备故障监测技术领域，涉及一种数据上采样方法，具体是指一种基于核概率密度估计的加权上采样方法用于不平衡数据集的故障监测。

背景技术

流化床是一类在流程工业中广泛应用的反应装置，在气相法聚乙烯生产工艺中，流化床是其中的核心反应器，该工艺具有反应稳定，易于控制等优点。

但是由于反应过程中反应热不能及时移出、静电等问题，导致结块、结片故障，影响反应的顺利进行，严重者导致停车甚至安全事故。因此，流化床结块故障检测技术十分重要。

但是由于生产工艺成熟，生产平稳，因此故障数据的获取较为困难，同时在此过程中可获得正常工况下的海量样本，从而形成不平衡样本集，由此在故障检测过程中需要解决不平衡数据集对故障检测算法准确性的负面影响。利用声波传感器检测流化床反应器外壁的振动信号并进行分析已经被证明是一种可行的结块故障监测预警方法，这种方法无需反应的内在机理模型，因此属于数据驱动方法。在数据驱动方法中，关键在于基于训练数据建立故障检测模型，对训练数据集的样本数量和多样性有较高要求。而工业现场绝大多数情况下处于平稳生产过程中，难以获得故障样本，因此故障样本稀缺，与正常工况下大量采集的正常样本相比形成了不平衡样本集。另外在故障工况下所采集的故障样本还需要进行人工标注，也影响了样本集的构成。

数据驱动方法对原始数据集的质量有较高要求，数据集的平衡性和多样性问题决定着检测算法的准确性和泛化性能。当数据集为不平衡数据集时，检测结果的将向多数类样本倾斜，即倾向于判断未知样本为多数类样本，以获得较高的综合分类准确率。当数据集分布较为集中，多样性不足时，监测算法的泛化能力不足。

在结块故障监测、预警过程中若对于故障数据分类错误，即发生漏报，则容易产生较为严重的后果，危害他人安全、造成极大的财产损失。然而数据不平衡时，分类器更易偏向于多数类，即属于多数类的正常样本更容易预测，而对属于少数类的故障样本预测表现较差。因此，当样本集不平衡时，所得到的检测算法将更容易将未知样本预报成为正常样本，从而造成漏报问题。

如果数据集极为不平衡，即使分类器正确地对多数样本进行分类，而对所有少数样本进行了错误分类，综合下来分类器的准确率仍然很高，在这种情况下，准确率不能反映对于少数类样本的预测性能，因此需要对不平衡样本集进行处理。

目前对于不平衡数据的处理方法主要包含算法层面以及数据层面。

数据层面采用数据采样方法，改变样本的数量，使数据达到平衡。采样方法主要包含上采样方法、下采样方法以及混合采样方法。

上采样方法通过生成少数类样本使少数类和多数类达到平衡，在样本不平衡度很高时，往往采用上采样方法。中国专利202010763063.8提供了一种基于少数类过采样方法的异质不平衡数据故障检测方法，其包括获取机电设备健康状态相关的所监测的不平衡数据集，以等概率从少数类故障数据集随机选择一个样本；基于异质数值差异指标或平均数值型变量距离在少数类故障数据集中找到k个近邻样本；从k个近邻样本中选择一个最近邻样本，人工生成样本的数值型变量和标称型变量取值；基于对机电设备进行故障检测，生成的少数类样本在标称型变量的取值不超出其原本的值域范围，且将标称型变量转化为数值型变量，可大大增加分类模型的选择的可能性。

随机上采样是最简单也是最常使用的方法。该方法随机从少数类中反复地抽取样本，将抽取到的样本放入原样本空间中组成新的样本空间。这样的抽样方法是很快速的，但是会使得少数类中存在大量相似的数据，在分类器的训练中容易使得模型产生过拟合的问题，不但不会提高检测准确性还会导致准确性的降低。

SMOTE方法是基于随机过采样的一种改进方法，其采用线性插值的思想，通过求少数类样本周围的最近邻，并与其最近邻通过线性插值生成新样本，SMOTE得到了学术界广泛认可，但也存在一些问题，包括生成样本过于笼统以及差异过大，导致在此基础上训练得到的检测算法可靠性存疑。

BorderlineSMOTE方法基于SMOTE方法进行改进，将样本分为安全、危险与噪声，该方法只对边缘样本进行上采样，所得的新样本位于分类边缘面，将提高样本生成效率，但是易产生侵入问题，即新样本侵入多数类样本的分布空间，从而造成分类准确率的降低。

ADASYN也是基于SMOTE方法的改进，针对不同样本学习的难易程度，对样本进行加权，利用加权分布来强化决策边界，难以学习的样本生成较多样本，易于学习的样本生成较少样本。但是该算法没有解决SMOTE算法中生成样本可靠性难以评价的问题。

现有的上采样方法在对不平衡数据进行处理方面取得了很大的成功，但是原始上采样方法始终存在着缺乏可解释性的问题，即无法度量生成样本的质量。生成样本质量无法度量将降低上采样方法在工业应用中的可靠性，使基于上采样的分类算法难以在工业设备故障检测问题中得到广泛应用。

除此以外，在现有的上采样方法中，对于k近邻的求解往往采用欧式距离。欧式距离适用于线性分类问题，而实际应用中多为非线性分类问题，基于非线性计算得到的核距离对非线性、高维分类问题更具优势。特别是在流化床结块故障检测问题中，基于核距离的近邻求解方法优于传统欧式距离。

发明内容

针对流化床结块故障监测过程中训练样本集不平衡问题，本方法提出了一种基于核概率密度估计(PDFOS)的加权上采样方法用于生成平衡数据集，从而实现流化床结块故障监测。该方法的目的是保证新生成样本与原始少数类样本所组成的新样本集与原始样本集具有同样的概率密度分布函数(PDF)，从而解决前述弊端，提高结块故障检测方法在工业应用中的可靠性。另外，在求解少数类样本最近邻时，本方法利用核距离代替欧式距离，其目的在于解决结块故障检测问题中的高维、非线性分类问题，并与支持向量机分类算法一起，提高故障检测的准确性。

本发明提出了一种基于概率密度估计的加权上采样方法，用于工业设备故障监测，特别是流化床结块故障监测问题。具体方案如下：

步骤S1：利用声波传感器采集流化床外壁振动信号并进行人工标注、提取特征。由于生产过程极其平稳，因此只能获得少量故障工况样本，大部分数据均为平稳工况下所采集的样本。因此，在后续故障诊断建模过程中，我们只能依靠由少量故障样本和海量正常工况样本所组成的不平衡样本集。对少量故障样本和海量正常工况样本进行人工标注，获得训练样本集。考虑到人工标注费时费力，因此最终可获得的标注数据集中正常样本的数量可在几百至几千个，故障样本的数量受限于采集过程中设备发生故障的次数，对本算法而言需保证故障样本至少有十几个。经过该步骤形成的训练样本集中包括两个集合，其一为多数类样本集即经过标注的正常样本集，其二为少数类样本集即故障样本集。

步骤S2：针对结块故障样本极其稀少的情况，计算需要通过上采样方法生成的样本数量。该步骤包含如下具体细节：

步骤S2-1：计算结块故障样本和正常样本的比例，定义为不平衡度。计故障样本个数为N₊，海量正常工况样本为N_-，其中N₊＜＜N_-。则不平衡度为：

D＝N₊/N_- (1)

步骤S2-2：计算需要生成的少数类样本数量为：

G＝(N_--N₊)×β (2)

其中β∈[0,1]，当β＝1时，上采样后的数据集为完全平衡数据集，β＝0时则进行上采样。在实际应用中可根据情况选择。

步骤S2-3：对每个故障样本利用核距离计算其k近邻，同时计算正常样本邻居占比r，并进行标准化：

r_i＝Δ/k (3)

其中Δ为k近邻中正常样本的个数，

代表了该故障样本学习的难易程度，根据该参数计算每个故障样本生成样本的数目。学习难的样本可以生成更多的样本，反之亦然。

步骤S3：估计结块故障样本的概率密度分布函数，并以此为参考生成新的故障样本，与原故障样本一起作为故障类样本集。该步骤具体如下：

步骤S3-1：用核密度估计法求故障样本集的加权过采样分布

采用如下公式计算：

其中σ是Parzen窗口宽度，

是计算x到训练样本x_i距离的标准核函数，按照σ进行缩放。

S是故障样本协方差的无偏估计:

引入S后，通过公式(6)所估计的概率密度函数可以反应故障样本集的真实分布。

步骤S3-2：确定核概率密度估计函数

的窗口宽度。对比概率密度分布以及真实分布的偏差M(σ):

通过网格搜索法求得使式(9)取值最小的σ值，为最优σ。

步骤S3-3：根据概率密度估计进行样本生成。基于离散均匀分布，从故障样本集中随机抽取一个故障样本x₀，通过步骤S4和S5中所求的参数进行样本生成。

x_n＝x₀+σR*randn() (10)

其中R是协方差矩阵S的切比雪夫分解，是具有严格正对角项的上三角矩阵。

R^TR＝S (11)

randn()是服从零-均值正态分布的m维伪随机向量，其协方差矩阵为I_m。

步骤S4：评估新生成故障样本的合理性，利用接受拒绝采样判断其是否符合原始结块故障样本的概率密度分布，若满足则保留，若不满足则剔除。最终形成符合原始故障样本集分布的新故障样本集，与原始正常样本一起，形成平衡样本集，用于结块故障建模。具体实现步骤如下：

通过接受拒绝采样判定新生成样本是否符合原始故障样本集的概率密度分布。符合分布的新生成样本接受，不符合的拒绝。接受拒绝采样的基本思想为：已知

的分布，但是由于

太复杂，很难得到完全符合该分布的样本，那么我们设定一个程序可抽样的分布

如高斯分布，按照一定的方法拒绝某些样本，达到接近

分布的目的。具体方法如下：产生样本x～q(x)和u～Uniform[0,1]，若

(其中M为

的最大值)则接受样本x，此时接受的样本服从

分布，否则拒绝样本。

步骤S5：进行结块故障离线建模，在上述步骤得到的平衡样本集基础上，利用分类算法得到最终的结块故障监测模型，用于在线监测结块故障。具体实现步骤如下：

将新样本与原始样本集合并得到平衡样本集，送入分类算法中，本发明采用支持向量机算法。

步骤S6：进行结块故障在线监测预警。通过步骤S1中的振动监测装置实时获取振动信号，并进行特征提取，送入步骤S5所得到的故障监测模型中实时监测流化床装置运行状态，出现结块信号则报警，实现在线监测。

与现有技术相比较，本发明具有以下有益结果：本发明是一种基于少数类样本(即故障样本)核概率密度估计的数据上采样方法，用于流化床结块故障检测中，可以令通过上采样算法新生成的样本与原始故障样本集具有相同的概率密度分布，保证了上采样方法产生样本的合理性。

本发明提出了一种基于少数类样本核概率密度估计的加权上采样算法，用于平衡流化床结块故障检测数据集，最终提高流化床结块故障监测算法的可靠性。本发明在引入协方差矩阵S的基础上，利用核概率密度估计算法对少数类样本集，及故障样本集的概率密度函数进行估计，使估计函数可以反应原始故障样本集的真实分布。本发明利用核距离代替其他算法中的欧式距离计算k近邻，适用于工业对象中的非线性、高维分类问题，使分类结果准确性得到提高。本发明代替SMOTE算法中线性插值方法，而是基于概率密度分布估计结果生成新样本，提高了新样本的可靠性，进而提高故障检测算法的可靠性。本发明基于故障样本的学习难易度进行新样本生成，提高难分类样本的生成率，而不是对所有样本一视同仁，使新的故障样本集更具多样性，最终提高了故障检测算法的泛化性能。本发明在新样本生成后再利用接受拒绝采样算法对新生成样本进行评价，依照计算结果保留可靠的新样本，拒绝不可靠的新样本，该步骤使得上采样方法具备可解释性，可以大大提高上采样算法的可靠性，以保证算法可以在工业设备中进行应用。在本发明的一个优选实例中，该方法被用于一个流化床结块故障检测对象中，与已有方法对比，证明了方法的有效性。

附图说明

图1为本发明---基于核概率密度函数估计的加权上采样方法用于流化床结块故障检测具体流程图。

图2为核概率密度函数估计方法的具体流程图。

图3为加权上采样方法的具体流程图。

具体实施方式

下面结合具体的实施例及附图对基于核概率密度估计的加权上采样方法用于流化床结块故障检测进行具体的描述，以使其更加清楚。

本方法首先利用核概率密度估计算法得到故障样本的概率密度函数，通过引入协方差矩阵保证该估计结果符合故障样本的真实分布。再计算多数类邻居占比r，并对其进行标准化得到

为难于分类的故障样本赋予更高生成率，使新样本倾向于难分类样本，从而保证故障样本集的多样性。在求解故障样本最近邻的过程中，使用核距离代替欧氏距离，在处理高维非线性数据时更具有效性，同时对于后续使用支持向量机进行分类也有一定的优势。基于概率密度估计结果和生成率进行上采样，得到新样本后再利用接受拒绝采样算法，判断生成样本分布是否符合原始故障样本集的概率密度分布，解决生成样本质量无法度量的问题。

图1为本方法的流程图。该结块故障检测方法包括：

步骤一：对流化床数据进行采集，其中正常：故障＝85：15即N_{_}：N₊＝85：15。并对采集得到的样本进行特征提取，提取了样本的均值，方差，标准差，中心矩，峰度，偏度(6种时域特征)，频率重心，小波包能量，小波包熵(3种频域特征)等9种特征。对比正常工况下以及结块故障工况下的数据特征，证明上述特征能够从一定程度上区分正常工况与结块故障工况。

步骤二：在原有核概率密度估计基础上，引入加权思想，其加权思想主要包括：

计算不平衡度，计故障样本为N₊，正常样本为N_{_}，则不平衡度为：

D＝N₊/N_-

计算需要合成样本的数量。

G＝(N_--N₊)*β，其中β＝0时，则代表不做样本生成，当β＝1时代表生成完全平衡的新样本集。

对于每个故障样本用核距离计算k近邻，Δ为k近邻中正常样本的个数，由此可得：

r_i＝Δ/k

对所求的r_i进行标准化，即

其中核距离的定义为：

对应的核函数的核距离矩阵为：

该部分的基本思想见流程图3。

步骤三：用基于加权思想的核密度估计求加权过采样分布

并基于核概率密度估计求解参数。

σ是Parzen窗口宽度，

是计算x到训练样本x_i距离的标准核函数，按照σ进行缩放。

其中S是故障样本协方差的无偏估计。

在上述核函数

的计算中若使用单一的平滑参数σ则意味着特征空间的所有维度都是不相关的。为了更准确的估计故障样本核概率密度，同时为了后续的样本生成，引入了故障样本的协方差矩阵S。

引入S是为了处理特征空间坐标是相关的然而坐标的展开的不同的情况，在此情况下，如果对所有坐标应用相同的扩展参数，估计的概率密度函数不能充分表示数据集的真实分布。

同时，核概率密度估计函数的窗口宽度σ需要确定，通过求所求的概率密度分布以及真实分布的偏差

通过最小化M(σ)可最优的σ。其中，最优σ可以通过网格搜索求得。

通过上述所得的参数，对原始不平衡样本集进行上采样操作。

基于离散均匀分布，从故障样本集中随机抽取一个故障样本x₀，通过所求的参数进行样本生成。

x_n＝x₀+σR*randn()

该部分的具体流程图如图2。

步骤四：对于生成的样本采用接受拒绝采样，判断生成样本的概率密度分布是否符合核概率密度估计函数所得的原始故障样本集的概率密度函数。对于符合的进行接受，反之拒绝。具体步骤为：

产生样本x～q(x),和u～Uniform[0,1]

若

(其中M为

的最大值)，则接受样本x，此时接受的样本服从

的分布。

步骤五：分别将原始不平衡数据以及经过SMOTE方法，ADASYN方法，Borderline-SMOTE方法还有基于本发明所提方法的处理过后的平衡数据作为训练数据，给入支持向量机中，进行结块故障检测建模。

同样选取了N个数据作为测试数据，其中正常：故障＝85：15，即多数类85个，少数类15个，进行测试。

并引入评价指标进行故障检测性能评估，评价指标为：

准确率(accuracy)，精确率(precision)，召回率(recall)，F1-score以及G-mean值

上述评价指标可通过混淆矩阵定义，混淆矩阵如表1所示：

表1

精确率：

召回率：

特异度：

F1值：

当数据不均衡时，G-mean具有很大的参考价值。因为此参数综合考虑了两类的分类性能，当分类偏向于多数类时，Recall值较高，但Specificity值接近于0，因此G-mean值也相应较低，偏向于少数类时同理。

在引入核距离时，核函数选择了高斯核函数。

高斯核函数：

其中σ为函数参数。

各算法在测试集上的计算结果如表2和表3所示。

表2各方法性能评估指标结果

方法	准确率	精确率	召回率	F1-score	G-mean
						不平衡数据	0.94	0.90425	1	0.949720	0.6324
SMOTE上采样	0.75	0.98387	0.71764	0.82993	0.71764
						ADASYN上采样	0.67	0.95588	0.635294	0.76595	0.63529
BorderlineSMOTE	0.77	0.95588	0.7647	0.84967	0.7647
						本文方法	0.97	0.98809	0.97647	0.98224	0.96747

各方法混淆矩阵如表3所示。

表3.各方法混淆矩阵

通过实验结果可见，本发明所提方法对比传统方法在各个种评价指标上均获得了较好的结果，证明本方法在流化床结块故障监测问题中的有效性。

Claims

1.基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法，该方法包括如下步骤：

步骤S1：利用声波传感器采集流化床外壁振动信号，进行人工标注并提取特征；故障样本数量取决于采样期间发生结块故障的次数，本方法至少需要故障样本十几个；由于故障样本数量远远少于正常样本，因此形成不平衡样本集；

步骤S2：针对上述步骤中产生的样本集不平衡问题，计算获得平衡样本集即故障样本与正常样本数量大致相当时，通过上采样方法生成的故障样本数量；

步骤S3：估计故障样本的概率密度分布函数，并以此为参考生成新的故障样本；

步骤S4：评估生成新的故障样本的合理性，利用接受拒绝采样判断其是否符合原始结块故障样本的概率密度分布，若满足则保留，若不满足则剔除；最终获得符合原故障样本概率密度分布的新故障样本；将新故障样本加入原始故障类样本中，此时故障样本的数量与正常样本数量相当，训练集不平衡问题得到解决，新的平衡样本集用于结块故障建模；

步骤S5：进行结块故障离线建模，在新的平衡样本集基础上，利用支持向量机算法得到最终的结块故障监测模型，用于在线监测结块故障；

步骤S6：进行结块故障在线监测预警；通过振动监测装置实时获取振动信号进行特征提取，送入步骤S5所得到的故障监测模型中实时监测流化床装置运行状态，出现结块信号则报警，实现在线监测。

2.根据权利要求1所述的基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法，其特征在于：步骤2包含如下流程，

步骤S2-1：计算结块故障样本和正常样本的比例，定义为不平衡度；计故障样本个数为N₊，人工标注的正常工况样本为N_-，其中N₊＜＜N_-；则不平衡度为：

D＝N₊/N_- (1)

步骤S2-2：计算需要生成的故障样本数量为：

G＝(N_--N₊)×β (2)

其中β∈[0，1]，当β＝1时，上采样后的数据集为完全平衡数据集，β＝0时则不进行上采样；在实际应用中根据情况选择；

步骤S2-3：对每个故障样本利用核距离计算其k近邻，同时计算其中正常样本邻居占比r，并进行标准化：

r_i＝Δ/k (3)