CN110363230A - 基于加权基分类器的stacking集成污水处理故障诊断方法 - Google Patents

基于加权基分类器的stacking集成污水处理故障诊断方法 Download PDF

Info

Publication number
CN110363230A
CN110363230A CN201910566728.3A CN201910566728A CN110363230A CN 110363230 A CN110363230 A CN 110363230A CN 201910566728 A CN201910566728 A CN 201910566728A CN 110363230 A CN110363230 A CN 110363230A
Authority
CN
China
Prior art keywords
base classifier
sample
classifier
output
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910566728.3A
Other languages
English (en)
Other versions
CN110363230B (zh
Inventor
许玉格
莫华森
罗飞
邓晓燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910566728.3A priority Critical patent/CN110363230B/zh
Publication of CN110363230A publication Critical patent/CN110363230A/zh
Application granted granted Critical
Publication of CN110363230B publication Critical patent/CN110363230B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于加权基分类器的stacking集成污水处理故障诊断方法,用均值法补全污水数据中属性不完整的样本的缺陷项,将其归一化到[0,1]区间中;设置基分类器隐层节点数、正则化系数、核宽度的最优参数;利用处理好的训练样本对基分类器进行3折交叉验证,获得基分类器的原始输出,并得到每个基分类器对于训练样本集的G‑mean值;根据基分类器G‑mean值,定义权值计算公式,得到每个基分类器的输出权值;将基分类器的原始输出转化为概率型输出,结合其输出权值,构造出元训练集;利用元训练集对元分类器进行训练,得到最终的诊断模型。本发明可以提高污水处理过程中故障诊断的整体性能。

Description

基于加权基分类器的stacking集成污水处理故障诊断方法
技术领域
本发明涉及污水处理故障诊断的技术领域,尤其是指一种基于加权基分类器的stacking集成污水处理故障诊断方法。
背景技术
污水处理是一个复杂的,多变量的生化过程。污水处理厂发生故障容易引发一系列严重的污水污染问题。而污水处理过程的故障诊断可转化为一个模式识别的分类问题。污水数据由定期将污水厂采集到的数据及其当前工作状态组成,一段时间内的污水数据组成污水数据集。由于合格的污水处理厂发生故障的频率很低,采集到的污水数据集中故障状态下的数据往往远少于正常状态下的数据。这就导致污水数据集是分布高度不平衡集,即污水处理过程的故障诊断是一个数据不平衡的分类问题。
传统学习算法往往基于总体准确率对参数进行优化,这容易使分类结果更偏向多数类。但在现实应用场合更被看重的是少数类的分类准确率,即在污水处理故障诊断场合,更重要的是准确分类出作为少数类的故障类。准确分类出作为少数类的故障类对及时诊断污水处理厂的运行故障并及时进行处理有巨大的帮助。及时诊断并处理污水故障可稳定出水水质并减少污水对环境的污染,并减少维护费用。因此,应注重研究及时精确少数类的故障类的故障诊断算法。
发明内容
本发明的目的是为了解决现有学习算法里对污水故障识别效果不佳的缺陷,提出了一种基于加权基分类器的stacking集成污水处理故障诊断方法,通过构造一个两层的叠加式框架结构,选择3种对不平衡数据有不错分类效果的分类算法,即SVM,RVM,WELM作为基分类器,得到基分类器的权值,并对基分类器的输出结果进行加权融合,并选择WELM作为最终输出诊断结果的分类器。实验证明,本方法提高了对污水处理故障类的分类准确率,进而有效提高了污水处理过程中故障诊断的整体性能。
为实现上述目的,本发明所提供的技术方案为:基于加权基分类器的stacking集成污水处理故障诊断方法,包括以下步骤:
1)原始污水数据中某些样本在某些属性上如化学需氧量COD,生化需氧量BOD等上存在缺失值,对这些样本采用均值法补全其缺失值,并将所有属性值归一化到[0,1]区间;
2)利用步骤1)中处理好的完整的污水样本作为Stacking两层学习框架中的第一层基分类器的原始输入,其中基分类器选择SVM,WELM,RVM(支持向量机,加权极限学习机,相关向量机),分别对3个基分类器进行3折交叉验证,得到第一层学习对每个污水样本的诊断结果,即3个基分类器对于每个污水样本在4个类别上的输出值,并且得到3个基分类器对于训练样本的G-mean;
3)根据步骤2)中得到的G-mean值,定义基于G-mean值的基分类器输出权值计算公式,获得基分类器hi(x)对应的输出权值αi
4)将步骤2)中的输出结果转化为概率型输出,即得到了每个原始污水样本分别属于4个类别的概率值,利用每个样本属于4个类别的概率值乘以步骤3)中获得的基分类器的权值αi,加上原始的类别标签,构造成新的训练集,称为元训练集;
5)用步骤4)得到的元训练集作为Stacking两层学习框架中第二层元分类器的输入,其中选择WELM作为第二层的元分类器,得到最终的诊断模型Mstacking
6)用步骤1)相同的方法填补污水待测数据的缺失值,并将其归一化到[0,1]区间,通过第一层基分类器在训练样本D上训练学习产生的模型Mk,K=1,2,3(分别对应3个基分类器),对处理后的待测数据输出预测结果;
7)对步骤6)中的预测结果用步骤4)相同的方法进行处理,在此基础上构成Mstacking的输入,其输出分类结果即为待测数据对应的故障诊断结果;
8)进行参数寻优,需要寻优的参数有WELM模型的隐层节点数L、最优正则化系数C及RVM模型的核宽度σ,寻优方法为网格法,以寻优得到的最优参数为基础,训练基分类器和元分类器。
在步骤2)中,3折交叉验证具体过程如下:
将训练数据集D随机分为3个大小基本相等的数据集D1,D2,D3,定义Dj和D-j=D-Dj(j=1,2,3)分别为3折交叉验证的第j折测试集和训练集。在训练集D-j上训练基分类器得到模型对于测试集Dj中的每一个样本,模型会输出一个预测结果。当交叉验证过程结束,则可以得到基分类器对于整个训练样本的输出结果。
在步骤3)中,基分类器hi(x)输出权值αi可表示为:
其中,GMi为第i个基分类器对于训练样本集的G-mean值,c为基分类器个数。
所述步骤4)包括以下步骤:
4.1)基分类器WELM的输出为数值输出,通过下述公式将数值输出转化为概率形式:
其中,x为某一样本,i为类别标签,m为类别个数,fi(x)为该样本属于标签i的原始输出,pi(x)为该样本属于标签i的概率型输出。通过此方法将基分类器WELM原输出结果A1为概率型输出结果A1';
4.2)SVM和RVM的基本模型是针对二分类问题的,其输出为硬判决输出,即对于一个样本的预测结果为0和1;在本方法中,基分类器SVM和RVM是利用一对一策略构建的多分类器,通过下述公式将硬判决输出转化为概率形式:
其中,x为某一样本,i为类别标签,m为类别个数,fi(x)为该样本属于标签i的原始输出,pi(x)为该样本属于标签i的概率型输出;通过此方法将基分类器SVM和RVM原输出结果A2,A3转化为概率型输出结果A2',A3';
4.3)将A1',A2',A3'和训练集标签拼接起来构造成新的训练集,即[A1'*α1 A2'*α2A3'*α3 train_label](train_label为原始训练样本类别标签),也称为元训练集。
在步骤8)中,基分类器及元分类器的网格法寻优参数具体如下:
寻找隐层节点数L、最优正则化系数C及RVM模型的核宽度σ的参数组合以满足算法的最优性能,L的寻优范围为{10,15,20,…,500},步长为5;C的寻优范围为{20,21,…,218},步长为1;σ的寻优范围为{2-2.5,2-2.4,…,22.5},步长为0.1。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明方法采用stacking元学习策略构造了一个两层的叠加式结构作为整体算法框架,其中基分类器的输出作为元分类器的输入,使低层学习能够充分用于高层的归纳过程,进而发现并且学习基分类器在初始训练集上产生误差的原因,从而提高最终诊断结果的正确率。
2、本发明利用元学习策略对不同的基分类器的输出结果进行融合,降低了单个基分类器在分类不平衡数据时可能会出现的偏差,有效减少了学习过程中出现过拟合现象的风险,基分类器的多样性增强了算法的稳定性。
3、本发明在对不同的基分类器的输出结果进行融合的同时,引入了基分类器的权值,降低单个分类器在分类不平衡数据时可能会出现的偏差造成的影响,使得融合结果更加稳定。
4、更注重不平衡污水数据中的故障类数据的分类性能,本发明采用G-mean值计算基分类器相应的权值,定义了基于G-mean的基分类器输出权值更新公式,提高了故障类别的识别正确率。
5、本发明选择支持向量机,相关向量机,加权极限学习机作为基分类器,这三种分类模型对不平衡数据都具有不错的分类效果,单个基分类器的有效性保证了融合结果的可靠性。
6、采用加权极限学习机作为本发明的元分类器,利用加权极限学习机的训练时间较短的优势加快了最终决策模型的学习速度,实现对污水处理状态实时准确的检测。
7、本发明的基分类器和元分类器都通过采用加权极限学习机引入样本权值矩阵,通过对不同类别的样本分配不同的权值,一定程度上降低了样本的不平衡性,提高了污水故障诊断的整体G-mean值。
附图说明
图1为本发明方法的训练流程图。
图2为本发明方法的故障诊断流程图。
具体实施方式
为更加清楚地表述本发明实施例的目的、技术方案和优点,下面将结合本发明实施例中的附图来对本发明实施例中的技术方案进行全面的描述。需要指出的是本实施例仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例、本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本文采用加州大学数据(UCI)中的污水处理厂数据做为实验仿真的数据。污水测量数据来自西班牙某城市的污水处理厂,该处理厂包括三级处理,一级处理为预处理,二级处理为活性污泥处理,最后进行氯化处理。污水处理厂历时两年通过传感器获取和生化处理之后系统的性能指标计算得到的527个样本。每个样本有38维属性,每个属性的含义如表1所示。将污水处理厂的运行状态分为13种,具体状态类别及其分布情况如表2所示。
表1污水数据属性的名称和含义
表2状态类别及其分布情况
由表2可见,正常状态下的样本数远大于其他状态的样本数。其中,第2、3、4、6、7、8、10、12、13类每类样本数最多只有4个。为降低故障诊断过程的复杂性,将样本重新分为4类,分类结果如表3所示。
表3 527个样本在4分类下的分布情况
在新的分类中,第一类表示正常状态,包括原始数据的第1、11类;第二类为正常状态但某些性能指标超过了平均值,包括原始数据第5类;第三类为正常状态但是进水流量低,包括原始数据第9类;第四类为故障类情况,包括原始数据的第2,3,4,6,7,8,10,12,13类。其中将第一、二类样本视为多数类,而第三、四类为少数类。结合表3各类的样本数容易看出,污水数据属于典型的重度不平衡数据。
由于各种现实原因,污水数据有时不能完整的记录某个时刻所有属性的数据。所有属性数据都被完整地记录下来的样本只有380个,其中包括6个第四类样本。直接删去不完整数据样本会损失大量少数类样本的信息。因此对污水数据的缺失数据进行填补。
目前存在成熟实用的数据填补方法,常用的数据填补方法有平均值填补法、特殊值填补法和最近邻距离填补法等。本发明采用近邻均值填补法对缺陷数据进行填补。具体做法是取缺陷数据近邻的5个数据的对应属性均值来作为缺陷数据的填补值。使用经过数据填补处理后的527个污水数据进行仿真实验。
在进行仿真实验时,传统学习算法采用的总体准确率已无法再作为不平衡数据学习的评价指标。G-mean的中心思想是在使每类的分类准确率都尽可能大的同时,保持每个类别分类准确率之间的平衡。进行不平衡数据学习时,G-mean值在不平衡数据学习场合的性能使更注重评价分类器在少数类样本的分类准确率。本实施例采用G-mean值作为仿真实验结果的评价指标。
本实施例是多分类问题。对k类问题,G-mean的混淆矩阵如表4所示:
表4 k类问题的混淆矩阵
其中,第i类样本正确预测为第i类的样本个数为nii,预测错误的样本个数为nij(i≠j)。Ri分别表示对第i类样本的召回率其定义为:
G-mean定义为所有类的召回率的几何平均值,计算公式如下:
以下称本发明的故障诊断方法为WBC-Stacking(Weighted Base ClassifierStacking),本发明在本实施例的具体实施过程,如图1和图2所示,包括以下步骤:
1)采用两层的叠加式结构作为整体算法框架,选择SVM,RVM,WELM作为第0层的基分类器,选择WELM作为第一层的元分类器,其中第0层基分类器的输出作为第一层元分类器的输入。具体应用中包括:
1.1)用训练样本分别对3个基分类器进行3折交叉验证,得到3个基分类
器对训练样本的输出结果。
此处对本发明中应用的3个基分类器介绍如下:
设输入训练集为X={(x1,y1),(x2,y2),...(xN,yN)}。训练集共有N个样本,样本含d个特征,被分为K类。其中yi为训练样本xi所对应的类别标签。yi为K维行向量。yi中只有{+1,-1}两种元素,有
1.1.1)支持向量机(SVM)基础模型是解决二分类问题的,遵循结构风险最小化是支持向量机用来构造决策超平面的重要准则,使得两类样本之间的分类间隔最大化,即需要解决以下优化问题:
yi(ω·xi+b)-1≥0,i=1,2,...,N (9)
式中,ω为权向量,b为分类阈值。非松弛变量xi≥0,C为惩罚系数,其值的大小影响的精度。把式(8)和式(9)转化为下列对偶问题:
式中,K(x,y)=h(x)·h(y)为核函数,它将样本数据从低维空间映射到线性可分的高维空间,通过选择合适的核函数与惩罚系数构造并找到最优解其中b*可以由任一支持向量用式求得,由此得到分类决策函数:
1.1.2)加权极限学习机(WELM)采用单隐层前馈神经网络(single-hidden layerfeedforward networks,SLFN)结构作为整体框架。设定隐含层节点个数为L,极限学习机的输出模型可表示为:
其中,βi表示第i个隐藏节点其对应输出节点的输出权值,δi表示输入层与第i个隐含节点的输入权值。θi为第i个隐含节点的偏置参数。oj为第j个训练样本下模型对应的输出。G(δii,xj)为每个隐含层的激活函数,本实施例激活函数采用Sigmoid函数。
在训练过程中期望WELM模型的输出无误差的对训练集X进行拟合,有
有激发函数矩阵H写作
输出权值矩阵β写作
(15)式可写作
Hβ=Y (18)
其中
加权极限学习机训练目的是求取隐层节点向输出节点输出时的输出权值。为了解决不平衡分类问题将极限学习机(Extreme Learning Machine,ELM)和加权策略进行结合得到的改进算法。根据类别对每个训练样本xi赋予一个权值wi,有
其中#ci为训练集中类别正好为训练样本xi的类型ci的样本数。
有权值矩阵W写作
当激活函数G(δii,xj)无限可微时,参数δi,θi在训练开始时可随机选定,且在训练过程中不需要进行更改。其中δi在(-1,1)范围下随机生成,θi在(0,1)范围下随机生成。这时WELM的训练过程可转化为求解式(18)的最小二乘解,即转化为下列优化问题
其中ξi为对样本xi分类器的训练误差。通过KKT最优化条件定义Lagrange函数来求解式(11)的二次优化问题。定义li为Lagrange乘数,将式(20)转化为
通过求解式(21)可得hi(x)的隐层输出权值矩阵βi的解为
1.1.3)相关向量机(RVM)
1.1.3.1)RVM回归模型
给定训练样本集xn∈Rd,tn∈R,N是样本数目,n是样本序号,d是样本属性维度,根据标准概率公式,假设目标是带有噪声的样本:
tn=y(xn;w)+εn (27)
其中函数y(x)被定义为
其中K(x,xi)表示核函数;wi表示模型的权值,w=[w0,w1,…wN]T是权值向量,εn为附加噪声,且满足高斯分布,即:εn~(0,σ2),因此有tn~N(y(xn,w),σ2),假设目标值tn之间是相互独立的,那么训练集的似然估计概率为:
其中t=[t0,t1,…tN]T,φ是一个N×(N+1)维的由多个核函数组成的一个高维的构造矩阵,φ=[φ(x1),φ(x2),…φ(xN)]T,这里的φ(xn)=[1,K(xn,x1),K(xn,x2),…K(xn,xN)]T。随着样本数目的增多,模型中参数的个数也会增加,如果对模型中的权值向量w和噪声方差进行最大似然估计,那么可能会导致模型过拟合,为了避免该问题,采用采用贝叶斯学习的方法,对权重参数进行先验假设,这种做法已经在支持向量机中应用并且得到不错的效果,即给权值参数定义一个零均值的高斯先验分布
α是N+1维的超参数向量,它决定着权值w的先验分布,经过多次迭代后,大部分超参数都会趋向于无穷大,对应的权值此时为0,以此保证模型的稀疏性。
同样需要对模型中的超参数α和噪声方差σ2进行限制,因为这些参数变量都是标量,所以采用比较适合伽马分布对其进行假设,即:
p(β)=Gamma(β|c,d) (33)
式中:β=α-1,并且
Gamma(a|a,b)=Γ(α)-1baαn-1e-ba (34)
式中为伽马函数,为了确保这些参数都是无先验知识的,将它们取很小的值,比如a=b=c=d=0.0001,通常取a=b=c=d=0。
根据贝叶斯理论,可得所有的参数在给定的训练样本数据集上的后验分布为:
给定一个新的测试样本Xn,可以得到对应的目标值ti的概率分布为:
p(t*|t)=∫p(t*|w,α,σ2)p(w,α,σ2|t)dwdαdσ2 (36)
由于很难对p(tn|t)=∫p(tn|w,α,σ2)p(w,α,σ2|t)dwdαdσ2进行积分运算,可以把后验概率公式分解为:
p(w,α,σ2|t)=p(w|t,α,σ2)p(α,σ2|t) (37)
由于权值的积分p(t|α,σ2)=∫p(t|w,σ2)p(w|α)dw是一种高斯卷积,可以得到权值后验分布为:
其中后验概率方差与均值分别为:
Σ=(σ-2φTφ+A)-1 (39)
u=Σσ-2φTt (40)
其中A=diag(α01,…,αN)。
直接求解P(α,σ2|t)很难,可以采用超参数α和方差σ2,最可能得到值αMP处的Delta函数近似代替P(α,σ2|t),基于最大概率思想,并不需要严格的要求只需要近似地满足:
所以有:
综合上述公式可以得到,相关向量机求解转化成了极大化p(t|α,σ2),这样可以求出αMP因此可以得到:
其中C=(σ2I+φA-1φT)-1,对上式取对数可以得到:
对超参数α和方差σ2分别求偏导数,并令倒数为0,解方程可以得到超参数的迭代更新公式:
其中yi=1-αiΣiiii为后验权重协方差矩阵Σ的第i个对角线元素,ui表示第i个权重后验均值。同样可以求得噪声方差的迭代更新公式:
这里N表示的是训练数据样本的个数,而不是基函数的个数,通过迭代计算公式不断更新超参数α和方差σ2,同时通过不断更新协方差矩阵和权重后验均值,直到达到预先设定的收敛条件满足为止。通过不断地迭代计算,最终大部分超参数αi会趋向于无穷大,对应的权值后验概率会趋向于0,也就是对应的权重wi会趋向于0,所以这些权值对应的基函数会从模型中删除,不会对模型产生影响,从而实现了模型的稀疏性。
继续对p(t*|t)=∫p(t*|w,α,σ2)p(w,α,σ2|t)dwdαdσ2进行整理得到:
式中待测样本的先验分布和权值的后验分布都是服从高斯分布,所以p(t*|t)也服从高斯分布,上式可以写为:
式中y*表示预测输出,为模型预测方差,给定待测样本输入x*,计算如下:
1.1.3.2)RVM分类模型
在RVM分类中,分类模型最终的输出是类别的概率。对于一个二分类的问题,目标值tn∈{0,1},给定一个输入变量xn,期望获取它相对于每一类的后验概率,在这里对最后输出y(x;w)引入链接函数σ(y)=1/(1+e-1),使得后验概率p(t|x)服从伯努利分布,这样就可以得到目标向量t的似然函数为:
与回归模型不一样,这里不能直接计算权重后验概率p(w|t,α)或边际似然函数p(t|α)。针对此问题,可以采用基于拉普拉斯逼近的方法来解决,具体如下:
(1)首先对于已知的超参数α的值,通过迭代计算后验概率分布给出最可能的权重值wMP。由于p(w|t,α)∝p(t|w)p(w|α),因此可以将权重后验分布概率极大化的过程转化为对p(t|w)p(w|α),的极大化,根据逻辑似然对数有:
其中yn=σ{y(xn;w)}。对上式采用二阶牛顿迭代方法可以快速的找到wMP
(2)然后对后验分布的对数形式进行二次逼近,即对上式进行二阶求导,可以得到:
其中B=diag(β12,…,βN)是一个对角矩阵,βn=σ(y(xn))[1-σy(xn)],H为海森矩阵。协方差矩阵Σ可通过对H取负号再求逆得到。
(3)利用协方差矩阵Σ和wMP(代替μ)的高斯逼近,超参数α可以利用迭代更新公式更新。
在模型p(w|t,α)中,利用以及可以得到:
Σ=(φTBφ+A)-1
wMP=ΣφTBt (53)
根据得到的协方差和权重,对超参数进行更新,直到满足迭代结束条件。
1.2)定义新的基于不平衡分类性能指标G-mean值的基分类器输出权值计算公式,获得基分类器hi(x)对应的输出权值αi,公式如下:
其中GMi为第i个基分类器对于训练样本集的G-mean值,c为基分类器个数。
1.3)将3个基分类器的输出结果转化为概率型输出,然后在此基础上构造新的训练集,也称为元训练集,主要包含以下步骤:
1.3.1)基分类器WELM的输出为数值输出,通过下述公式将数值输出转化为概率形式:
其中x为某一样本,i为类别标签,m为类别个数,fi(x)为该样本属于标签i的原始输出,pi(x)为该样本属于标签i的概率型输出。通过此方法将基分类器WELM原输出结果A1为概率型输出结果A1'。
1.3.2)SVM和RVM的基本模型是针对二分类问题的,其输出为硬判决输出,即对于一个样本的预测结果为0和1。在本方法中,基分类器SVM和RVM是利用一对一策略构建的多分类器,通过下述公式将硬判决输出转化为概率形式:
其中x为某一样本,i为类别标签,m为类别个数,fi(x)为该样本属于标签i的原始输出,pi(x)为该样本属于标签i的概率型输出。通过此方法将基分类器SVM和RVM原输出结果A2,A3转化为概率型输出结果A2',A3'。
1.3.3)将A1',A2',A3'和训练集标签拼接起来构造成新的训练集,即[A1' A2'A3' train_label],也称为元训练集。
1.4)利用元训练集对元分类器进行训练,得到最终的模型Mstacking
2)输入原始训练数据,设置分类器WELM的隐含层节点L,对应的最优正则化系数C,设置分类器RVM的核宽度σ进行网格法参数寻优,输出最优参数组。
在此实施例中寻找WELM隐含层节点数L、最优正则化系数C及RVM模型的核宽度σ的参数组合以满足算法的最优性能,L的寻优范围为{10,15,20,…,500},步长为5;C的寻优范围为{20,21,…,218},步长为1;σ的寻优范围为{2-2.5,2-2.4,…,22.5},步长为0.1。
本发明在此实现例中的最优参数为:
L=290;C=4;σ=0.9330
3)输入测试数据,步骤2)寻优得到的基分类器的隐含层节点L,对应的最优正则化系数C和RVM模型的核宽度σ,以及步骤1)训练得到Mstacking,Mstacking的输出分类结果即为待测数据对应的故障诊断结果。
根据以上步骤,采用经过数据填补及归一化处理的污水样本集进行仿真实验。实验环境为Intel Core i7处理器、12GB内存、Windows 7平台下的Matlab2014a软件;采用5折交叉验证法,取支持向量机(Support Vector Machine,SVM)、相关向量机(RVM)、加权极限学习机WELM、基于加权极限学习机的Bagging集成算法(Bagging_WELM)作对比算法,基于支持向量机的Bagging集成算法(Bagging_SVM)作对比算法,基于相关向量机的Bagging集成算法(Bagging_RVM),基于加权极限学习机的Adaboost集成算法(Adaboost_WELM),原始Stacking(基分类器选择SVM,RVM,WELM,元分类器选择WELM)作对比算法作对比算法。其中SVM与Bagging_SVM使用径向基核,由Matlab自动寻优得到核函数的比例值,并对预测指标进行标准化。RVM与Bagging_RVM采用网格法对核宽度σ进行寻优,寻优范围及其对应寻优步长与本发明寻优过程设置相同,寻优范围为{2-2.5,2-2.4,…,22.5},步长为0.1。WELM与Bagging_WELM,Adaboost_WELM用网格法寻优,寻找基分类器的隐含层节点数L、正则化系数C和隐含层节点L的寻优范围及其对应寻优步长与本发明寻优过程设置相同,隐含层节点L的寻优范围为{10,15,20,…,500},步长为5;C的寻优范围为{20,21,…,218},其中,步长为1。原始Stacking的寻优参数与寻优范围与本发明完全一致。
实验结果如表5所示。
表5仿真实验结果
Algorithms G-mean% R1% R2% R3% R4%
WBC-Stacking 83.95 89.66 70.5 84.35 93.33
Stacking 82.31 88.99 69.92 79.78 93.33
SVM 66.92 93.76 63.83 52.70 66.67
RVM 77.31 90.75 74.17 62.31 86.67
WELM 75.62 78.18 67.75 85.45 75.33
Bagging_SVM 70.59 90.18 72.83 59.95 66.67
Bagging_RVM 77.28 91.05 73.33 63.48 86.67
Bagging_WELM 75.2 79.91 66.58 84.28 74.67
Adaboost_WELM 76.78 82.3 72 79.39 76
表5给出了本实施例下进行的对比仿真实验结果,同时列出了本发明所用算法(WBC-Stacking)及其对比模型SVM、RVM、WELM、Bagging_SVM、Bagging_RVM、Bagging_WELM、Adaboost_WELM、Stacking的实验结果。其中R1、R2、R3、R4分别表示污水数据四大类对应的每一类的分类准确率。从表中可知,虽然WBC-Stacking对于第一类样本(正常类)的分类准确率较其他对比算法略低,但是在其他三类的分类准确率中较其他算法取得较高的准确率。尤其在重要性最高的第四类(故障类)的分类准确率上,WBC-Stacking的分类准确率比其他对比算法要高。同时,WBC-Stacking在对比实验中取得了最高的整体G-mean值。由此可知,本发明所采用的算法比较适合应用于污水不平衡数据的分类诊断问题。
综上所述,本发明针对污水处理厂的故障诊断问题,重点研究了基于加权基分类器的stacking集成污水处理故障诊断方法。该方法通过构造一个两层的叠加式框架结构,选择3种对不平衡数据有不错分类效果的分类算法,即SVM,RVM,WELM作为基分类器,通过计算其权值后进行加权融合,并选择WELM作为最终输出诊断结果的分类器。仿真实验结果证明该方法提高了污水故障诊断过程中少数类的分类准确率,提高了整体G-mean值,值得推广。
上述实施例为本发明效果较好的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.基于加权基分类器的stacking集成污水处理故障诊断方法,其特征在于,包括以下步骤:
1)原始污水数据中某些样本在某些属性上存在缺失值,对这些样本采用均值法补全其缺失值,并将所有属性值归一化到[0,1]区间;
2)利用步骤1)中处理好的完整的污水样本作为Stacking两层学习框架中的第一层基分类器的原始输入,其中基分类器选择支持向量机SVM、加权极限学习机WELM和相关向量机RVM,分别对3个基分类器进行3折交叉验证,得到第一层学习对每个污水样本的诊断结果,即3个基分类器对于每个污水样本在4个类别上的输出值,并且得到3个基分类器对于训练样本的G-mean值;
3)根据步骤2)中得到的G-mean值,定义基于G-mean值的基分类器输出权值计算公式,获得基分类器hi(x)对应的输出权值αi
4)将步骤2)中的输出结果转化为概率型输出,即得到了每个原始污水样本分别属于4个类别的概率值,利用每个样本属于4个类别的概率值乘以在步骤3)中获得的基分类器的权值αi,加上原始的类别标签,构造成新的训练集,称为元训练集;
5)用步骤4)得到的元训练集作为Stacking两层学习框架中第二层元分类器的输入,其中选择WELM作为第二层的元分类器,得到最终的诊断模型Mstacking
6)用步骤1)相同的方法填补污水待测数据的缺失值,并将其归一化到[0,1]区间,通过第一层基分类器在训练样本D上训练学习产生的模型Mk,K=1,2,3,分别对应3个基分类器,对处理后的待测数据输出预测结果;
7)对步骤6)中的预测结果用步骤4)相同的方法进行处理,在此基础上构成Mstacking的输入,其输出分类结果即为待测数据对应的故障诊断结果;
8)进行参数寻优,需要寻优的参数有WELM模型的隐层节点数L、最优正则化系数C及RVM模型的核宽度σ,寻优方法为网格法,以寻优得到的最优参数为基础,训练基分类器和元分类器。
2.根据权利要求1所述的基于加权基分类器的stacking集成污水处理故障诊断方法,其特征在于,在步骤2)中,3折交叉验证的具体过程如下:
将训练数据集D随机分为3个大小相等的数据集D1,D2,D3;定义Dj和D-j=D-Dj,j=1,2,3,分别为3折交叉验证的第j折测试集和训练集;在训练集D-j上训练基分类器得到模型k=1,2,3,对于测试集Dj中的每一个样本,模型会输出一个预测结果;当交叉验证过程结束,则能够得到基分类器对于整个训练样本的输出结果。
3.根据权利要求1所述的基于加权基分类器的stacking集成污水处理故障诊断方法,其特征在于,在步骤3)中,基分类器hi(x)输出权值αi表示为:
其中,GMi为第i个基分类器对于训练样本集的G-mean值,c为基分类器个数。
4.根据权利要求1所述的基于加权基分类器的stacking集成污水处理故障诊断方法,其特征在于,所述步骤4)包括以下步骤:
4.1)基分类器WELM的输出为数值输出,通过下述公式将数值输出转化为概率形式:
其中,x为某一样本,i为类别标签,m为类别个数,fi(x)为该样本属于标签i的原始输出,pi(x)为该样本属于标签i的概率型输出;通过此方法将基分类器WELM原输出结果A1转化为概率型输出结果A1';
4.2)SVM和RVM的基本模型是针对二分类问题的,其输出为硬判决输出,即对于一个样本的预测结果为0和1;在此,基分类器SVM和RVM是利用一对一策略构建的多分类器,通过下述公式将硬判决输出转化为概率形式:
其中,x为某一样本,i为类别标签,m为类别个数,fi(x)为该样本属于标签i的原始输出,pi(x)为该样本属于标签i的概率型输出;通过此方法将基分类器SVM和RVM原输出结果A2,A3转化为概率型输出结果A2',A3';
4.3)将A1',A2',A3'和训练集标签拼接起来构造成新的训练集,即[A1'*α1 A2'*α2A3'*α3 train_label],也称为元训练集,其中,train_label为原始训练样本类别标签。
5.根据权利要求1所述的基于加权基分类器的stacking集成污水处理故障诊断方法,其特征在于,在步骤8)中,基分类器及元分类器的网格法寻优参数具体如下:
寻找隐层节点数L、最优正则化系数C及RVM模型的核宽度σ的参数组合以满足算法的最优性能,L的寻优范围为{10,15,20,…,500},步长为5;C的寻优范围为{20,21,…,218},步长为1;σ的寻优范围为{2-2.5,2-2.4,…,22.5},步长为0.1。
CN201910566728.3A 2019-06-27 2019-06-27 基于加权基分类器的stacking集成污水处理故障诊断方法 Expired - Fee Related CN110363230B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910566728.3A CN110363230B (zh) 2019-06-27 2019-06-27 基于加权基分类器的stacking集成污水处理故障诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910566728.3A CN110363230B (zh) 2019-06-27 2019-06-27 基于加权基分类器的stacking集成污水处理故障诊断方法

Publications (2)

Publication Number Publication Date
CN110363230A true CN110363230A (zh) 2019-10-22
CN110363230B CN110363230B (zh) 2021-07-20

Family

ID=68215710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910566728.3A Expired - Fee Related CN110363230B (zh) 2019-06-27 2019-06-27 基于加权基分类器的stacking集成污水处理故障诊断方法

Country Status (1)

Country Link
CN (1) CN110363230B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826611A (zh) * 2019-10-30 2020-02-21 华南理工大学 基于多个元分类器加权集成的stacking污水处理故障诊断方法
CN110988263A (zh) * 2019-12-02 2020-04-10 中国科学技术大学 一种基于改进的Stacking模型的车辆尾气浓度估计方法
CN111814836A (zh) * 2020-06-12 2020-10-23 武汉理工大学 基于类不平衡算法的车辆行驶行为检测方法及装置
US20210056246A1 (en) * 2019-08-21 2021-02-25 Northwestern Polytechnical University Method for evaluating reliability of a sealing structure in a multi-failure mode based on an adaboost algorithm
CN112613584A (zh) * 2021-01-07 2021-04-06 国网上海市电力公司 一种故障诊断方法、装置、设备及存储介质
CN113591911A (zh) * 2021-06-25 2021-11-02 南京财经大学 散粮集装箱物流运输过程的级联多类异常识别方法
CN113987912A (zh) * 2021-09-18 2022-01-28 陇东学院 一种基于地理信息的污染物在线监测系统
CN117435981A (zh) * 2023-12-22 2024-01-23 四川泓宝润业工程技术有限公司 机泵设备运行故障诊断方法、装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150356723A1 (en) * 2014-06-06 2015-12-10 Tseng-Hsian Lin System for diagnosing wastewater, apparatus for diagnosing wastewater and method for processing wastewater data
CN107688825A (zh) * 2017-08-03 2018-02-13 华南理工大学 一种改进型的集成加权极限学习机污水处理故障诊方法
CN108228716A (zh) * 2017-12-05 2018-06-29 华南理工大学 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法
CN108304884A (zh) * 2018-02-23 2018-07-20 华东理工大学 一种基于特征逆映射的代价敏感堆叠集成学习框架
CN109558893A (zh) * 2018-10-31 2019-04-02 华南理工大学 基于重采样池的快速集成污水处理故障诊断方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150356723A1 (en) * 2014-06-06 2015-12-10 Tseng-Hsian Lin System for diagnosing wastewater, apparatus for diagnosing wastewater and method for processing wastewater data
CN107688825A (zh) * 2017-08-03 2018-02-13 华南理工大学 一种改进型的集成加权极限学习机污水处理故障诊方法
CN108228716A (zh) * 2017-12-05 2018-06-29 华南理工大学 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法
CN108304884A (zh) * 2018-02-23 2018-07-20 华东理工大学 一种基于特征逆映射的代价敏感堆叠集成学习框架
CN109558893A (zh) * 2018-10-31 2019-04-02 华南理工大学 基于重采样池的快速集成污水处理故障诊断方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
许玉格等: "基于不平衡分类的Bagging集成污水处理故障诊断", 《华南理工大学学报(自然科学版)》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210056246A1 (en) * 2019-08-21 2021-02-25 Northwestern Polytechnical University Method for evaluating reliability of a sealing structure in a multi-failure mode based on an adaboost algorithm
US11657335B2 (en) * 2019-08-21 2023-05-23 Northwestern Polytechnical University Method for evaluating reliability of a sealing structure in a multi-failure mode based on an adaboost algorithm
CN110826611A (zh) * 2019-10-30 2020-02-21 华南理工大学 基于多个元分类器加权集成的stacking污水处理故障诊断方法
CN110988263A (zh) * 2019-12-02 2020-04-10 中国科学技术大学 一种基于改进的Stacking模型的车辆尾气浓度估计方法
CN110988263B (zh) * 2019-12-02 2021-07-06 中国科学技术大学 一种基于改进的Stacking模型的车辆尾气浓度估计方法
CN111814836A (zh) * 2020-06-12 2020-10-23 武汉理工大学 基于类不平衡算法的车辆行驶行为检测方法及装置
CN112613584A (zh) * 2021-01-07 2021-04-06 国网上海市电力公司 一种故障诊断方法、装置、设备及存储介质
CN113591911A (zh) * 2021-06-25 2021-11-02 南京财经大学 散粮集装箱物流运输过程的级联多类异常识别方法
CN113987912A (zh) * 2021-09-18 2022-01-28 陇东学院 一种基于地理信息的污染物在线监测系统
CN117435981A (zh) * 2023-12-22 2024-01-23 四川泓宝润业工程技术有限公司 机泵设备运行故障诊断方法、装置、存储介质及电子设备
CN117435981B (zh) * 2023-12-22 2024-03-01 四川泓宝润业工程技术有限公司 机泵设备运行故障诊断方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN110363230B (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
CN110363230A (zh) 基于加权基分类器的stacking集成污水处理故障诊断方法
CN110009030A (zh) 基于stacking元学习策略的污水处理故障诊断方法
CN108228716B (zh) 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法
CN112070128B (zh) 一种基于深度学习的变压器故障诊断方法
CN113657561B (zh) 一种基于多任务解耦学习的半监督夜间图像分类方法
CN109242223B (zh) 城市公共建筑火灾风险的量子支持向量机评估与预测方法
CN105913450A (zh) 基于神经网络图像处理的轮胎橡胶炭黑分散度评价方法及系统
CN112685504B (zh) 一种面向生产过程的分布式迁移图学习方法
CN103927550B (zh) 一种手写体数字识别方法及系统
CN106127198A (zh) 一种基于多分类器集成的图像文字识别方法
CN110826611A (zh) 基于多个元分类器加权集成的stacking污水处理故障诊断方法
CN111834010A (zh) 一种基于属性约简和XGBoost的COVID-19检测假阴性识别方法
CN109558893A (zh) 基于重采样池的快速集成污水处理故障诊断方法
CN108805193A (zh) 一种基于混合策略的电力缺失数据填充方法
CN103440493A (zh) 基于相关向量机的高光谱影像模糊分类方法及装置
CN109389171A (zh) 基于多粒度卷积降噪自动编码器技术的医疗图像分类方法
CN108877947A (zh) 基于迭代均值聚类的深度样本学习方法
CN111652264A (zh) 基于最大均值差异的负迁移样本筛选方法
CN114266351A (zh) 基于无监督学习时间编码的脉冲神经网络训练方法及系统
CN114879185A (zh) 基于任务经验迁移的雷达目标智能识别方法
CN113869451A (zh) 一种基于改进jgsa算法的变工况下滚动轴承故障诊断方法
CN116485021A (zh) 一种煤炭企业技术技能人才人岗匹配预测方法与系统
CN114859316A (zh) 基于任务相关度加权的雷达目标智能识别方法
CN112257787B (zh) 基于生成式双重条件对抗网络结构的图像半监督分类方法
CN113807005A (zh) 基于改进fpa-dbn的轴承剩余寿命预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210720