CN105740619B - 基于核函数的加权极限学习机污水处理在线故障诊断方法 - Google Patents

基于核函数的加权极限学习机污水处理在线故障诊断方法 Download PDF

Info

Publication number
CN105740619B
CN105740619B CN201610061351.2A CN201610061351A CN105740619B CN 105740619 B CN105740619 B CN 105740619B CN 201610061351 A CN201610061351 A CN 201610061351A CN 105740619 B CN105740619 B CN 105740619B
Authority
CN
China
Prior art keywords
kernel function
weighting
sample
matrix
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610061351.2A
Other languages
English (en)
Other versions
CN105740619A (zh
Inventor
许玉格
邓文凯
邓晓燕
罗飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201610061351.2A priority Critical patent/CN105740619B/zh
Publication of CN105740619A publication Critical patent/CN105740619A/zh
Application granted granted Critical
Publication of CN105740619B publication Critical patent/CN105740619B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Monitoring And Testing Of Nuclear Reactors (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于核函数的加权极限学习机污水处理在线故障诊断方法,包括步骤:1)剔除掉污水数据中属性不完整的数据,然后将数据归一化处理,确定历史数据集和更新测试集;2)选取核函数和加权方案,然后根据最优模型确定模型参数;3)根据所选取的加权方案对历史数据集的每个样本赋予权值;4)训练模型,根据核函数计算核矩阵;5)从更新测试集中添加新样本到模型中进行测试,并更新历史数据集;6)回到步骤3),重新训练模型,不断重复上述过程,直到在线测试数据完毕,从而实现对污水处理过程的在线运行状态的识别。本发明方法更新时间短,分类准确率高,对于实时诊断出运行故障,污水处理厂安全运行,提高污水处理厂的运行效率具有重要意义。

Description

基于核函数的加权极限学习机污水处理在线故障诊断方法
技术领域
本发明涉及污水处理的技术领域,尤其是指一种基于核函数的加权极限学习机污水处理在线故障诊断方法。
背景技术
随着现代工业的迅猛发展和人口的增长,大量生活污水和工业废水排入水体,作为人类赖以生存的水资源遭到了极大的破坏,水污染已成为制约人类发展的主要因素之一。为了阻止水环境进一步恶化,许多国家都采取积极的措施,兴建了大量的污水处理厂。但污水生化处理工艺很复杂,影响因素非常多,污水处理厂在实际运行过程中难以保持长期稳定的运行,容易引起出水水质不达标、运行费用增高和环境二次污染等严重问题,所以必须对污水处理厂运行状态进行监控,及时诊断出污水处理过程故障并予以处理。
污水处理运行状态的故障诊断本质上是一个模式分类问题,而在实际状态运行分类中,常常会遇到污水数据集的分布不均衡问题,传统的机器学习方法在用于不平衡数据分类时,模型分类正确率无法满足要求,给污水生化处理的故障诊断带来了极大的困难;同时在实际过程当中,故障诊断实际上是一个连续的学习过程,其突出的一个特点就是学习不是一次离线进行的,而是数据逐一加入的,不断进行优化的过程。在线学习方法要求在获得下一个数据之前必须完成训练,否则会影响下一步决策的完成,而且污水处理厂的运行出现的故障信息尤为重要,所以在线故障诊断系统更加注重的是快速性和准确性。
发明内容
本发明的目的在于克服现有技术的缺点和不足,提供一种基于核函数的加权极限学习机污水处理在线故障诊断方法,以保证污水处理过程的在线故障诊断的准率性和实时性。
为实现上述目的,本发明所提供的技术方案为:基于核函数的加权极限学习机污水处理在线故障诊断方法,包括以下步骤:
1)剔除掉污水数据中属性不完整的数据,然后将数据归一化处理,确定历史数据集xold和更新测试集xnew
2)选取核函数和加权方案,根据最优模型确定模型参数;
3)根据所选取的加权方案对历史数据集xold的每个样本赋予权值,求出加权矩阵W;
4)训练模型,根据核函数计算核矩阵ΩELM
5)从更新测试集xnew中添加k个新样本到模型中进行测试,并保存分类测试结果,将其添加到历史数据集中,去掉历史数据集中前k个样本;
6)回到步骤3),更新W和ΩELM,重新训练模型,不断重复上述过程,直到在线更新数据测试完毕,得到最终在线测试结果,从而实现对污水处理过程的在线运行状态的识别。
在步骤2)中,对加权方案和核函数的选取以及最优模型参数的确定如下:
首先对于加权方案的选取,这里有两种加权方案,第一种加权方案为:
其中,W1为第一种加权方案的加权矩阵,Count(ti)为训练样本中类别为ti对应的样本数量;
另一种加权方案为:
W2为第二种加权方案的加权矩阵;
对于核函数的选取,有下面四种常用的核函数:
①径向基RBF核函数:
②线性核函数:
K(x,x′)=x·x′ (4)
③p阶多项式核函数:
K(x,x′)=[(x·x′)+1]p,p=1,2,3... (5)
④Sigmoid核函数:
K(x,x′)=tanh[a(x·x′)+b] (6)
考虑到p阶多项式核函数的参数为两个,要比RBF核函数更多,且当多项式的阶数比较高时,核矩阵的元素值将趋于无穷大或无穷小,会增加数值的计算困难;而Sigmoid核函数必须在某些特定条件下才满足对称、半正定的核函数条件,并且有两个参数要选取,其应用上受到一定的限制;
所以,首先选取径向基核函数RBF,然后分别选取不同的加权方案进行离线测试并记录测试结果,然后选取第一种加权方案,分别选取径向基RBF核函数和线性核函数进行离线测试并记录测试结果,以测试分类准确率、各类准确率、所有类准确率的几何平均值以及训练时间作为性能指标,分析不同加权方案和核函数的选取对模型性能的影响,最终确定模型的加权方案和核函数:第一种加权方案W1和RBF核函数;
关于最优模型参数的确定,对模型的参数正规化系数C和RBF核函数参数σ采用网格搜索法,选取根据权利要求1中的步骤得到的在线故障诊断最优测试结果所对应的参数为最优参数;
在步骤3)中,根据所选取的加权方案对历史数据集xold的每个样本赋予权值,求出加权矩阵W的过程如下:
根据步骤2)所确定的加权方案W1,采用公式(1)来计算每个污水训练样本的权值,最终可以用以下方式求得加权矩阵W:对于N个污水训练样本,T表示训练样本的类别,Count(class X)表示训练样本中类别X的样本个数,对每个样本根据其类别计算出该类别的总的样本个数,也就是Count(class X)),从而可以求得该样本的权值Wii=1/Count(classX);
在步骤4)中训练模型,根据核函数计算核矩阵ΩELM如下:
给定N个污水数据集的训练样本{xi,ti},i=1,...,N,xi∈Rd,N为样本个数,d为样本属性维数,含有L个节点的标准极限学习机SLFN的数学模型表示如下:
其中,βi表示第i个隐藏神经元与所连接输出神经元的输出权值,G为隐藏层神经元激活函数,wi表示输入层与第i个隐藏神经元的输入权值,bi表示第i个隐藏神经元的偏置,oj为第j个输出神经元的实际输出值,x为神经网络输入,tj为神经网络输入目标值;
对于数量为N的样本{xi,ti},i=1,...,N,存在一个(wi,bi)和βi,有使得该SLFN的模型零误差逼近样本集{xi,ti},i=1,...,N,也就是说隐藏层前向神经网络能够无误差的对其进行拟合,即:
将上式表示为:
Hβ=T(9)
其中
其中,H为输出矩阵,β为输出权值矩阵,T为输出层输出矩阵;
当激活函数G无限可微时,SLFN参数不需要全部进行调整,输入链接权重wi和隐藏层偏置bi在网络参数初始化的过程中随机选定,并且在训练过程中保持不变,那么训练SLFN就等价于求解线性系统Hβ=T的最小二乘解,从而获取β的值,也就可以转化为下面的优化问题:
Minimize:||Hβ-T||2和||β|| (11)
该优化问题以数学的形式表示为:
Minimize:
Subject to:
其中,ξi=[ξi,1,...,ξi,m]T是训练样本xi在第m个输出节点的输出值与真实值之间的误差向量;由隐藏层神经元输出的Moore-Penrose广义逆矩阵H+可解得:
β=H+T (13)
正交投影法KKT能够有效地对Moore-Penrose广义逆矩阵进行求取;当HTH或HHT为非奇异矩阵的情况时H+=(HTH)-1HT或H+=HT(HTH)-1;为了使所得到的模型获得更好的稳定性和泛化性能,在求解β时对HTH或HHT对角线元素加上一个足够小的正值1/C:
相应的输出函数为:
或者当:
相应的ELM的最终的输出函数为:
在这种ELM算法的实现方式中,隐藏层神经元数量的选择区间可以很大,并且可以不根据训练样本数量N进行确定,即能够使L≤N,也能够使L≥N;在这一点上,这种方式与插值理论中所要求的L≤N所矛盾,但仍与广义逼近理论一致;
同理,加权极限学习机WELM使用相对于奇异值分解法SVD更稳定的正交投影解法求解β,然后通过对个样本进行加权,使得属于不同类的样本获得不同的权值,进而得到更好的分类准确率,所以上述的优化问题的数学形式改写成:
Minimize:
Subject to:
其中,W是定义的一个N×N的对角矩阵,每一个主对角元素Wii都对应着一个样本xi,不同类别的样本将会自动分配不同的权值;
根据KKT最优化条件,定义Lagrange函数求解该二次规划问题,则等效为求解下面的公式:
Minimize:
其中,αi为Lagrange乘数,切都是非负数;相应的KKT优化限制条件为:
WELM算法求解隐藏层输出权重表示为:
同样,基于核函数的极限学习机KELM算法是基于ELM提出的,当隐藏层特征映射h(x)为未知的情况下,将ELM的核矩阵定义如下:
ΩELM=HHTELMi,j=h(xi)·h(xj)=K(xi,xj) (22)
这里核函数需要满足Mercer条件,使用径向基RBF为核函数,即:
而式ELM的输出表达式(9)写成:
给定一个训练集{xi,ti},i=1,...,N和核函数K(u,v),KELM网络的输出方程为:
WELM通过引入加权矩阵来处理不平衡数据,而KELM算法在引入核函数后,综合两者的特性,就可以得出,给定一个训练集{xi,ti},i=1,...,N和核函数K(u,v),根据上面公式求得加权矩阵W和核函数矩阵ΩELM后,得到最终基于核函数的加权极限学习机的输出方程为:
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明建立了一种基于核函数的加权极限学习机污水处理的在线故障诊断模型。首先建立基于核函数的加权极限学习机的离线模型,然后根据工况添加数据进行实时诊断并更新模型,等待下一次故障诊断,从而建立了在线故障诊断模型。通过加权极限学习机算法并建立最优模型使得在线故障诊断方法更新时间短,分类准确率高,对于实时诊断出运行故障,为污水处理厂安全运行,提高污水处理厂的运行效率具有重要意义。
2、本发明中所涉及到的极限学习机(ELM)算法无需反复调整隐层参数,直接将传统单隐层前馈神经网络参数训练问题转化为求解线性方程组,训练速度得到了极大地提高,泛化性能更好;加权极限学习机(WELM)继承了ELM的快速训练和较好的泛化能力,并且通过对不同数量的样本类进行加权恢复样本类间的平衡性,提高对少数类样本的辨识能力;核函数极限学习机(KELM)也是在ELM算法之上结合核函数所提出的改进算法,通过结合核函数,对线性不可分的模式进行非线性映射到高维特征空间从而实现线性可分,进一步提高了分类的准确率。所以,本发明采用的一种基于核函数的加权极限学习机的方法对污水处理过程进行在线故障诊断建模,能够保证污水处理过程的在线故障诊断的准率性和实时性。
附图说明
图1为本发明模型选取径向基核函数时不同加权方案的离线测试结果:“RX acc”表示的是类别X的分类正确率,“Train acc”表示训练分类正确率,“Test acc”表示测试分类正确率,“G-mean”表示所有类的召回率的几何平均值。
图2为本发明模型选取径向基核函数时不同加权方案的离线测试结果:“Traintime”表示训练时间,“Test time”表示测试时间。
图3为本发明模型选取第一种加权方案时不同核函数的离线测试结果:“RX acc”表示的是类别X的分类正确率,“Train acc”表示训练分类正确率,“Testacc”表示测试分类正确率,“G-mean”表示所有类的召回率的几何平均值。
图4为本发明模型选取第一种加权方案时不同核函数的离线测试结果:“Traintime”表示训练时间,“Test time”表示测试时间。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本发明所述的基于核函数的加权极限学习机污水处理在线故障诊断方法,包括以下步骤:
1)剔除掉污水数据中属性不完整的数据,然后将数据归一化处理,确定历史数据集xold和更新测试集xnew
2)选取核函数和加权方案,根据最优模型确定模型参数;
3)根据所选取的加权方案对历史数据集xold的每个样本赋予权值,求出加权矩阵W;
4)训练模型,根据核函数计算核矩阵ΩELM
5)从更新测试集xnew中添加k个新样本到模型中进行测试,并保存分类测试结果,将其添加到历史数据集中,去掉历史数据集中前k个样本;
6)回到步骤3),更新W和ΩELM,重新训练模型,不断重复上述过程,直到在线更新数据测试完毕,得到最终在线测试结果,从而实现对污水处理过程的在线运行状态的识别。
在步骤2)中,对加权方案和核函数的选取以及最优模型参数的确定如下:
首先对于加权方案的选取,这里有两种加权方案,第一种加权方案为:
其中,W1为第一种加权方案的加权矩阵,Count(ti)为训练样本中类别为ti对应的样本数量;
另一种加权方案为:
W2为第二种加权方案的加权矩阵;
对于核函数的选取,有下面四种常用的核函数:
①径向基RBF核函数:
②线性核函数:
K(x,x′)=x·x′ (4)
③p阶多项式核函数:
K(x,x′)=[(x·x′)+1]p,p=1,2,3... (5)
④Sigmoid核函数:
K(x,x′)=tanh[a(x·x′)+b] (6)
考虑到p阶多项式核函数的参数为两个,要比RBF核函数更多,且当多项式的阶数比较高时,核矩阵的元素值将趋于无穷大或无穷小,会增加数值的计算困难;而Sigmoid核函数必须在某些特定条件下才满足对称、半正定的核函数条件,并且有两个参数要选取,其应用上受到一定的限制;
所以,首先选取径向基核函数RBF,然后分别选取不同的加权方案进行离线测试并记录测试结果,然后选取第一种加权方案,分别选取径向基RBF核函数和线性核函数进行离线测试并记录测试结果,以测试分类准确率、各类准确率、所有类准确率的几何平均值以及训练时间作为性能指标,分析不同加权方案和核函数的选取对模型性能的影响,最终确定模型的加权方案和核函数:第一种加权方案W1和RBF核函数;
关于最优模型参数的确定,对模型的参数正规化系数C和RBF核函数参数σ采用网格搜索法,选取根据权利要求1中的步骤得到的在线故障诊断最优测试结果所对应的参数为最优参数。
在步骤3)中,根据所选取的加权方案对历史数据集xold的每个样本赋予权值,求出加权矩阵W的过程如下:
根据步骤2)所确定的加权方案W1,采用公式(1)来计算每个污水训练样本的权值,最终可以用以下方式求得加权矩阵W:对于N个污水训练样本,T表示训练样本的类别,Count(classX)表示训练样本中类别X的样本个数,对每个样本根据其类别计算出该类别的总的样本个数,也就是Count(class X)),从而可以求得该样本的权值Wii=1/Count(classX)。
在步骤4)中训练模型,根据核函数计算核矩阵ΩELM如下:
给定N个污水数据集的训练样本{xi,ti},i=1,...,N,xi∈Rd,N为样本个数,d为样本属性维数,含有L个节点的标准极限学习机SLFN的数学模型表示如下:
其中βi表示第i个隐藏神经元与所连接输出神经元的输出权值,G为隐藏层神经元激活函数,wi表示输入层与第i个隐藏神经元的输入权值,bi表示第i个隐藏神经元的偏置,oj为第j个输出神经元的实际输出值,x为神经网络输入,tj为神经网络输入目标值。
对于数量为N的样本{xi,ti},i=1,...,N,存在一个(wi,bi)和βi,有使得该SLFN模型可以零误差逼近样本集{xi,ti},i=1,...,N,也就是说隐藏层前向神经网络能够无误差的对其进行拟合,即:
可将上式表示为:
Hβ=T (9)
其中
其中H为输出矩阵,β为输出权值矩阵,T为输出层输出矩阵。
当激活函数G无限可微时,SLFN参数不需要全部进行调整,输入链接权重wi和隐藏层偏置bi在网络参数初始化的过程中随机选定,并且在训练过程中保持不变,那么训练SLFN就等价于求解线性系统Hβ=T的最小二乘解,从而获取β的值,也就可以转化为下面的优化问题:
Minimize:||Hβ-T||2和||β|| (11)
该优化问题以数学的形式表示为:
Minimize:
Subject to:
其中ξi=[ξi,1,...,ξi,m]T是训练样本xi在第m个输出节点的输出值与真实值之间的误差向量。由隐藏层神经元输出的Moore-Penrose广义逆矩阵H+可解得:
β=H+T (13)
正交投影法(KKT)可以有效地对Moore-Penrose广义逆矩阵进行求取。当HTH或HHT为非奇异矩阵的情况时H+=(HTH)-1HT或H+=HT(HTH)-1。为了使所得到的模型获得更好的稳定性和泛化性能,在求解β时对HTH或HHT对角线元素加上一个足够小的正值1/C:
相应的输出函数为:
或者当:
相应的ELM的最终的输出函数为:
在这种ELM算法的实现方式中,隐藏层神经元数量的选择区间可以很大,并且可不根据训练样本数量N进行确定,即可以使L≤N,也可以使L≥N。在这一点上,这种方式与插值理论中所要求的L≤N所矛盾,但仍与广义逼近理论一致。
同理,加权极限学习机(WELM)使用相对于奇异值分解法(SVD)更稳定的正交投影解法求解β,然后通过对个样本进行加权,使得属于不同类的样本获得不同的权值,进而得到更好的分类准确率,所以上述的优化问题的数学形式可以改写成:
Minimize:
Subject to:
其中W是定义的一个N×N的对角矩阵,每一个主对角元素Wii都对应着一个样本xi,不同类别的样本将会自动分配不同的权值。
根据KKT最优化条件,可以定义Lagrange函数求解该二次规划问题,则等效为求解下面的公式:
Minimize:
其中αi为Lagrange乘数,切都是非负数。相应的KKT优化限制条件为:
WELM算法求解隐藏层输出权重可表示为:
同样,基于核函数的极限学习机(KELM)算法是基于ELM提出的,当隐藏层特征映射h(x)为未知的情况下,可以将ELM的核矩阵定义如下:
ΩELM=HHTELMi,j=h(xi)·h(xj)=K(xi,xj) (22)
这里核函数需要满足Mercer条件,使用径向基(RBF)为核函数,即:
而式ELM的输出表达式(9)可以写成:
所有可以得出,给定一个训练集{xi,ti},i=1,...,N和核函数K(u,v),KELM网络的输出方程为:
WELM通过引入加权矩阵来处理不平衡数据,而KELM算法在引入核函数后,综合两者的特性,就可以得出,给定一个训练集{xi,ti},i=1,...,N和核函数K(u,v),根据上面公式求得加权矩阵W和核函数矩阵ΩELM后,可以得到最终基于核函数的加权极限学习机的输出方程为:
下面我们结合具体数据对本发明上述的加权极限学习机污水处理在线故障诊断方法进行具体说明,如下:
实验仿真的数据来自UCI数据库,是一个污水处理厂的日常监控数据,整个数据集包括不完整记录在内一共有527个记录,每个样本维数为38(即38个测量变量,对应各个指标的值),全部属性值都完整的记录有380个,被监测的水体一共有13种状态,各个状态用数字代替(为方便起见省去状态称)。527个记录在13种状态下的分布情况见下表1。
表1-527个记录在13种状态下的分布情况
类别 1 2 3 4 5 6 7 8 9 10 11 12 13
个数 279 1 1 4 116 3 1 1 65 1 53 1 1
为了简化分类的复杂度,我们根据样本类别的性质,将样本分为4大类,如下表2。
表2-527个记录在4种状态下的分布情况
类别 1 2 3 4
个数 332 116 65 14
类别1为正常情况,类别2为性能超过平均值的正常情况,类别3为进水流量低的正常情况,类别4为二沉池故障、暴雨引起的非正常状态和固体溶度过负荷等原因引起的故障情况。
本实施例所述的加权极限学习机污水处理在线故障诊断方法,包含以下顺序的步骤:
S1.首先剔除掉527个污水数据中147个属性不完整的数据,得到380个属性完整数据,然后将数据按式归一化处理,将处理后的数据集按2:1的比例进行随机分层抽样,得到历史数据集xold和在线更新测试集xnew
S2.对于加权方案的选取,首先选取径向基核函数(RBF),然后分别选取前面提到的W1和W2的两种加权方案进行离线建模测试比较,得到的测试结果如图1和图2所示。然后选取第一种加权方案,分别选取径向基(RBF)核函数和线性核函数进行离线测试对比,如图3和图4所示。分析不同加权方案和核函数的选取对模型性能的影响,最终确定模型的加权方案和核函数:第一种加权方案W1和RBF核函数。通过最优模型得到模型的参数正规化系数C=80和RBF核函数参数σ=0.3。
S3.根据所选取的加权方案W1对历史数据集xold的每个样本赋予权值,求出W;
S4.训练模型,根据核函数计算核矩阵ΩELM
S5.从在线更新测试集xnew中取k个新样本到模型中进行测试,并保存分类测试结果,将其添加到历史数据集中,去掉历史数据集中前k个样本;
S6.回到步骤S3,更新W和ΩELM,重新训练模型,不断重复上述过程,直到在线更新数据测试完毕,得到最终在线测试结果,然后分别用反向传播神经网络(BPNN)、支持向量机(SVM)、相关向量机(RVM)、快速相关向量机(Fast RVM)、极限学习机(ELM)方法进行在线的建模和分类测试,得到最终对比结果如下表3所示:
表3-六种模型的在线分类结果
性能指标 G-mean R1acc R2acc R3acc R4acc Total acc Time(s)
BPNN 7.12% 92.00% 77.00% 61.25% 5.00% 83.28% 39.03
SVM 19.70% 92.75% 73.00% 59.38% 15.00% 82.73% 120.15
RVM 43.54% 91.75% 77.67% 65.63% 40.00% 84.38% 54.15
Fast RVM 13.46% 92.25% 78.67% 65.00% 10.00% 84.38% 38.60
ELM 18.30% 91.31% 63.17% 51.56% 15.00% 78.55% 0.35
K-WELM 44.00% 89.50% 78.83% 79.06% 30.00% 84.77% 0.46
从表中可以得出,考虑到污水处理的在线故障诊断对准确性和实时性的要求,综合各种性能来看,本发明所采用的基于核函数的加权极限学习机在线故障诊断模型能够很好的满足要求,从而实现对污水处理过程运行状态的实时监测与控制,值得推广。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (1)

1.基于核函数的加权极限学习机污水处理在线故障诊断方法,其特征在于,包括以下步骤:
1)剔除掉污水数据中属性不完整的数据,然后将数据归一化处理,确定历史数据集xold和更新测试集xnew
2)选取核函数和加权方案,根据最优模型确定模型参数;
3)根据所选取的加权方案对历史数据集xold的每个样本赋予权值,求出加权矩阵W;
4)训练模型,根据核函数计算核矩阵ΩELM
5)从更新测试集xnew中添加k个新样本到模型中进行测试,并保存分类测试结果,将其添加到历史数据集中,去掉历史数据集中前k个样本;
6)回到步骤3),更新W和ΩELM,重新训练模型,不断重复上述过程,直到在线更新数据测试完毕,得到最终在线测试结果,从而实现对污水处理过程的在线运行状态的识别;
在步骤2)中,对加权方案和核函数的选取以及最优模型参数的确定如下:
首先对于加权方案的选取,这里有两种加权方案,第一种加权方案为:
其中,W1为第一种加权方案的加权矩阵,Count(ti)为训练样本中类别为ti对应的样本数量;
另一种加权方案为:
W2为第二种加权方案的加权矩阵;
对于核函数的选取,有下面四种常用的核函数:
①径向基RBF核函数:
②线性核函数:
K(x,x′)=x·x′ (4)
③p阶多项式核函数:
K(x,x′)=[(x·x′)+1]p,p=1,2,3... (5)
④Sigmoid核函数:
K(x,x′)=tanh[a(x·x′)+b] (6)
考虑到p阶多项式核函数的参数为两个,要比RBF核函数更多,且当多项式的阶数比较高时,核矩阵的元素值将趋于无穷大或无穷小,会增加数值的计算困难;而Sigmoid核函数必须在某些特定条件下才满足对称、半正定的核函数条件,并且有两个参数要选取,其应用上受到一定的限制;
所以,首先选取径向基核函数RBF,然后分别选取不同的加权方案进行离线测试并记录测试结果,然后选取第一种加权方案,分别选取径向基RBF核函数和线性核函数进行离线测试并记录测试结果,以测试分类准确率、各类准确率、所有类准确率的几何平均值以及训练时间作为性能指标,分析不同加权方案和核函数的选取对模型性能的影响,最终确定模型的加权方案和核函数:第一种加权方案W1和RBF核函数;
关于最优模型参数的确定,对模型的参数正规化系数C和RBF核函数参数σ采用网格搜索法,选取在线故障诊断最优测试结果所对应的参数为最优参数;
在步骤3)中,根据所选取的加权方案对历史数据集xold的每个样本赋予权值,求出加权矩阵W的过程如下:
根据步骤2)所确定的加权方案W1,采用公式(1)来计算每个污水训练样本的权值,最终可以用以下方式求得加权矩阵W:对于N个污水训练样本,T表示训练样本的类别,Count(classX)表示训练样本中类别X的样本个数,对每个样本根据其类别计算出该类别的总的样本个数,也就是Count(class X)),从而可以求得该样本的权值Wii=1/Count(classX);
在步骤4)中训练模型,根据核函数计算核矩阵ΩELM如下:
给定N个污水数据集的训练样本{xi,ti},i=1,...,N,xi∈Rd,N为样本个数,d为样本属性维数,含有L个节点的标准极限学习机SLFN的数学模型表示如下:
其中,βi表示第i个隐藏神经元与所连接输出神经元的输出权值,G为隐藏层神经元激活函数,wi表示输入层与第i个隐藏神经元的输入权值,bi表示第i个隐藏神经元的偏置,oj为第j个输出神经元的实际输出值,x为神经网络输入,tj为神经网络输入目标值;
对于数量为N的样本{xi,ti},i=1,...,N,存在一个(wi,bi)和βi,有使得该SLFN的模型零误差逼近样本集{xi,ti},i=1,...,N,也就是说隐藏层前向神经网络能够无误差的对其进行拟合,即:
将上式表示为:
Hβ=T (9)
其中
其中,H为输出矩阵,β为输出权值矩阵,T为输出层输出矩阵;
当激活函数G无限可微时,SLFN参数不需要全部进行调整,输入链接权重wi和隐藏层偏置bi在网络参数初始化的过程中随机选定,并且在训练过程中保持不变,那么训练SLFN就等价于求解线性系统Hβ=T的最小二乘解,从而获取β的值,也就可以转化为下面的优化问题:
Minimize:||Hβ-T||2和||β|| (11)
该优化问题以数学的形式表示为:
Minimize:
Subject to:
其中,ξi=[ξi,1,...,ξi,m]T是训练样本xi在第m个输出节点的输出值与真实值之间的误差向量;由隐藏层神经元输出的Moore-Penrose广义逆矩阵H+可解得:
β=H+T (13)
正交投影法KKT能够有效地对Moore-Penrose广义逆矩阵进行求取;当HTH或HHT为非奇异矩阵的情况时H+=(HTH)-1HT或H+=HT(HTH)-1;为了使所得到的模型获得更好的稳定性和泛化性能,在求解β时对HTH或HHT对角线元素加上一个足够小的正值1/C:
相应的输出函数为:
或者当:
相应的ELM的最终的输出函数为:
在这种ELM算法的实现方式中,隐藏层神经元数量的选择区间可以很大,并且可以不根据训练样本数量N进行确定,即能够使L≤N,也能够使L≥N;在这一点上,这种方式与插值理论中所要求的L≤N所矛盾,但仍与广义逼近理论一致;
同理,加权极限学习机WELM使用相对于奇异值分解法SVD更稳定的正交投影解法求解β,然后通过对个样本进行加权,使得属于不同类的样本获得不同的权值,进而得到更好的分类准确率,所以上述的优化问题的数学形式改写成:
Minimize:
Subject to:
其中,W是定义的一个N×N的对角矩阵,每一个主对角元素Wii都对应着一个样本xi,不同类别的样本将会自动分配不同的权值;
根据KKT最优化条件,定义Lagrange函数求解该二次规划问题,则等效为求解下面的公式:
Minimize:
其中,αi为Lagrange乘数,切都是非负数;相应的KKT优化限制条件为:
WELM算法求解隐藏层输出权重表示为:
同样,基于核函数的极限学习机KELM算法是基于ELM提出的,当隐藏层特征映射h(x)为未知的情况下,将ELM的核矩阵定义如下:
ΩELM=HHTELMi,j=h(xi)·h(xj)=K(xi,xj) (22)
这里核函数需要满足Mercer条件,使用径向基RBF为核函数,即:
而式ELM的输出表达式(9)写成:
给定一个训练集{xi,ti},i=1,...,N和核函数K(u,v),KELM网络的输出方程为:
WELM通过引入加权矩阵来处理不平衡数据,而KELM算法在引入核函数后,综合两者的特性,就可以得出,给定一个训练集{xi,ti},i=1,...,N和核函数K(u,v),根据上面公式求得加权矩阵W和核函数矩阵ΩELM后,得到最终基于核函数的加权极限学习机的输出方程为:
CN201610061351.2A 2016-01-28 2016-01-28 基于核函数的加权极限学习机污水处理在线故障诊断方法 Expired - Fee Related CN105740619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610061351.2A CN105740619B (zh) 2016-01-28 2016-01-28 基于核函数的加权极限学习机污水处理在线故障诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610061351.2A CN105740619B (zh) 2016-01-28 2016-01-28 基于核函数的加权极限学习机污水处理在线故障诊断方法

Publications (2)

Publication Number Publication Date
CN105740619A CN105740619A (zh) 2016-07-06
CN105740619B true CN105740619B (zh) 2018-06-12

Family

ID=56247865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610061351.2A Expired - Fee Related CN105740619B (zh) 2016-01-28 2016-01-28 基于核函数的加权极限学习机污水处理在线故障诊断方法

Country Status (1)

Country Link
CN (1) CN105740619B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016216944A1 (de) * 2016-09-07 2018-03-08 Robert Bosch Gmbh Verfahren zur Berechnung einer Neuronenschicht eines mehrschichtigen Perzeptronenmodells mit vereinfachter Aktivierungsfunktion
CN106681305A (zh) * 2017-01-03 2017-05-17 华南理工大学 一种Fast RVM污水处理在线故障诊断方法
CN106874934A (zh) * 2017-01-12 2017-06-20 华南理工大学 基于加权极限学习机集成算法的污水处理故障诊断方法
CN107066824B (zh) * 2017-04-21 2021-09-10 郑州大学 一种基于造纸机湿端的主动故障检测方法
CN108802040A (zh) * 2017-05-04 2018-11-13 南京市特种设备安全监督检验研究院 一种用于起重机表面缺陷检测的无人机装置及检测方法
CN107367936A (zh) * 2017-07-31 2017-11-21 广东工业大学 基于os‑elm的压电陶瓷驱动器建模、控制方法及系统
CN107688825B (zh) * 2017-08-03 2020-02-18 华南理工大学 一种改进型的集成加权极限学习机污水处理故障诊断方法
CN107315892A (zh) * 2017-08-10 2017-11-03 北京交通大学 一种基于极限学习机的轴承故障诊断方法
CN107908812A (zh) * 2017-10-10 2018-04-13 电子科技大学 一种基于hht和神经网络的气阀故障诊断方法
CN108228716B (zh) * 2017-12-05 2020-01-14 华南理工大学 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法
CN108319134A (zh) * 2018-01-15 2018-07-24 沈阳大学 一种基于极限学习机网络的温室环境智能控制方法
CN108875783A (zh) * 2018-05-09 2018-11-23 西安工程大学 一种面向不平衡数据集的极限学习机变压器故障诊断方法
CN108717505A (zh) * 2018-05-29 2018-10-30 广东工业大学 一种基于k-rvfl的固化热过程时空建模方法
CN109190280A (zh) * 2018-09-18 2019-01-11 东北农业大学 一种基于核极限学习机替代模型的地下水污染源反演识别方法
CN109558893B (zh) * 2018-10-31 2022-12-16 华南理工大学 基于重采样池的快速集成污水处理故障诊断方法
CN109948640A (zh) * 2018-12-26 2019-06-28 杭州电子科技大学 基于双参数核优化型极限学习机的肌电信号分类方法
CN110084291B (zh) * 2019-04-12 2021-10-22 湖北工业大学 一种基于大数据极限学习的学生行为分析方法及装置
CN110215202A (zh) * 2019-05-14 2019-09-10 杭州电子科技大学 基于步态非线性特征的心电rr间隔预测关联方法
CN110928187B (zh) * 2019-12-03 2021-02-26 北京工业大学 一种基于模糊宽度自适应学习模型的污水处理过程故障监测方法
CN111122811A (zh) * 2019-12-14 2020-05-08 北京工业大学 一种oica和rnn融合模型的污水处理过程故障监测方法
CN111652138B (zh) * 2020-06-03 2024-04-09 济南博观智能科技有限公司 戴口罩人脸识别方法、装置、设备及存储介质
CN112036079B (zh) * 2020-08-18 2021-12-07 哈尔滨工程大学 一种基于anfis的柴油机多信息融合诊断方法
CN112413814B (zh) * 2020-11-04 2021-11-19 武汉科技大学 基于综合距离的在线可更新暖通空调传感器故障检测方法
CN112924173A (zh) * 2021-03-01 2021-06-08 广州特种承压设备检测研究院 一种风力发电机组变桨轴承故障诊断方法
CN113341347B (zh) * 2021-06-02 2022-05-03 云南大学 一种基于aoelm的配电变压器故障动态检测方法
CN113323823B (zh) * 2021-06-08 2022-10-25 云南大学 基于awkelm的风机叶片结冰故障检测方法及系统
CN114877925B (zh) * 2022-03-31 2023-08-22 上海交通大学 一种基于极限学习机的综合能源系统传感器故障诊断方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104680015A (zh) * 2015-03-02 2015-06-03 华南理工大学 一种基于快速相关向量机的污水处理在线软测量方法
CN104866901A (zh) * 2015-05-12 2015-08-26 西安理工大学 一种基于改进有效集算法优化的极限学习机二元分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3301428B2 (ja) * 2000-03-09 2002-07-15 株式会社 小川環境研究所 廃水処理試験方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104680015A (zh) * 2015-03-02 2015-06-03 华南理工大学 一种基于快速相关向量机的污水处理在线软测量方法
CN104866901A (zh) * 2015-05-12 2015-08-26 西安理工大学 一种基于改进有效集算法优化的极限学习机二元分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多分类概率极限学习机的污水处理过程操作工况识别;赵立杰等;《化工学报》;20121031;第3173-3182页 *

Also Published As

Publication number Publication date
CN105740619A (zh) 2016-07-06

Similar Documents

Publication Publication Date Title
CN105740619B (zh) 基于核函数的加权极限学习机污水处理在线故障诊断方法
CN107688825B (zh) 一种改进型的集成加权极限学习机污水处理故障诊断方法
CN105487526B (zh) 一种Fast RVM污水处理故障诊断方法
Anselin Spatial regression
CN104537415B (zh) 一种基于压缩感知和dros‑elm的非线性过程工业故障预测及识别方法
CN110147877A (zh) 基于卷积长短时网络的pm2.5预测方法
CN109523155B (zh) 一种蒙特卡洛及最小二乘支持向量机的电网风险评估方法
CN106874934A (zh) 基于加权极限学习机集成算法的污水处理故障诊断方法
CN104732274A (zh) 一种智能计算机
CN109558893A (zh) 基于重采样池的快速集成污水处理故障诊断方法
CN111242380A (zh) 一种基于人工智能算法的湖(库)富营养化预测方法
CN104050547A (zh) 一种油田开发规划方案非线性优选决策方法
Buragohain Adaptive network based fuzzy inference system (ANFIS) as a tool for system identification with special emphasis on training data minimization
Qiao et al. A repair algorithm for radial basis function neural network and its application to chemical oxygen demand modeling
CN116245019A (zh) 一种基于Bagging抽样及改进随机森林算法的负荷预测方法、系统、装置及存储介质
Khritonenko et al. Solving the problem of city ecology forecasting with neuro-evolutionary algorithms
Tian et al. Genetic algorithm parameters tuning for resource-constrained project scheduling problem
CN114638421A (zh) 一种发电机组备件需求的预测方法
CN110739030B (zh) 一种乙烯生产过程小样本的软测量方法
CN114254828A (zh) 一种基于混合卷积特征提取器和gru的电力负荷预测方法
CN112651628A (zh) 一种基于胶囊神经网络的电力系统暂态稳定评估方法
CN102662916A (zh) 基于Lagrange函数的最小二乘准则多目标优化方法
Zhang et al. Multi-region System Modelling by using Genetic Programming to Extract Rule Consequent Functions in a TSK Fuzzy System
Ciftcioglu et al. Building performance analysis supported by GA
CN112560898B (zh) 一种基于深度学习的负荷时空预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180612

CF01 Termination of patent right due to non-payment of annual fee