CN105487526B - 一种Fast RVM污水处理故障诊断方法 - Google Patents
一种Fast RVM污水处理故障诊断方法 Download PDFInfo
- Publication number
- CN105487526B CN105487526B CN201610009907.3A CN201610009907A CN105487526B CN 105487526 B CN105487526 B CN 105487526B CN 201610009907 A CN201610009907 A CN 201610009907A CN 105487526 B CN105487526 B CN 105487526B
- Authority
- CN
- China
- Prior art keywords
- sample
- class
- fast
- formula
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B23/00—Testing or monitoring of control systems or parts thereof
- G05B23/02—Electric testing or monitoring
- G05B23/0205—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
- G05B23/0218—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
- G05B23/0243—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults model based detection method, e.g. first-principles knowledge model
- G05B23/0254—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults model based detection method, e.g. first-principles knowledge model based on a quantitative model, e.g. mathematical relationships between inputs and outputs; functions: observer, Kalman filter, residual calculation, Neural Networks
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开的本发明公开了一种Fast RVM污水处理故障诊断方法,包括以下顺序的步骤:1)剔除掉污水数据中待识别样本中属性不完整的样本,由于各样本属性量纲的不同,对其进行归一化处理,归一化到[0,1]区间中;2)基于聚类的快速相关向量机多数类数据压缩模块;3)虚拟少数类向上采样的少数类数据扩充模块;4)“一对一”的快速相关向量机多分类模型;5)快速相关向量机污水故障诊断建模。本发明通过基于聚类的快速相关向量机对多数类数据压缩和虚拟少数类向上采样方法对少数类数据扩充,降低了污水数据的不平衡性,同时采用Fast RVM对污水生化处理过程建立多分类模型,有效提高了对污水生化处理系统的故障诊断精度。
Description
技术领域
本发明涉及污水处理领域,特别涉及一种Fast RVM污水处理故障诊断方法。
背景技术
随着我国工农业经济的迅猛发展,城市进程不断加快,工业、农业废水及生活污水排放量与日俱增,不仅加剧了市政污水处理负荷,还使得人类赖以生存的水资源遭到了极大的破坏,各大湖泊出现了不同程度的富营养化,城市水环境安全已经成为了大众关注的焦点。污水处理厂作为自然水体的关键保护屏障,其运行好坏将直接影响水环境的安全程度。污水生化处理工艺复杂,影响因素非常多,污水处理厂在实际运行过程中难以保持长期稳定的运行,一旦发生运行故障常常会引起出水水质不达标、运行费用增高和环境二次污染等严重问题。因此,必须对污水处理厂运行状态进行监控,及时诊断出污水处理过程故障并予以处理。污水处理运行状态的故障诊断本质上是一个模式分类问题,而在实际状态运行分类中,常常会遇到污水数据集的分布不均衡问题,传统的机器学习方法在用于不平衡数据分类时,模型分类正确率无法满足要求,给污水生化处理的故障诊断带来了极大的困难。
故障诊断技术是一种通过可见、可测量的关键指标所反映的异常状态,找出具体故障和原因,并提出相应的解决措施的技术。故障诊断技术产生之初,是基于传感器和动态测试技术,通过信号处理技术进行设备的故障分析与诊断。随着科技的不断进步,生产设备或工艺系统朝着复杂化、多元化、大型化发展,传统的故障诊断技术已不能满足现代设备的诊断需求。而人工智能发展为故障诊断注入了新的活力,通过组织相关领域的专业知识、模拟人类思维的推理方式、建立故障诊断模型,将故障诊断技术引向智能化、系统化、网络化,它在故障诊断领域中的进一步应用,推动了智能故障诊断技术的迅速发展。目前,在污水生化处理系统故障诊断方面,国内外专家学者所采用的技术主要有,基于知识的专家系统技术、支持向量机方法、粗糙集理论、基于神经网络的方法等。但是这些技术也存在一定的局限性,专家系统存在知识获取瓶颈问题,若建立的专家知识库不完备,则有可能导致推理混乱;支持向量机受到核函数必须满足Mercer条件和惩罚参数C及不敏感参数计算量过大等限制;粗糙集理论在处理异常或噪声数据方面常常会显得无能为力,并且在建立模型时需要大量的数据样本;神经网络容易陷入局部最优,且有过拟合及收敛速度慢的缺点;而且关于如何处理污水数据类型之间的平衡性,并且不影响故障诊断的性能,在目前的污水故障诊断研究中较少提及。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种Fast RVM污水处理故障诊断方法,通过基于聚类的快速相关向量机对多数类数据压缩和虚拟少数类向上采样的对少数类数据扩充,降低了污水数据的不平衡性,同时采用FastRVM对污水生化处理过程建立分类模型,有效地提高了对污水生化处理系统的故障诊断精度。
本发明的目的通过以下的技术方案实现:
一种Fast RVM污水处理故障诊断方法,包含以下顺序的步骤:
S1.剔除污水输入和输出的数据中的异常点,由于各输入变量量纲的不同,对其进行归一化处理,归一化到[0,1]区间中;
S2.基于聚类的快速相关向量机多数类数据压缩模块,将训练样本中的多数类样本数据采用K-means方法进行聚类;
S3.虚拟少数类向上采样的少数类数据扩充模块将训练样本中的少数类样本数据采用SMOTE(虚拟少数类向上采样方法)进行数据扩充;
S4.将处理后的所有类的样本数据重新组合构成新的训练集,建立“一对一”的快速相关向量机多分类模型,对建好的分类模型输入测试集进行投票,得到测试结果,从而实现对污水处理的整体运行状态的识别。
所述的步骤S2,具体为:
S201、假设多数类样本集X={x1,x2,…,xa,…,xn}为n个Rd空间的数据,从n个数据对象中随机选择k个对象作为初始的聚类中心;
S202、然后对剩余的样本对象则根据与各个聚类中心的距离分别分配到距离最相近的聚类中心中;计算距离的公式如下,假设cj为第j个类的中心,则xa与cj的距离为:
S203、根据集合中的点更新每个类的聚类中心,假设第j个类中的样本为即包含了nj个样本,则该类的聚类中心为其中为类中心cj的第b个属性,计算公式如下:
S204、不断重复S202、S203步骤,直到标准测度函数收敛为止(从表现形式上看即更新后的类中心与更新前一致,具体就是预先给标准测度函数设定精度,将更新后的数据与更新前数据带入标准测度函数能够达到精度则停止更新),采用均方差作为计算标准测度函数,其形式为:
将多数类样本聚类后,对聚类后的样本类别进行快速相关向量机分类建模,从而通过建模获取相关向量。因为相关向量代表的是该类样本数据的核心数据,所以用得到相关向量作为该多数类新的训练集,从而在压缩多数类数据的同时也能最大程度上的保留数据的有效信息。
所述的步骤S3,具体为:
S301、对少数类中的每一个样本x,以欧几里得距离为标准计算它到少数类样本集中每个样本的距离,获得其中k个最近邻,并记录近邻样本的下标,这里k取5;
S302、根据向上采样的倍率C,对每一个少数类样本x,从其k个最近邻中随机选取C个样本,记为y1,y2,…,yC;
S303、在原样本x与yj之间进行随机线性插值,构造新的少数类样本pj,即新样本:
pj=x+rand(0,1)*(yj-x),j=1,2,…,C (4)
其中rand(0,1)表示区间(0,1)内的一个随机数。
步骤S4中,“一对一”的快速相关向量机多分类模型,其建立过程如下:
相关向量机是通过最大化边际似然函数p(t|α,σ2)的方法确定超参数α和方差σ2的,等价于最大化为其对数;记L(α)=log[p(t|α,σ2)],整理有:
其中C=σ2I+ΦA-1ΦT,t=[t1,t2,...,tN]T;
为了便于最大化L(α),对矩阵C进行等价变换,如下:
其中此矩阵表示当αi=∞时,相应的基向量φi被移除后样本对应的协方差矩阵,根据矩阵相关性质整理可得
因此公式(5)可以改写为
其中L(α-i)表示为当αi=∞时,相应的基本向量φi被移除后所对应的边界似然函数的对数,而l(αi)表示边界似然的对数函数中只与αi有关的独立部分;
式子(8)对αi求偏导有
记
所以公式(9)可改写为
令公式(11)等于零,考虑到αi是方差值必须为正,所以当时有
对L(α)关于αi求二阶偏导有
综合公式(11)和(12)进行分析可知
所以当时,公式(14)左边的表达式是恒小于零的,并对以上推导公式分析可得,L(α)有唯一最大值点为
根据上面的分析,通过以下方法最大化贝叶斯L(α):
A、当基向量φi在模型中,即αi<∞,但有则将φi从模型中删除,即令αi=∞,这样可以增大贝叶斯L(α);
B、当基向量φi在模型中,即αi=∞,但有则将φi添加到模型中并利用公式(15)更新αi,这样可以增大贝叶斯L(α);
C、当基向量φi在模型中,即αi<∞,但有则用公式(15)更新αi,这样可以增大贝叶斯L(α);
综上所述,快速相关向量机分类基本算法步骤如下:
(1)初始化σ2=0;
(2)用单个基向量φi初始化αi,由公式(15)分析整理可得并设置其他的αm(m≠i)为无穷大;
(3)计算Σ、μ并对所有M个基函数φm初始化Si和Qi;
(4)从所有M个基函数φm集合中选择候选的基向量φi;
(5)计算
(6)若θi>0且αi<∞(基向量φi在模型中),重新估计αi;
(7)若θi>0且αi=∞(基向量φi不在模型中),添加φi到模型中并重新估计αi;
(8)若θi≤0且αi<∞,删除φi并设置αi=∞;
(9)用Laplace逼近方法重新计算协方差矩阵Σ,权重矩阵μ以及相应迭代过程中的Si和Qi;
(10)若收敛或者达到最大迭代次数,则终止程序;否则转步骤(4);终止条件为:任意在模型中的基函数对应的αi,有αi<1*10^12且
“一对一”分类法又叫“投票法”,设待分类样本为k个类别,这k类中的任意两类都可以组成一个基本的快速相关向量机二分类器,对所有的训练样本进行两两分类,这样k个类别两两之间共计可以构成个快速相关向量机二分类器,每一个快速相关向量机分类器只在各自对应的样本子集上进行训练。对未知样本进行分类测试时,采用投票的方法,把每一个待测样本都经过全部个分类器进行判别。例如,样本在i、j两类之间分类时,机器判别结果其属于第i类,就在第i类上增加1票,否则对第j类投票加1,直到所有的分类器分类完成,最后统计得票最多的类即为测试样本所属类别。
设分类函数fij(x)用来判别i、j两类样本,若fij(x)<0,则判别x属于第i类,记i类得1票,否则判x属于第j类,记j类得1票,最后决策时,比较哪一类得到的票最多,则将测试样本规划为该类。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明建立了一种基于不平衡数据聚类的Fast RVM污水故障诊断模型,通过基于聚类的快速相关向量机对多数类数据压缩和虚拟少数类向上采样方法对少数类数据扩充,降低了污水数据的不平衡性,同时采用泛化能力强的FastRVM对污水生化处理过程建立多分类模型,提高了对污水生化处理系统的故障诊断精度,效果显著,性能也得到了改善。
2、本发明的模型是基于Fast RVM方法的,在离线情况下获得良好效果,在此基础上对于展开基于不平衡数据聚类的Fast RVM污水故障的在线诊断研究也是很有意义。
3、本发明中的相关向量机(RVM)是一种新的监督性学习方法,与支持向量机基于结构风险最小化不同,RVM是在贝叶斯框架下的概率模型学习,相关向量个数更少,模型更为稀疏,核函数不需要满足Mercer条件,并且模型中的自由参数数量更少。但是相关向量机在计算复杂度大,所需内存开销大,而快速边界似然算法(Fast RVM)通过设置一个空的模型,在训练过程中以一定该准则,不断向该模型中添加或删基函数,直到边际似然函数不在出现明显变化且达到规定的迭代次数为止,从而来改善其分类效率,并且保证其分类准确率。
所以,本发明采用基于聚类的快速相关向量机方法对多数类样本进行压缩,利用虚拟少数类向上采样方法对少数类样本进行扩充,使得原始污水样本数据的不平衡性降低,然后采用Fast RVM建立污水处理故障诊断模型,有效地提高了污水处理系统的故障诊断精度。
附图说明
图1为本发明所述一种Fast RVM污水处理故障诊断方法的流程图。
图2为本发明模型“一对一”的快速相关向量机多分类模型示意图。
图3为本发明模型基于聚类的快速相关向量机多数类数据压缩流程图。
图4为本发明模型虚拟少数类向上采样的少数类数据扩充流程图。
图5为本发明模型快速相关向量机分类算法流程图。
图6为测试样本分类示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1,一种Fast RVM污水处理故障诊断方法,包含以下顺序的步骤:
S1.剔除污水输入和输出的数据中的异常点,由于各输入变量量纲的不同,对其进行归一化处理,归一化到[0,1]区间中;
S2.采用基于聚类的快速相关向量机方法对多数类数据压缩,其计算公式如下:
将训练样本中的多数类样本数据采用K-means方法进行聚类,假设多数类样本集X={x1,x2,…,xa,…,xn}为n个Rd空间的数据。首先,从n个数据对象中随机选择k个对象作为初始的聚类中心(本发明中取k=2,便于后面使用基本快速相关向量机建模),对剩余的样本对象则根据与各个聚类中心的距离分别分配到距离最相近的聚类中心中。计算距离的公式如下,假设cj为第j个类的中心,则xa与cj的距离为:
然后,根据集合中的点更新每个类的聚类中心,假设第j个类中的样本为即包含了nj个样本,则该类的聚类中心为其中为类中心cj的第b个属性,计算公式如下:
然后不断重复上述过程,直到标准函数收敛为止,本发明采用均方差作为计算准则函数,其形式为:
将多数类样本聚类后,然后对聚类后的样本类别进行快速相关向量机分类建模,从而通过建模可以获取一定数量的相关向量,因为相关向量代表的是该类样本数据的核心数据,所以用得到相关向量作为该多数类新的训练集,从而在压缩多数类数据的同时也能最大程度上的保留数据的有效信息,具体的流程图如图2所示。
S3.将训练样本中的少数类样本数据采用SMOTE(虚拟少数类向上采样方法)进行数据扩充,算法的具体描述如下:
1)对少数类中的每一个样本x,以欧几里得距离为标准计算它到少数类样本集中每个样本的距离,获得其中k个最近邻,并记录近邻样本的下标,这里k取5;
2)根据向上采样的倍率C,对每一个少数类样本x,从其k个最近邻中随机选取C个样本,记为y1,y2,…,yC;
3)在原样本x与yj(j=1,2,…,C)之间进行随机线性插值,构造新的少数类样本pj。即新样本:
pj=x+rand(0,1)*(yj-x),j=1,2,…,C (4)
其中:rand(0,1)表示区间(0,1)内的一个随机数,算法流程图如图3所示。
S4.将处理后的所有类的样本数据重新组合构成新的训练集,建立“一对一”的快速相关向量机多分类模型,对建好的分类模型输入测试集进行投票,得到测试结果,从而实现对污水处理的整体运行状态的识别。其计算公式如下:
相关向量机是通过最大化边际似然函数p(t|α,σ2)的方法确定超参数α和方差σ2的,等价于最大化为其对数。记L(α)=log[p(t|α,σ2)],整理有:
其中C=σ2I+ΦA-1ΦT,t=[t1,t2,...,tN]T.
为了便于最大化L(α),对矩阵C进行等价变换,如下:
其中此矩阵表示当αi=∞时,相应的基向量φi被移除后样本对应的协方差矩阵,根据矩阵相关性质整理可得
因此公式(5)可以改写为
注意L(α-i)表示为当αi=∞时,相应的基本向量φi被移除后所对应的边界似然函数的对数,而l(αi)表示边界似然的对数函数中只与αi有关的独立部分。式子(8)对αi求偏导有
记
所以公式(9)可改写为
令公式(11)等于零,考虑到αi是方差值必须为正,所以当时有
对L(α)关于αi求二阶偏导有
综合公式(11)和(12)进行分析可知
所以当时,公式(14)左边的表达式是恒小于零的,并对以上推导公式分析可得,L(α)有唯一最大值点为
根据上面的分析,可以通过以下方法最大化贝叶斯L(α):
1)当基向量φi在模型中,即αi<∞,但有则将φi从模型中删除,即令αi=∞,这样可以增大贝叶斯L(α);
2)当基向量φi在模型中,即αi=∞,但有则将φi添加到模型中并利用公式(15)更新αi,这样可以增大贝叶斯L(α);
3)当基向量φi在模型中,即αi<∞,但有则用公式(15)更新αi,这样可以增大贝叶斯L(α);
综上所述,如图4所示,快速相关向量机分类基本算法步骤如下:
1)初始化σ2=0;
2)用单个基向量φi初始化αi,由公式(15)分析整理可得并设置其他的αm(m≠i)为无穷大;
3)计算Σ、μ并对所有M个基函数φm初始化Si和Qi;
4)从所有M个基函数φm集合中选择候选的基向量φi;
5)计算
6)若θi>0且αi<∞(基向量φi在模型中),重新估计αi;
7)若θi>0且αi=∞(基向量φi不在模型中),添加φi到模型中并重新估计αi;
8)若θi≤0且αi<∞,删除φi并设置αi=∞;
9)用Laplace逼近方法重新计算协方差矩阵Σ,权重矩阵μ以及相应迭代过程中的Si和Qi;
10)若收敛或者达到最大迭代次数,则终止程序;否则转4)。(终止条件为:任意在模型中的基函数对应的αi,有αi<1*10^12且
设待分类样本为k个类别,这k类中的任意两类都可以组成一个基本的快速相关向量机二分类器,对所有的训练样本进行两两分类,这样k个类别两两之间共计可以构成个快速相关向量机二分类器,每一个快速相关向量机分类器只在各自对应的样本子集上进行训练。对未知样本进行分类测试时,采用投票的方法,把每一个待测样本都经过全部个分类器进行判别。设分类函数fij(x)用来判别i、j两类样本,若fij(x)<0,则判别x属于第i类,记i类得1票,否则判x属于第j类,记j类得1票,最后决策时,比较哪一类得到的票最多,则将测试样本规划为该类,具体示意图如图5、6所示。
污水数据来自UCI数据库,是一个污水处理厂的日常监控数据,整个数据集包括不完整记录在内一共有527个记录,每个样本维数为38(即38个测量变量,对应各个指标的值),全部属性值都完整的记录有380个,被监测的水体一共有13种状态,根据样本类别的性质污水处理过程的整体运行状态主要分成6大类,类别1为正常情况,类别2为性能超过平均值的正常情况,类别3为进水流量低的正常情况,类别4为二沉池故障,类别5为暴雨引起的非正常状态,类别6为固体溶度过负荷,为了实验方便,把类别4、5、6归为故障状态类别4。正常情况的类别1样本的个数比较多,属于多数类;而类别3和类别4由于样本个数比较少,故属于少数类。样本集xn∈Rd,是第n个输入值,tn是样本的类别,m是样本的类别数,快速相关向量机污水故障诊断具体建模步骤如下:
1、剔除掉污水数据中属性不完整的数据,然后将数据按式子归一化处理,按2:1的比例确定训练集xtrain和测试集xtest。
2、将训练集中的多数类样本采用K-means算法进行聚类,这里k1=2。
3、将聚成两类的多数类样本根据基本的快速相关向量机算法进行分类建模,选用RBF核函数K(x,xi)=exp(-||x-xi||2/σ2),核函数宽度h1根据多次实验取经验值从而获取适当数量的相关向量,并由该相关向量集合代替该多数类样本。
4、采用SMOTE向上采样方法来扩充少数类样本,最近邻个数k2取5,向上采样倍率N一般取1~5倍。
5、将处理后的所有类的样本数据重新组合构成新的训练集xtreain_new,如表1所示:
表1
6、建立“一对一”的快速相关向量机多分类模型
1)模型选用RBF核函数,核宽度参数h2通过对新的训练集xtreain_new采用5折交叉验证的网格搜索方法来确定。
2)构成个快速相关向量机二分类器
For i=1:m
For j=(i+1):m
类别i与类别j建立快速相关向量机二分类模型;
End for
End for
7、对个分类器分别输入测试集xtest,进行投票,得到测试结果,从而实现对污水处理的整体运行状态的识别。
仿真实验首先使用相同的未经处理的训练集xtrain和测试集xtest直接按上面第6、7步进行实验,然后与经过上面数据处理的训练集xtreain_new和测试集xtest的实验结果对比,实验进行10次,取10次实验测试精度的平均值对个分类进行评估,得到结果如表2所示,其中“R X acc”表示的是类别X的分类正确率,“Total acc”表示总的分类正确率,“G-mean”表示所有类的召回率的几何平均值,
表2
Fast RVM | G-mean | R1acc | R2acc | R3acc | R4acc | Total acc |
未处理 | 0.29 | 93.47% | 71.48% | 60.42% | 22.22% | 83.07% |
经过处理 | 0.57 | 89.38% | 78.33% | 74.38% | 40.00% | 84.14% |
然后实验再使用表1中相同的训练集xtreain_new和测试集xtest分别对相关向量机(RVM)、支持向量机(SVM)、BP神经网络模型进行建模和分类测试。其中RVM模型的核宽度参数同样采用5折交叉验证的网格搜索方法来确定,并同样建立“一对一”来建立RVM分类模型;SVM模型的训练和测试均采用Libsvm软件包,同样选用RBF函数作为核函数,参数C和核宽度使用网络搜索在[-10,10]区间内5折交叉验证获得;BP神经网络模型设计为三层结构,输入层有38个节点,输出层有4个节点,隐含层的节点个数用网格搜索来寻找,寻优范围为[1,30],进行5折交叉验证,实验进行10次,取10次实验测试精度的平均值对个分类进行评估,四种模型的分类测试结果如表3所示,
表3
分类模型 | G-mean | R1acc | R2acc | R3acc | R4acc | Total acc |
RVM | 0.57 | 79.88% | 79.67% | 75.00% | 65.00% | 78.98% |
SVM | 0.52 | 83.00% | 76.67% | 73.75% | 50.00% | 79.84% |
BPNN | 0.42 | 85.38% | 78.00% | 76.25% | 30.00% | 81.64% |
Fast RVM | 0.57 | 89.38% | 78.33% | 74.38% | 40.00% | 84.14% |
由表2和表3可以看出,污水数据经过本发明上述方法处理后,Fast RVM模型对于污水状态的分类效果更好,并且基于本文不平衡数据处理方法的FastRVM模型的总体分类性能要优于RVM模型、SVM模型、BP模型。本发明提出的基于不平衡数据聚类的Fast RVM污水故障诊断方法在污水处理过程中的故障诊断当中能够取得不错的效果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (3)
1.一种Fast RVM污水处理故障诊断方法,其特征在于,包含以下顺序的步骤:
S1.剔除污水输入和输出的数据中的异常点,对其进行归一化处理,归一化到[0,1]区间中;
S2.基于聚类的快速相关向量机多数类数据压缩模块,将训练样本中的多数类样本数据采用K-means方法进行聚类;具体过程如下:
S201、假设多数类样本集X={x1,x2,…,xa,…,xn}为n个Rd空间的数据,从n个数据对象中随机选择k个对象作为初始的聚类中心;
S202、然后对剩余的样本对象则根据与各个聚类中心的距离分别分配到距离最相近的聚类中心中;计算距离的公式如下,假设cj为第j个类的中心,则xa与cj的距离为:
S203、根据集合中的点更新每个类的聚类中心,假设第j个类中的样本为即包含了nj个样本,则该类的聚类中心为其中为类中心cj的第b个属性,计算公式如下:
S204、不断重复S202、S203步骤,直到标准测度函数收敛为止,采用均方差作为计算标准测度函数,其形式为:
将多数类样本聚类后,对聚类后的样本类别进行快速相关向量机分类建模,从而通过建模获取相关向量;
S3.虚拟少数类向上采样的少数类数据扩充模块将训练样本中的少数类样本数据采用SMOTE进行数据扩充;
S4.将处理后的所有类的样本数据重新组合构成新的训练集,建立“一对一”的快速相关向量机多分类模型,对建好的分类模型输入测试集进行投票,得到测试结果,从而实现对污水处理的整体运行状态的识别。
2.根据权利要求1所述的Fast RVM污水处理故障诊断方法,其特征在于,所述的步骤S3,具体为:
S301、对少数类中的每一个样本x,以欧几里得距离为标准计算它到少数类样本集中每个样本的距离,获得其中k个最近邻,并记录近邻样本的下标,这里k取5;
S302、根据向上采样的倍率C,对每一个少数类样本x,从其k个最近邻中随机选取C个样本,记为y1,y2,…,yC;
S303、在原样本x与yj之间进行随机线性插值,构造新的少数类样本pj,即新样本:
pj=x+rand(0,1)*(yj-x),j=1,2,…,C (4)
其中rand(0,1)表示区间(0,1)内的一个随机数。
3.根据权利要求1所述的Fast RVM污水处理故障诊断方法,其特征在于,步骤S4中,所述“一对一”的快速相关向量机多分类模型,其建立过程如下:
相关向量机是通过最大化边际似然函数p(t|α,σ2)的方法确定超参数α和方差σ2的,等价于最大化为其对数;记L(α)=log[p(t|α,σ2)],整理有:
其中C=σ2I+ΦA-1ΦT,t=[t1,t2,...,tN]T;
对矩阵C进行等价变换,如下:
其中此矩阵表示当αi=∞时,相应的基向量φi被移除后样本对应的协方差矩阵,根据矩阵相关性质整理可得
因此公式(5)可以改写为
其中L(α-i)表示为当αi=∞时,相应的基本向量φi被移除后所对应的边界似然函数的对数,而l(αi)表示边界似然的对数函数中只与αi有关的独立部分;
公式(8)对αi求偏导有
记
所以公式(9)可改写为
令公式(11)等于零,考虑到αi是方差值必须为正,所以当时有
对L(α)关于αi求二阶偏导有
综合公式(11)和(12)进行分析可知
所以当时,公式(14)左边的表达式是恒小于零的,并对以上推导公式分析可得,L(α)有唯一最大值点为
根据上面的分析,通过以下方法最大化贝叶斯L(α):
A、当基向量φi在模型中,即αi<∞,但有则将φi从模型中删除,即令αi=∞;
B、当基向量φi在模型中,即αi=∞,但有则将φi添加到模型中并利用公式(15)更新αi;
C、当基向量φi在模型中,即αi<∞,但有则用公式(15)更新αi;
综上所述,快速相关向量机分类基本算法步骤如下:
(1)初始化σ2=0;
(2)用单个基向量φi初始化αi,由公式(15)分析整理可得并设置其他的αm为无穷大,m≠i;
(3)计算Σ、μ并对所有M个基函数φm初始化Si和Qi;
(4)从所有M个基函数φm集合中选择候选的基向量φi;
(5)计算
(6)若θi>0且αi<∞,重新估计αi;
(7)若θi>0且αi=∞,添加φi到模型中并重新估计αi;
(8)若θi≤0且αi<∞,删除φi并设置αi=∞;
(9)用Laplace逼近方法重新计算协方差矩阵Σ,权重矩阵μ以及相应迭代过程中的Si和Qi;
(10)若收敛或者达到最大迭代次数,则终止程序;否则转步骤(4);终止条件为:任意在模型中的基函数对应的αi,有αi<1*10^12且
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610009907.3A CN105487526B (zh) | 2016-01-04 | 2016-01-04 | 一种Fast RVM污水处理故障诊断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610009907.3A CN105487526B (zh) | 2016-01-04 | 2016-01-04 | 一种Fast RVM污水处理故障诊断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105487526A CN105487526A (zh) | 2016-04-13 |
CN105487526B true CN105487526B (zh) | 2019-04-09 |
Family
ID=55674563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610009907.3A Active CN105487526B (zh) | 2016-01-04 | 2016-01-04 | 一种Fast RVM污水处理故障诊断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105487526B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110995461A (zh) * | 2019-10-28 | 2020-04-10 | 厦门大学 | 网络故障诊断方法 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106681305A (zh) * | 2017-01-03 | 2017-05-17 | 华南理工大学 | 一种Fast RVM污水处理在线故障诊断方法 |
CN106768071A (zh) * | 2017-01-24 | 2017-05-31 | 桂林师范高等专科学校 | 污水监测系统 |
CN108229676B (zh) * | 2017-05-18 | 2022-02-25 | 北京市商汤科技开发有限公司 | 神经网络模型的训练方法和装置、电子设备和计算机存储介质 |
CN107729838A (zh) * | 2017-10-12 | 2018-02-23 | 中科视拓(北京)科技有限公司 | 一种基于深度学习的头部姿态估算方法 |
CN108491474A (zh) * | 2018-03-08 | 2018-09-04 | 平安科技(深圳)有限公司 | 一种数据分类方法、装置、设备及计算机可读存储介质 |
CN108549310B (zh) * | 2018-05-29 | 2021-07-23 | 重庆工商大学 | 污水处理云服务器 |
CN108846512B (zh) * | 2018-06-05 | 2022-02-25 | 南京邮电大学 | 基于择优分类的水质预测方法 |
CN109167753A (zh) * | 2018-07-23 | 2019-01-08 | 中国科学院计算机网络信息中心 | 一种网络入侵流量的检测方法及装置 |
CN109558893B (zh) * | 2018-10-31 | 2022-12-16 | 华南理工大学 | 基于重采样池的快速集成污水处理故障诊断方法 |
CN110009030B (zh) * | 2019-03-29 | 2021-03-30 | 华南理工大学 | 基于stacking元学习策略的污水处理故障诊断方法 |
CN111276191B (zh) * | 2020-01-15 | 2020-12-18 | 范时浩 | 胰腺癌血液中糖的分子量统计识别方法、系统、介质及装置 |
CN113009077B (zh) * | 2021-02-18 | 2023-05-02 | 南方电网数字电网研究院有限公司 | 气体检测方法、装置、电子设备和存储介质 |
CN116699096B (zh) * | 2023-08-08 | 2023-11-03 | 凯德技术长沙股份有限公司 | 一种基于深度学习的水质检测方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103235096A (zh) * | 2013-04-16 | 2013-08-07 | 广州铁路职业技术学院 | 污水水质检测方法与装置 |
CN103471849A (zh) * | 2013-09-25 | 2013-12-25 | 东华大学 | 基于双重组合模式的多层相关向量机的轴承故障诊断系统 |
CN103758742A (zh) * | 2014-01-17 | 2014-04-30 | 东华大学 | 一种基于双类特征融合诊断的柱塞泵故障诊断系统 |
CN104503874A (zh) * | 2014-12-29 | 2015-04-08 | 南京大学 | 一种云计算平台的硬盘故障预测方法 |
CN104680015A (zh) * | 2015-03-02 | 2015-06-03 | 华南理工大学 | 一种基于快速相关向量机的污水处理在线软测量方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2699881B1 (en) * | 2011-02-28 | 2017-01-04 | Critical Materials, Lda. | Structural health management system and method based on combined physical and simulated data |
-
2016
- 2016-01-04 CN CN201610009907.3A patent/CN105487526B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103235096A (zh) * | 2013-04-16 | 2013-08-07 | 广州铁路职业技术学院 | 污水水质检测方法与装置 |
CN103471849A (zh) * | 2013-09-25 | 2013-12-25 | 东华大学 | 基于双重组合模式的多层相关向量机的轴承故障诊断系统 |
CN103758742A (zh) * | 2014-01-17 | 2014-04-30 | 东华大学 | 一种基于双类特征融合诊断的柱塞泵故障诊断系统 |
CN104503874A (zh) * | 2014-12-29 | 2015-04-08 | 南京大学 | 一种云计算平台的硬盘故障预测方法 |
CN104680015A (zh) * | 2015-03-02 | 2015-06-03 | 华南理工大学 | 一种基于快速相关向量机的污水处理在线软测量方法 |
Non-Patent Citations (2)
Title |
---|
基于Fast-RVM的在线软测量预测模型;许玉格等;《化工学报》;20151130;第66卷(第11期);4540-4545 |
相关向量机及其在故障诊断与预测中的应用;马登武等;《海军航空工程学院学报》;20131231;第28卷(第2期);154-160 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110995461A (zh) * | 2019-10-28 | 2020-04-10 | 厦门大学 | 网络故障诊断方法 |
CN110995461B (zh) * | 2019-10-28 | 2021-06-22 | 厦门大学 | 网络故障诊断方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105487526A (zh) | 2016-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105487526B (zh) | 一种Fast RVM污水处理故障诊断方法 | |
CN109492822B (zh) | 空气污染物浓度时空域关联预测方法 | |
CN105740619B (zh) | 基于核函数的加权极限学习机污水处理在线故障诊断方法 | |
CN101464964B (zh) | 一种设备故障诊断的支持向量机模式识别方法 | |
CN107886161A (zh) | 一种提高复杂信息系统效能的全局敏感性分析方法 | |
CN106681305A (zh) | 一种Fast RVM污水处理在线故障诊断方法 | |
CN109101584B (zh) | 一种将深度学习与数学分析相结合的句子分类改进方法 | |
CN110110809B (zh) | 基于机器故障诊断的模糊自动机的构建方法 | |
CN101178703B (zh) | 基于网络分割的故障诊断谱聚类方法 | |
Kulluk et al. | Fuzzy DIFACONN-miner: A novel approach for fuzzy rule extraction from neural networks | |
CN106874963B (zh) | 一种基于大数据技术的配电网故障诊断方法及系统 | |
CN108921230A (zh) | 基于类均值核主元分析和bp神经网络的故障诊断方法 | |
Naik et al. | Genetic algorithm-aided dynamic fuzzy rule interpolation | |
CN106778838A (zh) | 一种预测空气质量的方法 | |
CN113901977A (zh) | 一种基于深度学习的电力用户窃电识别方法及系统 | |
CN103440493A (zh) | 基于相关向量机的高光谱影像模糊分类方法及装置 | |
CN108062566A (zh) | 一种基于多核潜在特征提取的智能集成软测量方法 | |
CN104966106B (zh) | 一种基于支持向量机的生物年龄分步预测方法 | |
CN113177357A (zh) | 一种电力系统暂态稳定评估方法 | |
CN106096723A (zh) | 一种基于混合神经网络算法的用于复杂工业产品性能评估方法 | |
Chen et al. | A novel Bayesian-optimization-based adversarial TCN for RUL prediction of bearings | |
Chen et al. | Graph convolution network-based fault diagnosis method for the rectifier of the high-speed train | |
CN110533341A (zh) | 一种基于bp神经网络的城市宜居性评价方法 | |
Wang et al. | Fuzzy least squares support vector machine soft measurement model based on adaptive mutative scale chaos immune algorithm | |
CN115204475A (zh) | 一种戒毒场所安全事件风险评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |