CN109558893B - 基于重采样池的快速集成污水处理故障诊断方法 - Google Patents

基于重采样池的快速集成污水处理故障诊断方法 Download PDF

Info

Publication number
CN109558893B
CN109558893B CN201811283829.1A CN201811283829A CN109558893B CN 109558893 B CN109558893 B CN 109558893B CN 201811283829 A CN201811283829 A CN 201811283829A CN 109558893 B CN109558893 B CN 109558893B
Authority
CN
China
Prior art keywords
samples
sample
classifier
training
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811283829.1A
Other languages
English (en)
Other versions
CN109558893A (zh
Inventor
许玉格
赖春伶
陈立定
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201811283829.1A priority Critical patent/CN109558893B/zh
Publication of CN109558893A publication Critical patent/CN109558893A/zh
Application granted granted Critical
Publication of CN109558893B publication Critical patent/CN109558893B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于重采样池的快速集成污水处理故障诊断方法,包括步骤:1)用均值法补全污水数据中属性不完整的样本的缺陷项,将其归一化到[0,1]区间中;2)对训练数据集中的少数类样本进行进行SMOTE过采样处理,对各类少数类样本构造对应的人工合成虚拟样本池3)设置基分类器个数及其隐层节点数的最优参数;4)结合所有样本池抽样得到的人工合成虚拟样本和初始训练数据,获得单个基分类器的训练样本集,训练基分类器;5)完成对所有基分类器的训练,将其进行集成,得到最终的集成分类器。本发明在有效地降低污水数据的不平衡性的同时提高了基分类器间的多样性,并提高了污水处理过程中故障诊断的整体性能。

Description

基于重采样池的快速集成污水处理故障诊断方法
技术领域
本发明涉及污水处理故障诊断的技术领域,尤其是指一种基于重采样池的快速集成污水处理故障诊断方法。
背景技术
污水处理是一个复杂的,多变量的生化过程。污水处理厂发生故障容易引发一系列严重的污水污染问题。而污水处理过程的故障诊断可转化为一个模式识别的分类问题。污水数据由定期将污水厂采集到的数据及其当前工作状态组成,一段时间内的污水数据组成污水数据集。由于合格的污水处理厂发生故障的频率很低,采集到的污水数据集中故障状态下的数据往往远少于正常状态下的数据。这就导致污水数据集是分布高度不平衡集,即污水处理过程的故障诊断是一个数据不平衡的分类问题。
传统学习算法往往基于总体准确率对参数进行优化,这容易使分类结果更偏向多数类。但在现实应用场合更被看重的是少数类的分类准确率,即在污水处理故障诊断场合,更重要的是准确分类出作为少数类的故障类。准确分类出作为少数类的故障类对及时诊断污水处理厂的运行故障并及时进行处理有巨大的帮助。及时诊断并处理污水故障可稳定出水水质并减少污水对环境的污染,并减少维护费用。因此,应注重研究及时精确少数类的故障类的故障诊断算法。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于重采样池的快速集成污水处理故障诊断方法,引入人工合成虚拟样本池,在有效地降低了污水数据的不平衡性的同时提高了基分类器间的多样性,通过集成分类提高了对污水处理故障类的分类准确率,进而有效提高了污水处理过程中故障诊断的整体性能。
为实现上述目的,本发明所提供的技术方案为:基于重采样池的快速集成污水处理故障诊断方法,包括以下步骤:
1)对污水数据进行预处理,对初始训练数据中的少数类样本进行SMOTE过采样处理,对各类少数类样本构造对应的人工合成虚拟样本池Dj,j=1,...,J,其中J为少数类的类别个数;
2)设定集成分类器的基分类器的个数为T,分别训练T个基分类器,为了增加基分类器的多样性,每次训练基分类器时对步骤1)构造的样本池Dj,j=1,...,J分别进行有放回抽样步骤,结合所有样本池抽样得到的人工合成虚拟样本和初始训练数据得到该基分类器的训练样本集Xt_new(t=1,…,T);采用加权极限学习机作为基分类器,建立第i个基分类器hi(x);
3)定义新的基于不平衡分类性能指标G-mean值的基分类器输出权值计算公式,获得基分类器hi(x)对应的输出权值αi
4)将步骤2)训练得到的T个基分类器基于其对应的输出权值αi进行加权并列集成,建立集成分类器;
5)进行参数寻优,需要寻优的参数有基分类器的隐层节点数L及最优正则化系数C,寻优方法为网格法,以寻优得到的最优参数为基础,训练得到最终的集成分类器H(x);
6)用步骤1)相同的方法填补污水待测数据的缺失值,并将其归一化到[0,1]区间,将处理后的待测数据输入H(x),得到输出分类结果即为待测数据对应的故障诊断结果。
所述步骤1)具体过程如下:
1.1)给定含N个污水样本集X={(x1,y1),(x2,y2),...,(xN,yN)},样本共有K个类别,其中有J个少数类,xi表示X的第i个样本,yi为k维列向量,表示其对应的类别标签,xi属第k类,则yi的第k个元素标为1,其余元素标为-1,第1类样本的类别标签写为{1,-1,...,-1};
1.2)将X中样本数小于N×0.2的类别视为少数类,对少数类每类分别采用SMOTE方法进行过采样,过采样后用得到的新样本用于构造该类的人工合成虚拟样本池Dj,j=1,...,J。
在步骤1.2)中,所述构造该类的人工合成虚拟样本池的具体过程如下:
1.2.1)从X中得到第j类少数类样本,将所有第j类少数类样本组成子数据集XRj,nj为XRj所含的少数类样本数,对XRj的每个样本xri,计算其与XRj中其余所有样本的欧氏距离,设置m为(0,nj]范围内的随机数,得到关于xri含m个少数类样本的K最近邻(k-NearestNeighbor,KNN)子集Si
1.2.2)设定过采样倍率aj,取aj=10;
1.2.3)对XRj的每个样本xri,在其对应的Si中随机采样一个近邻样本xrr,生成的新样本xnew的每个特征取值为在xrr与xri在该特征空间连线上随机的一点,即:
xnew=xri+rand(0,1)×(xri-xrr) (1)
其中,rand(0,1)表示0到1之间的一个随机数;
1.2.4)重复步骤1.2.3)直至生成aj·nj个新样本为止,最后去除重复的生成样本,去重后的样本即为第j类样本对应的人工合成虚拟样本池Dj
1.2.5)重复步骤1.2.1)到1.2.4),直至对每一类少数类的样本集XRj都进行了SMOTE过采样步骤获得相应的人工合成虚拟样本池Dj,j=1,...,J。
在步骤3)中,所述基分类器hi(x)输出权值αi表示为:
αi=0.5×ln(1+GMi) (2)
其中,GMi为基分类器hi(x)在验证集中分类得到的G-mean值。
在步骤4)中,所述集成分类器表示为:
Figure BDA0001848599510000041
在步骤5)中,所述集成分类器的网格法寻优参数具体如下:
设置集成分类器的基分类器个数T,T是(1,20]范围内的整数,然后寻找基分类器的隐含层节点数L、正则化系数C的参数组合以满足算法最优性能,L的寻优范围为{10,15,20,…,500},步长为5;C的寻优范围为{20,21,…,218},其中,步长为1。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明方法采用结合重采样样本池的加权集成算法作为整体算法框架,在训练基分类器前通过SMOTE方法对少数类样本进行过采样,以构造人工合成虚拟样本池。
2、在初始训练数据集的基础上,加入对人工合成虚拟样本池进行抽样随机获得的人工合成虚拟少数类样本,既实现了对少数类样本的过采样,也通过采用不完全相同的训练集训练每个基分类器保证了基分类器间的多样性。
3、在对不平衡数据进行重采样处理的同时,对多个分类器进行加权集成以防止学习过程中的过拟合现象,并降低仅采用单个分类器在分类不平衡数据时可能会出现的偏差,增强算法的稳定性。
4、本发明方法将重采样步骤与集成学习进行结合,在加权集成算法的基础上引入了人工合成虚拟样本池,样本池的引入使得一次过采样步骤可以训练多个多样性的多个基学习器,避免重采样步骤大量增加训练的耗时,保证了集成算法训练步骤的快速性。
5、更注重不平衡污水数据中的故障类数据的分类性能,本发明采用G-mean值计算基分类器集成后相应的输出权值,定义了基于Gmean的基分类器输出权值更新公式,提高了故障诊断类别的识别正确率。
6、采用加权极限学习机作为本发明方法的基分类器,利用加权极限学习机的训练时间较短的优势加快集成分类器的学习速度,实现对污水处理状态实时准确的检测。
7、通过基于人工合成虚拟样本池的过采样和加权极限学习机引入样本加权矩阵的方法提高了污水故障诊断的整体G-mean值,尤其是故障类别的诊断正确率得到了大幅提高。
附图说明
图1为本发明方法的训练流程图。
图2为本发明方法的故障诊断流程图。
具体实施方式
为更加清楚地表述本发明实施例的目的、技术方案和优点,下面将结合本发明实施例中的附图来对本发明实施例中的技术方案进行全面的描述。需要指出的是本实施例仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例、本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本文采用加州大学数据(UCI)中的污水处理厂数据做为实验仿真的数据。污水测量数据来自西班牙某城市的污水处理厂,该处理厂包括三级处理,一级处理为预处理,二级处理为活性污泥处理,最后进行氯化处理。污水处理厂历时两年通过传感器获取和生化处理之后系统的性能指标计算得到的527个样本。每个样本有38维属性,每个属性的含义如表1所示。将污水处理厂的运行状态分为13种,具体状态类别及其分布情况如表2所示。
表1污水数据属性的名称和含义
Figure BDA0001848599510000061
表2状态类别及其分布情况
Figure BDA0001848599510000062
Figure BDA0001848599510000071
由表2可见,正常状态下的样本数远大于其他状态的样本数。其中,第2、3、4、6、7、8、10、12、13类每类样本数最多只有4个。为降低故障诊断过程的复杂性,将样本重新分为4类,分类结果如表3所示。
表3 527个样本在4分类下的分布情况
类别 1 2 3 4
原类别 1、11 5 9 2,3,4,6,7,8,10,12,13
样本数 332 116 65 14
在新的分类中,第一类表示正常状态,包括原始数据的第1、11类;第二类为正常状态但某些性能指标超过了平均值,包括原始数据第5类;第三类为正常状态但是进水流量低,包括原始数据第9类;第四类为故障类情况,包括原始数据的第2,3,4,6,7,8,10,12,13类。其中将第一、二类样本视为多数类,而第三、四类为少数类。结合表3各类的样本数容易看出,污水数据属于典型的重度不平衡数据。
由于各种现实原因,污水数据有时不能完整的记录某个时刻所有属性的数据。所有属性数据都被完整地记录下来的样本只有380个,其中包括6个第四类样本。直接删去不完整数据样本会损失大量少数类样本的信息。因此对污水数据的缺失数据进行填补。
目前存在成熟实用的数据填补方法,常用的数据填补方法有平均值填补法、特殊值填补法和最近邻距离填补法等。本发明采用近邻均值填补法对缺陷数据进行填补。具体做法是取缺陷数据近邻的5个数据的对应属性均值来作为缺陷数据的填补值。使用经过数据填补处理后的527个污水数据进行仿真实验。
在进行仿真实验时,传统学习算法采用的总体准确率已无法再作为不平衡数据学习的评价指标。G-mean的中心思想是在使每类的分类准确率都尽可能大的同时,保持每个类别分类准确率之间的平衡。进行不平衡数据学习时,G-mean值在不平衡数据学习场合的性能使更注重评价分类器在少数类样本的分类准确率。本实施例采用G-mean值作为仿真实验结果的评价指标。
本实施例是多分类问题。对k类问题,G-mean的混淆矩阵如表4所示:
表4 k类问题的混淆矩阵
Predictive class 1 Predictive class 2 Predictive class k
Actual class 1 n<sub>11</sub> n<sub>12</sub> n<sub>1k</sub>
Actual class 2 n<sub>21</sub> n<sub>22</sub> n<sub>2k</sub>
Actual class k n<sub>k1</sub> n<sub>k2</sub> n<sub>kk</sub>
其中,第i类样本正确预测为第i类的样本个数为nii,预测错误的样本个数为nij(i≠j)。Ri分别表示对第i类样本的召回率其定义为:
Figure BDA0001848599510000081
G-mean定义为所有类的召回率的几何平均值,计算公式如下:
Figure BDA0001848599510000082
以下称本发明的故障诊断方法为SP-EWELM(SMOTE Pool-ensemble WeigheedExtreme Learning Machine),SP-EWELM在本实施例的具体实施过程,如图1和图2所示,包括以下步骤:
1)采用加权集成算法作为整体算法框架,设置基分类器数量为T,分别独立训练具有多样性的T个基分类器,生成集成分类器。在具体应用中包括:
1.1)在训练基分类器前,先通过SMOTE方法构造少数类样本对应的人工合成虚拟样本池Dj,j=1,...,J,其中J为少数类的类别个数。
人工合成虚拟样本池Dj,j=1,...,J的样本通过使用SMOTE算法对第j类少数类数据进行过采样得到。SMOTE方法是一种通过分析样本特征空间生成虚拟样本的方法来实现对样本的过采样的。SMOTE方法的中心思想是在少数类样本的特征空间中通过线性插值合成得到新的少数类样本。与传统的随机过采样相比,SMOTE可以更有效地避免过采样带来的数据冗余问题,在本实施过程中也是保证基学习器间多样性的关键。
有原始训练集X,从X中得到第j类少数类样本,组成子数据集XRj。nj为XRj所含的少数类样本数。其中j在本实施例中有(j=3,4)。第j类少数类样本集XRj通过SMOTE方法构造少数类样本对应的人工合成虚拟样本池Dj的具体实现步骤如下:
1.1.1)对XRj的每个样本xri(i=1,...,nj),计算其与XRj中其余所有样本的欧氏距离。设置m为(0,nj]范围内的随机数,得到其含m个少数类样本的KNN子集Si
1.1.2)根据该少数类样本数与训练集总样本数的比例确定过采样倍率aj。在本实施过程取值为aj=10。
1.1.3)对XRj的每个样本xri,在其对应的Si中随机采样一个近邻样本xrr。生成的新样本xnew的每个特征取值为在xrr与xri在该特征空间连线上随机的一点。即
xnew=xri+rand(0,1)×(xri-xrr) (6)
其中rand(0,1)表示0到1之间的一个随机数。
1.1.4)重复步骤1.1.3)直至生成aj·nj个新样本为止。
1.1.5)去除重复的生成样本。
1.1.6)对每个少数类对应的样本集XRj进行上述SMOTE过采样,得到相应的人工合成虚拟样本池Dj,j=1,...,J。
1.2)对每个基分类器构造对应的新训练数据集Xi_new(i=,…,T),训练其对应的基分类器hi(x):
本实施例采用加权极限学习机作为基分类器。设输入训练集为X={(x1,y1),(x2,y2),...,(xN,yN)}。训练集共有N个样本,样本含d个特征,被分为K类。其中yi为训练样本xi所对应的类别标签。yi为K维行向量。yi中只有{+1,-1}两种元素,有
Figure BDA0001848599510000101
可以说,加权极限学习机(WELM)采用单隐层前馈神经网络(single-hidden layerfeedforward networks,SLFN)结构作为整体框架。设定隐含层节点个数为L,极限学习机的输出模型可表示为:
Figure BDA0001848599510000102
其中,βi表示第i个隐藏节点其对应输出节点的输出权值,δi表示输入层与第i个隐含节点的输入权值。θi为第i个隐含节点的偏置参数。oj为第j个训练样本下模型对应的输出。G(δii,xj)为每个隐含层的激活函数,本实施例激活函数采用Sigmoid函数。
在训练过程中期望WELM模型的输出无误差的对训练集X进行拟合,有
Figure BDA0001848599510000103
Figure BDA0001848599510000104
有激发函数矩阵H写作
Figure BDA0001848599510000111
输出权值矩阵β写作
Figure BDA0001848599510000112
(4)式可写作
Hβ=Y (13)
其中
Figure BDA0001848599510000113
加权极限学习机训练目的是求取隐层节点向输出节点输出时的输出权值。为了解决不平衡分类问题将极限学习机(Extreme Learning Machine,ELM)和加权策略进行结合得到的改进算法。根据类别对每个训练样本xi赋予一个权值wi,有
Figure BDA0001848599510000114
其中#ci为训练集中类别正好为训练样本xi的类型ci的样本数。
有权值矩阵W写作
Figure BDA0001848599510000115
当激活函数G(δii,xj)无限可微时,参数δi,θi在训练开始时可随机选定,且在训练过程中不需要进行更改。其中δi在(-1,1)范围下随机生成,θi在(0,1)范围下随机生成。这时WELM的训练过程可转化为求解式(7)的最小二乘解,即转化为下列优化问题
Figure BDA0001848599510000121
其中ξi为对样本xi分类器的训练误差。通过KKT最优化条件定义Lagrange函数来求解式(11)的二次优化问题。定义li为Lagrange乘数,将式(20)转化为
Figure BDA0001848599510000122
通过求解式(21)可得hi(x)的隐层输出权值矩阵βi的解为
Figure BDA0001848599510000123
Figure BDA0001848599510000124
Figure BDA0001848599510000125
本步骤具体实施如下:
1.2.1)组成组成新的训练样本集Xt_new,t=1,...,T。具体过程为:对构造的样本池Dj,j=1,...,J分别进行有放回Booststrap抽样,获得合成的虚拟少数类样本。将抽样得到的虚拟少数类样本添加到原样本集中,组成新的训练样本集Xt_new
1.2.2)根据公式(18)、(19)初始化样本权值矩阵W。
1.2.3)随机设定参数δii(i=1,…,L),按照公式(14)求激发函数矩阵H。
1.2.4)根据公式(22)或(23)求取隐层输出权值矩阵βi
1.2.5)根据公式(24)获得加权极限学习机的输出模型hi(x)。
1.2.6)根据下列公式获得hi(x)的输出权值αi
αi=0.5*ln(1+GMi) (22)
其中,GMi为对应Xt_new训练得到的hi(x)的G-mean值。
1.3)将T个训练完毕的基分类器进行集成,所述集成分类器可表示为:
Figure BDA0001848599510000131
2)输入原始训练数据,设置集成算法的基分类器个数T,基分类器的隐含层节点L,对应的最优正则化系数C,进行网格法参数寻优,输出最优参数组。
在此实施例中设置SP-EWELM的基分类器个数T=7,寻找基分类器的隐含层节点数L、正则化系数C的参数组合以满足算法最优性能。隐含层节点L的寻优范围为{10,15,20,…,500},步长为5;C的寻优范围为{20,21,…,218},其中,步长为1。
本发明在此实现例中的最优参数为:
L=130;C=8
3)输入测试数据,设置集成算法的基分类器个数T,步骤2)寻优得到的基分类器的隐含层节点L和对应的最优正则化系数C以步骤1)训练得到H(x),待测数据输入H(x),得到输出分类结果即为待测数据对应的故障诊断结果。
根据以上步骤,采用经过数据填补及归一化处理的污水样本集进行仿真实验。实验环境为Intel Core i7处理器、12GB内存、Windows 7平台下的Matlab2014a软件;采用5折交叉验证法,取支持向量机(Support Vector Machine,SVM)、C4.5、反向传播神经网络(Backpropagation Neural Networks,BPNN)、WELM、基于加权极限学习机的Bagging集成算法(Bagging_WELM)作对比算法。其中SVM使用径向基核,由Matlab自动寻优得到核函数的比例值,并对预测指标进行标准化。C4.5采用网格法对节点数进行寻优,寻优范围为[10,60],步长为2。BP采用网格法对节点数进行寻优,隐含层节点的寻优范围为{10,15,20,…,200},步长为5;学习率的寻优范围为{0.1,0.2,…,1},其中,步长为0.1。WELM与Bagging_WELM采用本发明相同的样本权值赋值法,用网格法寻优,寻找基分类器的隐含层节点数L、正则化系数C和隐含层节点L的寻优范围及其对应寻优步长与本发明寻优过程设置相同,隐含层节点L的寻优范围为{10,15,20,…,500},步长为5;C的寻优范围为{20,21,…,218},其中,步长为1。
实验结果如表5所示。
表5仿真实验结果
Algorithms TrainTime Acc G-mean R1 R2 R3 R4
SP-EWELM 0.560 0.807 0.812 0.805 0.783 0.848 0.84
WELM 0.029 0.758 0.737 0.768 0.694 0.835 0.707
Bagging_WELM 0.510 0.770 0.718 0.786 0.704 0.834 0.660
SVM 0.154 0.810 0.667 0.938 0.635 0.525 0.667
C45 1.764 0.729 0.354 0.884 0.400 0.638 0.333
BPNN 2.322 0.692 0.216 0.797 0.627 0.391 0.247
表5给出了本实施例下进行的对比仿真实验结果,同时列出了本发明所用算法(SP-EWELM)及其对比模型BPNN、SVM、C4.5、ELM、Bagging_WELM的实验结果。其中R1、R2、R3、R4分别表示污水数据四大类对应的每一类的分类准确率。从表中可知,虽然SP-EWELM对于第一类样本(正常类)的分类准确率较其他对比算法略低,但是在其他三类的分类准确率中较其他算法取得较高的准确率。尤其在重要性最高的第四类(故障类)的分类准确率上,SP-EWELM的分类准确率比其他对比算法要高。同时,SP-EWELM在对比实验中取得了最高的整体G-mean值。由此可知,本发明所采用的算法比较适合应用于污水不平衡数据的分类诊断问题。
综上所述,本发明针对污水处理厂的故障诊断问题,重点研究了基于基于重采样池的集成污水处理故障诊断方法。该方法利用加权集成算法作为整体集成算法框架,结合SMOTE对原始少数类样本进行过采样构建重采样池,采用加权极限学习机作为集成算法的基分类器。一方面提高了污水故障诊断过程中少数类的分类准确率,另一方面利用极限学习机学习过程中对调参的要求较低、算法训练时间等优势,可保证故障诊断的时效性,值得推广。
上述实施例为本发明效果较好的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.基于重采样池的快速集成污水处理故障诊断方法,其特征在于,包括以下步骤:
1)对污水数据进行预处理,对初始训练数据中的少数类样本进行SMOTE过采样处理,对各类少数类样本构造对应的人工合成虚拟样本池Dj,j=1,...,J,其中J为少数类的类别个数;
2)设定集成分类器的基分类器的个数为T,分别训练T个基分类器,为了增加基分类器的多样性,每次训练基分类器时对步骤1)构造的样本池Dj,j=1,...,J分别进行有放回抽样步骤,结合所有样本池抽样得到的人工合成虚拟样本和初始训练数据得到该基分类器的训练样本集Xt_new(t=1,…,T);采用加权极限学习机作为基分类器,建立第i个基分类器hi(x);
3)定义新的基于不平衡分类性能指标G-mean值的基分类器输出权值计算公式,获得基分类器hi(x)对应的输出权值αi
4)将步骤2)训练得到的T个基分类器基于其对应的输出权值αi进行加权并列集成,建立集成分类器;
5)进行参数寻优,需要寻优的参数有基分类器的隐层节点数L及最优正则化系数C,寻优方法为网格法,以寻优得到的最优参数为基础,训练得到最终的集成分类器H(x);
6)用步骤1)相同的方法填补污水待测数据的缺失值,并将其归一化到[0,1]区间,将处理后的待测数据输入H(x),得到输出分类结果即为待测数据对应的故障诊断结果。
2.根据权利要求1所述的基于重采样池的快速集成污水处理故障诊断方法,其特征在于,所述步骤1)具体过程如下:
1.1)给定含N个污水样本集X={(x1,y1),(x2,y2),...,(xN,yN)},样本共有K个类别,其中有J个少数类,xi表示X的第i个样本,yi为k维列向量,表示其对应的类别标签,xi属第k类,则yi的第k个元素标为1,其余元素标为-1,第1类样本的类别标签写为{1,-1,...,-1};
1.2)将X中样本数小于N×0.2的类别视为少数类,对少数类每类分别采用SMOTE方法进行过采样,过采样后用得到的新样本用于构造该类的人工合成虚拟样本池Dj,j=1,...,J。
3.根据权利要求2所述的基于重采样池的快速集成污水处理故障诊断方法,其特征在于,在步骤1.2)中,所述构造该类的人工合成虚拟样本池的具体过程如下:
1.2.1)从X中得到第j类少数类样本,将所有第j类少数类样本组成子数据集XRj,nj为XRj所含的少数类样本数,对XRj的每个样本xri,计算其与XRj中其余所有样本的欧氏距离,设置m为(0,nj]范围内的随机数,得到关于xri含m个少数类样本的K最近邻子集Si
1.2.2)设定过采样倍率aj,取aj=10;
1.2.3)对XRj的每个样本xri,在其对应的Si中随机采样一个近邻样本xrr,生成的新样本xnew的每个特征取值为在xrr与xri在特征空间连线上随机的一点,即:
xnew=xri+rand(0,1)×(xri-xrr) (1)
其中,rand(0,1)表示0到1之间的一个随机数;
1.2.4)重复步骤1.2.3)直至生成aj·nj个新样本为止,最后去除重复的生成样本,去重后的样本即为第j类样本对应的人工合成虚拟样本池Dj
1.2.5)重复步骤1.2.1)到1.2.4),直至对每一类少数类的样本集XRj都进行了SMOTE过采样步骤获得相应的人工合成虚拟样本池Dj,j=1,...,J。
4.根据权利要求1所述的基于重采样池的快速集成污水处理故障诊断方法,其特征在于,在步骤3)中,所述基分类器hi(x)输出权值αi表示为:
αi=0.5×ln(1+GMi) (2)
其中,GMi为基分类器hi(x)在验证集中分类得到的G-mean值。
5.根据权利要求2所述的基于重采样池的快速集成污水处理故障诊断方法,其特征在于,在步骤4)中,所述集成分类器表示为:
Figure FDA0003897621440000031
6.根据权利要求1所述的基于重采样池的快速集成污水处理故障诊断方法,其特征在于,在步骤5)中,所述集成分类器的网格法寻优参数具体如下:
设置集成分类器的基分类器个数T,T是(1,20]范围内的整数,然后寻找基分类器的隐含层节点数L、正则化系数C的参数组合以满足算法最优性能,L的寻优范围为{10,15,20,…,500},步长为5;C的寻优范围为{20,21,…,218},其中,步长为1。
CN201811283829.1A 2018-10-31 2018-10-31 基于重采样池的快速集成污水处理故障诊断方法 Active CN109558893B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811283829.1A CN109558893B (zh) 2018-10-31 2018-10-31 基于重采样池的快速集成污水处理故障诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811283829.1A CN109558893B (zh) 2018-10-31 2018-10-31 基于重采样池的快速集成污水处理故障诊断方法

Publications (2)

Publication Number Publication Date
CN109558893A CN109558893A (zh) 2019-04-02
CN109558893B true CN109558893B (zh) 2022-12-16

Family

ID=65865712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811283829.1A Active CN109558893B (zh) 2018-10-31 2018-10-31 基于重采样池的快速集成污水处理故障诊断方法

Country Status (1)

Country Link
CN (1) CN109558893B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363230B (zh) * 2019-06-27 2021-07-20 华南理工大学 基于加权基分类器的stacking集成污水处理故障诊断方法
CN111191832A (zh) * 2019-12-25 2020-05-22 国电南瑞科技股份有限公司 一种台风灾害配电网杆塔故障预测方法及系统
CN111507504A (zh) * 2020-03-18 2020-08-07 中国南方电网有限责任公司 基于数据重采样的Adaboost集成学习电网故障诊断系统及方法
CN111814836B (zh) * 2020-06-12 2022-07-19 武汉理工大学 基于类不平衡算法的车辆行驶行为检测方法及装置
CN112557856B (zh) * 2020-12-23 2023-10-31 南方电网电力科技股份有限公司 高压电缆护套的监测方法、装置、存储介质及计算机设备
CN112790775B (zh) * 2021-01-22 2022-04-12 中国地质大学(武汉) 基于集成分类的高频振荡节律检测方法及装置
CN116499748B (zh) * 2023-06-27 2023-08-29 昆明理工大学 基于改进smote和分类器的轴承故障诊断方法、系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112532A (ja) * 1998-10-07 2000-04-21 Sekisui Chem Co Ltd 真空式下水道システムにおけるポンプ制御方法、並びに、真空式下水道システムのポンプ制御装置
CN105487526A (zh) * 2016-01-04 2016-04-13 华南理工大学 一种Fast RVM污水处理故障诊断方法
CN105700384A (zh) * 2016-03-14 2016-06-22 东北大学 一种构建废水污染物排放Petri网仿真模型的方法
CN105740619A (zh) * 2016-01-28 2016-07-06 华南理工大学 基于核函数的加权极限学习机污水处理在线故障诊断方法
CN106681305A (zh) * 2017-01-03 2017-05-17 华南理工大学 一种Fast RVM污水处理在线故障诊断方法
CN106874934A (zh) * 2017-01-12 2017-06-20 华南理工大学 基于加权极限学习机集成算法的污水处理故障诊断方法
CN107688825A (zh) * 2017-08-03 2018-02-13 华南理工大学 一种改进型的集成加权极限学习机污水处理故障诊方法
CN107784325A (zh) * 2017-10-20 2018-03-09 河北工业大学 基于数据驱动增量融合的螺旋式故障诊断模型
CN108228716A (zh) * 2017-12-05 2018-06-29 华南理工大学 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法
CN108647272A (zh) * 2018-04-28 2018-10-12 江南大学 一种基于数据分布的小样本扩充方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009066285A2 (en) * 2007-11-19 2009-05-28 Dekel Shlomi A dynamic method and system for representing a three dimensional object navigated from within
US9489495B2 (en) * 2008-02-25 2016-11-08 Georgetown University System and method for detecting, collecting, analyzing, and communicating event-related information
GB201621434D0 (en) * 2016-12-16 2017-02-01 Palantir Technologies Inc Processing sensor logs

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112532A (ja) * 1998-10-07 2000-04-21 Sekisui Chem Co Ltd 真空式下水道システムにおけるポンプ制御方法、並びに、真空式下水道システムのポンプ制御装置
CN105487526A (zh) * 2016-01-04 2016-04-13 华南理工大学 一种Fast RVM污水处理故障诊断方法
CN105740619A (zh) * 2016-01-28 2016-07-06 华南理工大学 基于核函数的加权极限学习机污水处理在线故障诊断方法
CN105700384A (zh) * 2016-03-14 2016-06-22 东北大学 一种构建废水污染物排放Petri网仿真模型的方法
CN106681305A (zh) * 2017-01-03 2017-05-17 华南理工大学 一种Fast RVM污水处理在线故障诊断方法
CN106874934A (zh) * 2017-01-12 2017-06-20 华南理工大学 基于加权极限学习机集成算法的污水处理故障诊断方法
CN107688825A (zh) * 2017-08-03 2018-02-13 华南理工大学 一种改进型的集成加权极限学习机污水处理故障诊方法
CN107784325A (zh) * 2017-10-20 2018-03-09 河北工业大学 基于数据驱动增量融合的螺旋式故障诊断模型
CN108228716A (zh) * 2017-12-05 2018-06-29 华南理工大学 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法
CN108647272A (zh) * 2018-04-28 2018-10-12 江南大学 一种基于数据分布的小样本扩充方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
应用型本科高校化学化工虚拟仿真实验中心建设探索――以徐州工程学院为例;王菊等;《山东化工》;20160423(第08期);第118-120页 *
西门子S7系列PLC在污水处理回用装置的应用;任召金等;《中氮肥》;20100115(第01期);第53-54页 *

Also Published As

Publication number Publication date
CN109558893A (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
CN108228716B (zh) 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法
CN109558893B (zh) 基于重采样池的快速集成污水处理故障诊断方法
CN112382352B (zh) 基于机器学习的金属有机骨架材料结构特征快速评估方法
CN111626336B (zh) 一种基于不平衡数据集的地铁故障数据分类方法
CN110009030B (zh) 基于stacking元学习策略的污水处理故障诊断方法
CN110363230B (zh) 基于加权基分类器的stacking集成污水处理故障诊断方法
CN106022954B (zh) 基于灰色关联度的多重bp神经网络负荷预测方法
CN110516818A (zh) 一种基于集成学习技术的高维度数据预测方法
CN106056127A (zh) 一种带模型更新的gpr在线软测量方法
CN109215740A (zh) 基于Xgboost的全基因组RNA二级结构预测方法
CN110826611A (zh) 基于多个元分类器加权集成的stacking污水处理故障诊断方法
CN115689008A (zh) 基于集合经验模态分解的CNN-BiLSTM短期光伏功率预测方法及其系统
CN113539386A (zh) 基于clmvo-elm的溶解氧浓度预测方法、装置、设备及存储介质
CN113240201B (zh) 一种基于gmm-dnn混合模型预测船舶主机功率方法
CN111723949A (zh) 基于选择性集成学习的孔隙度预测方法
CN114429152A (zh) 基于动态指数对抗性自适应的滚动轴承故障诊断方法
CN114417740B (zh) 一种深海养殖态势感知方法
Yang et al. Teacher–Student Uncertainty Autoencoder for the Process-Relevant and Quality-Relevant Fault Detection in the Industrial Process
CN109164794B (zh) 基于偏f值selm的多变量工业过程故障分类方法
Lu et al. Quality-relevant feature extraction method based on teacher-student uncertainty autoencoder and its application to soft sensors
Alsaeed et al. Predicting turbidity and Aluminum in drinking water treatment plants using Hybrid Network (GA-ANN) and GEP
Hu et al. Performance of ensemble‐learning models for predicting eutrophication in Zhuyi Bay, Three Gorges Reservoir
CN117541095A (zh) 一种农用地土壤环境质量类别划分的方法
CN116993548A (zh) 基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及系统
CN115374858A (zh) 基于混合集成模型的流程工业生产品质的智能诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant