CN111863153A - 一种基于数据挖掘的废水中悬浮固体总量的预测方法 - Google Patents

一种基于数据挖掘的废水中悬浮固体总量的预测方法 Download PDF

Info

Publication number
CN111863153A
CN111863153A CN202010727352.2A CN202010727352A CN111863153A CN 111863153 A CN111863153 A CN 111863153A CN 202010727352 A CN202010727352 A CN 202010727352A CN 111863153 A CN111863153 A CN 111863153A
Authority
CN
China
Prior art keywords
data
tss
neural network
model
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010727352.2A
Other languages
English (en)
Inventor
于忠清
徐超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Hongjin Smart Energy Technology Co ltd
Original Assignee
Qingdao Hongjin Smart Energy Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Hongjin Smart Energy Technology Co ltd filed Critical Qingdao Hongjin Smart Energy Technology Co ltd
Priority to CN202010727352.2A priority Critical patent/CN111863153A/zh
Publication of CN111863153A publication Critical patent/CN111863153A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Activated Sludge Processes (AREA)

Abstract

本发明公开了一种基于数据挖掘的废水中悬浮固体总量的预测方法,涉及水体污染物预测领域,包括以下步骤:S1:获取进水阶段的水质参数,包括进水流量、碳质生化需氧量CBOD、总悬浮固体TSS;S2:对获取的水质参数进行预处理;S3:将预处理后的进水流量和碳质生化需氧量CBOD进行PCA数据降维;S4:将降维选择后的数据输入至MLP神经网络模型中,建立进水阶段的总悬浮固体TSS的时间序列模型;S5:将总悬浮固体TSS过去7日记录值输入至MLP神经网络模型中,建立TSS的时间序列预测模型。其中预测模型性能通过平均绝对误差MAE和平均相对误差MRE进行评估。本发明应用数据挖掘算法对固体悬浮物总量进行了预测,通过对MLP算法模型的迭代构造,进一步提高了预测的精度。

Description

一种基于数据挖掘的废水中悬浮固体总量的预测方法
技术领域
本发明涉及水体污染物预测领域,具体涉及一种基于数据挖掘的废水中悬浮固体总量的预测方法。
背景技术
总悬浮固体(TSS)被认为是导致水质恶化的主要污染物之一,过量的TSS会消耗出水中的溶解氧(DO),导致水处理成本上升,鱼类资源减少,以及影响水的总体美学。悬浮物预测对控制废水水质具有重要意义,而一种精度高的预测方法对于控制废水水质、污水处理具有极高的指导意义。
发明内容
本发明的目的在于提供一种基于数据挖掘的废水中悬浮固体总量的预测方法,解决废水中TSS预测精度不高的问题。
为解决上述的技术问题,本发明采用以下技术方案:一种基于数据挖掘的废水中悬浮固体总量的预测方法,其特征在于包括以下步骤:
S1:获取目标特征数据:其中,所述目标特征数据是指进水阶段的水质参数,包括进水流量、碳质生化需氧量CBOD、总悬浮固体TSS;
S2:对目标特征数据进行数据预处理;
S3:将经过数据预处理的进水流量和碳质生化需氧量CBOD进行PCA数据降维;
S4:将经过降维选择的数据输入至MLP神经网络模型中,建立进水阶段的总悬浮固体TSS的时间序列模型,并利用平均绝对误差MAE和平均相对误差MRE来评估数据模型的性能;
S5:将总悬浮固体TSS过去7日记录值输入至MLP神经网络模型中,建立废水中总悬浮固体TSS的时间序列预测模型,并利用平均绝对误差MAE和平均相对误差MRE来评估数据模型的性能;
其中,所述步骤S4和步骤S5种MLP神经网络均由输入层、隐含层和输出层三层组成,隐含层数为1,隐含层的节点数量均为从5~25个不等。
进一步地,步骤S2中对目标特征数据进行预处理之前需进行异常值识别及去除操作,使用双侧离群值检测方法对超过+3σ的值和小于-3σ的值进行离群值判定并剔除离群值,TSS值保持在32mg/L至530mg/L之间。
进一步地,步骤S3中经过数据预处理的进水流量和碳质生化需氧量CBOD进行PCA数据降维,所述PCA降维步骤如下:
S3-1.归一化,分别计算出进水流量和CBOD数据的均值,再将集合中每一个元素减去这个均值;
S3-2.对于维度去除均值的矩阵求协方差矩阵和对应的特征值矩阵和特征向量矩阵;
S3-3.按照特征值从大到小排列其对应的特征向量,挑选出前K个特征值对应的特征向量;
S3-4.将原数据矩阵与上述得到的特征向量矩阵相乘,得到最终的降维后矩阵;
其中,K表示降维后的维度,取值需根据维度实际贡献度选择,本发明中K取5维即可达到原数据95%的贡献度,原数据矩阵为进水流量和CBOD构成的多维矩阵。
进一步地,步骤S4中MLP神经网络为5输入1输出,隐含层的节点数为16,神经元采用双曲正切T形传递函数,步骤S5中MLP神经网络为5输入1输出,隐含层的节点数为24,神经元采用双曲正切T形传递函数。
进一步地,步骤S4和步骤S5中MLP神经网络采取迭代式神经网络学习方案更新和训练预测模型。
进一步地,训练具体为对于包含有1395组输入参量的数据集,使用其中的930组输入参量用于MLP神经网络模型的训练,其余465组作为输入参量来验证BP神经网络模型的预测能力。
进一步地,步骤S4和步骤S5中平均绝对误差(MAE)和平均相对误差(MRE)的计算方法如下:
Figure BDA0002600094620000021
Figure BDA0002600094620000022
其中,
Figure BDA0002600094620000023
Figure BDA0002600094620000024
表示t时刻模型预测值,yi(t)和y(t)表示t时刻实际值。
与现有技术相比,本发明的有益效果是:本申请提出的MLP神经网络建立了预测污水中TSS预测模型并基于该模型进行了预测结果仿真,从而能够确保所述方法能够较为准确用于此类预测。除了设置神经网络输入层和输出层的节点数外,运用神经网络对样本进行训练,不需要了解污水中TSS变化的内部机制,比传统的基于复杂数学模型的预测方法更为便捷,选用进水流量和进水CBOD作为量化输入参数,对TSS模型进行时序构造,提高了预测模型的稳健性。相比于其他机器学习建立的模型预测TSS方案来说更加具有独特性和适配性,同时还具有收敛速度快、网络泛化能力强的特点。
附图说明
图1为一种基于数据挖掘的废水中悬浮固体总量的预测方法流程示意图。
图2为识别出TSS值的箱型图。
图3为去除异常值后TSS值的分布。
图4为TSS的实际值和预测值的比较。
图5为预测TSS流入的五年时间序列。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
MLP(Multilayer Perceptron)神经网络,又称多层感知器神经网络,是一种应用于模式识别和分类预测评价的人工神经网络。一般的神经网络结构可能由多层所构成,本发明只需要采用由输入层、隐含层、输出层构成的三层拓扑结构的神经网络即可以实现准确的TSS预测。
MLP神经网络的学习过程是从外界输入训练样本不断对模型进行训练,改变网络的连接权值,使得最终的输出值更加接近期望输出。这一过程包括了工作信号正向传递过程,以及误差信号的反向传递过程。正向传递就是输入层的每个节点都要与隐含层进行加权求和计算,通过隐含层的激活函数计算出每个值再与输出层进行加权求和计算,最终的输出值与期望值作比较,计算出误差,完成一次正向传递的过程。反向传递是利用正向传递最后输出的结果来计算误差的偏导数,并一层层的向后反向传递,直到输入层并更新权重,完成反向传递的过程。如此反复,直到全局误差达到满意为止,学习结束。
本发明的思路是利用神经网络对高度非线性数据建模效果突出的特点,对TSS预测精度进行提升。首先,获取目标特征数据:其中,所述目标特征数据是指进水阶段的水质参数,包括进水流量、碳质生化需氧量CBOD、pH值、总悬浮固体TSS;再对目标特征数据进行数据预处理;其次,将经过数据预处理的进水流量和碳质生化需氧量CBOD进行PCA数据降维;再次,将经过降维选择的数据输入至MLP神经网络模型中,建立进水阶段的总悬浮固体TSS的时间序列模型,并利用平均绝对误差(MAE)和平均相对误差(MRE%)来评估数据模型的性能;最后,将总悬浮固体TSS过去7日记录值输入至MLP神经网络模型中,建立废水中总悬浮固体TSS的时间序列预测模型,并利用平均绝对误差(MAE)和平均相对误差(MRE%)来评估数据模型的性能;其中,MLP神经网络均由输入层、隐含层和输出层三层组成,隐含层数均为1,隐含层的节点数量均为从5~25个不等。
在对目标特征数据进行预处理之前需进行异常值识别及去除操作,之所以会出现异常值,是由于实际测量误差造成的。使用双侧离群值检测方法对超过+3σ的值和小于-3σ的值进行离群值判定并剔除离群值,一般情况下,TSS值保持在32mg/L至530mg/L之间。
图2和图3分别给出了识别出离群值的TSS值的箱形图和去除异常值后的TSS的箱线图,异常值的识别和去除减少了预测模型输入的各类噪声,保证了预测模型建立的准确性。
对经过数据异常值去除后的进水流量和碳质生化需氧量CBOD进行PCA数据降维,降维步骤如下:
1)归一化,分别计算出进水流量和CBOD数据的均值,再将集合中每一个元素减去这个均值;
2)对于维度去除均值的矩阵求协方差矩阵和对应的特征值矩阵和特征向量矩阵;
3)按照特征值从大到小排列其对应的特征向量,挑选出前K个特征值对应的特征向量,其中,K表示降维后的维度;本发明中K取5维即可达到原数据95%的贡献度;
4)将原数据矩阵(进水流量和CBOD构成的多维矩阵)与上述得到的特征向量矩阵相乘,得到最终的降维后矩阵。
本申请的拓扑结构选择MLP神经网络的三层设计:输入层、隐含层和输出层,即可完成对废水中总TSS的预测。输入层输入训练数据,对于本实施案例来说,输入神经元对应为TSS的最近十日记录值中最佳的五个;隐含层采用“tanh”型激励函数,神经元的数量从5个到25个不等;输出层为TSS的当前值和未来值。
本申请考虑到数据的单变量性质,将TSS的过去记录值用作预测TSS的当前值和将来值的输入。这些过去的参数值显示了TSS的总体特征,从而广泛地提高了针对不同应用开发的各种模型的预测准确性。过去10天的TSS值用作输入参数,显示在
Figure BDA0002600094620000051
为了验证模型真实有效率,以一家污水处理厂数据为基础,分别挑选出TSS近10日记录值和近5年记录值,并根据最近过去值重要度来划分进行输入和预测,预测结果如图4和图5所示。
图4显示了TSS预测模型的确定系数R(反映回归模式说明因变量变化可靠程度的一个统计指标)较高,说明建立的TSS预测模型较为准确,能够反映TSS总体趋势。图5给出了TSS值在5年内的实际值和预测值运行状态曲线,表明利用MLP神经网络对TSS预测建模的预测精度得到了较大的提升。
显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

Claims (7)

1.一种基于数据挖掘的废水中悬浮固体总量的预测方法,其特征在于包括以下步骤:
S1:获取目标特征数据:其中,所述目标特征数据是指进水阶段的水质参数,包括进水流量、碳质生化需氧量CBOD、总悬浮固体TSS;
S2:对目标特征数据进行数据预处理;
S3:将经过数据预处理的进水流量和碳质生化需氧量CBOD进行PCA数据降维;
S4:将经过降维选择的数据输入至MLP神经网络模型中,建立进水阶段的总悬浮固体TSS的时间序列模型,并利用平均绝对误差MAE和平均相对误差MRE来评估数据模型的性能;
S5:将总悬浮固体TSS过去7日记录值输入至MLP神经网络模型中,建立废水中总悬浮固体TSS的时间序列预测模型,并利用平均绝对误差MAE和平均相对误差MRE来评估数据模型的性能;
其中,所述步骤S4和步骤S5中MLP神经网络均由输入层、隐含层和输出层三层组成,隐含层数为1,隐含层的节点数量均为从5~25个不等。
2.根据权利要求1所述的一种基于数据挖掘的废水中悬浮固体总量的预测方法,其特征在于:所述步骤S2中对目标特征数据进行预处理之前需进行异常值识别及去除操作,使用双侧离群值检测方法对超过+3σ的值和小于-3σ的值进行离群值判定并剔除离群值,TSS值保持在32mg/L至530mg/L之间。
3.根据权利要求1所述的一种基于数据挖掘的废水中悬浮固体总量的预测方法,其特征在于:所述步骤S3中经过数据预处理的进水流量和碳质生化需氧量CBOD进行PCA数据降维,所述PCA降维步骤如下:
S3-1.归一化,分别计算出进水流量和CBOD数据的均值,再将集合中每一个元素减去这个均值;
S3-2.对于维度去除均值的矩阵求协方差矩阵和对应的特征值矩阵和特征向量矩阵;
S3-3.按照特征值从大到小排列其对应的特征向量,挑选出前K个特征值对应的特征向量;
S3-4.将原数据矩阵与上述得到的特征向量矩阵相乘,得到最终的降维后矩阵;
其中,K表示降维后的维度,K取5维,原数据矩阵表示进水流量和CBOD构成的多维矩阵。
4.根据权利要求1所述的一种基于数据挖掘的废水中悬浮固体总量的预测方法,其特征在于:所述步骤S4中MLP神经网络为5输入1输出,隐含层的节点数为16,神经元采用双曲正切T形传递函数,所述步骤S5中MLP神经网络为5输入1输出,隐含层的节点数为24,神经元采用双曲正切T形传递函数。
5.根据权利要求1所述的一种基于数据挖掘的废水中悬浮固体总量的预测方法,其特征在于:所述步骤4和步骤5中MLP神经网络采取迭代式神经网络学习方案更新和训练预测模型。
6.根据权利要求5所述的一种基于数据挖掘的废水中悬浮固体总量的预测方法,其特征在于:所述训练具体为对于包含有1395组输入参量的数据集,使用其中的930组输入参量用于MLP神经网络模型的训练,其余465组作为输入参量来验证BP神经网络模型的预测能力。
7.根据权利要求1所述的一种基于数据挖掘的废水中悬浮固体总量的预测方法,其特征在于:所述步骤S4和步骤S5中平均绝对误差(MAE)和平均相对误差(MRE)的计算方法如下:
Figure FDA0002600094610000021
Figure FDA0002600094610000022
其中,
Figure FDA0002600094610000023
Figure FDA0002600094610000024
表示t时刻模型预测值,yi(t)和y(t)表示t时刻实际值。
CN202010727352.2A 2020-07-24 2020-07-24 一种基于数据挖掘的废水中悬浮固体总量的预测方法 Pending CN111863153A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010727352.2A CN111863153A (zh) 2020-07-24 2020-07-24 一种基于数据挖掘的废水中悬浮固体总量的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010727352.2A CN111863153A (zh) 2020-07-24 2020-07-24 一种基于数据挖掘的废水中悬浮固体总量的预测方法

Publications (1)

Publication Number Publication Date
CN111863153A true CN111863153A (zh) 2020-10-30

Family

ID=72950201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010727352.2A Pending CN111863153A (zh) 2020-07-24 2020-07-24 一种基于数据挖掘的废水中悬浮固体总量的预测方法

Country Status (1)

Country Link
CN (1) CN111863153A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112817299A (zh) * 2021-01-20 2021-05-18 浙江晶立捷环境科技有限公司 一种工业废水治理数据管理云平台及其控制方法
CN112990598A (zh) * 2021-03-31 2021-06-18 浙江禹贡信息科技有限公司 一种水库水位时间序列预测方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101387632A (zh) * 2008-10-17 2009-03-18 北京工业大学 一种污水处理过程中生化需氧量bod的软测量方法
CN102313796A (zh) * 2011-05-27 2012-01-11 北京工业大学 一种污水处理生化需氧量软测量方法
CN106971310A (zh) * 2017-03-16 2017-07-21 国家电网公司 一种客户投诉数量预测方法及装置
CN111079989A (zh) * 2019-11-29 2020-04-28 武汉理工大学 一种基于dwt-pca-lstm的供水公司供水量预测装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101387632A (zh) * 2008-10-17 2009-03-18 北京工业大学 一种污水处理过程中生化需氧量bod的软测量方法
CN102313796A (zh) * 2011-05-27 2012-01-11 北京工业大学 一种污水处理生化需氧量软测量方法
CN106971310A (zh) * 2017-03-16 2017-07-21 国家电网公司 一种客户投诉数量预测方法及装置
CN111079989A (zh) * 2019-11-29 2020-04-28 武汉理工大学 一种基于dwt-pca-lstm的供水公司供水量预测装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112817299A (zh) * 2021-01-20 2021-05-18 浙江晶立捷环境科技有限公司 一种工业废水治理数据管理云平台及其控制方法
CN112990598A (zh) * 2021-03-31 2021-06-18 浙江禹贡信息科技有限公司 一种水库水位时间序列预测方法与系统

Similar Documents

Publication Publication Date Title
CN111291937A (zh) 基于支持向量分类与gru神经网络联合的处理污水水质预测方法
CN112990556A (zh) 一种基于Prophet-LSTM模型的用户用电能耗预测方法
CN111967688B (zh) 一种基于卡尔曼滤波器与卷积神经网络的电力负荷预测方法
CN106022954B (zh) 基于灰色关联度的多重bp神经网络负荷预测方法
CN111860982A (zh) 一种基于vmd-fcm-gru的风电场短期风电功率预测方法
CN107463993B (zh) 基于互信息-核主成分分析-Elman网络的中长期径流预报方法
CN113128113B (zh) 一种基于深度学习和迁移学习的贫乏信息建筑负荷预测方法
CN111339712A (zh) 质子交换膜燃料电池剩余寿命预测方法
CN112884056A (zh) 基于优化的lstm神经网络的污水水质预测方法
CN111027772A (zh) 基于pca-dbilstm的多因素短期负荷预测方法
CN112557034B (zh) 一种基于pca_cnns的轴承故障诊断方法
CN112101480A (zh) 一种多变量聚类与融合的时间序列组合预测方法
CN111768000A (zh) 在线自适应微调深度学习的工业过程数据建模方法
CN114218872B (zh) 基于dbn-lstm半监督联合模型的剩余使用寿命预测方法
CN114548592A (zh) 一种基于cemd和lstm的非平稳时间序列数据预测方法
CN111754034A (zh) 一种基于混沌优化神经网络模型的时间序列预测方法
CN111863153A (zh) 一种基于数据挖掘的废水中悬浮固体总量的预测方法
CN116679211A (zh) 一种锂电池健康状态的预测方法
WO2023231374A1 (zh) 机械设备半监督故障检测分析方法、装置、终端及介质
CN115982141A (zh) 一种针对时序数据预测的特征优化方法
CN112307410A (zh) 基于船载ctd测量数据的海水温盐信息时序预测方法
CN117117859A (zh) 基于神经网络的光伏发电功率预测方法及系统
CN116975645A (zh) 一种基于vae-mrcnn的工业过程软测量建模方法
CN114117852B (zh) 一种基于有限差分工作域划分的区域热负荷滚动预测方法
CN113283642A (zh) 一种家禽饲料检测与配方系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201030

RJ01 Rejection of invention patent application after publication