CN109147875A - 基于模糊聚类的支持向量回归算法的污水溶解氧浓度预测方法 - Google Patents

基于模糊聚类的支持向量回归算法的污水溶解氧浓度预测方法 Download PDF

Info

Publication number
CN109147875A
CN109147875A CN201810898015.2A CN201810898015A CN109147875A CN 109147875 A CN109147875 A CN 109147875A CN 201810898015 A CN201810898015 A CN 201810898015A CN 109147875 A CN109147875 A CN 109147875A
Authority
CN
China
Prior art keywords
data
sample
water quality
prediction
support vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810898015.2A
Other languages
English (en)
Inventor
王晓峰
施星靓
周建
邹乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University
Hefei College
Original Assignee
Hefei College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei College filed Critical Hefei College
Priority to CN201810898015.2A priority Critical patent/CN109147875A/zh
Publication of CN109147875A publication Critical patent/CN109147875A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Activated Sludge Processes (AREA)

Abstract

本发明公开了一种基于模糊聚类的支持向量回归算法,对污水中溶解氧DO的含量进行预测,针对污水处理过程中溶解氧实时测量难的问题,本方法首先通过模糊聚类把整个样本分成多个子样本,再在每个子样本上建立支持向量回归模型,然后进行集成,对污水中溶解氧DO的含量进行在线预测。该方法具有较高的预测精度,在综合性能上优于其它时间序列预测方法,为快速,准确预测水质提供了一种有效的解决方案。

Description

基于模糊聚类的支持向量回归算法的污水溶解氧浓度预测 方法
技术领域:
本发明设计涉及大数据分析技术领域,具体说是一种基于模糊聚类支持向量回归的污水溶解氧浓度预测方法。
背景技术:
随着水资源的日益紧缩和水环境的污染的愈加严重,污水处理的问题越来越受到人们的关注。溶解氧DO是评价水质的的重要指标之一,但是目前存在的DO预测方法训练样本量小,没有考虑进水参数的测量存在滞后性,没有考虑时间参数,模型泛化能力不强,对于海量数据会出现欠拟合现象,导致预测准确率不佳。因此单纯的通过传感器的方法并不适合实时监测,所以我们采用支持向量回归的方法来预测未来时刻的DO浓度值。但是由于数据量庞大,支持向量回归算法将耗费大量的数据存储空间和运行时间,不利于在线实时监测。
因此本申请提出了基于模糊聚类的支持向量回归(FCM-SVR)算法来缩减样本数量,在不降低预测精度的同时,大幅度降低算法运算时间,从而实现在线预测。
发明内容:
本发明的目的是为了解决传统预测方法对污水中溶解氧DO的含量进行在线预测过程中存在计算复杂度高、时间复杂度高、预测精度不佳等缺陷,并提供一种基于模糊聚类支持向量回归的污水溶解氧浓度预测方法。
本发明所要解决的技术问题采用以下的技术方案来实现:
一种基于模糊聚类的支持向量回归算法的污水溶解氧浓度预测方法,包括以下步骤:
S1.历史水质数据的采集,获取包含若干水质指标的历史水质时间序列数据,这些指标例如水质的pH,MLSS,ORP,进水NH4N,出水COD,出水TP,进水累计流量,出水累计流量等;
S2.水质数据的特征选取,通过相关性分析,对获取的水质数据样本进行相关性分析,从而选取与溶解氧浓度较密切的若干指标;
S3.样本数据的聚类,利用模糊C均值聚类算法将样本数据分成C个子类样本;
S4.预测模型的训练,利用C个子类样本的水质特征矩阵对支持向量回归模型进行训练;
S5.待预测水质数据的输入,将待预测的污水数据通过聚类分为C类后,分别输入预测模型中;
S6.获得预测结果。
所述水质数据的特征选取包括以下步骤:
根据获得的历史水质时间序列数据,建立以若干水质指标为特征的矩阵;
将t-1时刻的水质指标作为输入数据,t时刻的溶解氧浓度作为输出数据,计算相关性,其计算公式如下:
式中,x为t-1时刻的各水质指标,y为t时刻的DO浓度;R(X,Y)为相关系数,|R|的数值越大,表示变量x与y之间的关系越密切;
选取与DO浓度相关性较大的水质指标数据作为聚类样本的数据,建立特征矩阵存入内存;
所述样本数据的聚类包括以下步骤:
随机选取数据中的C个样本作为聚类中心,分别计算每个样本到聚类中心的距离,用dij=||xj-vi||表示;其中i和j分别用来表示样本数量和样本指标;
更新每个样本的隶属度矩阵,其计算公式如下:
更新聚类中心,其计算公式如下:
重新计算距离矩阵,并计算目标函数,直到满足迭代次数或者前后两次目标函数的绝对值之差小于迭代停止误差算法停止;目标函数式如下:
得到C个子类的样本数据。
所述预测模型的训练包括以下步骤:
每一类样本进行标准化处理,其标准化的公式如式下:
式中,x是训练样本,mean(x),std(x)分别是训练的样本的均值和标准差;
分别把每个类别的数据样本按8:2的比例划分成训练数据和测试数据,选用RBF函数作为SVR模型的核函数,公式如下:
通过交叉验证分别选择C个类别的训练数据的惩罚系数V和核函数参数gamma的最佳超参数;交叉验证原理是将数据集随机分组k组,每次将其中一个组作为测试数据,剩余的k-1组作为训练数据;采用获得的最佳超参数对C个类别的训练数据进行训练,从而获取不同的支持向量回归模型,用测试样本对建立好的模型进行预测验证。
本发明的有益效果是:本发明所述的基于模糊聚类支持向量回归的污水溶解氧浓度预测方法,通过对数据样本做模糊聚类在不改变样本特征的情况下可以很好的降低数据样本的数量,由于模糊聚类是通过样本自身特征进行分类,很好的保留了时间序列的历史特征信息,有效的缩减了建模和预测数据的规模,能在保证算法预测精度上同时降低时间复杂度,然后再采取SVR算法对曝气过程进行建模,不仅可以确保模型的精度,而且可以在一定程度上缩小数据量,在保证模型精度的前提下,提高模型的预测效率。FCM-SVR模型训练数据建模时间较短,和SVR模型相比具有较好的综合性能,能够满足污水水质预测的实际需求。
附图说明:
图1为本发明的方法顺序图;
图2为本发明SVR与FCM-SVR对比图。
具体实施方式:
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
如图1所示,本发明所述的基于模糊聚类支持向量回归的污水溶解氧浓度预测方法,包括以下步骤:
第一步,历史水质数据的采集,在这个实例中,该实例的研究数据来源安徽省合肥市某污水处理厂2017年全年污水指标数据,数据按每分钟进行采集,共采集了46000组样本数据。其中水质参数分别为PH,MLSS,ORP,进水NH4N,出水COD,出水TP,进水累计流量,出水累计流量。
这7项指标经相关性分析与污水中DO浓度存在正相关关系,相关度较高,所以我们选择这7项与DO浓度有影响的因素作为样本的输入数据。基础数据的准确选定为后期的精准预测打下了基础。
第二步,水质数据的特征选取,通过相关性分析,对获取的水质数据样本进行相关性分析,从而选取与溶解氧浓度较密切的若干指标。
在该实例中,将t-1时刻的水质指标作为输入数据,共8个指标,分别为t-1时刻的PH,MLSS,ORP,进水NH4N,出水COD,出水TP,进水累计流量,出水累计流量。输出数据为t时刻的DO浓度。
计算相关性,其计算公式如下:
式中,x为t-1时刻的各水质指标,y为t时刻的DO浓度。R(X,Y)为相关系数,|R|的数值越大,表示变量x与y之间的关系越密切。
相关性结果如下:
表1溶解氧DO与其他指标的相关性
由表1可知,PH,ORP,进水NH4N,出水COD,出水TP,进水累计流量,出水累计流量与DO呈正相关,相关度较高;MLSS与DO呈负相关,相关性较低,故聚类样本数据为PH,ORP,进水NH4N,出水COD,出水TP,进水累计流量,出水累计流量。建立特征矩阵存入内存。
第三步,样本数据的聚类,用模糊C均值聚类算法将样本分成C个子类样本。包括以下步骤:
(1)随机选取数据中的C个样本作为聚类中心,分别计算每个样本到聚类中心的距离,用dij=||xj-vi||表示。其中i和j分别用来表示样本数量和样本指标。
(2)更新每个样本的隶属度矩阵,其计算公式如下:
(3)更新聚类中心,其计算公式如下:
(4)重新计算距离矩阵,并计算目标函数,直到满足迭代次数或者前后两次目标函数的绝对值之差小于迭代停止误差算法停止。目标函数式如下:
(5)得到C个子类的样本数据。
第四步,预测模型的训练,利用C个子类的水质特征矩阵对支持向量回归模型进行训练。包括以下步骤:
(1)每一类样本进行标准化处理。其标准化的公式如式下:
式中,x是训练样本,mean(x),std(x)分别是训练的样本的均值和标准差。
(2)分别把每个类别的数据样本按8:2的比例划分成训练数据和测试数据。选用RBF函数作为SVR模型的核函数,公式如下:
(3)通过交叉验证分别选择C个类别的训练数据的惩罚系数V和核函数参数gamma的最佳超参数。交叉验证原理是将数据集随机分组k组,每次将其中一个组作为测试数据,剩余的k-1组作为训练数据。采用获得的最佳超参数对C个类别的训练数据进行训练,从而获取不同的支持向量回归模型。用测试样本对建立好的模型进行预测验证。
(4)通过交叉验证对预测样本进行模糊聚类将其分类,再将其分别放入相对应的SVR模型中进行预测。
(5)得出的预测结果与实际值相比较,验证该模型的优劣用均方根误差和平均绝对误差来衡量。公式如下所示:
在这里,我们用模糊聚类和支持向量回归结合的预测模型对溶解氧DO进行预测,并分别与单一支持向量回归模型做比较,结果如图2所示。图中横坐标为2017年全年的测试数据序列,选取其中80%作为训练数据,20%作为测试数据,测试数据共计9200组样本,纵坐标为溶解氧DO的浓度。曲线是实际值与预测值的结果。图2为SVR与FCM-SVR对比图。
为了清晰直观的反映出各个模型的实验效果,验证模型的稳定性,本文将全年数据平均分为四个季度,并衡量其预测效果,结果见表1,预测计算公式如下:
式中,yi是预测值,ytesti测试数据,n是样本数量。
表2.SVR与FCM-SVR误差分析表
从图2和表2可以看出,FCM-SVR模型能更好地拟合污水指标与溶解氧浓度之间的复杂非线性关系。
预测结果明显优于单SVR模型;运行速度也大大提高。
根据表2的统计结果,FCM-SVR算法与SVR算法相比,MAE在第一季度到第四季度没有显着变化,RMSE下降了2%,3%,1%和2%分别。通过对四组实验的比较可以看出,FCM-SVR模型比SVR模型具有更好的预测精度。对于本文提出的所有绩效评估指标,训练数据建模时间相对较短。与SVR模型相比,综合性能较好,可以满足污水水质预测的实际需要。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (4)

1.一种基于模糊聚类的支持向量回归算法的污水溶解氧浓度预测方法,其特征在于包括以下步骤:
S1.历史水质数据的采集,获取包含若干水质指标的历史水质时间序列数据;
S2.水质数据的特征选取,通过相关性分析,对获取的历史水质时间序列数据样本进行相关性分析,从而选取与溶解氧浓度较密切的若干指标;
S3.样本数据的聚类,利用模糊C均值聚类算法将样本数据分成C个子类样本;
S4.预测模型的训练,利用C个子类样本的水质特征矩阵对支持向量回归模型进行训练;
S5.待预测水质数据的输入,将待预测的污水数据通过聚类分为C类后,分别输入预测模型中;
S6.获得预测结果。
2.根据权利要求1所述的一种基于模糊聚类的支持向量回归算法的污水溶解氧浓度预测方法,其特征在于:上述S1步骤中获取的历史水质时间序列数据为水质的pH,MLSS,ORP,进水NH4N,出水COD,出水TP,进水累计流量,出水累计流量。
3.根据权利要求1所述的一种基于模糊聚类的支持向量回归算法的污水溶解氧浓度预测方法,其特征在于:上述S2步骤中水质数据的特征选取包括以下步骤:
根据获得的历史水质时间序列数据,建立以若干水质指标为特征的矩阵;
将t-1时刻的水质指标作为输入数据,t时刻的溶解氧浓度作为输出数据,计算相关性,其计算公式如下:
式中,x为t-1时刻的各水质指标,y为t时刻的DO浓度;R(X,Y)为相关系数,|R|的数值越大,表示变量x与y之间的关系越密切;
选取与DO浓度相关性较大的水质指标数据作为聚类样本的数据,建立特征矩阵存入内存;
所述样本数据的聚类包括以下步骤:
随机选取数据中的C个样本作为聚类中心,分别计算每个样本到聚类中心的距离,用dij=||xj-vi||表示;其中i和j分别用来表示样本数量和样本指标;
更新每个样本的隶属度矩阵,其计算公式如下:
更新聚类中心,其计算公式如下:
重新计算距离矩阵,并计算目标函数,直到满足迭代次数或者前后两次目标函数的绝对值之差小于迭代停止误差算法停止;目标函数式如下:
得到C个子类的样本数据。
4.根据权利要求1所述的一种基于模糊聚类的支持向量回归算法的污水溶解氧浓度预测方法,其特征在于:上述S4步骤中所述预测模型的训练包括以下步骤:
每一类样本进行标准化处理,其标准化的公式如式下:
式中,x是训练样本,mean(x),std(x)分别是训练的样本的均值和标准差;
分别把每个类别的数据样本按8:2的比例划分成训练数据和测试数据,选用RBF函数作为SVR模型的核函数,公式如下:
通过交叉验证分别选择C个类别的训练数据的惩罚系数V和核函数参数gamma的最佳超参数;
交叉验证原理是将数据集随机分组k组,每次将其中一个组作为测试数据,剩余的k-1组作为训练数据;
采用获得的最佳超参数对C个类别的训练数据进行训练,从而获取不同的支持向量回归模型,用测试样本对建立好的模型进行预测验证。
CN201810898015.2A 2018-08-08 2018-08-08 基于模糊聚类的支持向量回归算法的污水溶解氧浓度预测方法 Pending CN109147875A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810898015.2A CN109147875A (zh) 2018-08-08 2018-08-08 基于模糊聚类的支持向量回归算法的污水溶解氧浓度预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810898015.2A CN109147875A (zh) 2018-08-08 2018-08-08 基于模糊聚类的支持向量回归算法的污水溶解氧浓度预测方法

Publications (1)

Publication Number Publication Date
CN109147875A true CN109147875A (zh) 2019-01-04

Family

ID=64792178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810898015.2A Pending CN109147875A (zh) 2018-08-08 2018-08-08 基于模糊聚类的支持向量回归算法的污水溶解氧浓度预测方法

Country Status (1)

Country Link
CN (1) CN109147875A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857056A (zh) * 2019-03-08 2019-06-07 中冶华天南京电气工程技术有限公司 一种智能污水处理控制系统
CN109948715A (zh) * 2019-03-22 2019-06-28 杭州电子科技大学 一种水质监测数据缺失值填补方法
CN110555459A (zh) * 2019-07-24 2019-12-10 四川大学 基于模糊聚类和支持向量回归的成绩预测方法
CN110598902A (zh) * 2019-08-02 2019-12-20 浙江工业大学 一种基于支持向量机与knn相结合的水质预测方法
CN110674471A (zh) * 2019-10-30 2020-01-10 吉林大学 基于GIS与Logistic回归模型的泥石流易发性预测方法
CN111291937A (zh) * 2020-02-25 2020-06-16 合肥学院 基于支持向量分类与gru神经网络联合的处理污水水质预测方法
CN113724796A (zh) * 2020-05-25 2021-11-30 中国石油化工股份有限公司 化工装置尾气含氧量计算方法、装置、存储介质及处理器
CN113889194A (zh) * 2021-10-14 2022-01-04 上海上实龙创智能科技股份有限公司 一种污水生化处理中溶解氧的预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012002713A2 (ko) * 2010-06-29 2012-01-05 부산대학교 산학협력단 하폐수 처리장의 공정진단 시스템 및 방법
CN103885867A (zh) * 2014-03-28 2014-06-25 渤海大学 一种模拟电路性能的在线评价方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012002713A2 (ko) * 2010-06-29 2012-01-05 부산대학교 산학협력단 하폐수 처리장의 공정진단 시스템 및 방법
CN103885867A (zh) * 2014-03-28 2014-06-25 渤海大学 一种模拟电路性能的在线评价方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XING-LIANG SHI: "《Prediction of Dissolved Oxygen Concentration in Sewage Using Support Vector Regression Based on Fuzzy C-means Clustering》", 《INTELLIGENT COMPUTING THEORIES AND APPLICATION.ICIC 2018》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857056A (zh) * 2019-03-08 2019-06-07 中冶华天南京电气工程技术有限公司 一种智能污水处理控制系统
CN109948715A (zh) * 2019-03-22 2019-06-28 杭州电子科技大学 一种水质监测数据缺失值填补方法
CN110555459A (zh) * 2019-07-24 2019-12-10 四川大学 基于模糊聚类和支持向量回归的成绩预测方法
CN110598902A (zh) * 2019-08-02 2019-12-20 浙江工业大学 一种基于支持向量机与knn相结合的水质预测方法
CN110674471A (zh) * 2019-10-30 2020-01-10 吉林大学 基于GIS与Logistic回归模型的泥石流易发性预测方法
CN111291937A (zh) * 2020-02-25 2020-06-16 合肥学院 基于支持向量分类与gru神经网络联合的处理污水水质预测方法
CN113724796A (zh) * 2020-05-25 2021-11-30 中国石油化工股份有限公司 化工装置尾气含氧量计算方法、装置、存储介质及处理器
CN113889194A (zh) * 2021-10-14 2022-01-04 上海上实龙创智能科技股份有限公司 一种污水生化处理中溶解氧的预测方法

Similar Documents

Publication Publication Date Title
CN109147875A (zh) 基于模糊聚类的支持向量回归算法的污水溶解氧浓度预测方法
CN104318325B (zh) 多流域实时智能水质预测方法及系统
CN110889085A (zh) 基于复杂网络多元在线回归的废水智能监控方法及系统
CN102262147A (zh) 一种废水处理系统出水cod的软测量方法和系统
CN106599585B (zh) 基于并行蜂群算法的水文模型参数优化方法及装置
CN113268883A (zh) 一种基于pca-abc-svm模型的海底原油管道腐蚀速率预测方法
CN112348290B (zh) 河流水质预测方法、装置、存储介质及设备
CN105717054B (zh) 在线检测循环冷却水中阻垢缓蚀剂浓度的检测方法、检测装置及循环冷却水处理控制系统
CN110276556A (zh) 一种基于多策略的环境承载力指标权重计算方法及装置
CN105868534A (zh) 一种基于多目标优化抽样的水文模型不确定性分析方法
CN109657790A (zh) 一种基于pso的递归rbf神经网络出水bod预测方法
CN109886461A (zh) 一种径流预报方法及装置
CN117078114B (zh) 引水工程影响下受水湖泊水质评价方法和系统
CN108830417A (zh) 一种基于arma和回归分析的生活能源消费预测方法及系统
CN108984972A (zh) 一种基于大数据和并行计算的水质数学模型优化方法
CN110288149A (zh) 多区域水资源供需风险评价方法及设备
CN114858207A (zh) 一种基于软测量的河道排污口网格化溯源排查方法
CN114548475A (zh) 一种基于大数据预测的碳排放强度分级评价方法和可视化系统
CN109783934A (zh) 一种基于h-adcp的断面平均流速拟合率定方法
CN109345021A (zh) 一种采用lstm建模预测劳动力需求增量的方法
CN113642259B (zh) 一种基于多层流速测量的河流流场重构方法
CN108805388A (zh) 一种未来年负荷时间序列场景的确定方法和装置
Yin et al. Effect on high-quality economic development of foreign direct investment in China from the triple perspectives of financial development
Xu et al. China's marine economic efficiency: A meta-analysis
Wang et al. Review of evaluation on ecological carrying capacity: The progress and trend of methodology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190104

RJ01 Rejection of invention patent application after publication