CN111260117A - 一种基于气象因子的ca-narx水质预测方法 - Google Patents

一种基于气象因子的ca-narx水质预测方法 Download PDF

Info

Publication number
CN111260117A
CN111260117A CN202010025553.8A CN202010025553A CN111260117A CN 111260117 A CN111260117 A CN 111260117A CN 202010025553 A CN202010025553 A CN 202010025553A CN 111260117 A CN111260117 A CN 111260117A
Authority
CN
China
Prior art keywords
clustering
steps
data
value
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010025553.8A
Other languages
English (en)
Other versions
CN111260117B (zh
Inventor
王晶
耿燕
章胤
金玉玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN202010025553.8A priority Critical patent/CN111260117B/zh
Publication of CN111260117A publication Critical patent/CN111260117A/zh
Application granted granted Critical
Publication of CN111260117B publication Critical patent/CN111260117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Abstract

本发明公开了一种基于气象因子的CA‑NARX水质预测方法,属于智能水质预测数据应用技术领域;包括以下步骤:①进行数据标准化,②创建样本矩阵,③根据分位数确定初始聚类中心,④根据欧氏距离进行初始聚类,⑤将每类的均值作为新的聚类中心,⑥根据各样本距聚类中心的马氏距离按批聚类,⑦聚类数筛选,⑧选取最好的聚类数,⑨m折交叉验证选择训练样本,⑩前向型NARX神经网络分类预测。本发明主要解决中小型水库水质预测成本费用高、预测准确度低问题,同时处理传统聚类算法对数据的非均质、各类方差不同的不适用性问题,并对NARX神经网络训练准确度进行一定程度的提升。

Description

一种基于气象因子的CA-NARX水质预测方法
技术领域
本发明涉及智能水质预测数据应用技术领域,尤其是一种基于气象因子的CA-NARX水质预测方法,应用于水源地水质预测及管理。
背景技术
水源地的水质情况与人民生活息息相关,运用科学的方法对水质指标进行预测是一种有效的水资源管理和保护方法。总磷、总氮含量是水体富营养化状态的重要评价指标,也是影响水体环境的重要因素。对水体中总磷、总氮含量的准确快速预测可为水环境的评估与预警提供理论支撑,同时也为相关部门提供决策依据,有助于水环境监控与管理工作的进行,保证居民饮水的安全性。
目前,世界上水质预测方面主要有三大方向:从大量的水质历史数据挖掘信息进而预测水质、建立先进准确的水动力数学模型预测水质、通过气象因子数据预测水质。在运用大量历史数据进行水质预测研究方面,Ali Najah Ahmed等提出了一种以PH值等水质参数历史数据为基础的神经模糊推理系统(WDT-ANFIS),并结合了小波增强去噪进行改进以减少数据误差对预测结果造成的影响;在建立先进准确的水动力数学模型方面,蒋晨韵等构建了三维水动力-水质模型研究气温、水温、风力对蓝藻水华的影响;唐旺等利用三维耦合模型研究了库区水温和水质的相互影响关系。但是对于像中国石河水库这种中小型水库来说,上述从大量的水质历史数据挖掘信息进而预测水质和建立先进准确的水动力数学模型预测水质的方法并不适用。首先,获取大量的历史数据并不容易。我国的中小型水库多是每月采样检测两次,周期长、反应慢,难以实现实时监测从而获取大量数据。其次,引进先进的模型及软件对于中小型水库而言,花费较高,有大材小用的弊端。水体中的氮、磷营养盐污染一般来源于点源和非点源污染,点源污染排放集中、位置固定,如工业废水、城市生活废水等,一般容易得到有效控制。非点源污染主要通过农施化肥、土壤侵蚀、地表径流以及大气干湿沉降等方式进入水体,排放方式多样、难以监测和控制,国内外研究较少。
发明内容
本发明需要解决的技术问题是提供一种基于气象因子的CA-NARX水质预测方法,是对数据的准确聚类并快速准确预测的方法,利用简便易测的气象因子气温、水温、降雨量、相对湿度来研究影响水质重要因素总磷、总氮的相关性,设计优化的聚类方法与前向型NARX神经网络相结合的算法,实现对水质的准确快速预测。
为解决上述技术问题,本发明所采用的技术方案是:一种基于气象因子的CA-NARX水质预测方法,包括以下步骤:
步骤1:将逐日水质数据、气象因子数据分别存入矩阵,并对数据进行Min-Max标准化;
步骤2:根据分类数对应分位数选取初始聚类中心;
步骤3:根据各样本观测点距初始聚类中心的欧氏距离进行初步聚类;
步骤4:根据各样本观测点距聚类中心的马氏距离进行按批迭代聚类,直至前后两次迭代的聚类中心欧式距离之差小于某数值;
步骤5:遍历某范围的聚类数,分别计算每类聚类数下的样本平均轮廓系数值,选取与1相差最小的轮廓系数对应的聚类数,得到最佳聚类情况;
步骤6:将分类后的气象因子数据和水质数据归一化,并转化为时间序列数据,创建数据集,并初始化输入、输出延时阶数,隐含层个数参数;
步骤7:采用交叉验证方法,将样本数据随机的分成m份,每次随机的选择m-3份作为训练集,剩下的1份做测试集,2份做验证集,当这一轮完成后,重新随机选择m-3份来训练数据算法,重复进行一定轮数;
步骤8:创建非线性自回归神经网络,确定训练函数、误差函数;
步骤9:进行网络训练,计算隐含层、输出层的输出,计算实际输出值与期望输出值的误差;
步骤10:进行权值、阈值更新,重复步骤8~步骤9,直至满足训练结果的平均误差小于某数值;
步骤11:输入相应影响因子数据,通过网络仿真输出总磷、总氮含量预测值。
本发明技术方案的进一步改进在于:步骤1中的逐日水质数据包括总磷、总氮含量;气象因子数据包括气温、水温、降雨量、相对湿度。
本发明技术方案的进一步改进在于:步骤1中具体的Min-Max标准化方法为:将n日的水质数据总磷、总氮含量数据存入矩阵Y=[Y1,Y2],其中Yi=[Y1i,Y2i…Yni]′i=1,2,将四个气象因子气温、水温、降雨量、相对湿度数据存入矩阵X=[X1,X2,X3,X4],其中Xi=[X1i,X2i…Xni]′i=1,2,3,4,分别对两类数据进行Min-Max标准化,具体标准化公式为:
Figure BDA0002362313070000031
Figure BDA0002362313070000032
本发明技术方案的进一步改进在于:步骤2中选取初始聚类中心的具体方法为:设聚类数为k,设将样本分为k类,则第h个聚类中心为各变量的
Figure BDA0002362313070000033
分位数,h=1,2…k,以k=3为例,则三个初始聚类中心分别为
Figure BDA0002362313070000034
Figure BDA0002362313070000035
本发明技术方案的进一步改进在于:步骤3中,进行初步聚类的具体方法为:根据n个观测值距k个聚类中心的欧氏距离进行第一次聚类,设y1,y2,…yn为n个样本,即yi=[Yi1,Yi2,…Yim]′,则第j个样本与第h个聚类中心之间的欧氏距离为:
Figure BDA0002362313070000041
则分类准则为:
Figure BDA0002362313070000042
即将观测点归到距聚类中心欧式距离最小的类别。
本发明技术方案的进一步改进在于:步骤4中具体的方法包括如下步骤:
Ⅰ:设第h类的观测个数为nh,计算每类数据的类均值
Figure BDA0002362313070000043
类内方差∑h,将每类别样本均值作为新的聚类中心,重新对样本进行聚类,计算每个观测与聚类中心之间的马氏距离
Figure BDA0002362313070000044
并将该观测点归于与其的马氏距离最小的聚类中心所属类别,即分类准则仍为:
Figure BDA0002362313070000045
Ⅱ:计算每次聚类前后新旧聚类中心之间的欧氏距离D,并以此作为目标值,如果新聚类中心下的目标值小于之前聚类中心下的目标值,则更新聚类中心,重复步骤Ⅰ直至聚类中心不再更新。
本发明技术方案的进一步改进在于:步骤5中具体的方法包括如下步骤:
Ⅲ:计算当前聚类个数的平均轮廓系数:
设样本i属于第h0类,则其到同类其他样本的平均距离a(i)计算公式为:
Figure BDA0002362313070000046
样本i的簇间不相似度b(i)的计算公式为:
Figure BDA0002362313070000047
且h≠h0 (7)
b(i)=min{bi1,bi2,bi3…bik} (8)
样本的轮廓系数均值
Figure BDA0002362313070000048
Figure BDA0002362313070000051
a(i)为第i个样本值距同类别其他样本值的平均距离,即簇内不相似度,b(i)为第i个样本值距其它类他样本值的平均距离的最小值,即簇间不相似度,聚类目的为同类间距离尽可能小,不同类之间的差别尽可能大,故s(i)的值越接近于1,聚类效果越好,从而
Figure BDA0002362313070000052
的值也应越接近于1聚类效果越好;
Ⅳ:依次确定聚类个数为3、4、5、6,重复Ⅰ至Ⅲ步,依次计算出不同聚类中心个数下的样本平均轮廓系数值,选择使样本平均轮廓系数值最接近1的聚类个数,并将其作为最终的聚类个数。
本发明技术方案的进一步改进在于:步骤6中具体的方法包括如下步骤:
Ⅴ:构造时间序列数据:设输入因子x(k)表示为:
x(k)=x(μ1(k),μ2(k),μ3(k),μ4(k),μ5(k)) (10)
其中μ1(k),μ2(k),μ3(k),μ4(k),μ5(k)分别表示第k天气温、水温、降雨量、湿度的情况,并以TP(k)、TN(k)表示第k天的总磷、总氮含量情况;
Ⅵ:确定输入变量:同标准的NARX动态回归神经网络不同,输入变量除去上述四个气象因子外,直接将已知的总磷、总氮含量作为输入变量,这样就将神经网络变成单纯的前向型神经网络,使网络化动态为静态;
Ⅶ:确定延时阶数及隐含层神经元个数:根据经验进行初拟,并经过反复试凑确定输入、输出时延阶数为2,隐层神经元数目为12,并选取隐含层激活函数f1为tansig函数,输出层激活函数f2为purelin函数,函数具体表达式如下:
Figure BDA0002362313070000053
f2=x (12)。
本发明技术方案的进一步改进在于:步骤8中具体的方法为:建立非线性自回归模型:
TP(k+1)=f2f1(x(k-1),x(k),TP(k-1),TP(k)) (13)
TN(k+1)=f2f1(x(k-1),x(k),TP(k-1),TN(k)) (14)。
本发明技术方案的进一步改进在于:步骤9中具体的方法为:随机初始化隐含层和输出层各神经元的权值和偏置值,以trainlm作为训练函数,mse作为误差函数,根据每次训练误差情况对网络进行训练确定合适的权值和偏置值。
由于采用了上述技术方案,本发明取得的技术进步是:
1、本发明设计新型的聚类算法,运用数据标准化后的行和分位数确定初始聚类中心,在一定程度上保证了初始聚类中心的合理性,保证后续聚类迭代的聚类效果,并引入马氏距离作为迭代分类的判别准则,可以克服传统聚类算法对类间协差阵齐性的要求,同时引入平均轮廓系数值作为评判当前聚类数好坏的准则,克服传统动态聚类个数无法确定的缺点。
2、本发明引入前向型NARX神经网络,直接将气象因子和前1-2天的水质数据作为输入因子,同时结合m折交叉验证方法进行神经网络的训练,节省训练时间,提高了训练的准确度,此方法的设计考虑了水质情况变化的逐步性,利用水质的过去情况预测将来情况。
3、本发明充分考虑了我国中小型水库获取大量的历史数据不容易,并且引进先进的模型及软件花费较高的情况,运用简便易测的气象因子及水质的过去情况快速准确的预测近期水质情况,为水库管理人员提供一定决策依据,并且本发明设计的分类预测可应用于其他需提前决策的领域,应用较广。
4、本发明提出的CA-NARX算法,性能稳定,框架简洁,具有很强的通用性和可移植性,可以应用于相关领域的预测问题中,亦可以嵌入到别的算法中,不仅为水质预测问题提出了新的思路和方法,而且还有效拓展了聚类、NARX神经网络算法的应用深度和广度。
附图说明
图1是本发明主要思想流程图;
图2是本发明前向型NARX神经网络的具体结构图;
图3是本发明的详细算法流程图。
具体实施方式
本发明的关键技术是:①数据标准化后根据四个因素分位数选取初始聚类中心,根据各样本观测点距初始聚类中心的欧氏距离进行初步聚类,然后计算各类的类内方差,从而不断根据样本观测距各类中心的马氏距离进行迭代,直至前后两次迭代的总距离差小于一定数值,同时遍历一定范围的聚类数,根据样本平均轮廓系数(轮廓系数)值确定最佳聚类数。②根据分类数据运用前向型NARX神经网络直接以四个气象因子和前1-2天的水质数据作为输入因子,结合m折交叉验证方法对网络进行训练,可以预测未来30天左右的总磷、总氮含量。
下面结合图1~3及实施例对本发明做进一步详细说明:
如图1所示,一种基于气象因子的CA-NARX水质预测方法,包括以下步骤:
步骤1:将逐日水质数据、气象因子数据分别存入矩阵,并对数据进行Min-Max标准化;逐日水质数据包括总磷(mg/L)、总氮含量(mg/L);气象因子数据包括气温(度)、水温(度)、降雨量(mm)、相对湿度(mm);具体的Min-Max标准化方法为:将n日的水质数据总磷、总氮含量数据存入矩阵Y=[Y1,Y2],其中Yi=[Y1i,Y2i…Yni]′i=1,2,将四个气象因子气温、水温、降雨量、相对湿度数据存入矩阵X=[X1,X2,X3,X4],其中Xi=[X1i,X2i…Xni]′i=1,2,3,4,分别对两类数据进行Min-Max标准化,具体标准化公式为:
Figure BDA0002362313070000071
Figure BDA0002362313070000072
步骤2:根据分类数对应分位数选取初始聚类中心;选取初始聚类中心的具体方法为:设聚类数为k,设将样本分为k类,则第h个聚类中心为各变量的
Figure BDA0002362313070000081
分位数,h=1,2…k,以k=3为例,则三个初始聚类中心分别为
Figure BDA0002362313070000082
Figure BDA0002362313070000088
步骤3:根据各样本观测点距初始聚类中心的欧氏距离进行初步聚类;进行初步聚类的具体方法为:根据n个观测值距k个聚类中心的欧氏距离进行第一次聚类,设y1,y2,…yn为n个样本,即yi=[Yi1,Yi2,…Yim]′,则第j个样本与第h个聚类中心之间的欧氏距离为:
Figure BDA0002362313070000083
则分类准则为:
Figure BDA0002362313070000084
即将观测点归到距聚类中心欧式距离最小的类别。
步骤4:根据各样本观测点距聚类中心的马氏距离进行按批迭代聚类,直至前后两次迭代的聚类中心欧式距离之差小于某数值;具体的方法包括如下步骤:
Ⅰ:设第h类的观测个数为nh,计算每类数据的类均值
Figure BDA0002362313070000085
类内方差∑h,将每类别样本均值作为新的聚类中心,重新对样本进行聚类,计算每个观测与聚类中心之间的马氏距离
Figure BDA0002362313070000086
并将该观测点归于与其的马氏距离最小的聚类中心所属类别,即分类准则仍为:
Figure BDA0002362313070000087
Ⅱ:计算每次聚类前后新旧聚类中心之间的欧氏距离D,并以此作为目标值,如果新聚类中心下的目标值小于之前聚类中心下的目标值,则更新聚类中心,重复步骤Ⅰ直至聚类中心不再更新。
步骤5:遍历一定范围的聚类数,分别计算每类聚类数下的样本平均轮廓系数值,选取与1相差最小的轮廓系数对应的聚类数,得到最佳聚类情况;具体的方法包括如下步骤:
Ⅲ:计算当前聚类个数的平均轮廓系数:
设样本i属于第h0类,则其到同类其他样本的平均距离a(i)计算公式为:
Figure BDA0002362313070000091
样本i的簇间不相似度b(i)的计算公式为:
Figure BDA0002362313070000092
且h≠h0 (7)
b(i)=min{bi1,bi2,bi3…bik} (8)
样本的轮廓系数均值
Figure BDA0002362313070000093
Figure BDA0002362313070000094
a(i)为第i个样本值距同类别其他样本值的平均距离,即簇内不相似度,b(i)为第i个样本值距其它类他样本值的平均距离的最小值,即簇间不相似度,聚类目的为同类间距离尽可能小,不同类之间的差别尽可能大,故s(i)的值越接近于1,聚类效果越好,从而
Figure BDA0002362313070000095
的值也应越接近于1聚类效果越好;
Ⅳ:依次确定聚类个数为3、4、5、6,重复Ⅰ至Ⅲ步,依次计算出不同聚类中心个数下的样本平均轮廓系数值,选择使样本平均轮廓系数值最接近1的聚类个数,并将其作为最终的聚类个数。
步骤6:将分类后的气象因子数据和水质数据归一化,并转化为时间序列数据,创建数据集,并初始化输入、输出延时阶数,隐含层个数等参数;具体的方法包括如下步骤:
Ⅴ:构造时间序列数据:设输入因子x(k)表示为:
x(k)=x(μ1(k),μ2(k),μ3(k),μ4(k),μ5(k)) (10)
其中μ1(k),μ2(k),μ3(k),μ4(k),μ5(k)分别表示第k天气温、水温、降雨量、湿度的情况,并以TP(k)、TN(k)表示第k天的总磷、总氮含量情况;
Ⅵ:确定输入变量:同标准的NARX动态回归神经网络不同,输入变量除去上述四个气象因子外,直接将已知的总磷、总氮含量作为输入变量,这样就将神经网络变成单纯的前向型神经网络,使网络化动态为静态;
Ⅶ:确定延时阶数及隐含层神经元个数:根据经验进行初拟,并经过反复试凑确定输入、输出时延阶数为2,隐层神经元数目为12,并选取隐含层激活函数f1为tansig函数,输出层激活函数f2为purelin函数,函数具体表达式如下:
Figure BDA0002362313070000101
f2=x (12)。
步骤7:采用交叉验证方法,将样本数据随机的分成m份,每次随机的选择m-3份作为训练集,剩下的1份做测试集,2份做验证集,当这一轮完成后,重新随机选择m-3份来训练数据算法,重复进行一定轮数;
步骤8:创建非线性自回归神经网络,确定训练函数、误差函数;具体的方法为:建立非线性自回归模型:
TP(k+1)=f2f1(x(k-1),x(k),TP(k-1),TP(k)) (13)
TN(k+1)=f2f1(x(k-1),x(k),TP(k-1),TN(k)) (14)。
步骤9:进行网络训练,计算隐含层、输出层的输出,计算实际输出值与期望输出值的误差;具体的方法为:随机初始化隐含层和输出层各神经元的权值和偏置值,以trainlm作为训练函数,mse作为误差函数,根据每次训练误差情况对网络进行训练确定合适的权值和偏置值。
步骤10:进行权值、阈值更新,重复步骤8~步骤9,直至满足训练结果的平均误差小于某数值;
步骤11:输入相应影响因子数据,通过网络仿真输出总磷、总氮含量预测值。
具体的使用方法:
(1)将n日的水质数据总磷、总氮含量数据存入矩阵Y=[Y1,Y2],其中Yi=[Y1i,Y2i…Yni]′i=1,2.,将四个气象因子气温、水温、降雨量、湿度数据存入矩阵X=[X1,X2,X3,X4],其中Xi=[X1i,X2i…Xni]′i=1,2,3,4,分别对两类数据进行Min-Max标准化,具体标准化公式为:
Figure BDA0002362313070000111
Figure BDA0002362313070000112
(2)设聚类数为k,设将样本分为k类,则第h个聚类中心为各变量的
Figure BDA0002362313070000113
分位数(h=1,2…k),以k=3为例,则三个初始聚类中心分别为
Figure BDA0002362313070000114
Figure BDA0002362313070000119
(3)根据n个观测值距k个聚类中心的欧氏距离进行第一次聚类,设y1,y2,…yn为n个样本,即yi=[Yi1,Yi2,…Yim]′,则第j个样本与第h个聚类中心之间的欧氏距离为:
Figure BDA0002362313070000115
则分类准则为:
Figure BDA0002362313070000116
即将观测点归到距聚类中心欧式距离最小的类别。
(4)设第h类的观测个数为nh,计算每类数据的类均值
Figure BDA0002362313070000117
类内方差∑h,将每类别样本均值作为新的聚类中心,重新对样本进行聚类,计算每个观测与聚类中心之间的马氏距离
Figure BDA0002362313070000118
并将该观测归于与其的马氏距离最小的聚类中心所属类别,即分类准则仍为:
Figure BDA0002362313070000121
(5)计算每次聚类前后新旧聚类中心之间的欧氏距离D,并以此作为目标值,如果新聚类中心下的目标值小于之前聚类中心下的目标值,则更新聚类中心。重复步骤(4)直至聚类中心不再更新;
(6)计算当前聚类个数的平均轮廓系数:
设样本i属于第h0类,则其到同类其他样本的平均距离a(i)计算公式为:
Figure BDA0002362313070000122
样本i的簇间不相似度b(i)的计算公式为:
Figure BDA0002362313070000123
且h≠h0 (7)
b(i)=min{bi1,bi2,bi3…bik} (8)
样本的轮廓系数均值
Figure BDA0002362313070000124
Figure BDA0002362313070000125
a(i)为第i个样本值距同类别其他样本值的平均距离,即簇内不相似度,b(i)为第i个样本值距其它类他样本值的平均距离的最小值,即簇间不相似度,聚类目的为同类间距离尽可能小,不同类之间的差别尽可能大,故s(i)的值越接近于1,聚类效果越好,从而
Figure BDA0002362313070000126
的值也应越接近于1聚类效果越好;
(7)依次确定聚类个数为3、4、5、6,重复步骤(4)至步骤(6),依次计算出不同聚类中心个数下的样本平均轮廓系数值,选择使样本平均轮廓系数值最接近1的聚类个数,并将其作为最终的聚类个数。
(8)构造时间序列数据:设输入因子x(k)表示为:
x(k)=x(μ1(k),μ2(k),μ3(k),μ4(k),μ5(k)) (10)
其中μ1(k),μ2(k),μ3(k),μ4(k),μ5(k)分别表示第k天气温(TEMP)、水温(WT)、降雨量(PRCP)、湿度(H)的情况,并以TP(k)、TN(k)表示第k天的总磷、总氮含量情况。
(9)确定输入变量:同标准的NARX动态回归神经网络不同,输入变量除去上述四个气象因子外,直接将已知的总磷、总氮含量作为输入变量,这样就将神经网络变成单纯的前向型神经网络,使网络化动态为静态;
(10)确定延时阶数及隐含层神经元个数:根据经验进行初拟,并经过反复试凑确定输入、输出时延阶数为2,隐层神经元数目为12,并选取隐含层激活函数f1为tansig函数,输出层激活函数f2为purelin函数[17-20],函数具体表达式如下:
Figure BDA0002362313070000131
f2=x (12)
(11)对于每一类水质情况采用交叉验证方法,将样本数据随机的分成m份,每次随机的选择m-2份作为训练集,剩下的1份做测试集,2份做验证集。当这一轮完成后,重新随机选择m-2份来训练数据算法.重复进行一定轮数;
(12)建立非线性自回归模型:
TP(k+1)=f2f1(x(k-1),x(k),TP(k-1),TP(k)) (13)
TN(k+1)=f2f1(x(k-1),x(k),TP(k-1),TN(k)) (14)
(13)随机初始化隐含层和输出层各神经元的权值和偏置值,以trainlm作为训练函数,mse作为误差函数,根据每次训练误差情况对网络进行训练确定合适的权值和偏置值,重复步骤12-13,直至满足停止训练样本结果的平均误差小于一定值;
(14)重复步骤11-13;
(15)输入相应影响因子数据,通过网络仿真输出总磷、总氮含量预测值。
下面结合仿真实验对本发明进行进一步说明。
1、实验内容:采集秦皇岛石河水库2018年逐日水质数据和气象因子数据,进行未来一个月的水质预测。
2、实验结果:去噪后总氮含量317个样本中三类样本聚类中心分别为1.28、4.59、5.87(单位:mg/L),对应成员个数分别为165、93、59。对比分类情况我们将总氮含量分为1-6月、7-8月、9-12月三种水体富营养化情况。总磷变化情况基本同总氮。所以我们在对总磷、总氮含量进行预测时,均分三个阶段分别进行预测。考虑到均方误差MSE代表训练输出值与目标值之间的误差情况,本发明以MSE的值作为预测准确度的评价指标,其中均方误差MSE的值越接近于零,代表神经网络的训练效果越好,其表达式如下:
Figure BDA0002362313070000141
N为训练集样本总数;y(t)为期望输出值,y′(t)为训练输出值。
为检验本发明的预测效果,将本发明CA-NARX算法与应用广泛的传统BP神经网络、支持向量机(SVM)预测方法进行对比,得到三种方法对三类水质的总磷、总氮含量预测的MSE情况如下:
表1、SVM、BP、CA-NARX三种方法预测结果比较
Figure BDA0002362313070000142
通过表1结果可得,CA-NARX算法的均方误差小于BP和支持向量回归机(SVM)方法。可见本发明的预测精度较好。
综上所述,本发明在原始传统聚类算法的基础上加入按标准化数据后的变量分位数选取初始聚类中心,按轮廓系数值选取合适的聚类个数的优化聚类算法,并与交叉验证法下训练的前向型NARX神经网络结合实现水质的分类预测;本发明提出的CA-NARX算法性能稳定,框架简洁,具有很强的通用性和可移植性,可以应用于相关领域的预测问题中,亦可以嵌入到别的算法中,不仅为水质预测问题提出了新的思路和方法,而且还有效拓展了聚类、NARX神经网络算法的应用深度和广度。

Claims (10)

1.一种基于气象因子的CA-NARX水质预测方法,其特征在于,包括以下步骤:
步骤1:将逐日水质数据、气象因子数据分别存入矩阵,并对数据进行Min-Max标准化;
步骤2:根据分类数对应分位数选取初始聚类中心;
步骤3:根据各样本观测点距初始聚类中心的欧氏距离进行初步聚类;
步骤4:根据各样本观测点距聚类中心的马氏距离进行按批迭代聚类,直至前后两次迭代的聚类中心欧式距离之差小于某数值;
步骤5:遍历某范围的聚类数,分别计算每类聚类数下的样本平均轮廓系数值,选取与1相差最小的轮廓系数对应的聚类数,得到最佳聚类情况;
步骤6:将分类后的气象因子数据和水质数据归一化,并转化为时间序列数据,创建数据集,并初始化输入、输出延时阶数,隐含层个数参数;
步骤7:采用交叉验证方法,将样本数据随机的分成m份,每次随机的选择m-3份作为训练集,剩下的1份做测试集,2份做验证集,当这一轮完成后,重新随机选择m-3份来训练数据算法,重复进行一定轮数;
步骤8:创建非线性自回归神经网络,确定训练函数、误差函数;
步骤9:进行网络训练,计算隐含层、输出层的输出,计算实际输出值与期望输出值的误差;
步骤10:进行权值、阈值更新,重复步骤8~步骤9,直至满足训练结果的平均误差小于某数值;
步骤11:输入相应影响因子数据,通过网络仿真输出总磷、总氮含量预测值。
2.根据权利要求1所述的一种基于气象因子的CA-NARX水质预测方法,其特征在于:步骤1中的逐日水质数据包括总磷、总氮含量;气象因子数据包括气温、水温、降雨量、相对湿度。
3.根据权利要求1所述的一种基于气象因子的CA-NARX水质预测方法,其特征在于:步骤1中具体的Min-Max标准化方法为:将n日的水质数据总磷、总氮含量数据存入矩阵Y=[Y1,Y2],其中Yi=[Y1i,Y2i...Yni]′i=1,2,将四个气象因子气温、水温、降雨量、相对湿度数据存入矩阵X=[X1,X2,X3,X4],其中Xi=[X1i,X2i...Xni]′i=1,2,3,4,分别对两类数据进行Min-Max标准化,具体标准化公式为:
Figure FDA0002362313060000021
Figure FDA0002362313060000022
4.根据权利要求1所述的一种基于气象因子的CA-NARX水质预测方法,其特征在于:步骤2中选取初始聚类中心的具体方法为:设聚类数为k,设将样本分为k类,则第h个聚类中心为各变量的
Figure FDA0002362313060000023
分位数,h=1,2...k,以k=3为例,则三个初始聚类中心分别为
Figure FDA0002362313060000024
5.根据权利要求1所述的一种基于气象因子的CA-NARX水质预测方法,其特征在于:步骤3中进行初步聚类的具体方法为:根据n个观测值距k个聚类中心的欧氏距离进行第一次聚类,设y1,y2,...yn为n个样本,即yi=[Y1i,Yi2,...Yim]′,则第j个样本与第h个聚类中心之间的欧氏距离为:
Figure FDA0002362313060000025
则分类准则为:
Figure FDA0002362313060000026
即将观测点归到距聚类中心欧式距离最小的类别。
6.根据权利要求1所述的一种基于气象因子的CA-NARX水质预测方法,其特征在于:步骤4中具体的方法包括如下步骤:
I:设第h类的观测个数为nh,计算每类数据的类均值
Figure FDA0002362313060000031
类内方差∑h,将每类别样本均值作为新的聚类中心,重新对样本进行聚类,计算每个观测与聚类中心之间的马氏距离
Figure FDA0002362313060000032
并将该观测点归于与其的马氏距离最小的聚类中心所属类别,即分类准则仍为:
Figure FDA0002362313060000033
II:计算每次聚类前后新旧聚类中心之间的欧氏距离D,并以此作为目标值,如果新聚类中心下的目标值小于之前聚类中心下的目标值,则更新聚类中心,重复步骤I直至聚类中心不再更新。
7.根据权利要求1所述的一种基于气象因子的CA-NARX水质预测方法,其特征在于:步骤5中具体的方法包括如下步骤:
III:计算当前聚类个数的平均轮廓系数
设样本i属于第h0类,则其到同类其他样本的平均距离a(i)计算公式为:
Figure FDA0002362313060000034
样本i的簇间不相似度b(i)的计算公式为:
Figure FDA0002362313060000035
b(i)=min{bi1,bi2,bi3...bik} (8)
样本的轮廓系数均值
Figure FDA0002362313060000036
Figure FDA0002362313060000037
a(i)为第i个样本值距同类别其他样本值的平均距离,即簇内不相似度,b(i)为第i个样本值距其它类他样本值的平均距离的最小值,即簇间不相似度,聚类目的为同类间距离尽可能小,不同类之间的差别尽可能大,故s(i)的值越接近于1,聚类效果越好,从而
Figure FDA0002362313060000041
的值也应越接近于1聚类效果越好;
IV:依次确定聚类个数为3、4、5、6,重复I至III步,依次计算出不同聚类中心个数下的样本平均轮廓系数值,选择使样本平均轮廓系数值最接近1的聚类个数,并将其作为最终的聚类个数。
8.根据权利要求1所述的一种基于气象因子的CA-NARX水质预测方法,其特征在于:步骤6中具体的方法包括如下步骤:
V:构造时间序列数据:设输入因子x(k)表示为:
x(k)=x(μ1(k),μ2(k),μ3(k),μ4(k),μ5(k)) (10)
其中μ1(k),μ2(k),μ3(k),μ4(k),μ5(k)分别表示第k天气温、水温、降雨量、湿度的情况,并以TP(k)、TN(k)表示第k天的总磷、总氮含量情况;
VI:确定输入变量:同标准的NARX动态回归神经网络不同,输入变量除去上述四个气象因子外,直接将已知的总磷、总氮含量作为输入变量,这样就将神经网络变成单纯的前向型神经网络,使网络化动态为静态;
VII:确定延时阶数及隐含层神经元个数:根据经验进行初拟,并经过反复试凑确定输入、输出时延阶数为2,隐层神经元数目为12,并选取隐含层激活函数f1为tansig函数,输出层激活函数f2为purelin函数,函数具体表达式如下:
Figure FDA0002362313060000042
f2=x (12)。
9.根据权利要求1所述的一种基于气象因子的CA-NARX水质预测方法,其特征在于:步骤8中具体的方法为:建立非线性自回归模型:
TP(k+1)=f2f1(x(k-1),x(k),TP(k-1),TP(k)) (13)
TN(k+1)=f2f1(x(k-1),x(k),TP(k-1),TN(k)) (14)。
10.根据权利要求1所述的一种基于气象因子的CA-NARX水质预测方法,其特征在于:步骤9中具体的方法为:随机初始化隐含层和输出层各神经元的权值和偏置值,以trainlm作为训练函数,mse作为误差函数,根据每次训练误差情况对网络进行训练确定合适的权值和偏置值。
CN202010025553.8A 2020-01-10 2020-01-10 一种基于气象因子的ca-narx水质预测方法 Active CN111260117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010025553.8A CN111260117B (zh) 2020-01-10 2020-01-10 一种基于气象因子的ca-narx水质预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010025553.8A CN111260117B (zh) 2020-01-10 2020-01-10 一种基于气象因子的ca-narx水质预测方法

Publications (2)

Publication Number Publication Date
CN111260117A true CN111260117A (zh) 2020-06-09
CN111260117B CN111260117B (zh) 2022-03-25

Family

ID=70952831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010025553.8A Active CN111260117B (zh) 2020-01-10 2020-01-10 一种基于气象因子的ca-narx水质预测方法

Country Status (1)

Country Link
CN (1) CN111260117B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348241A (zh) * 2020-10-28 2021-02-09 中国农业科学院农业资源与农业区划研究所 一种保护地农用地面源污染排放量预测方法及系统
CN112418289A (zh) * 2020-11-17 2021-02-26 北京京航计算通讯研究所 一种不完全标注数据的多标签分类处理方法及装置
CN112990558A (zh) * 2021-02-26 2021-06-18 重庆大学 一种基于深度迁移学习的气象温度、光照的预测方法
CN113205368A (zh) * 2021-05-25 2021-08-03 合肥供水集团有限公司 一种基于时序用水数据的工商户聚类方法
TWI752641B (zh) * 2020-09-17 2022-01-11 巨鷗科技股份有限公司 智慧防汛平台及其方法
CN116193147A (zh) * 2022-10-19 2023-05-30 宁波康达凯能医疗科技有限公司 一种基于决策树支持向量机的帧间图像编码方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102608282A (zh) * 2011-01-21 2012-07-25 张波 水质信息计算装置及方法
EP2610836A1 (en) * 2011-12-30 2013-07-03 Seat, S.A. Device and method for the on-line prediction of the driving cycle in an automotive vehicle
CN104318325A (zh) * 2014-10-14 2015-01-28 广东省环境监测中心 多流域实时智能水质预测方法及系统
CN107153874A (zh) * 2017-04-11 2017-09-12 中国农业大学 水质预测方法及系统
CN108428015A (zh) * 2018-04-03 2018-08-21 上海电力学院 一种基于历史气象数据和随机模拟的风电功率预测方法
CN108564192A (zh) * 2017-12-29 2018-09-21 河海大学 一种基于气象因子权重相似日的短期光伏功率预测方法
CN109978236A (zh) * 2019-03-04 2019-07-05 三峡大学 一种基于特征组合的小水电短期功率精细化预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102608282A (zh) * 2011-01-21 2012-07-25 张波 水质信息计算装置及方法
EP2610836A1 (en) * 2011-12-30 2013-07-03 Seat, S.A. Device and method for the on-line prediction of the driving cycle in an automotive vehicle
CN104318325A (zh) * 2014-10-14 2015-01-28 广东省环境监测中心 多流域实时智能水质预测方法及系统
CN107153874A (zh) * 2017-04-11 2017-09-12 中国农业大学 水质预测方法及系统
CN108564192A (zh) * 2017-12-29 2018-09-21 河海大学 一种基于气象因子权重相似日的短期光伏功率预测方法
CN108428015A (zh) * 2018-04-03 2018-08-21 上海电力学院 一种基于历史气象数据和随机模拟的风电功率预测方法
CN109978236A (zh) * 2019-03-04 2019-07-05 三峡大学 一种基于特征组合的小水电短期功率精细化预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
L. SHEREMETOV: "Data-driven forecasting of naturally fractured reservoirs based on nonlinear autoregressive neural networks with exogenous input", 《JOURNAL OF PETROLEUM SCIENCE AND ENGINEERING》 *
张亮亮: "城市快速路交通运行状态评价及预测方法研究", 《中国优秀博硕士学位论文全文数据库(博士)工程科技Ⅱ辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI752641B (zh) * 2020-09-17 2022-01-11 巨鷗科技股份有限公司 智慧防汛平台及其方法
CN112348241A (zh) * 2020-10-28 2021-02-09 中国农业科学院农业资源与农业区划研究所 一种保护地农用地面源污染排放量预测方法及系统
CN112348241B (zh) * 2020-10-28 2024-01-05 中国农业科学院农业资源与农业区划研究所 一种保护地农用地面源污染排放量预测方法及系统
CN112418289A (zh) * 2020-11-17 2021-02-26 北京京航计算通讯研究所 一种不完全标注数据的多标签分类处理方法及装置
CN112418289B (zh) * 2020-11-17 2021-08-03 北京京航计算通讯研究所 一种不完全标注数据的多标签分类处理方法及装置
CN112990558A (zh) * 2021-02-26 2021-06-18 重庆大学 一种基于深度迁移学习的气象温度、光照的预测方法
CN112990558B (zh) * 2021-02-26 2023-08-29 重庆大学 一种基于深度迁移学习的气象温度、光照的预测方法
CN113205368A (zh) * 2021-05-25 2021-08-03 合肥供水集团有限公司 一种基于时序用水数据的工商户聚类方法
CN116193147A (zh) * 2022-10-19 2023-05-30 宁波康达凯能医疗科技有限公司 一种基于决策树支持向量机的帧间图像编码方法

Also Published As

Publication number Publication date
CN111260117B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN111260117B (zh) 一种基于气象因子的ca-narx水质预测方法
CN108898215B (zh) 一种基于二型模糊神经网络的污泥膨胀智能辨识方法
CN107688701B (zh) 基于wasp模型的水质软测量及水体富营养化评价方法
CN106529719B (zh) 基于粒子群优化算法风速融合的风电功率预测的方法
CN101863088B (zh) 一种橡胶混炼过程中门尼粘度的预报方法
CN111105332A (zh) 一种基于人工神经网络的高速公路智能预养护方法及系统
CN113177358B (zh) 一种基于模糊细粒度特征提取的水泥质量软测量方法
CN108536106B (zh) 一种基于卡尔曼滤波-极限学习机的曝气系统溶解氧在线调控方法
CN112364560B (zh) 矿山凿岩装备作业工时智能预测方法
CN104462850A (zh) 基于模糊高斯混合模型的多阶段间歇过程软测量方法
CN104680015A (zh) 一种基于快速相关向量机的污水处理在线软测量方法
Ning et al. GA-BP air quality evaluation method based on fuzzy theory.
CN110728409A (zh) 一种洪水过程类型相似性挖掘与快速预测方法
CN111754034A (zh) 一种基于混沌优化神经网络模型的时间序列预测方法
CN112288157A (zh) 一种基于模糊聚类与深度强化学习的风电场功率预测方法
CN109408896B (zh) 一种污水厌氧处理产气量多元智能实时监控方法
CN113570414A (zh) 基于改进Adam算法优化深度神经网络的电价预测方法
CN111204867B (zh) 膜生物反应器-mbr膜污染智能决策方法
Simutis et al. Artificial neural networks of improved reliability for industrial process supervision
CN116362376A (zh) 基于机器学习的综合能源站建设碳排放预测方法
CN111535845A (zh) 一种基于pso和模糊控制的隧道通风节能优化控制方法
CN116070769A (zh) 一种超短期风电场功率多步区间预测模块化方法及其设备
CN111143774B (zh) 一种基于影响因素多状态模型的电力负荷预测方法和装置
CN103472729B (zh) 群智的农药废液焚烧炉有害物排放达标控制系统及方法
CN113762591A (zh) 一种基于gru和多核svm对抗学习的短期电量预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant