CN108846512B - 基于择优分类的水质预测方法 - Google Patents

基于择优分类的水质预测方法 Download PDF

Info

Publication number
CN108846512B
CN108846512B CN201810570556.2A CN201810570556A CN108846512B CN 108846512 B CN108846512 B CN 108846512B CN 201810570556 A CN201810570556 A CN 201810570556A CN 108846512 B CN108846512 B CN 108846512B
Authority
CN
China
Prior art keywords
water quality
training
model
data
time node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810570556.2A
Other languages
English (en)
Other versions
CN108846512A (zh
Inventor
周剑
盛黎明
潘一帆
杨云
王嫄嫄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201810570556.2A priority Critical patent/CN108846512B/zh
Publication of CN108846512A publication Critical patent/CN108846512A/zh
Application granted granted Critical
Publication of CN108846512B publication Critical patent/CN108846512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

本申请基于择优分类的水质预测方法,对历史的水质指标数据进行归一化处理后,构造训练集,使用训练集分别对Adaboost水质预测模型、RVM水质预测模型、BP神经网络水质预测模型进行训练。然后使用一部分的数据集分别使用三种模型进行预测,结合每个数据使用不同模型得到的实际值与预测值的对比,训练基于SVM的择优分类器。对于新的数据,通过择优分类器可以选出最佳模型,使用最佳模型得到效果最好的预测值。此方法可以极大的提高预测的准确率。

Description

基于择优分类的水质预测方法
技术领域
本发明是一种基于择优分类的水质预测方法,涉及机器学习与水质预测领域。
背景技术
水是人类经济社会发展的必要资源。我国水资源问题尤为突出:人均总量远低于平均水平,全国各大水系受污染程度严重。水污染防治一直是国家和社会关注的重点,其中水质预测是水资源污染控制的基础工作,准确预测水体污染物浓度的变化趋势尤为重要,而建立可靠的水质预测模型是水污染预测防治的关键。通过预测可以为我们赢得对污染的应急处理时间。
具体来说水质预测是建立在往常已经得到的水质数据,通过分析归纳特征与规律,预测未来的水质变化的研究。目前我国常用的水质预测方法存在训练速度慢,预测精度不足等缺点。随着机器学习领域的发展,我们发现可以使用机器学习的模型解决当前预测方法存在的问题,提高预测精度。
通过构造训练样本,以此来训练不同的机器学习模型,我们可以选择效果最好的模型,以此获得较为准确的预测值。该方法在技术上是可行的,同时具有很强的实际价值。
发明内容
本申请提出了基于择优分类的水质预测方法,对于输入的数据,使用择优分类器选出对于该数据,Adaboost水质预测模型、RVM水质预测模型、BP神经网络水质预测模型中预测效果最好的模型,使用该模型进行准确的预测。
基于择优分类的水质预测方法,包括如下步骤:
步骤1:采集水质数据;
步骤2:对水质数据与对应的时间节点进行归一化处理;
步骤3:构造训练集Training与验证集Validation;
步骤4:分别构造RVM水质预测模型、BP神经网络水质预测模型、Adaboost水质预测模型;
步骤5:使用步骤3中构造的训练集分别训练步骤4中构造的RVM水质预测模型、BP神经网络水质预测模型、Adaboost水质预测模型;
步骤6:使用步骤5中训练好的三种水质预测模型在步骤3中构造的验证集Validation上进行预测,以此预测结果构造SVM择优分类器的训练集Training;
步骤7:构造SVM择优分类器,使用步骤6中构造出的训练集Training训练SVM择优分类器;
步骤8:输入新的数据,先通过步骤7中已经得到的SVM择优分类器选择出RVM水质预测模型、BP神经网络水质预测模型、Adaboost水质预测模型中最合适该数据的预测模型,再根据选择出的预测模型得到最终预测值。
进一步地,所述步骤1采集水质数据的具体方式为,监测一定时间内某一水域,获得某一水质指标按时间排序的数据集合W={w1,w2,…wi,…wN},其中N表示水质数据集合的元素数量,wi为第i个时间节点的水质指标数据。同时获得时间节点的集合T,T={t1,t2,…,ti,…,tN},其中N表示时间节点数据集合的元素数量,ti为第i个时间节点的时间。
进一步地,所述步骤2中,对采集到的水质数据进行整理,然后使用标准差标准化方法对每个时间节点的水质数据进行归一化处理:
Figure BDA0001685655450000021
其中,wi表示归一化之前第i个时间节点的水质数据,
Figure BDA0001685655450000022
表示归一化后第i个时间节点的水质数据,μw与σw分别表示该水质数据样本的均值与标准差;
同样使用标准差标准化的方法对每个时间节点进行归一化处理:
Figure BDA0001685655450000023
其中,ti表示归一化之前第i个时间节点的时间,
Figure BDA0001685655450000024
表示归一化后第i个时间节点的时间,μt与σt分别表示时间节点数据集合的均值与标准差。
最终获得归一化后的时间序列水质数据集合W*={w1 *,w2 *,…wi *,…wN *},其中N表示归一化后水质数据集合的元素数量,wi *为第i个时间节点归一化后的水质指标数据;和归一化后的时间节点数据集合
Figure BDA0001685655450000025
其中N表示时间节点数据集合的元素数量,
Figure BDA0001685655450000031
为归一化后的第i个时间节点的时间。
进一步地,所述步骤3中,将水质数据按照时间顺序划分为训练集Training、验证集Validation,其划分比例为70%和30%;其构造训练集、验证集的具体步骤如下:
步骤3-1:构造训练集合Training={(xi,yi)};设置d为窗口大小,xi表示第i个时间节点下的训练样本的输入,
Figure BDA0001685655450000032
Figure BDA0001685655450000033
表示归一化后第i个时间节点的水质指标数据,
Figure BDA0001685655450000034
为归一化后的第i个时间节点的时间;样本在第i个时间节点下的训练标签为yi,令
Figure BDA0001685655450000035
Figure BDA0001685655450000036
表示归一化后第i个时间节点的水质指标数据;
步骤3-2:将剩余30%的水质数据以步骤3-1的方法构造验证集合Validation={(xi,yi)}。
进一步地,所述步骤4中分别设置三种模型的相关参数,具体步骤如下:
步骤4-1:构造RVM水质预测模型,具体步骤如下:
步骤4-1-1:设置RVM预测模型的核函数K(x,xi)为RBF核函数:
Figure BDA0001685655450000037
其中,单调函数k(||x-xi||)表示空间内任意一个坐标到第i个时间节点下的输入xi的欧式距离。γ为函数宽度;
步骤4-1-2:设置模型所需的适合当前数据集的最优参数噪声方差σ2
步骤4-1-3:设置训练轮数为1000;
步骤4-2:构造BP神经网络水质预测模型,具体步骤如下:
步骤4-2-1:设置神经网络的结构;设置1个输入层,2个隐含层,1个输出层;输入层设置2d个神经元,每个隐含层设置d个神经元,输出层设置一个神经元;其中,d为步骤3中的窗口大小。层与层之间采用全连接的方式连接;
步骤4-2-2:设置当前层神经元对下一层神经元的初始影响权重
Figure BDA0001685655450000038
为0-1之间的随机数,
Figure BDA0001685655450000041
表示第k层第i个神经元与第k+1层第j个神经元的影响权重;
步骤4-2-3:设置激活函数为Sigmoid函数,其形式为:
Figure BDA0001685655450000042
a表示当前神经层的输入,f(a)表示传递到下一层神经层的输出;
步骤4-2-4:设置训练轮次为1000;
步骤4-3:构造Adaboost水质预测模型,具体步骤如下:
步骤4-3-1:初始化训练集的权值分布
Figure BDA0001685655450000043
n表示训练集中的样本数,其中
Figure BDA0001685655450000044
表示第i个样本对应的初始权值;
步骤4-3-2:设置训练轮数为1000。
进一步地,所述步骤5的训练步骤如下:
步骤5-1:训练RVM水质预测模型,用步骤3中构造的训练集Training训练步骤4-1中构造的RVM模型,得到超参数α与噪声方差σ2,具体步骤如下:
步骤5-1-1:初始化超参数向量α与噪声方差σ2
Figure BDA0001685655450000045
其中y=[y1…yj…yn]T,yi表示第i个时间点训练样本的输出;Ψ=[ψ1…ψj…ψn]表示权值向量,ψj表示第j个权值系数,Φ=[Φ(x1),Φ(x2),…,Φ(xn)]T,n为训练样本的数量,Φ(xn)=[1,K(xn,x1),K(xn,x2)…K(xn,xj)…K(xn,xn)]T,xj表示第j个时间节点下的输入,K(xn,xj)表示核函数;
Figure BDA0001685655450000046
α=[α01…αi…αn]T,αi是超参数向量中第i个值;
步骤5-1-2:计算权重向量Ψ的后验方差∑与均值θ;权重向量Ψ的后验概率分布为:
Figure BDA0001685655450000047
x=[x1…xi…xn]T,xi为第i个时间节点下的输入。其中后验方差与均值分别为:
Figure BDA0001685655450000051
其中,A=diag(α01,…,αN),表示元素是α01,…,αn的对角矩阵;
步骤5-1-3:不断迭代1000次,更新αi
Figure BDA0001685655450000052
θi表示第i个均值θ,
Figure BDA00016856554500000512
Figure BDA00016856554500000513
为方差∑的对角线上的第i个元素;删除超参数α中大于或等于αmax(本方法取e9)所对应的权重系数,通过最大似然方法得到最终超参数αMP与噪声方差将步骤3中构造好的训练集Training输入;
步骤5-1-4:完成模型的训练;
步骤5-2:训练BP神经网络水质预测模型,用步骤3中构造的训练集Training训练步骤4-2中构造好的BP神经网络水质预测模型,输入xi,通过模型得到对应输出的
Figure BDA0001685655450000053
与期望的输出yi做对比;然后使用反向传播算法更新相邻神经元之间的影响权重,训练步骤如下:
步骤5-2-1:根据公式
Figure BDA0001685655450000054
计算得到每个神经元的输出,其中
Figure BDA0001685655450000055
表示第k层第j个神经元的输出,
Figure BDA0001685655450000056
表示第k-1层第i个神经元对第k层第j个神经元的影响权重,m代表第k-1层神经元的个数,f表示激活函数;
步骤5-2-2:根据公式
Figure BDA0001685655450000057
来计算实际数据与期望输出的误差,其中
Figure BDA0001685655450000058
表示第i个时间节点下模型输出层的输出,即
Figure BDA0001685655450000059
表示yi表示第i个时间节点下的期望输出,利用反向传播算法更新每条连接线的权值
Figure BDA00016856554500000510
步骤5-2-3:不断迭代1000次,得到每两相邻的神经元之间的最终影响权值
Figure BDA00016856554500000511
步骤5-2-4:完成模型训练;
步骤5-3:训练Adaboost水质预测模型,用步骤3中构造的训练集Training训练步骤4-3中构造好的Adaboost水质预测模型,通过迭代训练得到训练集的最终权值分布;训练步骤如下:
步骤5-3-1:不断迭代1000次,对每一轮次的权值Dm,m=1,2,…,1000,通过使用具有权值分布的训练数据集通过回归树学习模型得到基本回归分类器:Gm(x),当输入为xi时,模型输出
Figure BDA0001685655450000061
基本回归分类器在训练集上根据公式
Figure BDA0001685655450000062
计算回归模型的权重系数
Figure BDA0001685655450000063
其中εm表示基本回归分类器Gm(x)在训练集上的回归误差率,
Figure BDA0001685655450000064
yi是样本的标签,n表示样本数,
Figure BDA0001685655450000065
表示当
Figure BDA0001685655450000066
时I=1,
Figure BDA0001685655450000067
时I=0;通过规范化因子重新计算并更新得到训练集中的权值
Figure BDA0001685655450000068
其中,
Figure BDA0001685655450000069
表示第i个水质数据对应的第m+1轮训练得到的权值;
步骤5-3-2:根据步骤5-3-1中训练m=1000次得到的1000个权重系数
Figure BDA00016856554500000610
及其对应的基础回归模型Gm(x),x={x1,x2…xn};线性组合出最终模型:
Figure BDA00016856554500000611
步骤5-3-3:完成模型的训练。
进一步地,所述步骤6中,分别使用训练好的RVM水质预测模型、BP神经网络水质预测模型、Adaboost水质预测模型在验证集Validation上进行预测,构造SVM择优分类器的训练集,其SVM择优分类器训练集的构造步骤如下:
步骤6-1:对于验证集中每一个时间节点i,利用步骤5中训练好的RVM模型得到该时间点下的水质预测值P1i,利用步骤5中训练好的BP神经网络模型得到该时间点下的水质预测值P2i,利用步骤5中训练好的Adaboost模型得到该时间点下的水质预测值P3i
步骤6-2:将P1i,P2i,P3i代入函数
Figure BDA00016856554500000612
用来选择预测效果最好的预测模型;构造标签集合L={l1,l2,…,li,…lN},li=f(i)∈{1,2,3}表示第i个时间节点下预测效果最好的模型;当预测值P1i效果最佳,即RVM为预测效果最好模型时,li=1;当预测值P2i效果最佳,即BP神经网络为预测效果最好模型时,li=2;当预测值P3i效果最佳,即Adaboost模型为预测效果最好模型,li=3;
步骤6-3:构造SVM择优分类器的训练集Training′={(xi,li)},xi为第i个时间节点下的样本输入,li表示第i个时间节点下的样本标签。
进一步地,所述步骤7分类器的构造与训练的步骤如下:
步骤7-1:将步骤6-3中的训练集Training′={(xi,li)},作为SVM择优分类器的训练集;
步骤7-2:使用RBF核函数作为分类器的核函数:
Figure BDA0001685655450000071
其中,xc表示每个分类平面的中心点,单调函数k(||x-xc||)表示任意一种训练的输入到每个分类平面中心点的距离,ξ为函数的宽度参数,设置ξ;用核函数将空间映射到更高维度来分类非线性数据;
步骤7-3:找到最优超平面,完成模型训练。
进一步地,步骤8分为如下步骤:
步骤8-1:使用历史数据,得到输入值Ii=[(wi-1,ti-1),(wi-2,ti-2),…,(wi-2,ti-d)],d表示为窗口大小,wi表示第i个时间节点下的水质数据,ti表示第i个时间节点时间;
步骤8-2:将向量Ii输入步骤7中已经训练好的SVM择优分类器,得到标签li,li∈{1,2,3}代表适合该数据的最优预测模型;当li=1时,选择RVM水质预测模型;当li=2时,选择BP神经网络水质预测模型;当li=3时,选择Adaboost水质预测模型;
步骤8-3:对应已经得到的li,将输入值Ii带入步骤5中训练好的最优模型,得到预测值Pi,将Pi作为最终预测值。
本申请对历史的水质指标数据进行归一化处理后,构造训练集,使用训练集分别对Adaboost水质预测模型、RVM水质预测模型、BP神经网络水质预测模型进行训练。然后使用一部分的数据集分别使用三种模型进行预测,结合每个数据使用不同模型得到的实际值与预测值的对比,训练基于SVM的择优分类器。对于新的数据,通过择优分类器可以选出最佳模型,使用最佳模型得到效果最好的预测值。此方法可以极大的提高预测的准确率。
附图说明
图1为本申请所述基于择优分类的水质预测方法流程示意图。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
基于择优分类的水质预测方法,包括如下步骤:
步骤1:采集水质数据。
监测一定时间内某一水域,获得某一水质指标按时间排序的数据集合W={w1,w2,…wi,…wN},其中N表示水质数据集合的元素数量,wi为第i个时间节点的水质指标数据。同时获得时间节点的集合T,T={t1,t2,…,ti,…,tN},其中N表示时间节点数据集合的元素数量,ti为第i个时间节点的时间。
步骤2:对水质数据与对应的时间节点进行归一化处理。
对采集到的水质数据进行整理,然后使用标准差标准化方法对每个时间节点的水质数据进行归一化处理:
Figure BDA0001685655450000081
其中,wi表示归一化之前第i个时间节点的水质数据,
Figure BDA0001685655450000082
表示归一化后第i个时间节点的水质数据,μw与σw分别表示该水质数据样本的均值与标准差。
同样使用标准差标准化的方法对每个时间节点进行归一化处理:
Figure BDA0001685655450000083
其中,ti表示归一化之前第i个时间节点的时间,
Figure BDA0001685655450000084
表示归一化后第i个时间节点的时间,μt与σt分别表示时间节点数据集合的均值与标准差。
最终获得归一化后的时间序列水质数据集合W*={w1 *,w2 *,…wi *,…wN *},其中N表示归一化后水质数据集合的元素数量,wi *为第i个时间节点归一化后的水质指标数据;和归一化后的时间节点数据集合
Figure BDA0001685655450000091
其中N表示时间节点数据集合的元素数量,
Figure BDA0001685655450000092
为归一化后的第i个时间节点的时间。
步骤3:构造训练集Training与验证集Validation。
将水质数据按照时间顺序划分为训练集Training、验证集Validation,其划分比例为70%和30%;其构造训练集、验证集的具体步骤如下:
步骤3-1:构造训练集合Training={(xi,yi)};设置d为窗口大小,xi表示第i个时间节点下的训练样本的输入,
Figure BDA0001685655450000093
Figure BDA0001685655450000094
表示归一化后第i个时间节点的水质指标数据,
Figure BDA0001685655450000095
为归一化后的第i个时间节点的时间;样本在第i个时间节点下的训练标签为yi,令
Figure BDA0001685655450000096
Figure BDA0001685655450000097
表示归一化后第i个时间节点的水质指标数据。
步骤3-2:将剩余30%的水质数据以步骤3-1的方法构造验证集合Validation={(xi,yi)}。
步骤4:分别构造RVM水质预测模型、BP神经网络水质预测模型、Adaboost水质预测模型。
具体步骤如下:
步骤4-1:构造RVM水质预测模型,具体步骤如下:
步骤4-1-1:设置RVM预测模型的核函数K(x,xi)为RBF核函数:
Figure BDA0001685655450000098
其中,单调函数k(||x-xi||)表示空间内任意一个坐标到第i个时间节点下的输入xi的欧式距离。γ为函数宽度。
步骤4-1-2:设置模型所需的适合当前数据集的最优参数噪声方差σ2
步骤4-1-3:设置训练轮数为1000。
步骤4-2:构造BP神经网络水质预测模型,具体步骤如下。
步骤4-2-1:设置神经网络的结构;设置1个输入层,2个隐含层,1个输出层;输入层设置2d个神经元,每个隐含层设置d个神经元,输出层设置一个神经元;其中,d为步骤3中的窗口大小。层与层之间采用全连接的方式连接。
步骤4-2-2:设置当前层神经元对下一层神经元的初始影响权重
Figure BDA0001685655450000101
为0-1之间的随机数,
Figure BDA0001685655450000102
表示第k层第i个神经元与第k+1层第j个神经元的影响权重。
步骤4-2-3:设置激活函数为Sigmoid函数,其形式为:
Figure BDA0001685655450000103
a表示当前神经层的输入,f(a)表示传递到下一层神经层的输出。
步骤4-2-4:设置训练轮次为1000。
步骤4-3:构造Adaboost水质预测模型,具体步骤如下:
步骤4-3-1:初始化训练集的权值分布
Figure BDA0001685655450000104
n表示训练集中的样本数,其中
Figure BDA0001685655450000105
表示第i个样本对应的初始权值。
步骤4-3-2:设置训练轮数为1000。
步骤5:使用步骤3中构造的训练集分别训练步骤4中构造的RVM水质预测模型、BP神经网络水质预测模型、Adaboost水质预测模型。
所述训练步骤如下:
步骤5-1:训练RVM水质预测模型,用步骤3中构造的训练集Training训练步骤4-1中构造的RVM模型,得到超参数α与噪声方差σ2,具体步骤如下:
步骤5-1-1:初始化超参数向量α与噪声方差σ2
Figure BDA0001685655450000106
其中y=[y1…yj…yn]T,yi表示第i个时间点训练样本的输出;Ψ=[ψ1…ψj…ψn]表示权值向量,ψj表示第j个权值系数,Φ=[Φ(x1),Φ(x2),…,Φ(xn)]T,n为训练样本的数量,Φ(xn)=[1,K(xn,x1),K(xn,x2)…K(xn,xj)…K(xn,xn)]T,xj表示第j个时间节点下的输入,K(xn,xj)表示核函数;
Figure BDA0001685655450000111
α=[α01…αi…αn]T,αi是超参数向量中第i个值。
步骤5-1-2:计算权重向量Ψ的后验方差∑与均值θ;权重向量Ψ的后验概率分布为:
Figure BDA0001685655450000112
x=[x1…xi…xn]T,xi为第i个时间节点下的输入。其中后验方差与均值分别为。
Figure BDA0001685655450000113
其中,A=diag(α01,…,αN),表示元素是α01,…,αn的对角矩阵。
步骤5-1-3:不断迭代1000次,更新αi
Figure BDA0001685655450000114
θi表示第i个均值θ,
Figure BDA0001685655450000119
Figure BDA00016856554500001110
为方差∑的对角线上的第i个元素;删除超参数α中大于或等于αmax(本方法取e9)所对应的权重系数,通过最大似然方法得到最终超参数αMP与噪声方差将步骤3中构造好的训练集Training输入。
步骤5-1-4:完成模型的训练。
步骤5-2:训练BP神经网络水质预测模型,用步骤3中构造的训练集Training训练步骤4-2中构造好的BP神经网络水质预测模型,输入xi,通过模型得到对应输出的
Figure BDA0001685655450000115
与期望的输出yi做对比;然后使用反向传播算法更新相邻神经元之间的影响权重,训练步骤如下:
步骤5-2-1:根据公式
Figure BDA0001685655450000116
计算得到每个神经元的输出,其中
Figure BDA0001685655450000117
表示第k层第j个神经元的输出,
Figure BDA0001685655450000118
表示第k-1层第i个神经元对第k层第j个神经元的影响权重,m代表第k-1层神经元的个数,f表示激活函数;
步骤5-2-2:根据公式
Figure BDA0001685655450000121
来计算实际数据与期望输出的误差,其中
Figure BDA0001685655450000122
表示第i个时间节点下模型输出层的输出,即
Figure BDA0001685655450000123
表示yi表示第i个时间节点下的期望输出,利用反向传播算法更新每条连接线的权值
Figure BDA0001685655450000124
步骤5-2-3:不断迭代1000次,得到每两相邻的神经元之间的最终影响权值
Figure BDA0001685655450000125
步骤5-2-4:完成模型训练。
步骤5-3:训练Adaboost水质预测模型,用步骤3中构造的训练集Training训练步骤4-3中构造好的Adaboost水质预测模型,通过迭代训练得到训练集的最终权值分布;训练步骤如下:
步骤5-3-1:不断迭代1000次,对每一轮次的权值Dm,m=1,2,…,1000,通过使用具有权值分布的训练数据集通过回归树学习模型得到基本回归分类器:Gm(x),当输入为xi时,模型输出
Figure BDA0001685655450000126
基本回归分类器在训练集上根据公式
Figure BDA0001685655450000127
计算回归模型的权重系数
Figure BDA0001685655450000128
其中εm表示基本回归分类器Gm(x)在训练集上的回归误差率,
Figure BDA0001685655450000129
yi是样本的标签,n表示样本数,
Figure BDA00016856554500001210
表示当
Figure BDA00016856554500001211
时I=1,
Figure BDA00016856554500001212
时I=0;通过规范化因子重新计算并更新得到训练集中的权值
Figure BDA00016856554500001213
其中,
Figure BDA00016856554500001214
表示第i个水质数据对应的第m+1轮训练得到的权值。
步骤5-3-2:根据步骤5-3-1中训练m=1000次得到的1000个权重系数
Figure BDA00016856554500001215
及其对应的基础回归模型Gm(x),x={x1,x2…xn};线性组合出最终模型:
Figure BDA00016856554500001216
步骤5-3-3:完成模型的训练。
步骤6:使用步骤5中训练好的三种水质预测模型在步骤3中构造的验证集Validation上进行预测,以此预测结果构造SVM择优分类器的训练集Training。
分别使用训练好的RVM水质预测模型、BP神经网络水质预测模型、Adaboost水质预测模型在验证集Validation上进行预测,构造SVM择优分类器的训练集,其SVM择优分类器训练集的构造步骤如下:
步骤6-1:对于验证集中每一个时间节点i,利用步骤5中训练好的RVM模型得到该时间点下的水质预测值P1i,利用步骤5中训练好的BP神经网络模型得到该时间点下的水质预测值P2i,利用步骤5中训练好的Adaboost模型得到该时间点下的水质预测值P3i
步骤6-2:将P1i,P2i,P3i代入函数
Figure BDA0001685655450000131
用来选择预测效果最好的预测模型。构造标签集合L={l1,l2,…,li,lN},li=f(i)∈{1,2,3}表示第i个时间节点下预测效果最好的模型。当预测值P1i效果最佳,即RVM为预测效果最好模型时,li=1。当预测值P2i效果最佳,即BP神经网络为预测效果最好模型时,li=2;当预测值P3i效果最佳,即Adaboost模型为预测效果最好模型,li=3。
步骤6-3:构造SVM择优分类器的训练集Training′={(xi,li)},xi为第i个时间节点下的样本输入,li表示第i个时间节点下的样本标签。
步骤7:构造SVM择优分类器,使用步骤6中构造出的训练集Training训练SVM择优分类器。
分类器的构造与训练的步骤如下:
步骤7-1:将步骤6-3中的训练集Training′={(xi,li)},作为SVM择优分类器的训练集。
步骤7-2:使用RBF核函数作为分类器的核函数:
Figure BDA0001685655450000132
其中,xc表示每个分类平面的中心点,单调函数k(||x-xc||)表示任意一种训练的输入到每个分类平面中心点的距离,ξ为函数的宽度参数,设置ξ;用核函数将空间映射到更高维度来分类非线性数据。
步骤7-3:找到最优超平面,完成模型训练。
步骤8:输入新的数据,先通过步骤7中已经得到的SVM择优分类器选择出RVM水质预测模型、BP神经网络水质预测模型、Adaboost水质预测模型中最合适该数据的预测模型,再根据选择出的预测模型得到最终预测值。
步骤8分为如下步骤:
步骤8-1:使用历史数据,得到输入值Ii=[(wi-1,ti-1),(wi-2,ti-2),…,(wi-2,ti-d)],d表示为窗口大小,wi表示第i个时间节点下的水质数据,ti表示第i个时间节点时间。
步骤8-2:将向量Ii输入步骤7中已经训练好的SVM择优分类器,得到标签li,li∈{1,2,3}代表适合该数据的最优预测模型;当li=1时,选择RVM水质预测模型;当li=2时,选择BP神经网络水质预测模型;当li=3时,选择Adaboost水质预测模型。
步骤8-3:对应已经得到的li,将输入值Ii带入步骤5中训练好的最优模型,得到预测值Pi,将Pi作为最终预测值。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

Claims (8)

1.基于择优分类的水质预测方法,其特征在于,所述方法包括如下步骤:
步骤1:采集水质数据;
步骤2:对水质数据与对应的时间节点进行归一化处理;
步骤3:构造训练集Training与验证集Validation;
步骤4:分别构造RVM水质预测模型、BP神经网络水质预测模型、Adaboost水质预测模型;所述步骤4中分别设置三种模型的相关参数,具体步骤如下:
步骤4-1:构造RVM水质预测模型,具体步骤如下:
步骤4-1-1:设置RVM预测模型的核函数K(x,xi)为RBF核函数:
Figure FDA0003332258930000011
其中,单调函数k(||x-xi||)表示空间内任意一个坐标到第i个时间节点下的输入xi的欧式距离;γ为函数宽度;
步骤4-1-2:设置模型所需的适合当前数据集的最优参数噪声方差σ2
步骤4-1-3:设置训练轮数为1000;
步骤4-2:构造BP神经网络水质预测模型,具体步骤如下:
步骤4-2-1:设置神经网络的结构;设置1个输入层,2个隐含层,1个输出层;输入层设置2d个神经元,每个隐含层设置d个神经元,输出层设置一个神经元;其中,d为步骤3中的窗口大小;层与层之间采用全连接的方式连接;
步骤4-2-2:设置当前层神经元对下一层神经元的初始影响权重
Figure FDA0003332258930000012
为0-1之间的随机数,
Figure FDA0003332258930000021
表示第k层第i个神经元与第k+1层第j个神经元的影响权重;
步骤4-2-3:设置激活函数为Sigmoid函数,其形式为:
Figure FDA0003332258930000022
a表示当前神经层的输入,f(a)表示传递到下一层神经层的输出;
步骤4-2-4:设置训练轮次为1000;
步骤4-3:构造Adaboost水质预测模型,具体步骤如下:
步骤4-3-1:初始化训练集的权值分布
Figure FDA0003332258930000023
n表示训练集中的样本数,其中
Figure FDA0003332258930000024
表示第i个样本对应的初始权值;
步骤4-3-2:设置训练轮数为1000;
步骤5:使用步骤3中构造的训练集分别训练步骤4中构造的RVM水质预测模型、BP神经网络水质预测模型、Adaboost水质预测模型;
步骤6:使用步骤5中训练好的三种水质预测模型在步骤3中构造的验证集Validation上进行预测,以此预测结果构造SVM择优分类器的训练集Training;
步骤7:构造SVM择优分类器,使用步骤6中构造出的训练集Training训练SVM择优分类器;
步骤8:输入新的数据,先通过步骤7中已经得到的SVM择优分类器选择出RVM水质预测模型、BP神经网络水质预测模型、Adaboost水质预测模型中最合适该数据的预测模型,再根据选择出的预测模型得到最终预测值。
2.根据权利要求1所述的基于择优分类的水质预测方法,其特征在于:所述步骤1采集水质数据的具体方式为,监测一定时间内某一水域,获得某一水质指标按时间排序的数据集合W={w1,w2,L wi,L wN},其中N表示水质数据集合的元素数量,wi为第i个时间节点的水质指标数据;同时获得时间节点的集合T,T={t1,t2,L,ti,L,tN},其中N表示时间节点数据集合的元素数量,ti为第i个时间节点的时间。
3.根据权利要求1所述的基于择优分类的水质预测方法,其特征在于:所述步骤2中,对采集到的水质数据进行整理,然后使用标准差标准化方法对每个时间节点的水质数据进行归一化处理:
Figure FDA0003332258930000031
其中,wi表示归一化之前第i个时间节点的水质数据,
Figure FDA0003332258930000032
表示归一化后第i个时间节点的水质数据,μw与σw分别表示水质数据的均值与标准差;
同样使用标准差标准化的方法对每个时间节点进行归一化处理:
Figure FDA0003332258930000033
其中,ti表示归一化之前第i个时间节点的时间,
Figure FDA0003332258930000034
表示归一化后第i个时间节点的时间,μt与σt分别表示时间节点数据集合的均值与标准差;
最终获得归一化后的时间序列水质数据集合W*={w1 *,w2 *,L wi *,L wN *},其中N表示归一化后水质数据集合的元素数量,wi *为第i个时间节点归一化后的水质指标数据;和归一化后的时间节点数据集合
Figure FDA0003332258930000041
其中N表示时间节点数据集合的元素数量,
Figure FDA0003332258930000042
为归一化后的第i个时间节点的时间。
4.根据权利要求1所述的基于择优分类的水质预测方法,其特征在于:所述步骤3中,将水质数据按照时间顺序划分为训练集Training、验证集Validation,其划分比例为70%和30%;其构造训练集、验证集的具体步骤如下:
步骤3-1:构造训练集合Training={(xi,yi)};设置d为窗口大小,xi表示第i个时间节点下的训练样本的输入,
Figure FDA0003332258930000043
Figure FDA0003332258930000044
表示归一化后第i个时间节点的水质指标数据,
Figure FDA0003332258930000045
为归一化后的第i个时间节点的时间;样本在第i个时间节点下的训练标签为yi,令
Figure FDA0003332258930000046
Figure FDA0003332258930000047
表示归一化后第i个时间节点的水质指标数据;
步骤3-2:将剩余30%的水质数据以步骤3-1的方法构造验证集合Validation={(xi,yi)}。
5.根据权利要求1所述的基于择优分类的水质预测方法,其特征在于:所述步骤5的训练步骤如下:
步骤5-1:训练RVM水质预测模型,用步骤3中构造的训练集Training训练步骤4-1中构造的RVM模型,得到超参数α与噪声方差σ2,具体步骤如下:
步骤5-1-1:初始化超参数向量α与噪声方差σ2
Figure FDA0003332258930000048
其中y=[y1L yjL yn]T,yi表示第i个时间点训练样本的输出;Ψ=[ψ1jn]表示权值向量,ψj表示第j个权值系数,Φ=[Φ(x1),Φ(x2),L,Φ(xn)]T,n为训练样本的数量,Φ(xn)=[1,K(xn,x1),K(xn,x2)L K(xn,xj)L K(xn,xn)]T,xj表示第j个时间节点下的输入,K(xn,xj)表示核函数;
Figure FDA0003332258930000051
α=[α01in]T,αi是超参数向量中第i个值;
步骤5-1-2:计算权重向量Ψ的后验方差∑与均值θ;权重向量Ψ的后验概率分布为:
Figure FDA0003332258930000052
x=[x1L xiL xn]T,xi为第i个时间节点下的输入;其中后验方差与均值分别为:
Figure FDA0003332258930000053
其中,A=diag(α01,L,αN),表示元素是α01,L,αn的对角矩阵;
步骤5-1-3:不断迭代1000次,更新αi
Figure FDA0003332258930000054
θi表示第i个均值θ,
Figure FDA0003332258930000055
Figure FDA0003332258930000056
为方差∑的对角线上的第i个元素;删除超参数α中大于或等于αmax所对应的权重系数,通过最大似然方法得到最终超参数αMP与噪声方差将步骤3中构造好的训练集Training输入;
步骤5-1-4:完成模型的训练;
步骤5-2:训练BP神经网络水质预测模型,用步骤3中构造的训练集Training训练步骤4-2中构造好的BP神经网络水质预测模型,输入xi,通过模型得到对应输出的
Figure FDA0003332258930000057
与期望的输出yi做对比;然后使用反向传播算法更新相邻神经元之间的影响权重,训练步骤如下:
步骤5-2-1:根据公式
Figure FDA0003332258930000058
计算得到每个神经元的输出,其中
Figure FDA0003332258930000061
表示第k层第j个神经元的输出,
Figure FDA0003332258930000062
表示第k-1层第i个神经元对第k层第j个神经元的影响权重,m代表第k-1层神经元的个数,f表示激活函数;
步骤5-2-2:根据公式
Figure FDA0003332258930000063
来计算实际数据与期望输出的误差,其中
Figure FDA0003332258930000064
表示第i个时间节点下模型输出层的输出,即
Figure FDA0003332258930000065
表示yi表示第i个时间节点下的期望输出,利用反向传播算法更新每条连接线的权值
Figure FDA0003332258930000066
步骤5-2-3:不断迭代1000次,得到每两相邻的神经元之间的最终影响权值
Figure FDA0003332258930000067
步骤5-2-4:完成模型训练;
步骤5-3:训练Adaboost水质预测模型,用步骤3中构造的训练集Training训练步骤4-3中构造好的Adaboost水质预测模型,通过迭代训练得到训练集的最终权值分布;训练步骤如下:
步骤5-3-1:不断迭代1000次,对每一轮次的权值Dm,m=1,2,L,1000,通过使用具有权值分布的训练数据集通过回归树学习模型得到基本回归分类器:Gm(x),当输入为xi时,模型输出
Figure FDA0003332258930000068
基本回归分类器在训练集上根据公式
Figure FDA0003332258930000069
计算回归模型的权重系数
Figure FDA00033322589300000610
其中εm表示基本回归分类器Gm(x)在训练集上的回归误差率,
Figure FDA00033322589300000611
yi是样本的标签,n表示样本数,
Figure FDA00033322589300000612
表示当
Figure FDA00033322589300000613
时I=1,
Figure FDA00033322589300000614
时I=0;通过规范化因子重新计算并更新得到训练集中的权值
Figure FDA00033322589300000615
其中,
Figure FDA00033322589300000616
表示第i个水质数据对应的第m+1轮训练得到的权值;
步骤5-3-2:根据步骤5-3-1中训练m=1000次得到的1000个权重系数
Figure FDA0003332258930000071
及其对应的基础回归模型Gm(x),x={x1,x2L xn};线性组合出最终模型:
Figure FDA0003332258930000072
步骤5-3-3:完成模型的训练。
6.根据权利要求1所述的基于择优分类的水质预测方法,其特征在于:所述步骤6中,分别使用训练好的RVM水质预测模型、BP神经网络水质预测模型、Adaboost水质预测模型在验证集Validation上进行预测,构造SVM择优分类器的训练集,其SVM择优分类器训练集的构造步骤如下:
步骤6-1:对于验证集中每一个时间节点i,利用步骤5中训练好的RVM模型得到该时间点下的水质预测值P1i,利用步骤5中训练好的BP神经网络模型得到该时间点下的水质预测值P2i,利用步骤5中训练好的Adaboost模型得到该时间点下的水质预测值P3i
步骤6-2:将P1i,P2i,P3i代入函数
Figure FDA0003332258930000073
用来选择预测效果最好的预测模型;构造标签集合L={l1,l2,L,li,L lN},li=f(i)∈{1,2,3}表示第i个时间节点下预测效果最好的模型;当预测值P1i效果最佳,即RVM为预测效果最好模型时,li=1;当预测值P2i效果最佳,即BP神经网络为预测效果最好模型时,li=2;当预测值P3i效果最佳,即Adaboost模型为预测效果最好模型,li=3;
步骤6-3:构造SVM择优分类器的训练集Training′={(xi,li)},xi为第i个时间节点下的样本输入,li表示第i个时间节点下的样本标签。
7.根据权利要求6所述的基于择优分类的水质预测方法,其特征在于:步骤7分类器的构造与训练的步骤如下:
步骤7-1:将步骤6-3中的训练集Training′={(xi,li)},作为SVM择优分类器的训练集;
步骤7-2:使用RBF核函数作为分类器的核函数:
Figure FDA0003332258930000081
其中,xc表示每个分类平面的中心点,单调函数k(||x-xc||)表示任意一种训练的输入到每个分类平面中心点的距离,ξ为函数的宽度参数,设置ξ;用核函数将空间映射到更高维度来分类非线性数据;
步骤7-3:找到最优超平面,完成模型训练。
8.根据权利要求1所述的基于择优分类的水质预测方法,其特征在于:步骤8分为如下步骤:
步骤8-1:使用历史数据,得到输入值Ii=[(wi-1,ti-1),(wi-2,ti-2),L,(wi-2,ti-d)],d表示为窗口大小,wi表示第i个时间节点下的水质数据,ti表示第i个时间节点时间;
步骤8-2:将向量Ii输入步骤7中已经训练好的SVM择优分类器,得到标签li,li∈{1,2,3}代表适合该数据的最优预测模型;当li=1时,选择RVM水质预测模型;当li=2时,选择BP神经网络水质预测模型;当li=3时,选择Adaboost水质预测模型;
步骤8-3:对应已经得到的li,将输入值Ii带入步骤5中训练好的最优模型,得到预测值Pi,将Pi作为最终预测值。
CN201810570556.2A 2018-06-05 2018-06-05 基于择优分类的水质预测方法 Active CN108846512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810570556.2A CN108846512B (zh) 2018-06-05 2018-06-05 基于择优分类的水质预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810570556.2A CN108846512B (zh) 2018-06-05 2018-06-05 基于择优分类的水质预测方法

Publications (2)

Publication Number Publication Date
CN108846512A CN108846512A (zh) 2018-11-20
CN108846512B true CN108846512B (zh) 2022-02-25

Family

ID=64210373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810570556.2A Active CN108846512B (zh) 2018-06-05 2018-06-05 基于择优分类的水质预测方法

Country Status (1)

Country Link
CN (1) CN108846512B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740804B (zh) * 2018-12-24 2020-02-07 成都四方伟业软件股份有限公司 水体质量预测方法、终端设备及计算机可读存储介质
CN109738604B (zh) * 2019-01-14 2021-04-27 北京工商大学 一种基于空间权重矩阵的水域特征模型建立方法
CN109636071B (zh) * 2019-01-31 2022-07-26 南京邮电大学 一种基于SVR的pm2.5浓度值在线预测方法
CN110045771B (zh) * 2019-04-19 2020-12-08 淮阴工学院 一种鱼塘水质智能监测系统
CN110428082B (zh) * 2019-05-31 2022-07-22 南京邮电大学 基于注意力神经网络的水质预测方法
CN111639111A (zh) * 2020-06-09 2020-09-08 天津大学 面向调水工程的多源监测数据深度挖掘和智能分析方法
CN111932145B (zh) * 2020-08-27 2021-07-13 西南交通大学 一种基于废水水质判断集输管道结垢影响的方法
CN112101789A (zh) * 2020-09-16 2020-12-18 清华大学合肥公共安全研究院 一种基于人工智能的水污染报警等级识别方法
CN112906738B (zh) * 2021-01-15 2023-01-31 宁波可为数据技术有限公司 一种水质检测及处理方法
CN116596161B (zh) * 2023-07-04 2023-10-13 江南大学 多中心小样本场景下目标预测模型构建方法和预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6633857B1 (en) * 1999-09-04 2003-10-14 Microsoft Corporation Relevance vector machine
CN105487526A (zh) * 2016-01-04 2016-04-13 华南理工大学 一种Fast RVM污水处理故障诊断方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6633857B1 (en) * 1999-09-04 2003-10-14 Microsoft Corporation Relevance vector machine
CN105487526A (zh) * 2016-01-04 2016-04-13 华南理工大学 一种Fast RVM污水处理故障诊断方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于集成相关向量机的水质在线预测模型";谭承诚等;《计算机测量与控制》;20180325;第224-227页 *

Also Published As

Publication number Publication date
CN108846512A (zh) 2018-11-20

Similar Documents

Publication Publication Date Title
CN108846512B (zh) 基于择优分类的水质预测方法
CN112163426B (zh) 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法
Paul et al. Genetic algorithm based fuzzy decision support system for the diagnosis of heart disease
US11816183B2 (en) Methods and systems for mining minority-class data samples for training a neural network
Zhu et al. A combined machine learning algorithms and DEA method for measuring and predicting the efficiency of Chinese manufacturing listed companies
Kim et al. A hybrid decision tree algorithm for mixed numeric and categorical data in regression analysis
Kusy et al. Weighted probabilistic neural network
CN110009030B (zh) 基于stacking元学习策略的污水处理故障诊断方法
CN109242223B (zh) 城市公共建筑火灾风险的量子支持向量机评估与预测方法
CN107578061A (zh) 基于最小化损失学习的不平衡样本分类方法
CN110363230B (zh) 基于加权基分类器的stacking集成污水处理故障诊断方法
Zhao et al. Modeling Stated preference for mobility-on-demand transit: a comparison of Machine Learning and logit models
Dong et al. Improving data and model quality in crowdsourcing using co-training-based noise correction
CN109063743B (zh) 基于半监督多任务学习的医疗数据分类模型的构建方法
Zhu et al. A GMDH-based fuzzy modeling approach for constructing TS model
CN107392164A (zh) 一种基于面部动作单元强度估计的表情分析方法
JP6172317B2 (ja) 混合モデル選択の方法及び装置
Zhou et al. Personal credit default prediction model based on convolution neural network
Soleimani et al. Multi-class classification of imbalanced intelligent data using deep neural network
CN109408896A (zh) 一种污水厌氧处理产气量多元智能实时监控方法
Xu et al. Implementation and performance optimization of dynamic random forest
CN117034060A (zh) 基于ae-rcnn的洪水分级智能预报方法
Patidar et al. Decision tree C4. 5 algorithm and its enhanced approach for educational data mining
CN116303786A (zh) 一种基于多维数据融合算法的区块链金融大数据管理系统
US20230394304A1 (en) Method and Apparatus for Neural Network Based on Energy-Based Latent Variable Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant