CN109472321B - 一种面向时间序列型地表水质大数据的预测与评估模型构建方法 - Google Patents

一种面向时间序列型地表水质大数据的预测与评估模型构建方法 Download PDF

Info

Publication number
CN109472321B
CN109472321B CN201811462328.XA CN201811462328A CN109472321B CN 109472321 B CN109472321 B CN 109472321B CN 201811462328 A CN201811462328 A CN 201811462328A CN 109472321 B CN109472321 B CN 109472321B
Authority
CN
China
Prior art keywords
water quality
data
algorithm
value
time point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811462328.XA
Other languages
English (en)
Other versions
CN109472321A (zh
Inventor
闫健卓
陈新月
张小娟
刘梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201811462328.XA priority Critical patent/CN109472321B/zh
Publication of CN109472321A publication Critical patent/CN109472321A/zh
Application granted granted Critical
Publication of CN109472321B publication Critical patent/CN109472321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Biomedical Technology (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向时间序列型地表水质大数据的预测与评估模型构建方法,首先清除明显违反常识的数值,接着根据存在空缺值的时间点上的所有数据找到与其马氏距离最近的时间点,并用这个时间点上的数据来填补空缺值。接着利用马氏距离改进的KMeans++聚类算法和Z分数检测算法来检测水质数据中的异常值并利用支持向量回归填补异常值。接着利用随机森林算法实现水质指标的重要特征提取,选取重要度高的指标用于水质整体状态的评估。接着利用LSTM模型预测水质整体状态的时间序列。最后利用Hadoop的MapReduce编程实现程序的并行化执行,提高各个算法的执行效率,完成最终的预测与评估模型构建,提高了水质大数据分析效率,完整性以及准确性。

Description

一种面向时间序列型地表水质大数据的预测与评估模型构建 方法
技术领域
本发明涉及水质大数据预测与评估模型构建技术领域,是一种面向时间序列型地表水质大数据的预测与评估模型构建方法,特别涉及一种基于马氏距离改进的KMeans++聚类和Z分数计算的异常值检测方法、基于粒子群优化算法改进的支持向量回归的空缺值填补方法、基于随机森林算法的重要度分析方法、基于粒子群优化算法改进的LSTM模型的时间序列预测方法以及基于MapReduce的并行化计算方法的水质大数据预测与评估模型构建方法。
背景技术
影响水质的物理,化学,生物因素广泛,生物处理仍然表现出受各种已知和未知参数影响的时变和高度非线性特征,传统的基于线性关系的预测方法不足以解决这一问题。由于这些复杂的特征,许多先前的研究通过使用数学模型评估地表水的水质。其中,机器学习模型已被证明是一种有用的工具,因为它具有处理复杂系统的相对高的精度。此外,这些模型预测地表水质的关键优势在于,这些模型只能在训练和验证步骤之后直接预测输入值的输出。人工神经网络(ANN)和支持向量机(SVM)是代表性的机器学习技术。但是大多数研究人员只关注某一单因素指数的预测,很少关注综合水质。由于影响水质的化学、生物和物理参数众多,单因素指数和综合水质的预测相结合的综合评估体系是未来水质大数据分析领域的重点研究对象。完善的水质多维评价体系可以为今后水务决策做出重要的判断。随着水资源大数据研究的快速发展,出现了数据量巨大的海量数据集和以超大规模特征为特征的高维数据集。如何有效地从高位数据中提取或选择出有用的特征信息已成为水质大数据分析所面临的基本问题。特征选择是指从原始数据集中选择某种评估标准最优的子集,以使在该最优特征子集上所构建的分类或回归模型达到与特征选择前近似甚至更好的预测精度。同时机器学习算法普遍具有较高的时间复杂度和空间复杂度,使得基于单一节点计算的水质大数据分析变得十分困难。大数据技术的出现为这类问题提供了新的并行化解决方案。例如在Hadoop平台上实现MapReduce对于提升数据处理算法的效率有非常重大的意义。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种面向时间序列型地表水质大数据的预测与评估模型构建方法,旨在解决水质数据分析的问题,并实现统一的、自动化的“水质数据清洗-水质数据预测-水质评估”流程,并建立最终的水质大数据分析体系。
本发明解决其技术问题所采取的技术方案是:一种面向时间序列型地表水质大数据的预测与评估模型构建方法,该方法主要包括如下步骤:
步骤1:使用数据清洗算法对地表水质数据进行异常值检测和空缺值填补。
步骤2:使用随机森林算法对水质指标进行重要特征提取,选取重要度高的指标用于水质整体状态的评估。
步骤3:基于对每一时间点的水质评估,使用时间序列预测算法进行水质整体状态的预测。
步骤4:基于Hadoop平台的MapReduce编程实现程序的并行化执行,得到最终的时间序列型地表水质大数据的预测与评估模型。
进一步的,本发明步骤1所述的数据清洗算法对地表水质数据进行异常值检测和空缺值填补的方法,其步骤具体包括:
步骤1-1:使用python从水质数据库中读取数据并清除明显违反常识的数值。
步骤1-2:使用python编程,根据存在空缺值的时间点上的所有数据找到与其马氏距离最近的时间点,并用这个时间点上的数据来填补空缺值。
步骤1-3:使用python实现马氏距离改进的KMeans++聚类算法和Z分数检测算法分别从每一时间点数据的整体状态和单因素指标的数据分布状态来检测水质数据中的异常值。
步骤1-4:使用python实现粒子群优化算法优化的支持向量回归算法填补第三步中检测出来的异常值。
步骤2所述重要度分析的方法,其步骤具体包括:
步骤2-1:基于GB3838-2002地表水质评价标准将每一时间点上的水质整体状态分类。
步骤2-2:使用python机器学习算法工具包scikit-learn实现随机森林算法,从而实现水质指标的重要特征提取,选取重要度高的指标用于水质整体状态的评估。
步骤3所述的时间序列预测的方法,其步骤具体包括:
步骤3-1:获取每一时间点的历史水质整体状态评估数据。
步骤3-2:将历史水质整体状态评估数据作为使用python机器学习算法工具包tensorflow实现基于粒子群优化算法优化的LSTM模型的输入,并进行预测。
步骤4所述的使用MapReduce实现并行化计算的方法,其步骤具体包括:
步骤4-1:基于Hadoop搭建分布式集群模型。
步骤4-2:集群中分配不同主机对不同指标进行错误数据清除,实现程序并行化。
步骤4-3:集群中分配不同主机对同一数据集执行KMeans++算法,从中选取最优初始中心,实现程序并行化。
步骤4-4:集群中分配不同主机对不同指标进行Z分数计算,实现程序并行化。
步骤4-5:集群中分配不同主机对粒子群优化算法的粒子进行更新,实现程序并行化。
步骤4-6:集群中分配不同主机在同一数据集对不同时间段数据计算整体状态分类,实现程序并行化。
步骤1-3所述的用马氏距离改进的KMeans++聚类算法和Z分数检测算法检测异常值的方法,其步骤具体包括:
步骤1-3-1:从检测某一时间点水质整体状态的思路出发,使用马氏距离改进的KMeans++聚类算法将水质数据分为两类,类别占比大的是非异常数据,占比小的是异常数据。
步骤1-3-2:使用Z分数检测算法检测各个单因素指标的异常值情况。
步骤1-3-3:在KMeans++聚类算法和Z分数检测算法中都被标记为异常的数值被认定为异常值,并被标记为Null。
步骤1-3-4:使用python实现粒子群优化算法优化的支持向量回归算法将上一步检测出来的Null值填补。
步骤3-2所述的运用基于粒子群优化算法优化的LSTM模型根据历史水质整体状态预测未来水质整体状态的方法,其步骤具体包括:
步骤3-2-1:使用python机器学习算法工具包tensorflow构建基本的LSTM模型,其中模型的两个参数:步长和学习率由人为设置,分别代表LSTM记忆的时间段和每一次梯度下降的间隔。
步骤3-2-2:使用python编程构建粒子群,粒子群中每一个粒子的位置是一个二维变量,代表LSTM模型的学习率和步长,初始化值由人为给出。
步骤3-2-3:将所有粒子平均分配到集群中去根据RMSE更新局部最优值和全局最优值。当达到最大迭代次数之后,粒子群的全局最优值就是LSTM模型最优的步长和学习率。
所用的Z分数检测算法具体步骤为:
第一步,设对被测量进行等精度测量,独立得到x1,x2,...,xn,算出其算术平均值
Figure BDA0001888928120000051
及剩余误差
Figure BDA0001888928120000052
Figure BDA0001888928120000053
其中vi表示每一个被测量的剩余误差,xi表示每一个被测量的具体值。
第二步,按贝塞尔公式算出标准误差
Figure BDA0001888928120000061
xb(b=1,2,3,...,n)的Z分数的通过下面的公式计算:
Z分数:
Figure BDA0001888928120000062
其中xb表示每一个被测量的具体值。
第三步,若|zb|>3则认为xb是含有粗大误差值的坏值,为水质异常值。
所用的随机森林算法计算变量重要度的具体步骤为:
第一步,假设有Bootstrap样本b=1,2,3,.....,B,B表示训练样本的个数。首先设置b=1,在训练样本上创建决策树Tb,并将袋外数据标记为
Figure BDA0001888928120000063
袋外数据也就是未用于构建决策树的测试集。
第二步,在袋外数据上使用Tb
Figure BDA0001888928120000064
数据进行分类,统计正确分类的个数,记为
Figure BDA0001888928120000065
第三步,对于特征Xj(j=1,2,3…,N),对
Figure BDA0001888928120000066
中的特征Xj的值进行扰动.通过随机置换
Figure BDA0001888928120000067
中Xj的值来获得扰动样本.扰动后的数据集记为
Figure BDA0001888928120000068
使用Tb
Figure BDA0001888928120000069
数据进行分类,统计正确分类的个数,记为
Figure BDA00018889281200000610
第四步,对于b=2,3,……,B,重复步骤(1)~(3)。特征Xj的变量重要性度量
Figure BDA00018889281200000611
通过下面的公式进行计算:
重要度:
Figure BDA00018889281200000612
所用的粒子群优化算法的具体步骤为:
第一步,假设在D维空间中有n个粒子。
每个粒子的位置可以描述为Xi=(Xi1,Xi2,Xi3,Xi4,...,Xid)。每个粒子的速度被描述为Vi=(Vi1,Vi2,Vi3,Vi4,...,Vid)。每个粒子的适应值由优化问题的目标函数决定,并且知道到目前为止它的最佳位置(Pbest)和它的当前位置(Xi),这可以看作粒子自己的飞行经验。同时,由于粒子伴侣的经验,每个粒子也知道迄今为止对于整个群体(Gbest)的最佳位置,这是Pbest的最佳值。速度更新如下:
更新速度:
Figure BDA0001888928120000071
第二步,
Figure BDA0001888928120000072
pi,pg,ω,和c1,c2分别代表当前位置,当前速度,粒子历史中的最佳位置,粒子群历史中的最佳位置,惯性权重和学习因素。其中c1,c2取(0,1)。
Figure BDA0001888928120000073
表示更新后的速度。
第三步,位置的更新如下:
更新速度:
Figure BDA0001888928120000074
其中
Figure BDA0001888928120000075
表示每一个粒子更新后的位置。
本发明能够应用于水质大数据的预测与评估模型的构建。
有益效果:
1.本发明在水质数据清洗阶段,面对大量时间序列型水质数据,能够高效准确的填补空缺值和检测异常值,为水质整体状态的评估和预测提供科学完备的数据集。并且利用粒子群优化算法优化了支持向量回归算法对于惩罚因子和系统误差两个参数的选择,从而提升模型的预测性能。
2.本发明在水质数据预测阶段,利用随机森林算法从水质数据的多维特征中选取较少的指标表征整体水质状况,提高数据质量容忍度。同时降低水质研究工作量,对于维度更大的数据集,只用关注重要指标的量即可。并且利用粒子群优化算法优化了LSTM算法对于步长和学习率两个参数的选择,从而提升模型的预测性能。
3.本发明在程序并行化模型构建阶段,利用Hadoop搭建的分布式多机机群实现MapReduce编程,从而实现各个算法的并行化执行,提高各个算法的执行效率,提高模型的整体计算能力。
附图说明
图1为本发明一种面向时间序列型地表水质大数据的预测与评估模型构建方法的流程图。
图2为步骤1-4中的粒子群优化算法优化支持向量回归(SVR)算法的具体流程图。
图3为步骤3-2中的粒子群优化算法优化LSTM模型的具体流程图。
图4为搭建的分布式集群图。
图5为空缺值填补时各种算法预测性能对比表。
图6为数据清洗前后异常值统计情况对比图。
图7为重要度分析的结果图。
图8为时间序列预测时各种算法预测性能对比表。
图9为粒子群优化算法优化LSTM模型的串行执行和并行执行时间对比表。
图10为粒子群优化算法优化LSTM模型的利用前16天的数据预测后10天数据的模型性能情况表。
图11为GB3838-2002地表水质评价标准示例。
具体实施方式
本发明提供一种面向时间序列型地表水质大数据的预测与评估模型构建方法,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1。图1为本发明一种面向时间序列型地表水质大数据的预测与评估模型构建方法较佳实施例的流程图,如图所示,其实施步骤,包括如下:
第一步,从水质数据库中读取某一监测站的水质数据并清除明显违反常识的数值。
第二步,根据存在空缺值的时间点上的所有数据找到与其马氏距离最近的时间点,并用这个时间点上的数据来填补空缺值,从而得到完整数据集。
第三步,实现马氏距离改进的KMeans++聚类算法和Z分数检测算法分别从每一时间点数据的整体状态和单因素指标的数据分布状态来检测水质数据中的异常值。
第四步,实现粒子群优化算法优化的支持向量回归算法填补第三步中检测出来的异常值。
第五步,基于GB3838-2002地表水质评价标准将每一时间点上的水质整体状态分类。
第六步,实现随机森林算法,从而实现水质指标的重要特征提取,选取重要度高的指标用于水质整体状态的评估。
第七步,实现基于粒子群优化算法优化的LSTM模型,并结合水质评价标准和第六步选出的重要指标进行水质整体状态的预测。
第八步,基于Hadoop平台的MapReduce编程实现程序的并行化执行,提高各个算法的执行效率。
在图2中,R2表示决定系数。决定系数的定义如下:
决定系数:
Figure BDA0001888928120000101
Qm(i),Q0(i),
Figure BDA0001888928120000102
Figure BDA0001888928120000103
分别代表预测值,观测值,预测值的平均值,观测值的平均值。决定系数越接近1,模型预测越准确。在图3中,RMSE代表均方根误差。均方根误差的定义如下:
均方根误差:
Figure BDA0001888928120000104
其中Oi和Xi分别代表观测值和预测值。均方根误差越接近0,预测模型越准确。由图5可以看出,基于粒子群优化算法优化的支持向量回归的预测性能是最好的。图6以高碑店水质监测站的水质数据为例,可以看出,在进行了数据清洗之后,异常值明显减少,有利于后续的数据挖掘工作。由图7可以看出,在使用随机森林算法进行重要度分析后,选取重要度大于50的指标评估水质整体状态,对于后续预测模型的输入降维有重要意义。由图8可以看出,基于粒子群优化算法优化的LSTM模型的预测性能是最好的。由图9可以看出,再用MapReduce实现了程序的并行化之后,模型的计算效率明显提升。由图10可以看出,在确定了LSTM步长为16之后,其预测后5天的数据的RMSE基本可以保持在0.09以下,预测性能良好。图11为GB3838-2002地表水质评价,实际评价过程中也可以根据需要自行设置水质指标对于分类。所以以上结果可以看出本发明提出的面向时间序列型水质大数据的预测与评估模型对于水质大数据分析体系的建立具有较好的效果。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (1)

1.一种面向时间序列型地表水质大数据的预测与评估模型构建方法,其特征在于:该方法主要包括如下步骤,
步骤1:使用数据清洗算法对地表水质数据进行异常值检测和空缺值填补;
步骤2:使用随机森林算法对水质指标进行重要特征提取,选取重要度高的指标用于水质整体状态的评估;
步骤3:基于对每一时间点的水质评估,使用时间序列预测算法进行水质整体状态的预测;
步骤4:基于Hadoop平台的MapReduce编程实现程序的并行化执行,得到最终的时间序列型地表水质大数据的预测与评估模型;
步骤1所述的数据清洗算法对地表水质数据进行异常值检测和空缺值填补的方法,其步骤具体包括:
步骤1-1:使用python从水质数据库中读取数据并清除明显违反常识的数值;
步骤1-2:使用python编程,根据存在空缺值的时间点上的所有数据找到与其马氏距离最近的时间点,并用这个时间点上的数据来填补空缺值;
步骤1-3:使用python实现马氏距离改进的KMeans++聚类算法和Z分数检测算法分别从每一时间点数据的整体状态和单因素指标的数据分布状态来检测水质数据中的异常值;
步骤1-4:使用python实现粒子群优化算法优化的支持向量回归算法填补第三步中检测出来的异常值;
步骤2重要度分析的方法,其步骤具体包括:
步骤2-1:基于GB3838-2002地表水质评价标准将每一时间点上的水质整体状态分类;
步骤2-2:使用python机器学习算法工具包scikit-learn实现随机森林算法,从而实现水质指标的重要特征提取,选取重要度高的指标用于水质整体状态的评估;
步骤3所述的时间序列预测的方法,其步骤具体包括:
步骤3-1:获取每一时间点的历史水质整体状态评估数据;
步骤3-2:将历史水质整体状态评估数据作为使用python机器学习算法工具包tensorflow实现基于粒子群优化算法优化的LSTM模型的输入,并进行预测;
步骤4使用MapReduce实现并行化计算的方法,其步骤具体包括:
步骤4-1:基于Hadoop搭建分布式集群模型;
步骤4-2:集群中分配不同主机对不同指标进行错误数据清除,实现程序并行化;
步骤4-3:集群中分配不同主机对同一数据集执行KMeans++算法,从中选取最优初始中心,实现程序并行化;
步骤4-4:集群中分配不同主机对不同指标进行Z分数计算,实现程序并行化;
步骤4-5:集群中分配不同主机对粒子群优化算法的粒子进行更新,实现程序并行化;
步骤4-6:集群中分配不同主机在同一数据集对不同时间段数据计算整体状态分类,实现程序并行化;
步骤1-3用马氏距离改进的KMeans++聚类算法和Z分数检测算法检测异常值的方法,其步骤具体包括:
步骤1-3-1:从检测某一时间点水质整体状态的思路出发,使用马氏距离改进的KMeans++聚类算法将水质数据分为两类,类别占比大的是非异常数据,占比小的是异常数据;
步骤1-3-2:使用Z分数检测算法检测各个单因素指标的异常值情况;
步骤1-3-3:在KMeans++聚类算法和Z分数检测算法中都被标记为异常的数值被认定为异常值,并被标记为Null;
步骤1-3-4:使用python实现粒子群优化算法优化的支持向量回归算法将上一步检测出来的Null值填补;
步骤3-2运用基于粒子群优化算法优化的LSTM模型根据历史水质整体状态预测未来水质整体状态的方法,其步骤具体包括:
步骤3-2-1:使用python机器学习算法工具包tensorflow构建LSTM模型,其中模型的两个参数:步长和学习率由人为设置,分别代表LSTM记忆的时间段和每一次梯度下降的间隔;
步骤3-2-2:使用python编程构建粒子群,粒子群中每一个粒子的位置是一个二维变量,代表LSTM模型的学习率和步长,初始化值由人为给出;
步骤3-2-3:将所有粒子平均分配到集群中去,根据RMSE更新局部最优值和全局最优值;当达到最大迭代次数之后,粒子群的全局最优值就是LSTM模型最优的步长和学习率;
所用的Z分数检测算法具体步骤为:
第一步,设对被测量进行等精度测量,独立得到x1,x2,...,xn,算出其算术平均值
Figure FDA00039796743700000411
及剩余误差
Figure FDA00039796743700000412
其中vi表示每一个被测量的剩余误差,xi表示每一个被测量的具体值,i=1,2,3,...,n;
第二步,按贝塞尔公式算出标准误差
Figure FDA0003979674370000041
xb的Z分数的通过下面的公式计算:
Z分数:
Figure FDA00039796743700000410
其中xb表示每一个被测量的具体值,b=1,2,3,...,n;
第三步,若|zb|>3则认为xb是含有粗大误差值的坏值,为水质异常值;
所用的随机森林算法计算变量重要度的具体步骤为:
第一步,假设有Bootstrap样本b=1,2,3,.....,B,B表示训练样本的个数;首先设置b=1,在训练样本上创建决策树Tb,并将袋外数据标记为
Figure FDA0003979674370000042
袋外数据是未用于构建决策树的测试集;
第二步,在袋外数据上使用Tb
Figure FDA0003979674370000043
数据进行分类,统计正确分类的个数,记为
Figure FDA0003979674370000044
第三步,对于特征Xj,对
Figure FDA0003979674370000045
中的特征Xj的值进行扰动,通过随机置换
Figure FDA0003979674370000046
中Xj的值来获得扰动样本,扰动后的数据集记为
Figure FDA0003979674370000047
使用Tb
Figure FDA0003979674370000048
数据进行分类,统计正确分类的个数,记为
Figure FDA0003979674370000049
j=1,2,3…,N;
第四步,对于b=2,3,……,B,重复第一步~第三步;特征Xj的变量重要性度量
Figure FDA0003979674370000051
通过下面的公式进行计算:
重要度:
Figure FDA0003979674370000052
CN201811462328.XA 2018-12-03 2018-12-03 一种面向时间序列型地表水质大数据的预测与评估模型构建方法 Active CN109472321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811462328.XA CN109472321B (zh) 2018-12-03 2018-12-03 一种面向时间序列型地表水质大数据的预测与评估模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811462328.XA CN109472321B (zh) 2018-12-03 2018-12-03 一种面向时间序列型地表水质大数据的预测与评估模型构建方法

Publications (2)

Publication Number Publication Date
CN109472321A CN109472321A (zh) 2019-03-15
CN109472321B true CN109472321B (zh) 2023-01-31

Family

ID=65674534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811462328.XA Active CN109472321B (zh) 2018-12-03 2018-12-03 一种面向时间序列型地表水质大数据的预测与评估模型构建方法

Country Status (1)

Country Link
CN (1) CN109472321B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334083A (zh) * 2019-04-17 2019-10-15 厦门网宿有限公司 一种时间序列异常值检测方法及装置
CN110443503A (zh) * 2019-08-07 2019-11-12 成都九鼎瑞信科技股份有限公司 水务系统工业总产值分析模型的训练方法及相关系统
CN111275307B (zh) * 2020-01-16 2023-09-05 生态环境部华南环境科学研究所 一种水质自动在线站高频连续观测数据质量控制方法
CN111488924B (zh) * 2020-04-07 2024-04-26 中国农业科学院农业信息研究所 一种多变量时间序列数据聚类方法
CN111612032A (zh) * 2020-04-08 2020-09-01 深圳市水务科技有限公司 一种数据处理方法及系统
CN112766534A (zh) * 2020-12-07 2021-05-07 河北国华定州发电有限责任公司 脱硝系统NOx浓度预测方法、装置、计算机设备和存储介质
CN112687349A (zh) * 2020-12-25 2021-04-20 广东海洋大学 一种降低辛烷值损失模型的构建方法
CN112836645B (zh) * 2021-02-04 2024-03-29 浙江工业大学 面向大规模运动心率序列的代跑检测方法
CN112819244B (zh) * 2021-02-23 2022-06-21 浙江大学 一种基于气象因子的rf-hw水质指标混合预测方法
CN113344130B (zh) * 2021-06-30 2022-01-11 广州市河涌监测中心 差异化巡河策略的生成方法及装置
CN114356642B (zh) * 2022-03-11 2022-05-17 军事科学院系统工程研究院网络信息研究所 一种基于流程挖掘的异常事件自动诊断方法和系统
CN114897383A (zh) * 2022-05-20 2022-08-12 中国水产科学研究院南海水产研究所 一种基于数据填补的渔情数据处理方法
CN117009887B (zh) * 2023-07-28 2024-02-13 中科景感(厦门)生态环境科技有限公司 流域水环境质量精细化估算及分析的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101387632A (zh) * 2008-10-17 2009-03-18 北京工业大学 一种污水处理过程中生化需氧量bod的软测量方法
CN107688871A (zh) * 2017-08-18 2018-02-13 中国农业大学 一种水质预测方法和装置
CN107908744A (zh) * 2017-11-16 2018-04-13 河南中医药大学 一种用于大数据清洗的异常检测和消除的方法
CN108846338A (zh) * 2018-05-29 2018-11-20 南京林业大学 基于面向对象随机森林的极化特征选择及分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10458969B2 (en) * 2016-03-22 2019-10-29 International Business Machines Corporation Dynamic water quality prediction
CN107909181A (zh) * 2017-10-09 2018-04-13 何霆 基于大数据的家电售后服务业务流程节点分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101387632A (zh) * 2008-10-17 2009-03-18 北京工业大学 一种污水处理过程中生化需氧量bod的软测量方法
CN107688871A (zh) * 2017-08-18 2018-02-13 中国农业大学 一种水质预测方法和装置
CN107908744A (zh) * 2017-11-16 2018-04-13 河南中医药大学 一种用于大数据清洗的异常检测和消除的方法
CN108846338A (zh) * 2018-05-29 2018-11-20 南京林业大学 基于面向对象随机森林的极化特征选择及分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于LSTM神经网络的我国典型试航海域环境短期预报方法研究;顾兴健等;《中国造船》;20171231;第100、102页 *
大数据云清洗系统的设计与实现;黄沈滨等;《智能计算机与应用》;20150630;第88-90页 *

Also Published As

Publication number Publication date
CN109472321A (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
CN109472321B (zh) 一种面向时间序列型地表水质大数据的预测与评估模型构建方法
CN112382352B (zh) 基于机器学习的金属有机骨架材料结构特征快速评估方法
CN115276006B (zh) 一种用于电力集成系统的负荷预测的方法及系统
CN109101632A (zh) 基于制造大数据的产品质量异常数据追溯分析方法
CN112070125A (zh) 一种基于孤立森林学习的不平衡数据集的预测方法
CN111324642A (zh) 一种面向电网大数据分析的模型算法选型与评价方法
CN102819772B (zh) 电力配网建设物资需求预测方法及装置
CN106485348A (zh) 一种交易数据的预测方法及装置
CN109345007A (zh) 一种基于XGBoost特征选择的有利储层发育区预测方法
CN115115265A (zh) 一种基于rfm模型的消费者评估方法、装置及介质
CN115795131B (zh) 基于人工智能的电子档案分类方法、装置及电子设备
CN114648170A (zh) 基于混合深度学习模型的水库水位预测预警方法及系统
WO2015145978A1 (ja) エネルギー量推定装置、エネルギー量推定方法、及び、記録媒体
Zhuang et al. Long-lead prediction of extreme precipitation cluster via a spatiotemporal convolutional neural network
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及系统
CN116383912A (zh) 一种提高控制精度的微型电机结构优化方法及系统
CN116993548A (zh) 基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及系统
CN113837266B (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
CN113656707A (zh) 一种理财产品推荐方法、系统、存储介质及设备
CN107590747A (zh) 基于综合能源大数据分析的电网资产周转率计算方法
CN117408167A (zh) 基于深度神经网络的泥石流灾害易发性预测方法
CN116245259A (zh) 基于深度特征选择的光伏发电预测方法、装置和电子设备
CN115936242A (zh) 空气质量与交通状况的溯源关系数据获取方法及装置
CN109739840A (zh) 数据空值处理方法、装置及终端设备
CN111914009B (zh) 一种基于PySpark的储能数据计算和分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant