CN114970813A - 一种溶解氧浓度数据修复及预报方法 - Google Patents

一种溶解氧浓度数据修复及预报方法 Download PDF

Info

Publication number
CN114970813A
CN114970813A CN202210536530.2A CN202210536530A CN114970813A CN 114970813 A CN114970813 A CN 114970813A CN 202210536530 A CN202210536530 A CN 202210536530A CN 114970813 A CN114970813 A CN 114970813A
Authority
CN
China
Prior art keywords
data
scheme
dissolved oxygen
value
water quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210536530.2A
Other languages
English (en)
Inventor
焦建格
赵丽琴
黄森军
刘鹏
马倩倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Jiliang University
Original Assignee
China Jiliang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Jiliang University filed Critical China Jiliang University
Priority to CN202210536530.2A priority Critical patent/CN114970813A/zh
Publication of CN114970813A publication Critical patent/CN114970813A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/18Water
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种溶解氧浓度数据修复及预报方法,包括采集水质数据,建立原始数据集;识别缺失值,并利用箱形图对水质数据进行异常值分析,剔除异常值;利用拉格朗日插值法计算并修补识别的缺失值及剔除的异常值;利用改进的灰色关联分析法分析溶解氧与其他水质参数之间的相关性;利用麻雀搜索算法对LSTM神经网络的参数进行优化,建立改进LSTM模型;利用改进的LSTM模型对溶解氧数据进行预测。本发明利用麻雀算法建立了改进LSTM模型,在优化原始数据集中缺失值于异常值的基础上,准确的预测了溶解氧浓度变化,提供了水动力复杂河口区的水质高精度预测技术。

Description

一种溶解氧浓度数据修复及预报方法
技术领域
本发明涉及环境科学技术领域,具体是一种溶解氧浓度数据修复及预报方法。
背景技术
随着经济的发展,人类活动如不合理利用水资源、过度砍伐森林等导致水污染问题日益加剧,水资源日益短缺。城市发展工业用水、生活用水量大,大多就近引江河水作为水源。江河水受城市发展、雨水径流甚至受潮流影响,水质指标波动幅度大。为保证引用水安全,在水质波动河段,往往设置水质监测站,通过监测数据预报未来水质变化情况,从而控制取水时段。在众多水质指标中,溶解氧指标是关键指标之一。当水体中的氧气浓度不足时,水体中的硫酸根离子、硝酸根离子被还原成亚硫酸根离子、亚硝酸根离子。这些物质会与氢离子结合形成对人体有害的物质,对人体的机能造成伤害。然而,由于外界条件、仪器本身等原因,常出现数据缺失、异常等原因,使得预报精度降低,进而影响城市用水安全。
神经网络是目前常用的水质预报技术,而现有的神经网络模型在水质数据修复及预报精度上有待进一步改善。
为此,本发明提供了一种溶解氧浓度数据修复及预报方法,以解决上述问题。
发明内容
本发明的目的是为了克服现有神经网络模拟技术缺陷而提出的一种溶解氧浓度数据修复及预报方法,优化原始数据集中缺失值于异常值的基础上,准确的预测了溶解氧浓度变化,提供了水动力复杂河口区的水质高精度预测技术。
为实现以上目的,本发明通过以下技术方案予以实现:一种溶解氧浓度数据修复及预报方法,包括以下步骤:
步骤1:采集水质数据,建立原始数据集;
步骤2:识别缺失值,并利用箱形图对水质数据进行异常值分析,剔除异常值;
步骤3:利用拉格朗日插值法计算对识别的缺失值及剔除的异常值;
步骤4:利用改进的灰色关联分析法分析溶解氧与其他水质参数之间的相关性;
步骤5:利用麻雀搜索算法SSA对LSTM神经网络的学习率、batchsize、训练次数、LSTM隐含层节点数和全连接隐含层节点数五个参数进行优化,建立改进LSTM模型;
步骤6:利用基于麻雀搜索算法SSA的改进LSTM模型对溶解氧数据进行预测。
优选的,所述步骤1的操作方法为选定某一监测站,获取连续记录水质数据序列,对监测数据进行编号,建立原始数据集D1。
优选的,所述步骤2的操作方法为识别数据序列中缺失的值,并通过数据序列箱形图分析,发现数据集中水质参数的异常值,并剔除异常值,建立调整后的数据集D2。
优选的,所述步骤3中采用拉格朗日插值法计算缺失值及异常值的具体流程包括:
流程3-1:计数据集D2数据个数为n,建立过n个点的n-1次多项式:
y=a0+a1x+a2x2+L+an-1xn-1 (1)
流程3-2:将n个点的坐标(x1,y1)(x2,y2)…(xn,yn)代入多项式函数,得到如下方程:
Figure BDA0003648492820000021
Figure BDA0003648492820000031
流程3-3:联立方程,解出拉格朗日插值多项式为:
Figure BDA0003648492820000032
流程3-4:将缺失的函数值对应的点x代入插值多项式,得到缺失值的近似值L(x),获得修补后数据集D3。
优选的,所述步骤4中改进的灰色关联分析法的流程如下:
流程4-1:首先需要确定参考数列与对比数列:
Figure BDA0003648492820000033
流程4-2:初值化Xi(k):
Figure BDA0003648492820000034
流程4-3:构建参考序列与比较序列的差矩阵:
Figure BDA0003648492820000035
流程4-4:将
Figure BDA0003648492820000036
引入,构成形状相似性关联系数:
Figure BDA0003648492820000037
流程4-5:构建参考序列与比较序列的商矩阵:
Figure BDA0003648492820000038
流程4-6:将
Figure BDA0003648492820000039
引入,构成距离相似关联系数:
Figure BDA00036484928200000310
流程4-7:计算综合关联度:
Figure BDA00036484928200000311
优选的,所述步骤5的具体操作流程为:
流程5-1:将所述数据集D2的70%数据作为训练数据,构成训练集;
流程5-2:对麻雀搜索算法超参数进行设置;
流程5-3:种群初始化,将均方根误差作为适应度函数;
流程5-4:将种群参数输入到LSTM神经网络中,计算个体和群体适应度,不断地更新麻雀算子;
流程5-5:根据终止条件判断是否完成训练;
流程5-6:若完成训练,则输出LSTM最优超参数;否则返回流程5-4继续执行规则。
优选的,所述终止条件是均方根误差RMSE不再变化或误差小于设定的数值范围,其中麻雀算子是指个体最优值、种群最优值、权重因子和适应度值。
优选的,所述均方根误差RMSE的计算公式如下,其中Yi表示真实值,Yj表示预测值,n表示数据量:
Figure BDA0003648492820000042
有益效果
本发明提供了一种溶解氧浓度数据修复及预报方法。与现有技术相比具备以下有益效果:
本发明利用麻雀搜索算法建立了改进LSTM模型,在优化原始数据集中缺失值于异常值的基础上,准确的预测了溶解氧浓度变化,提供了水动力复杂河口区的水质高精度预测技术。
附图说明
图1为本发明提供的一种溶解氧浓度数据修复及预报方法的流程图;
图2为本发明提供的一种溶解氧浓度数据修复及预报方法的原始数据集D1;
图3为本发明提供的一种溶解氧浓度数据修复及预报方法的拉格朗日修复数据集D3;
图4为一种溶解氧浓度数据修复及预报方法的基于SSA的LSTM模型改进流程;
图5为一种溶解氧浓度数据修复及预报方法的改进LSTM溶解氧预报值。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下以钱塘江为例,结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
如图1所示,一种溶解氧浓度数据修复及预报方法,包括以下步骤:
步骤1(S1):采集水质数据,建立原始数据集;
步骤2(S2):识别缺失值,并利用箱形图对水质数据进行异常值分析,剔除异常值;
步骤3(S3):利用拉格朗日插值法计算对识别的缺失值及剔除的异常值;
步骤4(S4):利用改进的灰色关联分析法分析溶解氧与其他水质参数之间的相关性;
步骤5(S5):利用利用麻雀搜索算法SSA对LSTM神经网络的学习率、batchsize、训练次数、LSTM隐含层节点数和全连接隐含层节点数五个参数进行优化,建立改进LSTM模型;
步骤6(S6):利用基于麻雀搜索算法SSA的改进LSTM模型对溶解氧数据进行预测。本发明利用麻雀搜索算法建立了改进LSTM模型,在优化原始数据集中缺失值于异常值的基础上,准确的预测了溶解氧浓度变化,提供了水动力复杂河口区的水质高精度预测技术。
如图2所示,步骤1(S1)中,选定钱塘江闸口监测站,获取连续记录的溶解氧数据序列(监测时段为5200小时,数据时间间隔为4小时),对监测数据进行编号,建立原始数据集D1。
步骤2(S2)中,识别数据序列中的缺失值,并利用箱形图,发现数据集中水质参数的异常值,并剔除异常值,建立调整后的数据集D2。
步骤3(S3)中采用拉格朗日插值法计算缺失值及异常值的具体流程包括:
流程3-1:计数据集D2数据个数为n,建立过n个点的n-1次多项式:
y=a0+a1x+a2x2+L+an-1xn-1 (1)
流程3-2:将n个点的坐标(x1,y1)(x2,y2)…(xn,yn)代入多项式函数,得到如下方程:
Figure BDA0003648492820000061
流程3-3:联立方程,解出拉格朗日插值多项式为:
Figure BDA0003648492820000062
流程3-4:如图3所示,将缺失的函数值对应的点x代入插值多项式,得到缺失值的近似值L(x),获得修补后数据集D3。
步骤4(S4)中改进的灰色关联分析法的流程如下:
流程4-1:首先需要确定参考数列与对比数列:
Figure BDA0003648492820000063
流程4-2:初值化Xi(k):
Figure BDA0003648492820000071
流程4-3:构建参考序列与比较序列的差矩阵:
Figure BDA0003648492820000072
流程4-4:将
Figure BDA0003648492820000073
引入,构成形状相似性关联系数:
Figure BDA0003648492820000074
流程4-5:构建参考序列与比较序列的商矩阵:
Figure BDA0003648492820000075
流程4-6:将
Figure BDA0003648492820000076
引入,构成距离相似关联系数:
Figure BDA0003648492820000077
流程4-7:计算综合关联度,确定辅助因子:
Figure BDA0003648492820000078
如图4所示,步骤5(S5)的具体操作流程为:
流程5-1:将数据集D2的70%数据作为训练数据,构成训练集;
流程5-2:对麻雀搜索算法超参数进行设置;
流程5-3:种群初始化,将均方根误差作为适应度函数;
流程5-4:将种群参数输入到LSTM神经网络中,计算个体和群体适应度,不断地更新麻雀算子;
流程5-5:根据终止条件判断是否完成训练;
流程5-6:若完成训练,则输出LSTM最优超参数;否则返回流程5-4继续执行规则。
终止条件是均方根误差RMSE不再变化或误差小于设定的数值范围,其中麻雀算子是指个体最优值、种群最优值、权重因子和适应度值。
均方根误差RMSE的计算公式如下,其中Yi表示真实值,Yj表示预测值,n表示数据量:
Figure BDA0003648492820000081
如图5所示,利用基于SSA的改进LSTM模型,预报测试集数据。结果表明,改进LSTM能够较好的模拟波动性溶解氧数据的变化趋势,可用于溶解氧的预报。
同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种溶解氧浓度数据修复及预报方法,其特征在于,包括以下步骤:
步骤1:采集水质数据,建立原始数据集;
步骤2:识别缺失值,并利用箱形图对水质数据进行异常值分析,剔除异常值;
步骤3:利用拉格朗日插值法计算对识别的缺失值及剔除的异常值;
步骤4:利用改进的灰色关联分析法分析溶解氧与其他水质参数之间的相关性;
步骤5:利用麻雀搜索算法SSA对LSTM神经网络的学习率、batchsize、训练次数、LSTM隐含层节点数和全连接隐含层节点数五个参数进行优化,建立改进LSTM模型;
步骤6:利用基于麻雀搜索算法SSA的改进LSTM模型对溶解氧数据进行预测。
2.根据权利要求1所述的一种溶解氧浓度数据修复及预报方法,其特征在于:所述步骤1的操作方法为选定某一监测站,获取连续记录水质数据序列,对监测数据进行编号,建立原始数据集D1。
3.根据权利要求1所述的一种溶解氧浓度数据修复及预报方法,其特征在于:所述步骤2的操作方法为识别数据序列中缺失的值,并通过数据序列箱形图分析,发现数据集中水质参数的异常值,并剔除异常值,建立调整后的数据集D2。
4.根据权利要求1所述的一种溶解氧浓度数据修复及预报方法,其特征在于:所述步骤3中采用拉格朗日插值法计算缺失值及异常值的具体流程包括:
流程3-1:计数据集D2数据个数为n,建立过n个点的n-1次多项式:
y=a0+a1x+a2x2+L+an-1xn-1 (1)
流程3-2:将n个点的坐标(x1,y1)(x2,y2)…(xn,yn)代入多项式函数,得到如下方程:
Figure FDA0003648492810000021
流程3-3:联立方程,解出拉格朗日插值多项式为:
Figure FDA0003648492810000022
流程3-4:将缺失的函数值对应的点x代入插值多项式,得到缺失值的近似值L(x),获得修补后数据集D3。
5.根据权利要求1所述的一种溶解氧浓度数据修复及预报方法,其特征在于:所述步骤4中改进的灰色关联分析法的流程如下:
流程4-1:首先需要确定参考数列与对比数列:
Figure FDA0003648492810000029
流程4-2:初值化Xi(k):
Figure FDA0003648492810000023
流程4-3:构建参考序列与比较序列的差矩阵:
Figure FDA0003648492810000024
流程4-4:将
Figure FDA0003648492810000025
引入,构成形状相似性关联系数:
Figure FDA0003648492810000026
流程4-5:构建参考序列与比较序列的商矩阵:
Figure FDA0003648492810000027
流程4-6:将
Figure FDA0003648492810000028
引入,构成距离相似关联系数:
Figure FDA0003648492810000031
流程4-7:计算综合关联度:
Figure FDA0003648492810000032
6.根据权利要求1所述的一种溶解氧浓度数据修复及预报方法,其特征在于:所述步骤5的具体操作流程为:
流程5-1:将所述数据集D2的70%数据作为训练数据,构成训练集;
流程5-2:对麻雀搜索算法超参数进行设置;
流程5-3:种群初始化,将均方根误差作为适应度函数;
流程5-4:将种群参数输入到LSTM神经网络中,计算个体和群体适应度,不断地更新麻雀算子;
流程5-5:根据终止条件判断是否完成训练;
流程5-6:若完成训练,则输出LSTM最优超参数;否则返回流程5-4继续执行规则。
7.根据权利要求6所述的一种溶解氧浓度数据修复及预报方法,其特征在于:所述终止条件是均方根误差RMSE不再变化或误差小于设定的数值范围,其中麻雀算子是指个体最优值、种群最优值、权重因子和适应度值。
8.根据权利要求7所述的一种溶解氧浓度数据修复及预报方法,其特征在于:所述均方根误差RMSE的计算公式如下,其中Yi表示真实值,Yj表示预测值,n表示数据量:
Figure FDA0003648492810000033
CN202210536530.2A 2022-05-17 2022-05-17 一种溶解氧浓度数据修复及预报方法 Pending CN114970813A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210536530.2A CN114970813A (zh) 2022-05-17 2022-05-17 一种溶解氧浓度数据修复及预报方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210536530.2A CN114970813A (zh) 2022-05-17 2022-05-17 一种溶解氧浓度数据修复及预报方法

Publications (1)

Publication Number Publication Date
CN114970813A true CN114970813A (zh) 2022-08-30

Family

ID=82982530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210536530.2A Pending CN114970813A (zh) 2022-05-17 2022-05-17 一种溶解氧浓度数据修复及预报方法

Country Status (1)

Country Link
CN (1) CN114970813A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952728A (zh) * 2022-11-29 2023-04-11 淮阴工学院 一种亚硝态氮浓度软测量预测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952728A (zh) * 2022-11-29 2023-04-11 淮阴工学院 一种亚硝态氮浓度软测量预测方法

Similar Documents

Publication Publication Date Title
CN111144286A (zh) 一种融合emd和lstm的城市pm2.5浓度预测方法
CN111832101B (zh) 一种水泥强度预测模型的构建方法及水泥强度预测方法
CN112070356B (zh) 一种基于rf-lssvm模型预测混凝土抗碳化性能的方法
CN113537469B (zh) 一种基于LSTM网络和Attention机制的城市需水预测方法
CN112365056A (zh) 一种电气负荷联合预测方法、装置、终端及存储介质
CN111415008B (zh) 一种基于vmd-foa-grnn的船舶流量预测方法
CN112990587A (zh) 一种对台区用电进行精准预测的方法及系统、设备、介质
CN112765902A (zh) 基于TentFWA-GD的RBF神经网络软测量建模方法及其应用
CN114970813A (zh) 一种溶解氧浓度数据修复及预报方法
CN115421216A (zh) 一种基于stl-arima-nar混合模型的中长期月降雨预报方法
CN117422165A (zh) 一种基于低碳排放的城市输水系统水量预测方法及系统
CN110163537B (zh) 基于梯形云模型的水体富营养化评价方法
CN113641733B (zh) 一种河道断面流量实时智能推求方法
CN114997503A (zh) 一种城市碳达峰时域的预测方法及系统
CN111311026A (zh) 一种顾及数据特征、模型和校正的径流非线性预测方法
CN113762591A (zh) 一种基于gru和多核svm对抗学习的短期电量预测方法及系统
CN113159395A (zh) 一种基于深度学习的污水处理厂进水流量预测方法及系统
CN117035155A (zh) 一种水质预测方法
CN111310974A (zh) 一种基于ga-elm的短期需水预测方法
CN115394381B (zh) 一种基于机器学习和两步法数据扩充的高熵合金硬度预测方法及装置
CN110648023A (zh) 基于二次指数平滑改进gm(1,1)的数据预测模型的建立方法
CN111859783B (zh) 水压预测方法、系统、存储介质、设备、城市供水系统
CN112801388B (zh) 一种基于非线性时间序列算法的电力负荷预测方法及系统
CN115099469A (zh) 基于优选气候因子和精度权重系数的中长期径流预测方法
CN115034140A (zh) 一种基于关键控制因子的地表水水质变化趋势预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination