CN116956120A - 一种基于改进的tft模型对水质非平稳时间序列的预测方法 - Google Patents
一种基于改进的tft模型对水质非平稳时间序列的预测方法 Download PDFInfo
- Publication number
- CN116956120A CN116956120A CN202310768371.3A CN202310768371A CN116956120A CN 116956120 A CN116956120 A CN 116956120A CN 202310768371 A CN202310768371 A CN 202310768371A CN 116956120 A CN116956120 A CN 116956120A
- Authority
- CN
- China
- Prior art keywords
- water quality
- data
- model
- monitoring
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012544 monitoring process Methods 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 12
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 238000012360 testing method Methods 0.000 claims abstract description 6
- 238000012795 verification Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract 2
- 230000007246 mechanism Effects 0.000 claims description 10
- 230000003068 static effect Effects 0.000 claims description 10
- 230000006641 stabilisation Effects 0.000 claims description 9
- 238000011105 stabilization Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000003911 water pollution Methods 0.000 claims description 5
- 230000009286 beneficial effect Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 3
- XKMRRTOUMJRJIA-UHFFFAOYSA-N ammonia nh3 Chemical compound N.N XKMRRTOUMJRJIA-UHFFFAOYSA-N 0.000 claims description 3
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 230000000368 destabilizing effect Effects 0.000 claims description 3
- 229910001385 heavy metal Inorganic materials 0.000 claims description 3
- 229910052760 oxygen Inorganic materials 0.000 claims description 3
- 239000001301 oxygen Substances 0.000 claims description 3
- 229910052698 phosphorus Inorganic materials 0.000 claims description 3
- 239000011574 phosphorus Substances 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims 4
- 230000005540 biological transmission Effects 0.000 claims 2
- 238000004140 cleaning Methods 0.000 claims 1
- 238000007418 data mining Methods 0.000 abstract description 2
- 230000006866 deterioration Effects 0.000 abstract 1
- 230000002123 temporal effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000000087 stabilizing effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/18—Water
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01W—METEOROLOGY
- G01W1/00—Meteorology
- G01W1/02—Instruments for indicating weather conditions by measuring two or more variables, e.g. humidity, pressure, temperature, cloud cover or wind speed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2123/00—Data types
- G06F2123/02—Data types in the time domain, e.g. time-series data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Environmental & Geological Engineering (AREA)
- Chemical & Material Sciences (AREA)
- Biochemistry (AREA)
- Environmental Sciences (AREA)
- Ecology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Atmospheric Sciences (AREA)
- Pathology (AREA)
- Immunology (AREA)
- Analytical Chemistry (AREA)
- Medicinal Chemistry (AREA)
- Food Science & Technology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据挖掘技术领域,提出一种基于改进的TFT模型对水质非平稳时间序列的预测方法,该方法包括:建立水质监测数据库,获取预设时间段内多个监测站点有关的监测数据,通过对收集的监测数据进行预处理,存入数据库。添加额外来源的变量数据,建立多变量水质预测数据集。构建改进的时间融合Transformer(Temporal Fusion Transformer)模型,通过对水质数据集进行训练,利用验证集通过最小化分位数损失对超参数进行调优。利用测试集来评估该模型的预测能力。通过训练好的模型对未来水质数据进行预测,从而可以发现水质恶化或污染的预兆,方便决策者提前采取措施。
Description
技术领域
本发明属于数据挖掘技术领域,具体涉及一种基于改进的TFT模型对水质非平稳时间序列的预测方法。
背景技术
要进一步科学有效地改善生态环境,需要充分利用新一代信息技术对河段水质进行预测,分析和解决具有挑战性的生态环境问题。这样,生态环境的决策和治理才能更加智能化。水质预测是水资源管理和水污染防治的一项基础性工作,为水质动态调控和突发性事件的发生提供了重要参考。近年来,随着物联网技术和人工智能的快速发展,逐渐出现了性能优良、稳定性好、延迟小的水质检测传感器。通过收集各种水质传感器的水质信息,可以实时获取各种水质检测指标。
水质预测实际上是时间序列预测的问题。一般来说根据历史水质数据,建立水质预测模型,预测未来一段时间内水质数据的变化趋势。目前时间序列预测的方法主要分为传统的统计方法和深度学习方法。传统方法中最常用的是ARIMA(差分整合移动平均自回归模型),它能够捕捉特征之间的线性关系,但只适用于平稳的时间序列的预测,只考虑了时间序列内部的变化规律,忽略了可能会对水质造成影响的外部因素,不适用于复杂的水质数据。深度学习中最常用的方法RNN(循环神经网络)可以捕获时间序列的长期相关性,LSTM(长短期记忆网络)有效解决了RNN的梯度爆炸或消失问题,但这些方法中超参数的选择以及优化主要依靠主观经验和不断尝试,并且这些方法中都是将非平稳时间序列进行平稳化操作来进行预测,而忽略了数据本身的非平稳性。
发明内容
发明目的:针对以上技术存在的不足点,本发明提出了一种基于改进的TFT模型对水质非平稳时间序列的预测方法。综合考虑河流段位置、气象数据等额外可能对水体元素造成影响的变量来克服传统预测模型单一变量的问题,利用模型自动分析对造成水体污染元素产生重要影响的特征,从而避免了人为主观经验的特征选择过程,主要讨论溶解氧、氨氮、总磷、重金属、PH值、浊度这六种可能对水体造成污染的变量预测结果。采用平稳化处理非平稳的水质时间序列,通过去平稳注意力机制获得各变量之间的时间相关性,最后通过去平稳化恢复到原始的非平稳性,保持水质时间序列的非平稳性。
技术方案:为实现上述目的,本发明提出了一种基于改进的TFT模型对水质非平稳时间序列的预测方法,包括如下步骤:
S1:获取预设时间段内多个监测站点的水质数据,建立水质监测数据库。
S2:建立多变量水质预测数据集。
S3:划分多变量水质预测数据集。
S4:构建改进的时间融合Transformer模型,对水质数据集进行训练,利用最小化分位数损失对超参数进行调优。
S5:利用验证集来评估该模型的预测能力。
S6:利用训练好的模型对测试集进行预测,输出水质指标的未来多个步长时间的多个预测值,评估指标是否达到污染阈值。
进一步地,所述S1中建立水质监测数据库的方法:
通过在预设监测站点放置水质监测传感器,监测频率为每4小时监测一次,监测数据包括溶解氧、氨氮、总磷、重金属、PH值、浊度等。对收集的监测数据进行预处理,通过对监测到的数据进行数据清洗操作。
对于收集数据中的错误值、缺失值、离群值进行处理。删除错误值,利用线性插值法填补缺失值,基于箱型图,用第三四分位数代替数据中的高离群值,用第一四位分位数代替数据中的低离群值。处理后存入水质监测数据库中。
进一步地,所述步骤S2中建立多变量水质预测数据集的方法为:
S11:建立数据存储文件,为水质预测数据集文件。
S12:获取监测站点传感器的地理位置,通过气象局获取历史以及未来预设时间段内每个时间步长的气象数据,包含气温、监测站点气压、湿度、能见度、降雨量等,可能会对水质指标造成影响的特征变量。
S13:对传感器监测到的数据变量进行扩充,增加监测站点的传感器位置、历史气象局的气象数据、年、月、日、季节、未来气象数据项。
S14:将这些变量按时间顺序存储到数据文件中,形成水质预测数据集文件。
进一步地,所述步骤S3中具体划分变量的方法为:
将输入的多变量数据划分为三类不同的输入,分别是静态变量、历史观测值变量以及未来已知变量。将获取的监测站点的传感器位置作为静态变量输入,将历史监测到的水质数据、历史气象、年、月、日、季节作为历史观测值变量,将未来的年、月、日、季节、气象情况作为未来的已知输入。
进一步地,所述步骤S4中构建改进的时间融合Transformer模型的方法为:
S21:改进TFT模型中对非平稳时间序列的处理方法,在进行变量选择中,将选择后的时间序列变量进行平稳化处理:
其中S是时间序列的长度,μx是单个变量的均值,是单个变量的方差,x′i是经过平稳化操作后的变量,平稳化处理后,减小了各个输入的时间序列之间的分布差异,使得输入的分布更加稳定。
S22:在TFT模型中的静态增强层之后增加一个具有线性特性的Embedding layer。此线性特性指:f(ax+by)=af(x)+b(y)。
S23:改进TFT模型中的注意力机制算法,将其换成去平稳注意力机制(De-stationary Attention),改进后的注意力求解方法:
来近似于得到未进行平稳化处理的注意力,可以从原始的未平稳化的数据中发现特定的时间相关性。其中τ和Δ是缩放和移动的消平稳因子,用来逼近和KμQ。使用多层感知机作为映射器,从统计量μx,σx和非平稳序列x中来学习平稳因子τ和Δ。
S24:改进TFT模型中的输出方法,在输出前进行去平稳化操作。
其中y′i是预测的结果,μx是均值,σx是标准差。这样设计使得模型对时间序列的平移和缩放扰动等变化,从而有利于水质这种非平稳时间序列的预测。
将水质预测数据集按7∶2∶1分为三个部分的数据集,分别为训练集、验证集以及测试集。对模型进行训练,训练结束后,将预测值与已知结果进行比较,联合最小化分位数损失对超参数进行调优。
所述步骤S4中分位数损失计算方法为:
对所有样本的损失求和计算方法为:
最小化损失,求出最优超参数,建立水质预测模型。
进一步地,所述步骤S6中具体的评估指标的方法为:利用训练好的模型,对未来一周的水质指标进行预测,根据预测结果与指定水体污染阈值对比,若某个指标超过阈值,则表示该水质达到污染程度,提前发出预警。
有益效果:本发明与现有技术相比,具备如下优点:
1、能够对水质这种复杂的时间序列实现多元预测,解决了单变量预测模型存在的预测时间长、不能并行等问题,有效的提高了预测的效率。
2、能够考虑对水质造成影响的其他来源因素,结合多变量数据特征,使得预测更加准确。
能够对水质这种非平稳性的数据进行处理,使得注意力关注的是水质本身的非平稳性数据特征之间的相关性。
附图说明
图1为本发明方法的流程示意图。
图2为改进TFT模型的结构图。
具体实施方式
下面结合本发明中的附图和具体实施例,进一步阐明本发明,所描述的具体实施例仅用于说明本发明而不用于限定本发明的范围。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其他实施方式,都属于本发明所保护的范围。
下面对本发明的技术方案进行详细说明。
本发明提出了一种基于改进的TFT模型对水质非平稳时间序列的预测方法,如图1所示,其包括如下步骤:
S1:获取预设时间段内多个监测站点的水质数据,建立水质监测数据库。
S2:建立多变量水质预测数据集。
S3:划分多变量水质预测数据集。
S4:构建改进的时间融合Transformer模型,对水质数据集进行训练,利用最小化分位数损失对超参数进行调优。
S5:利用验证集来评估该模型的预测能力。
S6:利用训练好的模型对测试集进行预测,输出水质指标的未来多个步长时间的多个预测值,评估指标是否达到污染阈值。
本实施例步骤S1中建立水质监测数据库的方法:选择一段河流进行水质预测,在河流段预设监测站点放置水质监测传感器,监测的频率为每4小时监测一次,监测数据包括但不限于溶解氧、氨氮、总磷、重金属、PH值、浊度等。对收集的监测数据进行预处理,通过对监测到的数据进行数据清洗操作。
对于收集数据中的错误值、缺失值、离群值进行处理。删除错误值,利用线性插值法填补缺失值,基于箱型图,用第三四分位数代替数据中的高离群值,用第一四位分位数代替数据中的低离群值。处理后存入水质监测数据库中。
利用线性插值法填补缺失值的方法为:确定缺失值的位置,利用接近缺失值的前后两个相邻值,根据已知值之间的间隔,求得缺失值。
本实施例步骤S2中建立多变量水质预测数据集的方法为:
S11:建立数据存储文件,为水质预测数据集文件。
S12:获取监测站点传感器的地理位置,通过气象局获取历史以及未来预设时间段内每个时间步长的气象数据,包含但不限于气温、监测站点气压、湿度、能见度、降雨量等,可能会对水质指标造成影响的特征变量。
S13:对传感器监测到的数据变量进行扩充,增加监测站点的传感器位置、历史气象局的气象数据、年、月、日、季节、未来气象数据项。
S14:将这些变量按时间、监测站点位置顺序存储到数据文件中,形成水质预测数据集文件。
本实施例步骤S3中具体划分变量的方法为:将输入的多变量数据划分为三类不同的输入,分别是静态变量、历史观测值变量以及未来已知变量。将获取的监测站点的传感器位置作为静态变量输入,将历史监测到的水质数据、历史气象、年、月、日、季节作为历史观测值变量,将未来的年、月、日、季节、气象情况作为未来的已知输入。
本实施例步骤S4中构建改进的时间融合Transformer模型的方法为:图2为本发明实施例使用改进TFT模型的内部结构设计图。静态变量通过特征选择模块后在静态增强层被增强。历史已知变量、未来已知变量分别通过特征选择之后进入编码器和解码器中,分别通过Gate和GRN后,再进行一次线性处理后进入De-stationary Attention机制中。最后将注意力机制中的结果通过一个简单的前馈层后,将结果去平稳化输出,恢复原始时间序列的非平稳性。具体内部改进实现细节为:
S21:改进TFT模型中对非平稳时间序列的处理方法,在进行变量选择中,将选择后的时间序列变量进行平稳化处理:
其中S是时间序列的长度,μx是单个变量的均值,是单个变量的方差,x′i是经过平稳化操作后的变量,平稳化处理后,减小了各个输入的时间序列之间的分布差异,使得输入的分布更加稳定。
S22:在TFT模型中的静态增强层之后增加一个具有线性特性的Embedding layer。此线性特性指:f(ax+by)=af(x)+b(y)。
S23:改进TFT模型中的注意力机制算法,将其换成去平稳注意力机制(De-stationary
Attention),改进后的注意力求解方法:
来近似于得到未进行平稳化处理的注意力,可以从原始的未平稳化的数据中发现特定的时间相关性。其中τ和Δ是缩放和移动的消平稳因子,用来逼近和KμQ。使用多层感知机作为映射器,从统计量μx,σx和非平稳序列x中来学习平稳因子τ和Δ。
S24:改进TFT模型中的输出方法,在输出前进行去平稳化操作。
其中y′i是预测的结果,μx是平稳化的均值,σx是平稳化的标准差。这样设计使得模型对时间序列的平移和缩放扰动等变化,从而有利于水质这种非平稳时间序列的预测。
将水质预测数据集按7∶2∶1分为三个部分的数据集,分别为训练集、验证集以及测试集。对模型进行训练,训练结束后,将预测值与已知结果进行比较,联合最小化分位数损失对超参数进行调优。
本实施例步骤S4中分位数损失计算方法为:
对所有样本的损失求和计算方法为:
最小化损失,求出最优超参数,建立水质预测模型。
本实施例步骤S6中利用训练好的模型进行预测,对未来一周的水质指标进行预测,根据预测结果与指定水体污染阈值对比,若某个指标超过阈值,则表示该水质达到污染程度,提前发出预警。
根据以上实施例可知,针对水质预测,影响水质指标的因素多,数据的不平稳性强、复杂性高等问题,本发明的方法通过对影响水质指标的因素进行分类,同时结合多种变量数据,通过改进TFT模型,引入对非平稳时间序列的处理操作,来实现水质预测。
Claims (6)
1.一种基于改进的TFT模型对水质非平稳时间序列的预测方法,其特征在于,其包括如下步骤:
S1:建立水质监测数据库,通过在预设监测站点放置水质监测传感器,获取预设时间段内多个监测站点的监测数据,如溶解氧、氨氮、总磷、重金属、PH值等,对收集的监测数据进行预处理,通过对监测到的数据进行数据清洗操作,对于采集故障、数据传输异常等原因导致数据缺失、异常值或者噪声等现象问题,进行处理,存入水质监测数据库中;
S2:建立多变量水质预测数据集,对水质预测数据集变量进行手动扩充,添加额外来源的变量数据;
S3:划分多变量水质预测数据集;
S4:构建改进的时间融合Transformer模型,对水质数据集进行训练,利用最小化分位数损失对超参数进行调优;
S5:利用验证集评估该模型的预测能力;
S6:通过训练好的水质预测模型对未来水质数据进行预测,为水质管理决策者提供未来水质预测信息。
2.根据权利要求1所述的一种基于改进的TFT模型对水质非平稳时间序列的预测方法,其特征在于,所述步骤S1中对于采集故障、数据传输异常等原因导致数据缺失、异常值或者噪声等现象问题处理的方法为:
S11:对水质历史观测数据中的错误值,缺失值、离群值进行处理;
S12:删除错误值;
S13:利用线性插值法填补缺失值;
S14:基于箱型图,用第三四分位数代替数据中的高离群值,用第一四位分位数代替数据中的低离群值。
3.根据权利要求1所述的一种基于改进的TFT模型对水质非平稳时间序列的预测方法,其特征在于,所述步骤S2中手动扩充水质预测数据集变量的方法为:
S21:建立存储数据文件,为水质预测数据集文件。
S22:获取监测站点传感器的地理位置,通过气象局获取预设时间段内每一个时间步长的天气状况以及未来预测的几个时间步长的天气情况。
S23:对传感器监测到的数据变量进行扩充,增加监测站点的传感器位置、历史观测到的天气状况、年、月、日、季节、未来天气预测情况项。
S24:将这些变量按时间顺序存储到数据文件中,形成水质预测数据集文件。
4.根据权利要求1所述的一种基于改进的TFT模型对水质非平稳时间序列的预测方法,其特征在于,所述步骤S3中将多变量水质预测数据集划分不同类型的输入步骤为:
将输入的多变量数据划分为三类不同的输入,分别是静态变量、历史观测值变量以及未来已知变量。将获取的监测站点的传感器位置作为静态变量输入,将历史监测到的水质数据、历史天气状况、年、月、日、季节作为历史观测值变量,将未来的年、月、日、季节、天气预测情况作为未来的已知输入。
5.根据权利要求1所述的一种基于改进的TFT模型对水质非平稳时间序列的预测方法,其特征在于,所述步骤S4中对改进的时间融合Transformer模型进行构建以及训练模型的步骤为:
S31:改进TFT模型中对于非平稳时间序列的处理方法,在进行变量选择中,变量选择后的时间序列变量进行平稳化处理。
其中S是时间序列的长度,μx是单个变量的均值,是单个变量的方差,xi′是经过平稳化操作后的变量,平稳化处理后,减小了各个输入的时间序列之间的分布差异,使得输入的分布更加稳定。
S32:改进TFT模型中的注意力机制算法,将其换成去平稳注意力机制(De-stationaryAttention),来近似于得到未进行平稳化处理的注意力,可以从原始的未平稳化的数据中发现特定的时间相关性。
S33:改进TFT模型中的输出方法,在输出前进行去平稳化操作。
其中是yi′预测的结果,μx是均值,σx是标准差。这样设计使得模型对时间序列的平移和缩放扰动等变化,从而有利于水质这种非平稳时间序列的预测。
S34:将水质预测数据集按7∶2∶1分为三个部分的数据集,分别为训练集、验证集以及测试集。
S35:对模型进行训练,训练结束后,将预测值与已知结果进行比较,联合最小化分位数损失对超参数进行调优。具体关于分位数回归损失函数的计算步骤为如下:
S351:对水体中的每个元素变量进行预测的结果计算其损失。
S352:分位数损失公式为:
S353:对所有样本的损失求和公式:
6.根据权利要求1所述的一种基于改进的TFT模型对水质非平稳时间序列的预测方法,其特征在于,所述步骤S5中利用验证集进行预测,将其与验证集中的结果对比,评估该模型的预测能力。利用训练好的模型,对未来一周的水质指标进行预测,根据预测结果与指定水体污染阈值对比,若某个指标超过阈值,则表示该水质达到污染程度,提前发出预警。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310768371.3A CN116956120A (zh) | 2023-06-27 | 2023-06-27 | 一种基于改进的tft模型对水质非平稳时间序列的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310768371.3A CN116956120A (zh) | 2023-06-27 | 2023-06-27 | 一种基于改进的tft模型对水质非平稳时间序列的预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116956120A true CN116956120A (zh) | 2023-10-27 |
Family
ID=88457505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310768371.3A Pending CN116956120A (zh) | 2023-06-27 | 2023-06-27 | 一种基于改进的tft模型对水质非平稳时间序列的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116956120A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117320192A (zh) * | 2023-11-28 | 2023-12-29 | 无锡浩渺生态环境科技有限公司 | 一种基于无线通信的水污染监测方法 |
CN117849302A (zh) * | 2024-03-08 | 2024-04-09 | 深圳市朗石科学仪器有限公司 | 一种多参数水质在线监测方法 |
-
2023
- 2023-06-27 CN CN202310768371.3A patent/CN116956120A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117320192A (zh) * | 2023-11-28 | 2023-12-29 | 无锡浩渺生态环境科技有限公司 | 一种基于无线通信的水污染监测方法 |
CN117320192B (zh) * | 2023-11-28 | 2024-03-15 | 无锡浩渺生态环境科技有限公司 | 一种基于无线通信的水污染监测方法 |
CN117849302A (zh) * | 2024-03-08 | 2024-04-09 | 深圳市朗石科学仪器有限公司 | 一种多参数水质在线监测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Short-term offshore wind power forecasting-A hybrid model based on Discrete Wavelet Transform (DWT), Seasonal Autoregressive Integrated Moving Average (SARIMA), and deep-learning-based Long Short-Term Memory (LSTM) | |
CN116956120A (zh) | 一种基于改进的tft模型对水质非平稳时间序列的预测方法 | |
CN111967688B (zh) | 一种基于卡尔曼滤波器与卷积神经网络的电力负荷预测方法 | |
CN116757534B (zh) | 一种基于神经训练网络的智能冰箱可靠性分析方法 | |
CN111079989B (zh) | 一种基于dwt-pca-lstm的供水公司供水量预测装置 | |
CN107292446B (zh) | 一种基于考虑分量关联性小波分解的混合风速预测方法 | |
CN112101480A (zh) | 一种多变量聚类与融合的时间序列组合预测方法 | |
CN106251242B (zh) | 一种风电出力区间组合预测方法 | |
CN112396234A (zh) | 一种基于时域卷积神经网络的用户侧负荷概率预测方法 | |
CN114169434A (zh) | 一种负荷预测方法 | |
CN113159456A (zh) | 水质预测方法、装置、电子设备及存储介质 | |
CN115542429A (zh) | 一种基于XGBoost的臭氧质量预测方法及系统 | |
CN115310536A (zh) | 基于神经网络和gcn深度学习模型的水库水位预测预警方法 | |
CN114330934A (zh) | 一种模型参数自适应的gru新能源短期发电功率预测方法 | |
CN117522632A (zh) | 一种基于深度学习的水质指标预测方法 | |
Kang et al. | Examining the Impact of Weather Factors on Yield Industry Vitalization on Big Data Foundation Technique | |
CN116454875A (zh) | 基于集群划分的区域风电场中期功率概率预测方法及系统 | |
CN115829157A (zh) | 基于变分模态分解和Autoformer模型的化工水质指标预测方法 | |
CN114372615A (zh) | 一种考虑空间相关性的短期光伏功率预测方法及系统 | |
Seshan et al. | LSTM-based autoencoder models for real-time quality control of wastewater treatment sensor data | |
Fang et al. | Research on Short-Term and Medium-Term Power Load Forecasting Based on STL-LightGBM | |
CN111832818B (zh) | 一种基于相关性分析的lstm网络发电多步预测方法 | |
Seshan et al. | corrected Proof | |
CN112801388B (zh) | 一种基于非线性时间序列算法的电力负荷预测方法及系统 | |
Latifoğlu et al. | Prediction of Daily Streamflow Data Using Ensemble Learning Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |