CN116245018A - 一种基于双变量长短时记忆算法的海浪缺测数据预报方法 - Google Patents

一种基于双变量长短时记忆算法的海浪缺测数据预报方法 Download PDF

Info

Publication number
CN116245018A
CN116245018A CN202310038861.8A CN202310038861A CN116245018A CN 116245018 A CN116245018 A CN 116245018A CN 202310038861 A CN202310038861 A CN 202310038861A CN 116245018 A CN116245018 A CN 116245018A
Authority
CN
China
Prior art keywords
bivariate
variable
data
buoy
buoy data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310038861.8A
Other languages
English (en)
Inventor
王锦
谢文鸿
董昌明
李春辉
季巾淋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202310038861.8A priority Critical patent/CN116245018A/zh
Publication of CN116245018A publication Critical patent/CN116245018A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Geometry (AREA)
  • Algebra (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于双变量长短时记忆算法的海浪缺测数据预报方法,其具体步骤为:首先获取浮标数据A,利用机器学习的方法插补连续丢失的浮标数据,利用回归模型的方法插补单个丢失的浮标数据,形成新的浮标数据集B;利用海浪变量关联数据库,在浮标数据集B中找出与预报变量
Figure DDA0004050432280000011
相匹配的变量并构造双变量集V,同时确定各个双变量的训练集和验证集;将各个双变量的训练集数据输入长短时记忆算法中进行训练,得到相应的双变量LSTM模型,最后利用验证集数据对模型结果进行检验,并确定最优预测模型。该方法可以对浮标短期缺测数据进行插补和修正,还可以对长期缺失变量进行预测,有效地提高浮标数据的准确度。

Description

一种基于双变量长短时记忆算法的海浪缺测数据预报方法
技术领域
本发明涉及海浪缺测数据预报技术领域,具体为一种基于双变量长短时记忆算法的海浪缺测数据预报方法。
背景技术
海浪是常见的海洋现象之一,海浪的能量来源主要是风。风向海面传输能量,导致海水高低起伏的运动,形成了海面的波浪。除风之外,海浪的形成也受到其他海洋和大气因素的影响,海浪的传播过程非常复杂,而海浪要素之间也满足一定的制约关系。海浪有巨大的破坏力,海浪对于人类生活有着密切的关系,所以认识其分布特点与变化规律非常重要。通过浮标、雷达等观测方法可以获得真实可信的海面数据,进而还原海浪的时空分布和变化过程。
除了观测海浪,更重要的是预报海浪。最先发展的海浪数值预报建立在观测数据和理论研究的基础之上,结合区域内现时的海浪状态对区域未来的海浪状态进行计算和预报。海浪数值预报已经成为海浪预报研究中广泛采用的方法。基于海浪生消及传播规律,海浪数值模型能够对研究区域内的海浪进行模拟及预报。数值模式中使用偏微分方程进行计算。描述海洋过程的偏微分方程是复杂的。如果想要提高模式预报的精确度,需要在模式中添加更多的影响因子,这会使得模式变得更加复杂,计算时间也会增加。虽然国内外研究人员普遍采用数值模式研究海洋过程,但是物理建模不利于提高预报的高效性。
随着科技的发展,计算机性能得到了大幅度提高,为机器学习算法创造了有利的发展环境。一方面,人工智能计算比数值方法简单,不需要清楚了解物理过程的变化机制,在一定程度上弥补数值模式的不足,并且能够和数值模式相辅相成,对于提高海浪预报的时效性和准确性有很大帮助;另一方面,人工智能方法提供了一种新的海浪预报手段,扩展了海洋研究的思路,对海洋观测、海洋灾害预警具有长远的意义。目前,国内外已有很多研究学者将这种研究手段应用到海浪预报工作,并取得了很多方面的发现,例如高丽斌在《基于深度学习的台湾海峡及周边海域波浪预报研究》中在LSTM模型中使用波高、风速、风向和所要预报时刻的风速作为四种输入因子来训练浮标数据,结果表明输入的变量越多,输入期数(历史时间序列)越多,预测结果最好,但如果浮标数据缺失较多,预报结果就会大大降低。
同时大量的研究表明海浪的生成跟风速等有密切关系,其中生成后的波浪和周期满足海浪弥散关系,例如“文氏风浪谱”考虑了风浪成长的关系,通过增加外部条件来克服海浪模式的耗散问题,表明海浪和风有强相互关系,研究波浪的变化不能忽视风的影响等。
因此,如何对浮标数据缺失进行处理进而提高预报结果的准确性,如何根据海浪生成特点、利用影响海浪的生成的因素和海浪之间的相关性,通过机器学习算法挖掘并自主分析数据的变化规律,通过训练学习获得一系列复杂、非线性的海洋特征,从而实现海浪缺测数据的预报的可靠性就变得尤为重要。
发明内容
本发明的目的在于提供一种基于双变量长短时记忆算法的海浪缺测数据预报方法通过对浮标数据进行插补和修正,并根据海浪生成特点和浮标数据之间的关系构建双变量LSTM模型以实现海浪缺测数据的可靠预报。
为了解决上述技术问题,本发明提供如下技术方案:一种基于机器学习的海浪缺测数据预报方法,包括:
S1、获取浮标数据集A;
S2、利用回归模型的方法插补单个丢失的浮标数据,利用机器学习的方法插补连续丢失的浮标数据,进而形成新的浮标数据集B;
S3、利用海浪变量关联数据库,在浮标数据集B中找出与预报变量
Figure BDA0004050432260000021
相匹配的变量并构造双变量集V,同时确定双变量集V中各个双变量的训练集和验证集;
S4、将各个双变量的训练集代入长短时记忆算法进行训练,得到对应的双变量的LSTM模型;
S5、将各个变量的验证集输入到相应的双变量LSTM模型进行缺失变量预测,并将各个预测结果与相应的验证集数据进行对比分析,评估各个双变量LSTM模型的预测性能得到预测结果,根据预设条件和预测结果确定最优预测模型。
其中,利用机器学习的方法插补连续丢失的浮标数据和利用回归模型的方法插补单个丢失的浮标数据之间具有先后顺序,首先对浮标数据集A中缺少的数据利用回归模型插补单个丢失的浮标数据,在此基础上再使用机器学习的方法插补连续丢失的浮标数据,形成新的浮标数据集B;浮标数据集A中包含着风速、波周期等变量数据,首先对获取的浮标数据集A进行缺失数据的插补,一定程度上避免了因浮标数据缺失对接下来的模型建立造成的影响。
根据上述技术方案,所述回归模型为:
ρt=f(bt-1,bt+1)+ε;
其中,ρt为t时刻单个插补的浮标数据,f(bt-1,bt+1)表示为ρt与bt-1,bt+1之间的隐函数,t表示时间;bt-1表示为t-1时刻的浮标数据,bt+1表示为t+1时刻的浮标数据,ε为误差项。
根据上述技术方案,所述连续丢失的浮标数据的插补过程为:
以am作为输入,以连续缺失的浮标数据ao=Mo⊙B为目标标签,在人工掩模Mm区域内计算损失,并使用混合损失函数LOSSFFL+L1监督网络训练;在此过程中网络将学习从含两部分连续缺失块的浮标数据am到观测缺失浮标数据ao的映射关系,目标是在人工掩模Mm区域内插值缺失的浮标道;
训练完成后,将ao带入
Figure BDA0004050432260000031
中,此过程的目标是用训练好的网络来插值原始掩码Mo区域的原始缺失浮标道,从而实现对连续缺失的浮标数据进行插补。
其中,am表示含两部分连续缺失块的浮标数据,Mm表示为人工掩模,FFL为焦点频率损失,L1表示为L1范数损失,Mo为掩码算子,
Figure BDA0004050432260000032
为连续缺失浮标数据的插补结果,/>
Figure BDA0004050432260000033
为训练网络,ao为连续缺失的浮标数据,θ*为优化参数,B为完整的浮标数据集。
所述连续数据的插补使用的方法为自监督学习法,其中Mo=Mm,焦点频率损失FFL,允许网络自适应的关注频率域成分,以提高插值性能;L1范数损失在这里使用的原因是不确定浮标数据集中是否含有异常值,而L1范数损失不受异常值的影响,其中焦点频率损失FFL和L1范数损失属于现有技术,在此不作详细说明。
根据上述技术方案,所述各个双变量的训练集的确定过程为:
在海浪变量关联数据库中查询到与预报变量
Figure BDA0004050432260000037
相关联的变量集Ε;
将浮标数据集B中的变量与变量集Ε中的变量进行匹配,构建集合K={K1,K2,…,KI}中,将预报变量
Figure BDA0004050432260000038
与集合K中的每个元素相结合,构成双变量集
Figure BDA0004050432260000034
中,其中集合K表示浮标数据集B与变量集Ε中相匹配的变量合集,KI表示为在浮标数据集B中第I个与预报变量/>
Figure BDA0004050432260000035
相关联的变量,/>
Figure BDA0004050432260000036
表示为第I个双变量;
将双变量对应的浮标数据集的前ξ%作为的双变量训练集;
所述各个双变量的验证集的确定过程为:
在海浪变量关联数据库中查询到与预报变量
Figure BDA00040504322600000410
相关联的变量集Ε;
将浮标数据集B中的变量与变量集Ε中的变量进行匹配,构建集合K={K1,K2,…,KI}中,将预报变量
Figure BDA0004050432260000041
与集合K中的每个元素相结合,构成双变量集
Figure BDA0004050432260000042
中,其中集合K表示浮标数据集B与变量集Ε中相匹配的变量合集,KI表示为在浮标数据集B中第I个与预报变量/>
Figure BDA0004050432260000043
相关联的变量,/>
Figure BDA0004050432260000044
表示为第I个双变量;
将双变量中对应的浮标数据集的后(100-ξ)%作为双变量验证集;并将双变量验证集中
Figure BDA0004050432260000045
和KI对应的浮标数据分别放入/>
Figure BDA0004050432260000046
验证集和KI验证集;其中,I表示浮标数据集B找与预报变量/>
Figure BDA0004050432260000047
相关性高的变量数量。
所述海浪变量关联数据库是由诸多变量关联集构成的,变量关联集是根据海浪生成特点构建的,具体为海浪变量d会有多个变量与之相关联,进而所有与变量d相关联的变量构成一个变量关联集;
其中,I表示浮标数据集B找与预报变量
Figure BDA0004050432260000049
相关性高的变量有I个,海浪生成的特点主要是指海浪的生成跟风速有密切关系,生成后的波浪和周期满足海浪弥散关系,从而考虑各个变量之间的关系(风速-波高、周期-波高等),也可以通过数据之间的相关性给出,这个关系在本领域内是显而易见的,因此没有进行详细展开。
根据上述技术方案,所述双变量LSTM模型建立的步骤为:
将两个变量的训练集为一个n行2列的矩阵输入长短时记忆算法中进行训练,构建双变量LSTM模型;
其中,第一列表示为KI的浮标数据,第二列表示为预报变量
Figure BDA00040504322600000411
的浮标数据,LSTM模型有两个传输状态,一个Ct,和一个ht;Ct在网络传播的过程中改变很慢,代表的是一种长期的较为稳定的信息;而ht在网络传播过程中变化会很快,代表的是短期局部的信息;每一层LSTM网络需要根据当前时刻的输入xt和上一时刻的短期记忆ht来更新代表长期记忆的细胞状态Ct,更新通过3个门结构来实现,3个门结构包括遗忘门、记忆门和输出门。
根据上述技术方案,将各个KI验证集中的数据输入到对应的双变量LSTM模型中,得到对应预报变量
Figure BDA0004050432260000048
的预报结果;
将各个双变量模型得到的预报结果分别进行相关系数、均方根误差和平均绝对百分比误差计算,将相关系数计算结果放入新构建的集合Ψ中,将均方根误差计算结果放入新构建的集合Φ中,将平均绝对百分比误差计算结果放入新构建的集合
Figure BDA0004050432260000051
中;
利用if函数分别判断出集合Ψ中的最大值、集合Φ和集合
Figure BDA0004050432260000052
中的最小值,进而确定集合Ψ中的最大值、集合Φ和集合/>
Figure BDA0004050432260000055
中的最小值所对应的双变量LSTM模型,并将所对应的双变量LSTM模型放入新构建的集合Ω中;
确定集合Ω中出现次数最高的双变量LSTM模型,并利用if函数判断集合Ω中出现次数最高的双变量LSTM模型是否唯一;
若集合Ω中出现次数最高的双变量LSTM模型是唯一的,则证明双变量LSTM模型为最优预测模型;
若集合Ω中出现次数最高的双变量LSTM模型不是唯一的,则将集合Ψ中最大值对应的双变量LSTM模型认定为最优预测模型;
其中,集合Ψ中的最大值、集合Φ和集合
Figure BDA0004050432260000053
中的最小值不是唯一的。
在此过程中,验证集数据中选取m个点进行K小时预测,即先取验证集中的前m个数据,预报第m+k-1时刻的波高值,依次类推,直至预报完全时刻,在此过程中,不需要输入波高的验证集数据,就可完成预测。而类似的单变量过程则需要波高的验证集数据,所以单变量LSTM模型实际上实现的是后报;
其中,相关系数能够反映变量与变量之间的相关程度,均方根误差刻画模拟结果和实测值的偏差,对于极端值较为敏感平均绝对百分比误差,用百分比表示预测值偏离实测值的程度;相关系数、均方根误差和平均绝对百分比误差的方法属于现有技术在此不做详细说明。
一种基于双变量长短时记忆算法的海浪缺测数据预报系统,其特征在于:包括
数据获取模块,用于获取浮标数据集A,
数据插补模块,用于利用回归模型的方法插补单个丢失的浮标数据,利用机器学习的方法插补连续丢失的浮标数据,进而形成新的浮标数据集B;
关联变量确定模块,用于利用海浪变量关联数据库,在浮标数据集B中找出与预报变量
Figure BDA0004050432260000054
相匹配的变量并构造双变量集V,同时确定双变量集V中各个双变量的训练集和验证集;
双变量模型构建模块,用于将各个双变量的训练集代入长短时记忆算法进行训练,得到对应的双变量的LSTM模型;
最优预测模型确定模块,将各个变量的验证集输入到相应的双变量LSTM模型进行缺失变量预测,并将各个预测结果与相应的验证集数据进行对比分析,评估各个双变量LSTM模型的预测性能得到预测结果,根据预设条件和预测结果确定最优预测模型。
一种基于双变量长短时记忆算法的海浪缺测数据预报装置,其特征在于:包括处理器和存储器,所述存储器存储有计算机程序,所述处理器执行计算机程序时实现如权利要求1所述的一种基于双变量长短时记忆算法的海浪缺测数据预报方法的步骤。
此方案还可应用于浮标数据集中单个变量长时间连续缺测的情况,但前提是要有一年的连续观测数据,即可和相关变量组成双变量,进行模型训练,然后通过相关变量可进行长期预测。
与现有技术相比,本发明所达到的有益效果是:对于连续浮标数据的缺失采用机器学习自监督的方式进行浮标数据插补,同时该自监督网络是以缺失的浮标数据作为目标标签,更加适用于实际情况,使其得到的插补值更接近真值;对于单个缺失的浮标数据采用回归模型进行浮标数据插补,考虑缺失点和邻近两点的关联性,使得插补的浮标数据更加精准;对于连续长时间单个变量缺测的浮标数据,采用双变量短时记忆模型,寻找与缺失变量高度相关的变量组成双变量进行机器学习,最后通过输入相关变量预报时刻前n个时刻的值来预测缺失变量的时间变化序列,从而达到快速精确预报缺测浮标数据的目的,同时该模型与其它预报模型相比无需添加更多的影响因子,减少了模型的复杂程度和计算量。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种基于双变量长短时记忆算法的海浪缺测数据预报方法流程示意图;
图2是LSTM模型结构图;
图3为46083号浮标6小时预报结果对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图3,本发明提供技术方案:一种基于机器学习的海浪缺测数据预报方法包括:
S1、获取浮标数据集A;
S2、利用回归模型的方法插补单个丢失的浮标数据,利用机器学习的方法插补连续丢失的浮标数据,进而形成新的浮标数据集B;
其中,回归模型为:
ρt=f(bt-1,bt+1)+ε;
其中,ρt为t时刻单个插补的浮标数据,f(bt-1,bt+1)表示为ρt与bt-1,bt+1之间的隐函数,t表示时间;bt-1表示为t-1时刻的浮标数据,bt+1表示为t+1时刻的浮标数据,ε为误差项。
连续丢失的浮标数据的插补过程为:
以am作为输入,以连续缺失的浮标数据ao=Mo⊙B为目标标签,在人工掩模Mm区域内计算损失,并使用混合损失函数LOSSFFL+L1监督网络训练,训练完成后,将ao带入
Figure BDA0004050432260000071
中,实现连续丢失的浮标数据的插补;
其中,am表示含两部分连续缺失块的浮标数据,Mm表示为人工掩模,FFL为焦点频率损失,L1表示为L1范数损失,Mo为掩码算子,
Figure BDA0004050432260000072
为连续缺失浮标数据的插补结果,/>
Figure BDA0004050432260000073
为训练网络,ao为连续缺失的浮标数据,θ*为优化参数,B为完整的浮标数据集。
连续数据的插补使用的方法为自监督学习法,其中Mo=Mm,焦点频率损失FFL,允许网络自适应的关注频率域成分,以提高插值性能;L1范数损失在这里使用的原因是不确定浮标数据集中是否含有异常值,而L1范数损失数不受异常值的影响,其中焦点频率损失FFL和L1范数损失数属于现有技术,在此不作详细说明。
S3、利用海浪变量关联数据库,在浮标数据集B中找出与预报变量
Figure BDA0004050432260000076
相匹配的变量并构造双变量集V,同时确定双变量集V中各个双变量的训练集和验证集;
其中,各个双变量的训练集的确定过程为:
在海浪变量关联数据库中查询到与预报变量
Figure BDA0004050432260000077
相关联的变量集Ε;
将浮标数据集B中的变量与变量集Ε中的变量进行匹配,构建集合K={K1,K2,…,KI}中,将预报变量
Figure BDA0004050432260000074
与集合K中的每个元素相结合,构成双变量集
Figure BDA0004050432260000075
中,其中集合K表示浮标数据集B与变量集Ε中相匹配的变量合集,KI表示为在浮标数据集B中第I个与预报变量/>
Figure BDA0004050432260000081
相关联的变量,/>
Figure BDA0004050432260000082
表示为第I个双变量;
将双变量对应的浮标数据集的前ξ%作为的双变量训练集;
所述各个双变量的验证集的确定过程为:
在海浪变量关联数据库中查询到与预报变量
Figure BDA0004050432260000083
相关联的变量集Ε;
将浮标数据集B中的变量与变量集Ε中的变量进行匹配,构建集合K={K1,K2,…,KI}中,将预报变量
Figure BDA0004050432260000084
与集合K中的每个元素相结合,构成双变量集
Figure BDA0004050432260000085
中,其中集合K表示浮标数据集B与变量集Ε中相匹配的变量合集,KI表示为在浮标数据集B中第I个与预报变量/>
Figure BDA0004050432260000086
相关联的变量,/>
Figure BDA0004050432260000087
表示为第I个双变量;
将双变量中对应的浮标数据集的后(100-ξ)%作为双变量验证集;并将双变量验证集中
Figure BDA0004050432260000088
和KI对应的浮标数据分别放入/>
Figure BDA0004050432260000089
验证集和KI验证集;其中,I表示浮标数据集B找与预报变量/>
Figure BDA00040504322600000810
相关性高的变量数量,例如在海浪变量关联数据库中查询到与预报变量/>
Figure BDA00040504322600000811
波高相关联的变量集Ε;并在浮标数据集B中的变量与变量集Ε中的变量进行匹配,匹配成功的变量为风速、周期。
S4、将各个双变量的训练集代入长短时记忆算法进行训练,得到对应的双变量的LSTM模型,其中,双变量LSTM模型建立的步骤为:
将两个变量的训练集输入长短时记忆算法中进行训练,构建双变量LSTM模型;
其中,双变量的训练集是一个n行2列的矩阵,LSTM模型有两个传输状态,一个Ct,和一个ht;Ct在网络传播的过程中改变很慢,代表的是一种长期的较为稳定的信息;而ht在网络传播过程中变化会很快,代表的是短期局部的信息;每一层LSTM网络需要根据当前时刻的输入xt和上一时刻的短期记忆ht来更新代表长期记忆的细胞状态Ct,更新通过3个门结构来实现。
S5、将各个变量的验证集输入到相应的双变量LSTM模型进行缺失变量预测,并将各个预测结果与相应的验证集数据进行对比分析,评估各个双变量LSTM模型的预测性能得到预测结果,根据预设条件和预测结果确定最优预测模型,具体为:
将各个KI验证集中的数据输入到对应的双变量LSTM模型中,得到对应预报变量
Figure BDA00040504322600000812
的预报结果;
将各个双变量模型得到的预报结果分别进行相关系数、均方根误差和平均绝对百分比误差计算,将相关系数计算结果放入新构建的集合Ψ中,将均方根误差计算结果放入新构建的集合Φ中,将平均绝对百分比误差计算结果放入新构建的集合
Figure BDA0004050432260000091
中;
利用if函数分别判断出集合Ψ中的最大值、集合Φ和集合
Figure BDA0004050432260000092
中的最小值,进而确定集合Ψ中的最大值、集合Φ和集合/>
Figure BDA0004050432260000093
中的最小值所对应的双变量LSTM模型,并将所对应的双变量LSTM模型放入新构建的集合Ω中;
确定集合Ω中出现次数最高的双变量LSTM模型,并利用if函数判断集合Ω中出现次数最高的双变量LSTM模型是否唯一;
若集合Ω中出现次数最高的双变量LSTM模型是唯一的,则证明双变量LSTM模型为最优预测模型;
若集合Ω中出现次数最高的双变量LSTM模型不是唯一的,则将集合Ψ中最大值对应的双变量LSTM模型认定为最优预测模型;
其中,集合Ψ中的最大值、集合Φ和集合
Figure BDA0004050432260000094
中的最小值不是唯一的。
在此过程中,验证集数据中选取m个点进行K小时预测,即先取验证集中的前m个数据,预报第m+k-1时刻的波高值,依次类推,直至预报完全时刻,在此过程中,不需要输入波高的验证集数据,就可完成预测。而类似的单变量过程则需要波高的验证集数据,所以单变量LSTM模型实际上实现的是后报;例如m=6,k=1,预报6个时刻的波高值。
实施例:
本发明选择位于北太平洋的46083号2019-2020年波高数据,时间间隔为1小时,时间选择为2019年1月1日0时到2020年12月31日23时,其中浮标数据集中含有风速数据、周期数据等;
利用机器学习的方法插补浮标数据集A中连续丢失的浮标数据,利用回归模型的方法插补浮标数据集A中单个丢失的浮标数据,进而形成新的浮标数据集B;
其中预报变量
Figure BDA0004050432260000095
为波高,在海浪变量关联数据库中查询到与预报变量/>
Figure BDA0004050432260000096
相关联的变量集Ε;并在浮标数据集B中的变量与变量集Ε中的变量进行匹配,匹配成功的变量为风速、周期,则建立风速_波高、周期_波高双变量模型,风速-波高双变量模型以2019年观测的风速和波高时间序列为训练集,2020年观测的风速和波高时间序列为验证集;周期-波高双变量模型以2019年观测的周期和波高时间序列为训练集,2020年观测的周期和波高时间序列为验证集;
将周期_波高训练集数据(n×2阶矩阵)代入双变量LSTM模型进行训练;将风速的验证集数据输入训练好的风速-波高模型,将波高验证集数据输入训练好的周期-波高模型,最后得到波高的预测结果,在此过程中,验证集数据中选取m个点进行K小时预测,即先取验证集中的前m个数据,预报第m+k-1时刻的波高值,依次类推,直至预报完全时刻,在此过程中,不需要输入波高的验证集数据,就可完成预测。而类似的单变量过程则需要波高的验证集数据,所以单变量LSTM模型实际上实现的是后报,在本例中m=6,k=1,3,6,12;
将双变量LSTM模型中得到的预测结果与单变量预报结果进行对比,得到如图3所示的46083号浮标6小时预报结果对比图,并采用相关系数、均方根误差和平均绝对百分比误差的方法,如表1所示得到46083号浮标三种预报模式计算结果对比,从而进一步检验该方法在处理缺测数据方面的可行性和优越性,进而得到最优的预测模型——周期_波高双变量LSTM模型。
表1
Figure BDA0004050432260000101
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于双变量长短时记忆算法的海浪缺测数据预报方法,其特征在于:包括:
获取浮标数据集A;
利用回归模型的方法插补单个丢失的浮标数据,利用机器学习的方法插补连续丢失的浮标数据,进而形成新的浮标数据集B;
利用海浪变量关联数据库,在浮标数据集B中找出与预报变量
Figure FDA0004050432250000013
相匹配的变量并构造双变量集V,同时确定双变量集V中各个双变量的训练集和验证集;
将各个双变量的训练集代入长短时记忆算法进行训练,得到对应的双变量的LSTM模型;
将各个变量的验证集输入到相应的双变量LSTM模型进行缺失变量预测,并将各个预测结果与相应的验证集数据进行对比分析,评估各个双变量LSTM模型的预测性能得到预测结果,根据预设条件和预测结果确定最优预测模型。
2.根据权利要求1所述的一种基于双变量长短时记忆算法的海浪缺测数据预报方法,其特征在于:所述回归模型为:
ρt=f(bt-1,bt+1)+ε;
其中,ρt为t时刻单个插补的浮标数据,f(bt-1,bt+1)表示为ρt与bt-1,bt+1之间的隐函数,t表示时间;bt-1表示为t-1时刻的浮标数据,bt+1表示为t+1时刻的浮标数据,ε为误差项。
3.根据权利要求1所述的一种基于双变量长短时记忆算法的海浪缺测数据预报方法,其特征在于:所述连续丢失的浮标数据的插补过程为:
以am作为输入,以连续缺失的浮标数据ao=Mo⊙B为目标标签,在人工掩模Mm区域内计算损失,并使用混合损失函数LOSSFFL+L1监督网络训练,训练完成后,将ao带入
Figure FDA0004050432250000011
中,实现连续缺失的浮标数据的插补;
其中,am表示含两部分连续缺失块的浮标数据,Mm表示为人工掩模,FFL为焦点频率损失,L1表示为L1范数损失,Mo为掩码算子,
Figure FDA0004050432250000012
为连续缺失浮标数据的插补结果,/>
Figure FDA0004050432250000014
为训练网络,ao为连续缺失的浮标数据,θ*为优化参数,B为完整的浮标数据集。
4.根据权利要求1所述的一种基于双变量长短时记忆算法的海浪缺测数据预报方法,其特征在于:所述各个双变量的训练集的确定过程为:
在海浪变量关联数据库中查询到与预报变量
Figure FDA0004050432250000021
相关联的变量集Ε;
将浮标数据集B中的变量与变量集Ε中的变量进行匹配,构建集合K={K1,K2,…,KI}中,将预报变量
Figure FDA0004050432250000022
与集合K中的每个元素相结合,构成双变量集
Figure FDA0004050432250000023
中,其中集合K表示浮标数据集B与变量集Ε中相匹配的变量合集,KI表示为在浮标数据集B中第I个与预报变量/>
Figure FDA0004050432250000024
相关联的变量,/>
Figure FDA0004050432250000025
表示为第I个双变量;
将双变量对应的浮标数据集的前ξ%作为的双变量训练集;
所述各个双变量的验证集的确定过程为:
在海浪变量关联数据库中查询到与预报变量
Figure FDA00040504322500000213
相关联的变量集Ε;
将浮标数据集B中的变量与变量集Ε中的变量进行匹配,构建集合K={K1,K2,…,KI}中,将预报变量
Figure FDA0004050432250000026
与集合K中的每个元素相结合,构成双变量集
Figure FDA0004050432250000027
中,其中集合K表示浮标数据集B与变量集Ε中相匹配的变量合集,KI表示为在浮标数据集B中第I个与预报变量/>
Figure FDA0004050432250000028
相关联的变量,/>
Figure FDA0004050432250000029
表示为第I个双变量;
将双变量中对应的浮标数据集的后(100-ξ)%作为双变量验证集;并将双变量验证集中
Figure FDA00040504322500000210
和KI对应的浮标数据分别放入/>
Figure FDA00040504322500000214
验证集和KI验证集;其中,I表示浮标数据集B找与预报变量/>
Figure FDA00040504322500000211
相关性高的变量数量。
5.根据权利要求1所述的一种基于双变量长短时记忆算法的海浪缺测数据预报方法,其特征在于:所将双变量的训练集是一个n行2列的矩阵;
第一列表示为KI的浮标数据,第二列表示为预报变量
Figure FDA00040504322500000215
的浮标数据。
6.根据权利要求1所述的一种基于双变量长短时记忆算法的海浪缺测数据预报方法,其特征在于:所述最优的预测模型的确定步骤包括:
将各个KI验证集中的数据输入到对应的双变量LSTM模型中,得到对应预报变量
Figure FDA00040504322500000212
的预报结果;
将各个双变量模型得到的预报结果分别进行相关系数、均方根误差和平均绝对百分比误差计算,将相关系数计算结果放入新构建的集合Ψ中,将均方根误差计算结果放入新构建的集合Φ中,将平均绝对百分比误差计算结果放入新构建的集合
Figure FDA0004050432250000031
中;
利用if函数分别判断出集合Ψ中的最大值、集合Φ和集合
Figure FDA0004050432250000032
中的最小值,进而确定集合Ψ中的最大值、集合Φ和集合/>
Figure FDA0004050432250000033
中的最小值所对应的双变量LSTM模型,并将所对应的双变量LSTM模型放入新构建的集合Ω中;
确定集合Ω中出现次数最高的双变量LSTM模型,并利用if函数判断集合Ω中出现次数最高的双变量LSTM模型是否唯一;
若集合Ω中出现次数最高的双变量LSTM模型是唯一的,则证明双变量LSTM模型为最优预测模型;
若集合Ω中出现次数最高的双变量LSTM模型不是唯一的,则将集合Ψ中最大值对应的双变量LSTM模型认定为最优预测模型;
其中,集合Ψ中的最大值、集合Φ和集合
Figure FDA0004050432250000034
中的最小值不是唯一的。
7.一种基于双变量长短时记忆算法的海浪缺测数据预报系统,其特征在于:包括
数据获取模块,用于获取浮标数据集A,
数据插补模块,用于通过机器学习的方法插补连续丢失的浮标数据,通过回归模型的方法插补单个丢失的浮标数据,进而形成新的浮标数据集B;
关联变量确定模块,用于利用海浪变量关联数据库,在浮标数据集B中找出与预报变量
Figure FDA0004050432250000035
相匹配的变量并构造双变量集V,同时确定各个双变量的训练集和验证集;
双变量模型构建模块,用于将各个双变量训练集代入长短时记忆算法进行训练,进而构建相应的双变量LSTM模型;
最优预测模型确定模块,用于将各个变量的验证集输入到相应的双变量LSTM模型进行缺失变量预测,并将各个预测结果与相应的验证集数据进行对比分析,评估各个双变量LSTM模型的预测性能,得到最优的预测模型。
8.一种基于双变量长短时记忆算法的海浪缺测数据预报装置,其特征在于:包括处理器和存储器,所述存储器存储有计算机程序,所述处理器执行计算机程序时实现如权利要求1所述的一种基于双变量长短时记忆算法的海浪缺测数据预报方法的步骤。
CN202310038861.8A 2023-01-12 2023-01-12 一种基于双变量长短时记忆算法的海浪缺测数据预报方法 Pending CN116245018A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310038861.8A CN116245018A (zh) 2023-01-12 2023-01-12 一种基于双变量长短时记忆算法的海浪缺测数据预报方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310038861.8A CN116245018A (zh) 2023-01-12 2023-01-12 一种基于双变量长短时记忆算法的海浪缺测数据预报方法

Publications (1)

Publication Number Publication Date
CN116245018A true CN116245018A (zh) 2023-06-09

Family

ID=86625396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310038861.8A Pending CN116245018A (zh) 2023-01-12 2023-01-12 一种基于双变量长短时记忆算法的海浪缺测数据预报方法

Country Status (1)

Country Link
CN (1) CN116245018A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541667A (zh) * 2023-06-29 2023-08-04 厦门大学 一种浮标时间序列数据缺失值的插补方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541667A (zh) * 2023-06-29 2023-08-04 厦门大学 一种浮标时间序列数据缺失值的插补方法及系统
CN116541667B (zh) * 2023-06-29 2023-11-03 厦门大学 一种浮标时间序列数据缺失值的插补方法及系统

Similar Documents

Publication Publication Date Title
CN114493050B (zh) 多维度融合的新能源功率并联预测方法和装置
Li et al. A novel multichannel long short-term memory method with time series for soil temperature modeling
CN113313235B (zh) 一种基于改进的lstm的空气质量预测模型装置及方法
Robertson et al. Hidden Markov models for modeling daily rainfall occurrence over Brazil
CN116522764B (zh) 一种考虑气候变化影响下的热浪-洪水复合灾害评估方法
CN116245018A (zh) 一种基于双变量长短时记忆算法的海浪缺测数据预报方法
Liang et al. Method of bidirectional LSTM modelling for the atmospheric temperature
CN114399073A (zh) 一种基于深度学习的海洋表面温度场预测方法
CN114861840A (zh) 一种多源降水数据融合方法
CN113484882A (zh) 多尺度滑动窗口lstm的gnss序列预测方法及系统
Wu et al. Two-stage decomposition and temporal fusion transformers for interpretable wind speed forecasting
CN117114168A (zh) 一种长时间尺度的海面温度智能预报方法
CN116341720A (zh) 基于动态图卷积和transformer的多风机风速风向预测方法
CN116050630A (zh) 机理与数据联合驱动的湖泊多深度温度预测方法及模型
Nguyen et al. Deep learning models for predicting co2 flux employing multivariate time series
Chang et al. Neural network with multi-trend simulating transfer function for forecasting typhoon wave
CN115330085A (zh) 基于深度神经网络且无未来信息泄露的风速预测方法
CN115217152A (zh) 一种沉管隧道管节接头张合变形的预测方法及装置
Soundiran et al. Modeling of greenhouse agro-ecosystem using optimally designed bootstrapping artificial neural network
Natgunanathan et al. Error Spectrum Analysis of Solar Power Prediction for Deakin Microgrid Digital Twin
Li et al. DeepPhysiNet: Bridging Deep Learning and Atmospheric Physics for Accurate and Continuous Weather Modeling
Liao et al. Wind power prediction based on periodic characteristic decomposition and multi-layer attention network
CN110909943A (zh) 一种多尺度多因子联合驱动的月径流概率预报方法
Fowler Towards improved rainfall-runo modelling in changing climatic conditions
Liu et al. Ultra-short-term wind power forecasting based on stacking model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination