CN116720080A - 同源气象要素融合检验方法 - Google Patents
同源气象要素融合检验方法 Download PDFInfo
- Publication number
- CN116720080A CN116720080A CN202310643883.7A CN202310643883A CN116720080A CN 116720080 A CN116720080 A CN 116720080A CN 202310643883 A CN202310643883 A CN 202310643883A CN 116720080 A CN116720080 A CN 116720080A
- Authority
- CN
- China
- Prior art keywords
- data
- meteorological
- sequence
- model
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000007689 inspection Methods 0.000 title description 5
- 238000010219 correlation analysis Methods 0.000 claims abstract description 15
- 238000010998 test method Methods 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims description 22
- 238000001556 precipitation Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 230000015654 memory Effects 0.000 abstract description 12
- 230000002457 bidirectional effect Effects 0.000 abstract description 10
- 230000002159 abnormal effect Effects 0.000 abstract description 8
- 238000001514 detection method Methods 0.000 abstract description 7
- 238000000605 extraction Methods 0.000 abstract description 7
- 230000008859 change Effects 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 238000007637 random forest analysis Methods 0.000 description 5
- 230000002441 reversible effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012271 agricultural production Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009529 body temperature measurement Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000005312 nonlinear dynamic Methods 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004793 poor memory Effects 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Analysis (AREA)
- Biomedical Technology (AREA)
- Computational Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Optimization (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种同源气象要素融合检验方法,提出基于灰色关联分析的卷积长短时记忆网络和双向长短期记忆网络动态权值融合的气象数据预测模型,灰色关联分析法解决了传统方法中参数选择困难的问题,双向长短时记忆网络可以充分挖掘小时气象数据之间双向的特征,完整地学习到其整体特征;而引入双向长短时记忆网络则保证得到数据时序关系的同时可以进行要素间关联特征提取,有利于提升预测精度;本发明该模型具有较好的潜在特征提取能力,在预测时表现出更强的跟踪动态非线性变化的能力以及更高的预测准确性,因此可以更好的进行气象数据真实性检验,即缺失值的拟合和异常值的检测。
Description
技术领域
本发明涉及气象数据分析技术领域,具体为一种同源气象要素融合检验方法。
背景技术
随着信息化的发展,数据量迎来了飞快增长,数据质量问题也日益突出。为确保数据能提供有效信息,数据真实性检验已成为各行各业的重要任务之一,气象行业也不例外。
海量的气象数据在各行各业被广泛使用,影响着人们生活的方方面面。例如,在航空业中,准确的气象数据对于保障飞行安全至关重要;在农业中,合理的气象数据应用可以帮助农民做出科学的种植决策,提高农业生产效率;在城市规划中,气象数据则被用来评估城市的环境质量,为城市的发展提供科学依据。随着各行各业对气象数据需求的提升,地面气象观测站的观测手段也逐渐向自动化转变,推动了新型地面气象自动站的发展。新型地面气象自动站的普及,使得气象数据量不断增加,采集气象要素类型增加、传输速度也不断加快。
气象数据作为一种多元时间序列数据,具有多维、高分辨率、时间相关性、空间相关性、要素相关性等诸多特点,要想实现气象数据的精准预测,达到更好的真实性检验的目的,对气象数据自身特征的分析和利用,例如对其时间、空间、要素相关性的挖掘就显得尤为重要。前人已进行诸多研究,并取得一定成果。
常见的气象数据预测算法主要包括了统计学、浅层机器学习和深度学习三大类。其中统计学方法,例如三次指数平滑法,滑动平均算法,季节性差分自回归滑动平均模型等,都主要利用气象数据自身的时间相关性,通过对时间序列的历史数据进行分析和拟合,来预测未来的趋势和变化。这些方法原理简单,计算速度快,但只适合平稳序列,当数据量大且序列变化剧烈时,拟合效果明显下降。
机器学习类方法,例如多元线性回归法,支持向量机,径向基函数神经网络等,在某些应用场景下,效果稍优于统计学方法,但浅层的机器学习模型需要手工选择特征和参数,且模型应用效果受特征选择和参数调整的影响较大,因而对气象数据的时间、空间以及要素关联性处理困难,预测精度也无法进一步提高。
深度学习上,比较经典的气象数据预测方法有卷积神经网络、循环神经网络和深度信念网络等,前人也对此做了诸多研究。三者中,CNN拥有强大的特征提取能力,能在一定程度上捕获气象数据的空间特征,而RNN和其变体LSTM则在时序特性的挖掘上表现更佳;特别是LSTM,它在规避了RNN的缺点同时,具备更出色的学习时间序列中的历史信息、依赖关系的能力。
但简单的LSTM神经网络只考虑了单向的数据信息,会忽视序列的反向信息对预测输出值影响;且就单站多要素气象数据自身而言,其不仅具有时间相关性,也具有要素相关性,其要素相关性隐藏在同一时刻不同气象要素的关联中,而LSTM是无法对这种要素间关系进行捕获的。
同源即针对单个站点,对于单站的气象数据真实性检验。单站气象数据不仅具有时间相关性特征,还具有要素关联特征,此外,气象要素种类繁多,多模型的适应能力也不同,仅靠单一模型往往无法取得较好的应用效果。
发明内容
针对上述问题,本发明的目的在于提供一种同源气象要素融合检验方法,具有较强的跟踪动态非线性变化的能力以及更高的预测准确性,可以更好的进行气象数据真实性检验,即缺失值的拟合和异常值的检测。技术方案如下:
一种同源气象要素融合检验方法,包括以下步骤:
步骤1:采集气象观测数据,并进行预处理;
步骤2:构建基于灰色关联分析法的ConvLSTM模型和BiLSTM模型动态权值融合的气象数据预测模型,即双阶段融合预测模型;
步骤3:在所述双阶段融合预测模型中,通过灰色关联分析法进行特征选择,并以灰色关联度指标来度量特征重要性;然后设定时间窗,结合目标要素的历史数据作为双阶段融合预测模型的输入时间序列;
步骤4:通过BiLSTM模型挖掘气象观测数据的时序关系,通过ConvLSTM模型进行序列间关系的提取,实现对小时地面观测数据的预测;再分别为二者的预测结果赋予动态权值,并计算其加权融合后的值,最终得到双阶段融合预测模型的预测结果。
进一步的,所述步骤1中气象观测数据包括特定时间跨度内,气象站点观测到的连续型小时气温,小时最高气温,小时最低气温、能见度、相对湿度,海平面气压序列,离散型小时降水量序列,矢量型2分钟和10分钟风向风速序列。
更进一步的,所述步骤1中,对数据进行预处理包括数据清洗和归一化处理,并将多元气象序列数据转换为有监督数据;归一化结果如下:
其中,max为某气象要素的最大值,min为该气象要素的最小值,x*则为归一化结果,x为待处理气象数据。
更进一步的,所述步骤2中,ConvLSTM建模选用keras中ConvLSTM2D,卷积核个数为64,大小为1×2,然后经过展平层变成1维向量,最后通过全连接层输出;BiLSTM建模利用keras进行,其中LSTM的卷积核数量为100,两个模型训练过程中优化器均为Adam,设置迭代最高次数,并设置检查点保存最优模型参数,然后用最优模型进行测试。
更进一步的,所述步骤3具体为:步骤3.1:根据目标要素确定气象要素中的参考序列b(j)={b(j)|j=1,2,…,n}和比较序列ai(j)={ai(j)|j=1,2,…,n,i=1,2,…,m};m为序列的数量,n为序列中参数的数量;
步骤3.2:根据预处理后的气象观测数据计算目标要素与其他气象要素的关联系数,即参考序列和比较序列所对应的关联程度值;
式中,ρ为分辨系数,εi(j)表示比较序列ai(j)中第i个序列的第j个参数与参考序列b(j)中的第j个参数的关联系数;
步骤3.3:计算关联度,即参考序列和比较序列所对应的关联程度值的平均值:
步骤3.4:去除关联度小于设定阈值的气象要素序列,将剩下气象要素和目标要素的历史数据作为双阶段融合预测模型的输入变量。
更进一步的,若以气温作为目标要素,则气温数据作为参考序列,而海平面气压,最高气温,最低气温,相对湿度,2分钟平均风向,10分钟平均风向,2分钟平均风速,10分钟平均风速,降水量,能见度作为比较序列;根据目标要素气温与剩下气象要素关联度,最终选择输入双阶段融合预测模型的时间序列X(t)为:
式中,R(t)表示湿度,P(t)表示降水量,F(t)为2分钟平均风速,W(t)为10分钟平均风速,V(t)为能见度,T(t)为温度;q表示给定时间窗的宽度;每行代表同一时刻不同特征要素数据,每列代表在时间窗(t-q+1,t)内的不同时刻的同一特征要素的数据。
更进一步的,所述步骤5具体为:通过ConvLSTM模型得到t+1时刻的预测值Q(t+1),通过BiLSTM模型得到t+1时刻的预测值为S(t+1),再分别为二者的预测结果赋予动态权值ω1、ω2,则两模型的最优权值组合的结果为:E(t+1)=ω1Q(t+1)+ω2S(t+1),ω1+ω2=1。
更进一步的,确定双阶段融合模型的最佳权值ω1、ω2的方式为:在满足ω1+ω2=1的条件下将其初始化,使ω1的取值范围为[0,1]中顺次递增0.1的11个数值,ω2的取值范围为[1,0]中顺次递减0.1的11个数值,期间仍然保持ω1+ω2=1;确定均方误差MSE最小的组合为最优组合。
更进一步的,所述均方误差MSE计算如下:
式中,N为选取的样本数量,e′i为预测值,ei为实际观测值。
本发明的有益效果是:本发明方法基于灰色关联分析的卷积长短时记忆网络和双向长短期记忆网络动态权值融合的气象数据预测模型,其中,灰色关联分析法解决了传统方法中参数选择困难的问题,双向长短时记忆网络可以充分挖掘小时气象数据之间双向的特征,完整地学习到其整体特征;而引入双向长短时记忆网络则保证得到数据时序关系的同时可以进行要素间关联特征提取,有利于提升预测精度;本发明该模型具有较好的潜在特征提取能力,在预测时表现出更强的跟踪动态非线性变化的能力以及更高的预测准确性,因此可以更好的进行气象数据真实性检验,即缺失值的拟合和异常值的检测
附图说明
图1为本发明GRA-Conv-BiLSTM结构图。
图2为灰色关联分析步骤框图。
图3为各气象要素关联度图。
图4为随机森林算法的测试结果。
图5为岭回归算法的测试结果。
图6为XGBoost算法的测试结果。
图7为本发明GRA-Conv-BiLSTM模型的测试结果。
图8为气温缺测数据示意图。
图9为采用本发明GRA-Conv-BiLSTM模型的气温缺测数据拟合示意图。
图10为气温异常数据示意图。
图11为采用本发明GRA-Conv-BiLSTM模型的气温异常值检测示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细说明。
为了充分提取气象数据中包含的潜在特征,提高对各气象要素的预测精度,本发明选用了ConvLSTM网络和BiLSTM网络,并结合多源数据融合技术中特征级和决策级别融,提出了双阶段融合预测模型GRA-Conv-BiLSTM,模型结构图如图1所示,根据结构图对本发明同源气象要素融合检验方法的实施步骤描述如下:
1、采集气象观测数据,并进行预处理。
(1)数据采集
本实施例数据集来自福建省气象局地面气象站定时观测资料,数据真实有效。部分原始气象观测数据示例如表1所示。
表1原始气象数据示例表
从表1可以看出,正常情况下各气象要素数据更新频率为一小时一次,具体包括的要素有:年、月、日、时、海平面气压、气温、最高气温、最低气温、相对湿度、小时降水量、2分钟风向、2分钟平均风速、10分钟风向、10分钟平均风速、能见度。从第5个气象要素起,各要素单位分别为:帕、摄氏度、摄氏度、摄氏度、百分率、毫米、米/秒、米/秒、米/秒、米/秒、米。
本实施例的时间跨度为2016年1月1日0时到2019年12月31日0时共26280条数据,其中2016年到2018年的数据已经过人工检查,无任何缺失或者错误数据。将这些数据按照4:1划分训练集和测试集,在经过预处理和归一化特征数据进行训练和测试。
(2)数据预处理
(a)数据清洗。数据清洗是预测过程中至关重要的一步,清洗的质量直接关系到建模的正确性和稳定性。数据清洗主要针对的是数据表中缺失和重复值。
(b)归一化处理。为了避免量纲带来的影响不便于得出正确结论,对样本数据归一化,使样本数据统一在一个数量级,将表1中的后11个气象要素进行归一化处理,范围设置在0到1,公式如下式所示。式中,max某气象要素的最大值,min该气象要素的最小值,x*则是归一化结果。
(c)将多元气象序列数据转换为有监督数据,即为模型指定输入和输出。
2、构建基于灰色关联分析法的ConvLSTM模型和BiLSTM模型动态权值融合的气象数据预测模型,即双阶段融合预测模型。
(1)灰色关联分析
灰色关联分析进行特征选择好处在于,其在选择特征时不受模型的影响,是基于特征的通用表现去选择,比如目标相关性、自相关性和发散性等。此外,灰关联分析是按数据的发展趋势做分析,因此对样本量的多少没有过多的要求,也不需要典型的分布规律,而且计算量比较小,其结果与定性分析结果会比较吻合。因此,本发明用了灰色关联分析来进行特征选择。
如图2所示,灰色关系分析法(grey relation analysis,GRA)是用曲线绘制出归一化后的影响元素的数据值,并将其与归一化后的目标元素值绘制的曲线进行比较,比较它们之间的趋势与相似度,由此来判断关联度。
(2)BiLSTM神经网络
双向长短期记忆网络(bidirectional long short term memory network,BiLSTM)是在长短期记忆网络和双向循环神经网络(bidirectional recurrent neuralnetwork,BRNN)中诞生的。BiLSTM本质就是在BRNN的网络结构中将隐藏层的RNN循环单元更换成了LSTM记忆单元,从而将BRNN和LSTM的优势很好的集中在一起,用来更好的处理时间序列的研究问题。
BiLSTM可以分为正向LSTM和反向LSTM两部分,二者分别根据时间顺序和反时间顺序读取信息,然后前馈到同一个输出层,可以理解为彼此之间相互独立且数据流向相反的网络进行组合,即完全独立的两个隐含层。
构建模型时采用BiLSTM是因为对于气象数据这种典型的时间序列,分析其时序关系是精准预测的基础,而相比于LSTM网络,BiLSTM优点在于可以避免单向学习造成的较早学习部分特征和记忆效果差的问题,并且BiLSTM中的双向学习的特性可以充分挖掘气象数据前后时刻之间双向的特征,完整地学习到其整体特征。
(3)ConvLSTM神经网络
卷积长短时记忆模型(convolu-tional long short-term memory,ConvLSTM是在全连接长短时记忆网络(fully connected lstm,FCLSTM)的基础上提出的。FCLSTM擅长处理长时间序列,但是该模型不能提取序列间的关系,在多元气象数据中,除了单个序列内各时间步中包含了时序特征外,序列之间也包含有大量特征信息,比如序列间隐藏的气象要素关联性以及气象数据空间特性等。ConvLSTM通过将卷积运算应用于FCLSTM的“输入到状态”和“状态到状态”两部分以改进FCLSTM,从而保证得到时序关系的同时可以进行要素间关联信息提取,从而获得更丰富的特征信息。
本发明选取ConvLSTM网络进行模型构建,是因为对多时间步、多元气象数据的处理而言,除了需要关注其时序关系的挖掘外,还需要注意其要素间关系的提取,只有尽可能获得数据中更多的隐含信息,才能达到精准预测的目的。因此,本发明首次将ConvLSTM引入到气象文本数据的处理中,和BiLSTM挖掘数据的时序关系不同,ConvLSTM可以进行序列间关系的提取,其内部的卷积运算负责获取每个时间步局部感知域的信息,然后将局部特征集合起来,变成全局特征,这样有利于对数据中要素间关联性的提取,从而达到更准确的预测。
ConvLSTM建模选用keras中ConvLSTM2D,卷积核个数为64,大小为1×2,然后经过展平层变成1维向量,最后通过全连接层输出。BiLSTM建模也利用keras进行,其中LSTM的卷积核数量为100,两个模型训练过程中优化器均为Adam,迭代最高次数都设置为200次,并设置检查点保存最优模型参数,然后用最优模型进行测试。
3、在所述双阶段融合预测模型中,通过灰色关联分析法进行特征选择,并以灰色关联度指标来度量特征重要性;然后设定时间窗,结合目标要素的历史数据作为双阶段融合预测模型的输入时间序列。
步骤3.1:根据目标要素确定气象要素中的参考序列b(j)={b(j)|j=1,2,…,n}和比较序列ai(j)={ai(j)|j=1,2,…,n,i=1,2,…,m};m为序列的数量,n为序列中参数的数量。
若以气温作为目标要素,则气温数据作为参考序列,而海平面气压,最高气温,最低气温,相对湿度,2分钟平均风向,10分钟平均风向,2分钟平均风速,10分钟平均风速,降水量,能见度作为比较序列。
步骤3.2:根据预处理后的气象观测数据计算目标要素与其他气象要素的关联系数,即参考序列和比较序列所对应的关联程度值。
式中,ρ为分辨系数,εi(j)表示比较序列ai(j)中第i个序列的第j个参数与参考序列b(j)中的第j个参数的关联系数。
步骤3.3:计算关联度,即参考序列和比较序列所对应的关联程度值的平均值:
本实施例对于步骤1中进行无量纲处理的数据,然后经过灰色关联分析计算,得到各要素之间的关联度如图3所示。
图3中0-10依次是海平面气压、气温、最高气温、最低气温、相对湿度、小时降水量、2分钟平均风向、2分钟平均风速、10分钟平均风向、10分钟平均风速、能见度。
可以看出这些特征中,最高气温、最低气温因与气温测量方式相同,关联度较高。
步骤3.4:去除关联度小于设定阈值的气象要素序列,将剩下气象要素和目标要素的历史数据作为双阶段融合预测模型的输入变量。
进行特征筛选的目的是为了得到相对独立的输入神经元,因此去掉最高气温、最低气温。然后计算目标要素气温与剩下气象要素关联度,结果如表2所示。
表2气象要素关联度表
根据表2结果,去除关联度较小的海平面气压、2分钟平均风向、10分钟平均风向,将选择剩下这5个特征和历史气温数据作为输入变量。则输入变量X(t)为:
式3-13中,R(t)表示湿度,P(t)表示降水量,F(t)为2分钟平均风速,W(t)为10分钟平均风速,V(t)为能见度,T(t)为温度。q表示给定时间窗的宽度。每行代表同一时刻不同特征要素数据,每列代表在时间窗(t-q+1,t)内的不同时刻的同一特征要素的数据。
4、通过BiLSTM模型挖掘气象观测数据的时序关系,通过ConvLSTM模型进行序列间关系的提取,实现对小时地面观测数据的预测;再分别为二者的预测结果赋予动态权值,并计算其加权融合后的值,最终得到双阶段融合预测模型的预测结果。
模型以X(t)作为输入时间序列,分别使用ConvLSTM网络和BiLSTM网络,对小时地面观测数据进行预测,即以前t个时刻各要素的值来预测下一时刻的气温。
假设ConvLSTM模型在t+1时刻的预测值Q(t+1),BiLSTM模型t+1时刻的预测值为S(t+1),再分别为二者的预测结果赋予动态权值ω1、ω2。最后通过计算两个模型的加权融合后的值,最终得到GRA-Conv-BiLSTM模型的预测结果,可以表示为:
E(t+1)=ω1Q(t+1)+ω2S(t+1),ω1+ω2=1
E(t+1)是ConvLSTM与BiLSTM两种模型的最优权值组合的结果。融合模型的关键就是确定权值,为了确定双阶段融合模型GRA-Conv-BiLSTM的最佳权值ω1、ω2,首先需要在满足ω1+ω2=1的条件下将其初始化。然后让ω1的取值范围为[0,1]中顺次递增0.1的11个数值,ω2的取值范围为[1,0]中顺次递减0.1的11个数值,期间仍然保持ω1+ω2=1,本实施例定义均方误差MSE最小的组合为最优组合。
式中,N为选取的样本数量,e′i为预测值,ei为实际观测值。
MSE和MAE是从不同角度来评价模型的误差,唯一区别是MSE对异常点比较敏感,但本文数据集中不涉及缺失和异常值,所以该差别可以近似忽略。此外,根据MSE和MAE的计算公式可推之,一般MSE较小的模型,MAE也会较小。所以为了避免重复,这里考虑只选择一种指标MSE作为动态加权时最优权值的衡量指标。
5、本发明GRA-Conv-BiLSTM模型对气象观测数据的有效性验证。
以气温为例,为验证本发明双阶段融合检验模型GRA-Conv-BiLSTM的正确性和有效性,实验过程中将GRA-Conv-BiLSTM和机器学习模型随机森林,岭回归,极端梯度提升回归(extreme gradient boosting,XGBoost)进行对比。因整个样本集数据量较大,为了方便清晰展示模型效果,从测试集中随机选取了连续的173条数据进行展示,最终的拟合结果对比图如图4-图7所示。
可以看出,随机森林算法,岭回归算法,XGBoost算法在气温波动较大的地方拟合效果并不好,比如从样本量36到75这个数据段,其余3各个模型预测出的气温值与实际气温值相比都存在较大偏差。而GRA-Conv-BiLSTM模型在整个数据段,与真实的气温数据贴合程度都较高,在部分数据段,预测气温值与真实气温几乎完全重合,说明GRA-Conv-BiLSTM对数据波动、非线性变化更加敏感,跟踪能力更强。
同时,为了显示发明模型相比其他神经网络和融合模型的优越性,选取了基于求和自回归移动平均和长短期记忆网络的ARIM-LSTM模型,以及基于弹性网络(elastic net,Enet)、K近邻回归(k-nearest neighbors,KNN)、随机森林(random forest,RF)三者的组合模型(ENet-KNN-RF),以及深度学习网络LSTM、BiLSTM、ConvLSTM进行对比实验,实验过程中,融合模型的融合方法与提出模型一样,采用动态最优权值。测试过程中GRA-Conv-BiLSTM与其他8种模型的MSE和MAE的值如表3所示。
表3不同模型测试结果表
从表3中可以看出:相比于单一的机器学习模型,LSTM模型的MSE在3左右,不是特别大,说明LSTM适合时间序列分析。但其拟合效果不如其他神经网络好,这也侧面印证了简单LSTM模型对序列的反向信息和空间特征捕获能力不足造成的预测精度降低问题。
在三种融合模型对比中,机器学习组合模型ENet-KNN-RF效果最差,ARIM-LSTM表现次之,本文模型效果最好。这是因为针对气象数据这种多元时间序列的预测而言,时序关系和潜在空间特征的提取是否充分对预测精度有很大影响,而ENet-KNN-RF中并不具有循环神经网络的记忆功能,也不能提取空间特征。综上表明,对于非线性动态变化的多要素时间序列预测而言,采用本发明的双阶段融合检验模型GRA-Conv-BiLSTM,效果更好。
6、本发明GRA-Conv-BiLSTM模型对气象观测数据的真实性检验实验
针对气象数据中最常见的数据缺失和数据异常这两类误差,进行如下真实性检验实验:
(1)缺失值拟合
以气温为例,取福建省地面新型气象自动观测站数据进行研究,发现气温数据在2019年3月21日6时到3月21日20时存在缺测现象,如图8所示。而此时与该气温要素相关度较高的其他数据,如相对湿度、2分钟平均风速、10分钟平均风速、小时降水量和能见度等,数据比较完整。因此,可以利用本发明提出的双阶段融合预测模型GRA-Conv-BiLSTM,根据其他要素和历史气温数据来对气温缺失值进行拟合,气温缺测数据拟合示意图如图9所示。
(2)异常值检测
分析该气象站点2019年03月份数据,发现在03月11日07时至03月11日15时期间,气温观测值存在异常情况,如图10所示。正常情况下,该时段内气温平均值应该在6摄氏度到22摄氏度之间,但记录的观测值却在-5摄氏度到0摄氏度之间,与正常值相差较大,显示出异常的特征。因此,需要进行真实性检验来确定这些观测值是否可信,利用本发明提出的双阶段融合预测模型GRA-Conv-BiLST进行的气温异常值检测示意图如图11所示。
从图8到11可看出,本发明提出的同源气象融合检验方法中的双阶段融合预测模型GRA-Conv-BiLSTM可以筛选出强相关气象要素用于目标要素的精准预测,从而填补气象数据缺失值,同时还能够检测出观测数据中的异常值,实现了对目标气象要素数据更精准的预测和更全面真实性检验。
综上实验证明,本发明提出的双阶段融合预测模型GRA-Conv-BiLSTM对气象数据波动、非线性变化更加敏感,预测精度更好,因而可以更好的进行真实性检验,即缺测数据的拟合和异常数据的检测。
Claims (9)
1.一种同源气象要素融合检验方法,其特征在于,包括以下步骤:
步骤1:采集气象观测数据,并进行预处理;
步骤2:构建基于灰色关联分析法的ConvLSTM模型和BiLSTM模型动态权值融合的气象数据预测模型,即双阶段融合预测模型;
步骤3:在所述双阶段融合预测模型中,通过灰色关联分析法进行特征选择,并以灰色关联度指标来度量特征重要性;然后设定时间窗,结合目标要素的历史数据作为双阶段融合预测模型的输入时间序列;
步骤4:通过BiLSTM模型挖掘气象观测数据的时序关系,通过ConvLSTM模型进行序列间关系的提取,实现对小时地面观测数据的预测;再分别为二者的预测结果赋予动态权值,并计算其加权融合后的值,最终得到双阶段融合预测模型的预测结果。
2.根据权利要求1所述的同源气象要素融合检验方法,其特征在于,所述步骤1中气象观测数据包括特定时间跨度内,气象站点观测到的连续型小时气温,小时最高气温,小时最低气温、能见度、相对湿度,海平面气压序列,离散型小时降水量序列,矢量型2分钟和10分钟风向风速序列。
3.根据权利要求1所述的同源气象要素融合检验方法,其特征在于,所述步骤1中,对数据进行预处理包括数据清洗和归一化处理,并将多元气象序列数据转换为有监督数据;
归一化结果如下:
其中,max为某气象要素的最大值,min为该气象要素的最小值,x*则为归一化结果,x为待处理气象数据。
4.根据权利要求1所述的同源气象要素融合检验方法,其特征在于,所述步骤2中,ConvLSTM建模选用keras中ConvLSTM2D,卷积核个数为64,大小为1×2,然后经过展平层变成1维向量,最后通过全连接层输出;BiLSTM建模利用keras进行,其中LSTM的卷积核数量为100,两个模型训练过程中优化器均为Adam,设置迭代最高次数,并设置检查点保存最优模型参数,然后用最优模型进行测试。
5.根据权利要求1所述的同源气象要素融合检验方法,其特征在于,所述步骤3具体为:步骤3.1:根据目标要素确定气象要素中的参考序列b(j)={b(j)|j=1,2,…,n}和比较序列ai(j)={ai(j)|j=1,2,…,n,i=1,2,…,m};m为序列的数量,n为序列中参数的数量;
步骤3.2:根据预处理后的气象观测数据计算目标要素与其他气象要素的关联系数,即参考序列和比较序列所对应的关联程度值;
式中,ρ为分辨系数,εi(j)表示比较序列ai(j)中第i个序列的第j个参数与参考序列b(j)中的第j个参数的关联系数;
步骤3.3:计算关联度,即参考序列和比较序列所对应的关联程度值的平均值:
步骤3.4:去除关联度小于设定阈值的气象要素序列,将剩下气象要素和目标要素的历史数据作为双阶段融合预测模型的输入变量。
6.根据权利要求5所述的同源气象要素融合检验方法,其特征在于,若以气温作为目标要素,则气温数据作为参考序列,而海平面气压,最高气温,最低气温,相对湿度,2分钟平均风向,10分钟平均风向,2分钟平均风速,10分钟平均风速,降水量,能见度作为比较序列;根据目标要素气温与剩下气象要素关联度,最终选择输入双阶段融合预测模型的时间序列X(t)为:
式中,R(t)表示湿度,P(t)表示降水量,F(t)为2分钟平均风速,W(t)为10分钟平均风速,V(t)为能见度,T(t)为温度;q表示给定时间窗的宽度;每行代表同一时刻不同特征要素数据,每列代表在时间窗(t-q+1,t)内的不同时刻的同一特征要素的数据。
7.根据权利要求1所述的同源气象要素融合检验方法,其特征在于,所述步骤5具体为:通过ConvLSTM模型得到t+1时刻的预测值Q(t+1),通过BiLSTM模型得到t+1时刻的预测值为S(t+1),再分别为二者的预测结果赋予动态权值ω1、ω2,则两模型的最优权值组合的结果为:E(t+1)=ω1Q(t+1)+ω2S(t+1),ω1+ω2=1。
8.根据权利要求6所述的同源气象要素融合检验方法,其特征在于,确定双阶段融合模型的最佳权值ω1、ω2的方式为:在满足ω1+ω2=1的条件下将其初始化,使ω1的取值范围为[0,1]中顺次递增0.1的11个数值,ω2的取值范围为[1,0]中顺次递减0.1的11个数值,期间仍然保持ω1+ω2=1;确定均方误差MSE最小的组合为最优组合。
9.根据权利要求7所述的同源气象要素融合检验方法,其特征在于,所述均方误差MSE计算如下:
式中,N为选取的样本数量,e′i为预测值,ei为实际观测值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310643883.7A CN116720080A (zh) | 2023-06-01 | 2023-06-01 | 同源气象要素融合检验方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310643883.7A CN116720080A (zh) | 2023-06-01 | 2023-06-01 | 同源气象要素融合检验方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116720080A true CN116720080A (zh) | 2023-09-08 |
Family
ID=87869085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310643883.7A Pending CN116720080A (zh) | 2023-06-01 | 2023-06-01 | 同源气象要素融合检验方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116720080A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118094127A (zh) * | 2024-04-29 | 2024-05-28 | 南京信息工程大学 | 基于高空数据与gm灰色迭代的降水量预测方法 |
-
2023
- 2023-06-01 CN CN202310643883.7A patent/CN116720080A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118094127A (zh) * | 2024-04-29 | 2024-05-28 | 南京信息工程大学 | 基于高空数据与gm灰色迭代的降水量预测方法 |
CN118094127B (zh) * | 2024-04-29 | 2024-07-02 | 南京信息工程大学 | 基于高空数据与gm灰色迭代的降水量预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116757534A (zh) | 一种基于神经训练网络的智能冰箱可靠性分析方法 | |
CN112270129B (zh) | 一种基于大数据分析的植物长势预测方法 | |
CN113505923B (zh) | 一种地区电网短期负荷预测方法及系统 | |
Wang et al. | Performance degradation assessment of rolling bearing based on convolutional neural network and deep long-short term memory network | |
CN115495991A (zh) | 一种基于时间卷积网络的降水区间预测方法 | |
CN113743013A (zh) | 一种基于XGBoost气温预测数据修正的方法 | |
CN116720080A (zh) | 同源气象要素融合检验方法 | |
CN115542429A (zh) | 一种基于XGBoost的臭氧质量预测方法及系统 | |
CN112949836A (zh) | 对时变分布数据进行回归预测在线迁移学习的方法 | |
Ehsan et al. | Wind speed prediction and visualization using long short-term memory networks (LSTM) | |
CN116050652A (zh) | 基于局部注意力增强模型的径流预测方法 | |
CN115456245A (zh) | 一种感潮河网区溶解氧预测方法 | |
CN114217025B (zh) | 评估空气质量浓度预测中气象数据对其影响的分析方法 | |
CN110196456A (zh) | 一种基于相似年灰色关联分析的中长期降雨径流预报方法 | |
CN117271979A (zh) | 一种基于深度学习的赤道印度洋表层海流流速预测方法 | |
CN116779172A (zh) | 一种基于集成学习的肺癌疾病负担风险预警方法 | |
Dang et al. | seq2graph: Discovering dynamic non-linear dependencies from multivariate time series | |
CN111930728A (zh) | 一种设备的特征参数和故障率的预测方法及系统 | |
CN116842323A (zh) | 一种供水管线运行数据异常检测方法 | |
CN116244596A (zh) | 基于tcn和注意力机制的工业时序数据异常检测方法 | |
CN116720079A (zh) | 基于多特征融合的风力发电机故障模式识别方法及系统 | |
CN116720743A (zh) | 基于数据聚类和机器学习的碳排放测算方法 | |
Li et al. | Early drought plant stress detection with bi-directional long-term memory networks | |
CN113449465A (zh) | 一种用于滚动轴承的寿命预测方法 | |
Zhong et al. | Abnormal State Detection using Memory-augmented Autoencoder technique in Frequency-Time Domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |