CN111382147A - 一种气象数据缺失插补方法和系统 - Google Patents
一种气象数据缺失插补方法和系统 Download PDFInfo
- Publication number
- CN111382147A CN111382147A CN202010151981.5A CN202010151981A CN111382147A CN 111382147 A CN111382147 A CN 111382147A CN 202010151981 A CN202010151981 A CN 202010151981A CN 111382147 A CN111382147 A CN 111382147A
- Authority
- CN
- China
- Prior art keywords
- data
- matrix
- output
- interpolation
- meteorological data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/086—Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Physiology (AREA)
- Remote Sensing (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及气象监测技术领域,尤其涉及一种气象数据缺失插补方法和系统,其特征在于:所述插补方法首先对气象数据进行主成分分析,主成分分析后的数据构建ELM神经网络,并采用小生境思维进化算法优化极限学习机,构建NMEA‑ELM预测模型,以气象数据中的指标参数作为预测模型输入量,以缺失气象数据作为输出数据,完成缺失气象数据的插补。本发明插补数据精度更高,更有效,提高自动气象站数据的准确性和完整性。
Description
技术领域
本发明涉及气象监测技术领域,尤其涉及一种气象数据缺失插补方法和系统。
背景技术
气象观测资料是天气预报、气候分析、气象研究的重要依据,因此,自动气象站数据的准确性、完整性显得尤为重要;由于受野外环境干扰、传感器设备故障等影响,短时期内数据的缺失遗漏难免发生,对资料的可用性及后续深入研究产生影响;
目前,国内对缺失气象数据插补研究主要集中在空间插补方法上,即气象资料的插补根据地域内气象站的数量、区域空间分布和特定的气象要素等具体情况进行计算,当局部区域内没有气象站或周边气象站数据也缺失的情况下,此种方法显然无法实现插补。
发明内容
本发明的目的是为了提供一种气象数据缺失插补方法和系统,采用小生境思维进化算法优化极限学习机方法对缺失气象数据进行插补,准确性高。
为解决以上技术问题,本发明的技术方案为:一种气象数据缺失插补方法,其步骤包括:
步骤1):产生训练集和测试集,进行主成分分析,具体为:
步骤1.1):原始数据进行标准化处理,得到标准矩阵,即:
式中,i=1,2,...,N;j=1,2,...,m;其中,m表示对象特征总数,N表示数据个数,即采集了m个对象特征,每个对象特征有N个数据;sj分别为指标变量xj的均值和方差;指标包括温度、湿度、气压、风向、光照、二氧化碳含量和风速;
步骤1.2):使用主成分分析法计算主成分贡献率及累计贡献率:
利用降维的方法将多个指标转换为少量相互不相关的指标,从而简化模型;
设原变量X1,X2,X3,…Xm分别表示各对象的特征,用N×m矩阵表示,则,
计算特征值和特征向量
R=X*TX*/(N-1) (3)
式中,R为自相关矩阵,X*T为矩阵转置,X*为标准化后的数据矩阵;求得相关矩阵的特征值λ1,λ2,…λm和相应的特征向量u1,u2,…um;
计算主成分贡献率和累计贡献率
主成分贡献率:
累计贡献率:
步骤1.3):确定主成分个数和主成分矩阵;
选取前p(p﹤m)个主成分,使累计方差贡献率满足预设贡献率阈值范围,m个原始变量中的信息就由选取的p个主成分来替代,主成分个数因此即为p;
主成分对应的特征向量为Um×p=[u1,u2…,up],则p个主成分构成的矩阵为
ZN×P=X* N×mUm×p (6)
步骤2):构建ELM神经网络,对粒子群优化进行初始化编码,过程如下:
极限学习机预测方法包含输入层、隐含层和输出层;确定ELM神经网络的拓扑结构,其输入变量为X=[X1,X2…,Xm]T,输出变量为Y=[Y1,Y2…,Yu]T;
步骤3):通过小生境思维进化算法获得ELM神经网络所需的最优输入权值矩阵abest和隐含层偏置bbest;
步骤3.1):随机生成N个个体形成初始群体,由式(7)、(8)计算每个个体的得分:
步骤3.2):按照个体得分从大到小进行排序,选取前q个个体为优胜者,分别以优胜者为中心形成子群体;
步骤3.3):对q个子群体的优胜者分别计算优胜者间的得分,得分低的子群体被丢弃,得分高者保持不变;n个子群体中的优胜者为Unbest,dij为两子群体优胜者间的距离,s为个体编码长度;
步骤3.4):对废弃的子群体重新初始化,并在其所在的小生境内重新选择优胜者,转步骤3.2,重新判断小生境优胜者得分,直至每个小生境都有优胜者;
步骤3.5):对子群体进行趋同,并对趋同后得分最低的群体进行异化;当最优胜者的得分不再变化时停止迭代,得到最优解,即得到ELM算法所需的最优输入权值矩阵abest和隐含层偏置bbest;
步骤4):预测插补数据:利用权值和偏置计算隐含层输出矩阵H,通过获取的输出权值β,得到最终插补数据,公式如下所示:
由输出矩阵计算输出连接权值,通过确定的隐含层输出矩阵H,利用线性系统最小二乘解的求解方法,得到隐含层节点与输出节点之间的输出权值β,如下公式所示:
其中,H+为输出矩阵H的广义逆;
完成预测模型构建,根据测试集,以气象数据中的指标参数作为预测模型输入量,以缺失气象数据作为输出数据,完成缺失气象数据的插补。
按以上方案,所述预设贡献率阈值的范围为75%~95%。
一种气象数据缺失插补系统,其包括存储器和处理器;其中,存储器存储有计算机程序,所述程序被处理器执行时能够实现上述的气象数据缺失插补方法的步骤。
本发明具有如下有益效果:
本发明采用小生境思维进化算法(NMEA)优化极限学习机(ELM)方法构建NMEA-ELM预测模型对缺失气象数据进行插补,插补数据精度更高,更有效,提高自动气象站数据的准确性和完整性;为完善气象资料集提供切实可行的方法,为天气预报、气候分析、气象研究提供重要依据。
附图说明
图1为本发明实施例气象数据缺失插补方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明作进一步详细说明。
请参考图1,本发明为一种气象数据缺失插补方法,其步骤包括:
步骤1):通过自动气象站测量所得温度、湿度、气压、风向、风速、光照、二氧化碳含量的数据为气象数据,将数据分为训练集和测试集,进行主成分分析,具体为:
步骤1.1):原始数据进行标准化处理,得到标准矩阵,即:
式中,i=1,2,...,N;j=1,2,...,m;其中,m表示对象特征总数,N表示数据个数,即采集了m个对象特征,每个对象特征有N个数据;sj分别为指标变量xj的均值和方差;指标包括温度、湿度、气压、风向、光照、二氧化碳含量和风速;
步骤1.2):使用主成分分析法计算主成分贡献率及累计贡献率:
利用降维的方法将多个指标转换为少量相互不相关的指标,从而简化模型;
设原变量X1,X2,X3,…Xm分别表示各对象的特征,用N×m矩阵表示,则,
计算特征值和特征向量
R=X*TX*/(N-1) (3)
式中,R为自相关矩阵,X*T为矩阵转置,X*为标准化后的数据矩阵;求得相关矩阵的特征值λ1,λ2,…λm和相应的特征向量u1,u2,…um;
计算主成分贡献率和累计贡献率
主成分贡献率:
累计贡献率:
步骤1.3):确定主成分个数和主成分矩阵;
选取前p(p﹤m)个主成分,使累计方差贡献率满足预设贡献率阈值范围,本实施例中,预设贡献率阈值的范围为75%~95%;m个原始变量中的信息就由选取的p个主成分来替代,主成分个数因此即为p;
主成分对应的特征向量为Um×p=[u1,u2…,up],则p个主成分构成的矩阵为
ZN×P=X* N×mUm×p (6)
步骤2):构建ELM神经网络,对粒子群优化进行初始化编码,过程如下:
极限学习机预测方法包含输入层、隐含层和输出层;确定ELM神经网络的拓扑结构,其输入变量为X=[X1,X2…,Xm]T,输出变量为Y=[Y1,Y2…,Yu]T;
步骤3):通过小生境思维进化算法获得ELM神经网络所需的最优输入权值矩阵abest和隐含层偏置bbest;
步骤3.1):随机生成N个个体形成初始群体,由式(7)、(8)计算每个个体的得分:
步骤3.2):按照个体得分从大到小进行排序,选取前q个个体为优胜者,分别以优胜者为中心形成子群体;
步骤3.3):对q个子群体的优胜者分别计算优胜者间的得分,得分低的子群体被丢弃,得分高者保持不变;n个子群体中的优胜者为Unbest,dij为两子群体优胜者间的距离,s为个体编码长度;
步骤3.4):对废弃的子群体重新初始化,并在其所在的小生境内重新选择优胜者,转步骤3.2,重新判断小生境优胜者得分,直至每个小生境都有优胜者;
步骤3.5):对子群体进行趋同,并对趋同后得分最低的群体进行异化;当最优胜者的得分不再变化时停止迭代,得到最优解,即得到ELM算法所需的最优输入权值矩阵abest和隐含层偏置bbest;
步骤4):预测插补数据:利用权值和偏置计算隐含层输出矩阵H,通过获取的输出权值β,得到最终插补数据,公式如下所示:
由输出矩阵计算输出连接权值,通过确定的隐含层输出矩阵H,利用线性系统最小二乘解的求解方法,得到隐含层节点与输出节点之间的输出权值β,如下公式所示:
其中,H+为输出矩阵H的广义逆;
完成预测模型构建,根据测试集,以气象数据中的指标参数作为预测模型输入量,以缺失气象数据作为输出数据,完成缺失气象数据的插补。
下面给出一种气象数据缺失插补方法的实施例,该实施例中,以湿度数据作为缺失气象数据:
自动气象站系统采集温度、湿度、气压、风向、光照、二氧化碳含量和风速数据;将自动气象站系统采集的无缺失的数据进行归一化后,进行主成分分析。经计算,得到特征值、主成分贡献率和累计贡献率如表1所示,主成分因子载荷矩阵如表2所示。选取特征值大于1的前三个变量作为主成分,其累计贡献率大于86%。比较每一个主成分对应的各个原始指标的载荷,载荷越大,对应的主成分反映的该原始指标的信息量就越大。成分1的贡献率为39%,包含湿度、温度及二氧化碳三个影响因素;第二成分的累计贡献率为67%,包括压强和风向两个影响因素;第三成分的累计贡献率为86%,包括光照一个影响因素,由此确定训练样本维数。
表1特征值、主成分贡献率和累计贡献率
表2主成分因子载荷矩阵
本实施例涉及到自动气象站采集气象数据的7个要素,包括温度、湿度、气压、风向、光照、二氧化碳含量和风速,采集量中按主成分分析提取温度、湿度、压强、光照、风向和二氧化碳含量六个要素;对2018年9月气象资料进行检查,发现其数据缺失率约为1%。为验证插补效果,选取无缺失的2018年9月22日至9月30日(十分钟采样一次,共1296条数据)作为训练样本,取湿度值作为插补。随机抽取一天(144条)数据作为测试样本,通过主成分分析确定其中温度、气压、风向、光照、二氧化碳含量这5个指标参数作为预测模型输入量,湿度为输出数据即作为插补,验证插补准确性。
本实施例中选择均方根误差(Root Mean Square Error,RMSE)、平均绝对百分比误差(Mean Absolute Percent Error,MAPE)和平均绝对误差(Mean Absolute Error,MAE)等指标作为模型预测性能判断的标准验证本发明方法的有效性;利用BP神经网络、ELM神经网络和NMEA-ELM神经网络的插补方法进行对比,对缺失的湿度数据进行分析,三种方法的插补评价指标结果如表3所列。
表3 BP模型、ELM模型、NMEA-ELM模型插补性能评估对比
表3的对比结果显示,使用NMEA-ELM方法预测时,本发明方法的均方根误差(RMSE)、平均绝对百分比误差(MAPE)和平均绝对误差(MAE)均低于另两种对照实验中的方法,说明本发明方法得到的湿度插补数据精度更高,更有效。
一种气象数据缺失插补系统,包括存储器和处理器;其中,存储器存储有计算机程序,程序被处理器执行时能够实现上述气象数据缺失插补方法的步骤。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (3)
1.一种气象数据缺失插补方法,其特征在于,其步骤包括:
步骤1):产生训练集和测试集,进行主成分分析,具体为:
步骤1.1):原始数据进行标准化处理,得到标准矩阵,即:
式中,i=1,2,...,N;j=1,2,...,m;其中,m表示对象特征总数,N表示数据个数,即采集了m个对象特征,每个对象特征有N个数据;sj分别为指标变量xj的均值和方差;指标包括温度、湿度、气压、风向、光照、二氧化碳含量和风速;
步骤1.2):使用主成分分析法计算主成分贡献率及累计贡献率:
利用降维的方法将多个指标转换为少量相互不相关的指标,从而简化模型;
设原变量X1,X2,X3,…Xm分别表示各对象的特征,用N×m矩阵表示,则,
计算特征值和特征向量
R=X*TX*/(N-1) (3)
式中,R为自相关矩阵,X*T为矩阵转置,X*为标准化后的数据矩阵;求得相关矩阵的特征值λ1,λ2,…λm和相应的特征向量u1,u2,…um;
计算主成分贡献率和累计贡献率
主成分贡献率:
累计贡献率:
步骤1.3):确定主成分个数和主成分矩阵;
选取前p(p﹤m)个主成分,使累计方差贡献率满足预设贡献率阈值范围,m个原始变量中的信息就由选取的p个主成分来替代,主成分个数因此即为p;
主成分对应的特征向量为Um×p=[u1,u2…,up],则p个主成分构成的矩阵为
ZN×P=X* N×mUm×p (6)
步骤2):构建ELM神经网络,对粒子群优化进行初始化编码,过程如下:极限学习机预测方法包含输入层、隐含层和输出层;确定ELM神经网络的拓扑结构,其输入变量为X=[X1,X2…,Xm]T,输出变量为Y=[Y1,Y2…,Yu]T;
步骤3):通过小生境思维进化算法获得ELM神经网络所需的最优输入权值矩阵abest和隐含层偏置bbest;
步骤3.1):随机生成N个个体形成初始群体,由式(7)、(8)计算每个个体的得分:
步骤3.2):按照个体得分从大到小进行排序,选取前q个个体为优胜者,分别以优胜者为中心形成子群体;
步骤3.3):对q个子群体的优胜者分别计算优胜者间的得分,得分低的子群体被丢弃,得分高者保持不变;n个子群体中的优胜者为Unbest,dij为两子群体优胜者间的距离,s为个体编码长度;
步骤3.4):对废弃的子群体重新初始化,并在其所在的小生境内重新选择优胜者,转步骤3.2,重新判断小生境优胜者得分,直至每个小生境都有优胜者;
步骤3.5):对子群体进行趋同,并对趋同后得分最低的群体进行异化;当最优胜者的得分不再变化时停止迭代,得到最优解,即得到ELM算法所需的最优输入权值矩阵abest和隐含层偏置bbest;
步骤4):预测插补数据:利用权值和偏置计算隐含层输出矩阵H,通过获取的输出权值β,得到最终插补数据,公式如下所示:
由输出矩阵计算输出连接权值,通过确定的隐含层输出矩阵H,利用线性系统最小二乘解的求解方法,得到隐含层节点与输出节点之间的输出权值β,如下公式所示:
其中,H+为输出矩阵H的广义逆;
完成预测模型构建,根据测试集,以气象数据中的指标参数作为预测模型输入量,以缺失气象数据作为输出数据,完成缺失气象数据的插补。
2.根据权利要求1所述的气象数据缺失插补方法,其特征在于:所述预设贡献率阈值的范围为75%~95%。
3.一种气象数据缺失插补系统,其特征在于:包括存储器和处理器;其中,存储器存储有计算机程序,所述程序被处理器执行时能够实现上述权利要求1或2任一项所述的气象数据缺失插补方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010151981.5A CN111382147A (zh) | 2020-03-06 | 2020-03-06 | 一种气象数据缺失插补方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010151981.5A CN111382147A (zh) | 2020-03-06 | 2020-03-06 | 一种气象数据缺失插补方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111382147A true CN111382147A (zh) | 2020-07-07 |
Family
ID=71218636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010151981.5A Withdrawn CN111382147A (zh) | 2020-03-06 | 2020-03-06 | 一种气象数据缺失插补方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111382147A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114707692A (zh) * | 2022-02-11 | 2022-07-05 | 哈尔滨工业大学(深圳) | 基于混合神经网络的湿地出水氨氮浓度预测方法及系统 |
-
2020
- 2020-03-06 CN CN202010151981.5A patent/CN111382147A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114707692A (zh) * | 2022-02-11 | 2022-07-05 | 哈尔滨工业大学(深圳) | 基于混合神经网络的湿地出水氨氮浓度预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027629B (zh) | 基于改进随机森林的配电网故障停电率预测方法及系统 | |
CN106600037B (zh) | 一种基于主成分分析的多参量辅助负荷预测方法 | |
CN114676822B (zh) | 一种基于深度学习的多属性融合空气质量预报方法 | |
CN110648014A (zh) | 一种基于时空分位数回归的区域风电预测方法及系统 | |
CN113554466B (zh) | 一种短期用电量预测模型构建方法、预测方法和装置 | |
CN108090515B (zh) | 一种基于数据融合的环境等级评估方法 | |
CN113344288A (zh) | 梯级水电站群水位预测方法、装置及计算机可读存储介质 | |
CN111461921A (zh) | 一种基于机器学习的负荷建模典型用户数据库更新方法 | |
CN115277354A (zh) | 一种面向指挥控制网络管理系统的故障检测方法 | |
CN115526258A (zh) | 基于Spearman相关系数特征提取的电力系统暂稳评估方法 | |
CN113536662B (zh) | 基于萤火虫优化LightGBM算法的电子式互感器误差状态预测方法 | |
CN108830405B (zh) | 基于多指标动态匹配的实时电力负荷预测系统及其方法 | |
CN114357670A (zh) | 一种基于bls和自编码器的配电网用电数据异常预警方法 | |
CN114548498A (zh) | 一种架空输电线路局部区域的风速预测方法及系统 | |
CN114357870A (zh) | 基于局部加权偏最小二乘的计量设备运行性能预测分析方法 | |
CN114330120A (zh) | 一种基于深度神经网络预测24小时pm2.5浓度的方法 | |
CN116894165B (zh) | 一种基于数据分析的电缆老化状态评估方法 | |
CN111382147A (zh) | 一种气象数据缺失插补方法和系统 | |
CN113379116A (zh) | 基于聚类和卷积神经网络的台区线损预测方法 | |
CN116151799A (zh) | 一种基于bp神经网络的配电线路多工况故障率快速评估方法 | |
CN115496264A (zh) | 一种风电机组发电功率的预测方法 | |
CN114139408A (zh) | 一种电力变压器健康状态评估方法 | |
CN114707684A (zh) | 一种基于改进lstm的原烟堆垛内部温度预测算法 | |
CN111489021A (zh) | 一种基于粒子群优化bp神经网络的甜菜产量预测方法 | |
CN113722970B (zh) | 一种光伏功率超短期在线预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200707 |
|
WW01 | Invention patent application withdrawn after publication |