CN117272182A - 一种逐日气温的预测方法、装置、介质及设备 - Google Patents
一种逐日气温的预测方法、装置、介质及设备 Download PDFInfo
- Publication number
- CN117272182A CN117272182A CN202311030304.8A CN202311030304A CN117272182A CN 117272182 A CN117272182 A CN 117272182A CN 202311030304 A CN202311030304 A CN 202311030304A CN 117272182 A CN117272182 A CN 117272182A
- Authority
- CN
- China
- Prior art keywords
- data
- point
- air temperature
- predicted
- mth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 230000007613 environmental effect Effects 0.000 claims abstract description 51
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 27
- 238000012417 linear regression Methods 0.000 claims description 10
- 238000012706 support-vector machine Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 description 19
- 238000012549 training Methods 0.000 description 16
- 238000012360 testing method Methods 0.000 description 15
- 230000002159 abnormal effect Effects 0.000 description 8
- 238000002790 cross-validation Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000012952 Resampling Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000001556 precipitation Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001351 cycling effect Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 101100129500 Caenorhabditis elegans max-2 gene Proteins 0.000 description 1
- 101100083446 Danio rerio plekhh1 gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000005442 atmospheric precipitation Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013101 initial test Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01K—MEASURING TEMPERATURE; MEASURING QUANTITY OF HEAT; THERMALLY-SENSITIVE ELEMENTS NOT OTHERWISE PROVIDED FOR
- G01K13/00—Thermometers specially adapted for specific purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种逐日气温的预测方法、装置、介质及设备,其中预测方法包括获取待预测点的地理坐标;获取空间网格中各格点的环境数据;预处理获取的环境数据;利用预处理后的环境数据和待预测点的地理坐标计算辅助数据;将预处理后的环境数据和辅助数据写入数据集,并利用数据集预测待预测点的逐日气温。本发明能够利用环境数据预测待预测点的逐日气温。
Description
技术领域
本发明涉及一种逐日气温的预测方法、装置、介质及设备,属于新一代信息技术领域。
背景技术
目前现有技术中,中国专利CN114662701A公开了一种利用遥感估算近地表气温的方法,可以实现基于MODIS土地利用分类数据的近地表气温估算。中国专利CN109871637A公开了一种基于卫星遥感数据的云天条件下近地面气温估算方法,该方法可以利用MODIS卫星数据,根据大气可降水量、近地面相对湿度、云顶温度、云顶高度和云光学厚度等数据构建神经网络,实现对云天条件下的近地面气温的估算。上述的气温推算方法所使用的MODIS卫星均在2000年及之后运行,对于1980年代到2000年代的遥感气温估算效果仍然无法实现。
因此,本申请提出一种逐日气温的预测方法、装置、介质及设备。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种逐日气温的预测方法、装置、介质及设备,能够利用环境数据预测待预测点的逐日气温。
为达到上述目的,本发明是采用下述技术方案实现的:
一方面,本发明提供一种逐日气温的预测方法,包括以下步骤:
获取待预测点的地理坐标;
获取空间网格中各格点的环境数据;
预处理获取的环境数据;
利用预处理后的环境数据和待预测点的地理坐标计算辅助数据;
将预处理后的环境数据和辅助数据写入数据集,并利用数据集预测待预测点的逐日气温。
进一步的,所述空间网格的地理南、北、东和西边界分别为北纬3°15′、北纬54°31′、东经74°和东经133°。
进一步的,所述空间网格中各格点的位置编号地理坐标的关系,包括下式:
式中,i为第m个格点m(i,j)的经度方向的位置编号,j为第m个格点m(i,j)的纬度方向的位置编号,λ0为空间网格西边界的经度,φ0为空间网格南边界的纬度,λm为第m个格点的经度,φm为第m个格点的纬度,为向下取整,Z为空间网格的分辨率。
进一步的,所述预处理环境数据包括:
所述环境数据包括多类环境数据,各类环境数据的时间分辨率不同;
根据各类环境数据的时间分辨率确定各类环境数据的日平均值,具体包括下式:
式中Tm,avg为第m个格点的一类环境数据的日平均值,l为时次序号,且初始值为0,tm,l为第m个格点当日第l时次的一类环境数据,h为一类环境数据的时间分辨率,且h≤24,
进一步的,所述利用预处理后的环境数据和待预测点的地理坐标计算辅助数据包括:
式中,Tempm为第m个格点的一类环境数据的辅助数据,M为空间网格中格点的总数,dm为第m个格点与待预测点的距离因子。
进一步的,所述第m个格点与待预测点的距离因子包括下式:
dm={dm,1,dm,2,dm,3,dm,4}
dm,1=D
dm,2=D2
dm,3=D3
Δλ=abs(λm-λ`)
Δφ=abs(φm-φ`)
式中,dm,1、dm,2、dm,3、dm,4,均为第m个格点与待预测点的距离因子的参数,D为曲面距离,λm为第m个格点的经度,λ`为待预测点的经度,φm为第m个格点的纬度,φ`为待预测点的纬度,Δλ是第m个格点与待预测点的经度差的绝对值,Δφ是第m个格点与待预测点的纬度差的绝对值。
进一步的,所述利用数据集预测待预测点的逐日气温包括下式:
H=αf1(X)+βf2(X)+γf3(X)+δf4(X)
式中,H为待预测点的逐日气温,X为数据集,α、β、γ、δ均为权重系数,f1(X)是支持向量机回归函数,f2(X)是K最近邻回归函数,f3(X)是多元线性回归函数,f4(X)是Xgboost算法函数。
另一方面,本发明提供一种逐日气温的预测装置,包括:
获取模块一,用于获取待预测点的地理坐标;
获取模块二,用于获取空间网格中各格点的环境数据;
预处理模块,用于预处理获取的环境数据;
辅助数据生成模块,用于利用预处理后的环境数据和待预测点的地理坐标计算辅助数据;
预测模块,将预处理后的环境数据和辅助数据写入数据集,并利用数据集预测待预测点的逐日气温。
另一方面,本发明提供一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行上述方法。
另一方面,本发明提供一种计算设备,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述方法的指令。
与现有技术相比,本发明所达到的有益效果:
本发明利用预处理后的环境数据和待预测点的气象环境辅助数据,利用预处理后的环境数据和辅助数据预测待预测点的逐日气温,本发明的步骤简洁,易于实现。
本发明的方法,利用该方法可根据环境数据和卫星遥感数据推算任意位置的逐日气温,无需依赖气象站或其他数据,且该方法具有较高的准确性和稳定性,从而提高了气温预测的应用范围和效果。
附图说明
图1所示为本发明逐日气温的预测方法的一种实施例流程图;
图2所示为本发明实施例4获得的1990年1月1日我国气温空间分布图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
实施例1
本实施例详细介绍了一种逐日气温的预测方法。
本实施例的逐日气温的预测方法包括以下步骤:
S1获取待预测点的地理坐标;
S2获取空间网格中各格点的环境数据;
S3预处理获取的环境数据;
S4利用预处理后的环境数据和待预测点的地理坐标计算辅助数据;
S5将预处理后的环境数据和辅助数据写入数据集,并利用数据集预测待预测点的逐日气温。
本发明利用预处理后的环境数据和待预测点的气象环境辅助数据,该辅助数据包括待预测点的海拔高度、地表温度、气温、植被覆盖等信息,这些信息对气温的变化有重要影响,然后,本发明利用预处理后的环境数据和辅助数据预测待预测点的逐日气温,本发明的步骤简洁,易于实现。
本发明的方法,利用该方法可根据环境数据和卫星遥感数据推算任意位置的逐日气温,无需依赖气象站或其他数据,且该方法具有较高的准确性和稳定性,从而提高了气温预测的应用范围和效果。
实施例2
在实施例1的基础上,本实施例详细介绍了一种逐日气温的预测方法。
S1获取待预测点的地理坐标。
应用时,地理坐标的坐标系为EPSG_4326。EPSG4326是基于WGS84椭球的经纬度坐标系,即大地坐标系。
S2获取空间网格中各格点的环境数据。
应用时,空间网格的地理南、北、东和西边界分别为北纬3°15′、北纬54°31′、东经74°和东经133°。并且,空间网格的分辨率为5000米。
本实施例以中国陆地边界向四周扩展1地理度的地理位置为空间网格的地理边界。
实际应用时,空间网格中各格点的位置编号地理坐标的关系,包括下式:
式中,i为第m个格点m(i,j)的经度方向的位置编号,j为第m个格点m(i,j)的纬度方向的位置编号,λ0为空间网格西边界的经度,φ0为空间网格南边界的纬度,λm为第m个格点的经度,φm为第m个格点的纬度,为向下取整,Z为空间网格的分辨率。
本实施例的各格点的经度方向的位置编号从西往东递增设置,各格点的纬度方向的位置编号从南往北递增设置。
S3预处理获取的环境数据。
环境数据包括推算时间段内的遥感瞬时地温、日总云量数据、日平均地温、日最高地温和日最低气温;海拔、坡度、坡向数据;气温空间相关数据。其中,地温数据通过极地轨道卫星获取,气温数据通过气象站观测获取。对于地温数据、植被指数,本领域技术人员能够使用近邻重采样方法进行非连续重采样。对于气温数据、含水量、总降水量,本领域技术人员能够使用双线性重采样方法进行连续重采样。
实际应用时,根据各类环境数据的时间分辨率确定各类环境数据对应的日平均值,具体包括下式:
式中Tm,avg为第m个格点的一类环境数据的日平均值,l为时次序号,且初始值为0,tm,l为第m个格点当日第l时次的一类环境数据,h为一类环境数据的时间分辨率,且h≤24。
S4利用预处理后的环境数据和待预测点的地理坐标计算辅助数据。
应用时,利用预处理后的环境数据计算辅助数据包括下式:
式中,Tempm为第m个格点的一类环境数据的辅助数据,M为空间网格中格点的总数,dm为第m个格点与待预测点的距离因子。
其中,第m个格点与待预测点的距离因子包括下式:
dm={dm,1,dm,2,dm,3,dm,4}
dm,1=D
dm,2=D2
dm,3=D3
Δλ=abs(λm-λ`)
Δφ=abs(φm-φ`)
式中,dm,1、dm,2、dm,3、dm,4均为第m个格点与待预测点的距离因子的参数,D为曲面距离,λm为第m个格点的经度,λ`为待预测点的经度,φm为第m个格点的纬度,φ`为待预测点的纬度,Δλ是第m个格点与待预测点的经度差的绝对值,Δφ是第m个格点与待预测点的纬度差的绝对值。
本实施例的辅助数据为气温辅助数据。
S5,将预处理后的环境数据和辅助数据写入数据集,并利用数据集预测待预测点的逐日气温。
其中,数据集包括各格点的样本数据集,各样本数据集包括对应格点的预处理后的环境数据和辅助数据。
应用时,环境数据包括纬度、海拔、气压等信息。
实际应用时,利用下式预测待预测点的逐日气温:
H=S(X)
S(X)=αf1(X)+βf2(X)+γf3(X)+δf4(X)+∈f5(X)
式中,H为待预测点的逐日气温,X为数据集,S(X)为利用Stacking算法集成结果,表示一个线性组合的函数,[α,β,γ,δ,∈]是权重系数,f1(X)是支持向量机回归函数,f2(X)是K最近邻回归函数,f3(X)是多元线性回归函数,f4(X)是Xgboost算法函数,f5(X)是梯度提升树函数。
实施例3
在实施例1或2的基础上,本实施例详细介绍了一种逐日气温的预测方法。
本实施例基于机器学习模型,进行逐日气温的预测。
机器学习模型存在可调节的参数,这些参数不能从机器学习模型本身的学习过程获取,需要预先指定。为了实现对参数进行自动组合和筛选,得到最佳的参数组合。使用网格搜索法对影响各个机器学习模型最大的参数进行调优,使用5折交叉验证评估每组参数的效果。
具体步骤如下:
步骤1机器学习模型设置为:
f(X;θ)
其中,X为输入的特征值,即数据集,θ为输入机器学习模型的参数,即机器学习模型的权重系数。
步骤2设参数候选值集合为:
其中,S为参数候选值集合,为子集合的组数,/>为第/>组包含参数的不同取值的子集合。
步骤3构造参数候选值的笛卡尔积,形成参数组合的参数网格:
其中,为参数网格,使用k折交叉验证评估机器学习模型的性能指标,数据集按照类别比例分为/>份,每次用/>份训练,1份测试,循环直至每份数据都测试过。本实施例中/>设为5,重复次数设为3。
其中,为将数据集分成的总份数,θ为第/>次交叉验证的参数,/>为第/>次交叉验证时使用θ参数的性能指标数值。
步骤4按照预定的顺序,从给定的取值区间中搜索最优的参数值,再对下一个影响较大的参数进行同样的操作,直到所有参数都调优完毕。最后将最佳的参数组合作为分类器需要优化的输入,输出为5折交叉验证的机器学习模型的参数平均值,并令参数平均值作为机器学习模型的参数。公式如下:
步骤5使用5折交叉验证评估每组参数的效果,数据集为:
X={(x1,y1),(x2,y2),...}
其中,每个样本包含输入特征和输出标签。
步骤6将数据集按照类别比例分为份,使得每一份数据的类别分布与整个数据集相同,记为:
其中,为5。
步骤7对于每一次交叉验证,从份数据中随机选择一份作为测试集,记为Xtest。剩余的/>份数据作为训练集,记为Xtrain,并且存在如下关系:
Xtrain=X-Xtest
步骤8训练集训练机器学习模型,用测试集测试机器学习模型计算性能指标,记为:
θ=f(Xtest;θ)
其中,f(·)为为评估函数指标,包括均方根误差、相对误差、回归决定系数。
步骤9将数据集按照类别比例分为份,每次用/>份训练,1份测试,循环直至每份数据都测试过。
步骤10,重复步骤9中的过程次,使得每一份数据都被用作测试集一次。本实施例中/>设为5,重复次数设为3。
实施例4
在实施例3的基础上,本实施例详细介绍了机器学习模型的训练方法。
本实施例的环境数据集包括了目标地点的历史气温数据和其他相关的环境因素数据。
第一步,将数据集划分训练集和测试集。训练集和测试集的划分可以采用随机抽样或者按时间顺序划分等方法。
第二步,使用五种不同的预测算法作为第一层的基学习器,分别对训练集和测试集进行预测。这五种预测算法具有较高的学习能力和较大的结构差异,能够从不同的角度捕捉数据中的特征和规律。
五种预测算法分别是:
支持向量机(SVM):一种基于间隔最大化的分类学习方法,通过寻找一个超平面来划分不同类别的数据,并使用核函数和软间隔等技术来处理非线性和噪声数据。
多元线性函数(LinearRegression):一种基于最小二乘法的回归学习方法,通过拟合一个线性方程来描述多个自变量和因变量之间的关系,并使用正则化和交叉验证等技术来防止过拟合和选择最优模型。
极限梯度提升树(XGBoost):一种基于多个提升树的集成学习方法,通过逐步添加新的提升树来修正之前树的错误,并使用正则化项来防止过拟合,并使用并行计算和缓存优化等技术来提高训练效率和准确性。
最近邻算法(KNN):一种基于距离度量的预测算法,通过计算待预测样本与训练集中所有样本的距离,选择最近的K个样本,根据它们的标签或输出值来决定待预测样本的预测结果。
梯度提升树(GBT):一种基于多个决策树的集成机器学习技术,通过迭代地添加新的决策树来拟合前一棵树的残差,并使用损失函数和学习率来调节拟合程度和学习速度,并采用剪枝和随机化等技术来降低方差和提高鲁棒性。
第三步,将训练集的预测结果与初始训练集合并,作为第二层元学习器的训练集;将测试集的预测结果与初始测试集合并,作为第二层元学习器的测试集。这样,第二层元学习器的输入特征就是第一层基学习器的输出特征,即每个样本对应了五个预测值。
第四步,使用线性回归模型作为第二层元学习器,对第一层基学习器的输出进行整合和最终预测。线性回归模型是一种简单而有效的机器学习模型,它假设输出值与输入特征之间存在线性关系,并通过最小二乘法来估计机器学习模型的参数。通过线性回归模型,可以对第一层基学习器的预测值进行加权组合,从而得到更准确的预测结果。
本发明逐日气温的预测方法,该方法通过根据地温数据和气温数据,采用多个不同的预测算法,分别得到各自的预测结果,然后将各个预测算法的预测结果作为输入,采用集成学习方法,得到最终的预测结果。
本发明能够有效地利用多个不同的预测算法的优势,通过两层的学习过程,提高了预测性能,并且利用地温数据和气温数据即可实现各地的逐日气温的预测,时间适用范围广,可操作性强。
实施例5
在实施例1-3任一实施例的基础上,本实施例详细介绍了一种逐日气温的预测方法。
步骤1获取空间网格中各格点的环境数据和地理坐标。
步骤2预处理获取的环境数据。
根据“数据的距平值大于三倍标准差”原则,去除环境数据中的异常值,即任一格点的环境数据与对应的平均值的差大于三倍对应的标准差时,所述环境数据为异常值,并删除异常值对应的时序的各格点的环境数据。
式中,σ是标准差,μ是平均值,xk是tm,l,k为第m个格点在第k天的第l时序的一类环境数据,N为第m个格点一年内有一类环境数据的天数。
对于气温数据,删除异常值对应的时序的各格点的气温数据,由于气温数据集已经提供足够的样本,因此不填补新的数据,而是填充0。
对于地温数据,直接删除异常值对应的时序的各格点的地温数据,将删除异常值后的地温数据,按照时间先后拼接组合,组成三维数据源,数据矩阵的长、宽和高分别代表数据的时次、经度方向格点数量和纬度方向格点数量,每个格分辨率为0.5°,即经度差为0.5°,纬度差为0.5°,具体如下:
G表示三维数据源,表示时间维度,/>表示空间维度,/>表示第/>个时间点的第个格点的地温数据。
步骤3使用经验正交函数数据插值算法(Data Interpolating EmpiricalOrthogonal Functions,DINEOF)填补地温数据中删除的异常值,即使用经验正交函数对上述数据G进行填补。
使用经验正交函数数据插值算法填补地温数据中删除的异常值。实现方式是通过将数据矩阵分解为k个空间分布模式和时间系数的乘积之和,提取了数据中的主要模式,舍弃次要的模式。每个空间模式都对应一个时间系数,表示该模态随时间的变化情况。具体包括下式:
式中:LSTij为一个格点的地温数据,Un是第个地温空间分布状态,/>为第/>个地温时间状态,/>是模态的序号,共k个,∑是求和计算符号。空间和时间模态表示数据中每个位置的对总体数据分布模式的贡献,表示了数据在空间上的分布特征。
由于k是EOF分解的参数,本实施例在计算过程选择一个合适的阈值,找到最小的k,使得模态奇异值的累积贡献值比例大于等于该阈值。
步骤4利用预处理的环境数据和地理坐标计算辅助数据;
步骤5将预处理后的环境数据和辅助数据写入数据集,并利用数据集预测待预测点的逐日气温。
步骤5.1:
地理数据与气象数据矩阵格式与地温数据相同。地理数据来自于包括海拔高度、坡度和坡向。气象数据来自于ERA5再分析数据集,包括总云量、地表日平均温度、地表日最低温度和地表日最高温度。环境数据包括来自于气象站观测数据集的气象实测数据,为表格形式存储。将格点数据提取转换为表格数据。根据地理数据、环境数据和气象数据格点矩阵中每个格点的经纬度坐标,找到与每个气象站点最近的格点。
在地理数据、环境数据和气象数据格点矩阵中,提取与每个气象站点最近的格点上的对应数值。在提取得到的数据列的最右侧添加日最高温度实测值、日平均温度实测值和日最低温度实测值。得到如下行矩阵数据:
其中,a1至分别为地理数据、环境数据和气象数据,/>至/>分别为日最高温度实测值、日平均温度实测值和日最低温度实测值;
在所有气象站上提取数据,并将行矩阵纵向拼接,得到如下矩阵。
其中,A为用于训练和验证的数据集。
步骤5.2:
使用均方根误差、相对误差、回归决定系数作为Stacking算法集成结果的推算能力,并获得最优的逐日预测算法。
实际应用时,分别采用多个不同的预测算法,如线性回归、支持向量机、神经网络等,得到各自的预测结果;根据均方根误差、相对误差、回归决定系数等质量指标,评价各个预测算法和集成学习方法的推算能力,并选择最优的逐日预测算法。选择方法是综合优选所有指标均较好的算法。
将各个预测算法的预测结果作为输入,采用集成学习方法,包括随机森林、梯度提升树,进行集成预测与参数微调,得到最终的预测结果;
对最终的预测结果进行质量检验,使用均方根误差、相对误差、回归决定系数等质量指标,评价整体Stacking算法集成结果的推算能力,并与预留的检验数据集比较,确定是否需要调整或优化Stacking算法集成结果的参数。所述质量指标是用来衡量预测结果与实际数据之间的偏差和拟合程度的数值,具体包括下式:
式中,MAE为预测的第m个格点的第n天的逐日气温与第m个格点的第n天的真实日气温之间的平均绝对误差,RMSE为预测的第m个格点的第n天的逐日气温与第m个格点的第n天的真实日气温之间的均方根误差,R2为回归决定系数,Pm,n为预测的第m个格点的第n天的逐日气温,Om,n为第m个格点的第n天的真实日气温,Pm是预测的第m个格点的逐日气温,Om是第m个格点的真实日气温,n是第n天,M为格点的数量,N为第m个格点一年内有一类环境数据的天数。
步骤5.3:
选择预测误差最小的气温推算算法,如下式:
Pm=Si″′(Om)
式中,Si″′()为是第i″′种气温推算算法,根据实际气温Om来计算预测气温Pm。选择合适的气温推算算法的标准是找到一个Si(Om),使得预测误差的均方根最小。
使用不同的算法参数组合来实现不同备选的Si″′(),每一种参数组合的Si″′()为不同的气温推算算法,被集成的算法包括支持向量机、多元线性回归、极限梯度提升树、最近邻算法、梯度提升树,如下式:
式中,I()是一个指示函数,代表集成的算法的权重,w″′和b″′是支持向量机(SVM)的模型参数,φ″′是核函数,它可以将原始数据映射到一个高维空间,β″′j和α″′是多元线性回归(LinearRegression)的模型参数,xj是自变量,p″′是自变量的个数,ft″′是极限梯度提升树(XGBoost)的第t″′棵提升树,T″′是提升树或决策树的个数,yk″′是最近邻算法(KNN)的第k″′个最近邻样本的输出值,K″′是最近邻的个数,ht″′是梯度提升树(GBT)的第t″′棵决策树。
步骤5.4:
使用最佳气温推算算法推算气温,得到最终的预测结果矩阵其维度为以下是/>时次的预测结果;
式中,为各格点的在/>时次的预测气温的集合,/>表示时间维度,Pij为各格点的在/>时次的预测气温。
实施例6
在实施例1-5任一实施例的基础上,本实施例详细介绍了一种逐日气温的预测方法。
本实施例获取的环境数据中的地温数据是利用1990年AVHRR平台观测的遥感地温数据,具体包括下式:
式中,LST为各格点地温数据的集合。
应用时,环境数据还包括总云量、气温数据和降水量等。其中气温数据包括气象站观测的日平均气温、日最高气温和日最低气温数据。
预测过程中,将环境数据输入至训练完毕的Stacking算法集成结果,具体如下:
设总云量为C=C1,C2,...,Ci;设降水量为P=P1,P2,...,Pi;设日平均气温为Tmax=Tmax1,Tmax2,...,Tmaxi,设日最低气温为E=[LST,C,P,Tavg,Tmax,Tmin],将矩阵E,输入至训练完毕的Stacking算法集成结果,得到预测的未来气温。本实施例预测了1990年1月1日我国气温空间分布,参考图2。
实施例7
本实施例介绍一种逐日气温的预测装置,其特征在于,包括:
获取模块一,用于获取待预测点的地理坐标;
获取模块二,用于获取空间网格中各格点的环境数据;
预处理模块,用于预处理获取的环境数据;
辅助数据生成模块,用于利用预处理后的环境数据和待预测点的地理坐标计算辅助数据;
预测模块,将预处理后的环境数据和辅助数据写入数据集,并利用数据集预测待预测点的逐日气温。
上述功能模块的具体功能实现,参考实施例1-3记载的方法。
实施例8
本实施例介绍一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行实施例1-3任一实施例中记载的方法。
实施例9
本实施例介绍一种计算设备,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行实施例1-3任一实施例中记载的方法的指令。
本发明利用遥感技术获取了1980年代到2000年代全国范围内高时空分辨率的地温数据,并结合其他环境数据,构建了包含站点位置处的地温和气温数据的数据集,然后将数据集输入到机器学习模型中进行训练,得到了能够根据地温和环境变量推算气温数据的机器学习模型,将训练好的机器学习模型应用于数据集,获取了大范围一致的网格气温数据,为1980年代到2000年代遥感气温推算提供了一种新的方法。本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (10)
1.一种逐日气温的预测方法,其特征在于,包括以下步骤:
获取待预测点的地理坐标;
获取空间网格中各格点的环境数据;
预处理获取的环境数据;
利用预处理后的环境数据和待预测点的地理坐标计算辅助数据;
将预处理后的环境数据和辅助数据写入数据集,并利用数据集预测待预测点的逐日气温。
2.根据权利要求1所述的逐日气温的预测方法,其特征在于,所述空间网格的地理南、北、东和西边界分别为北纬3°15′、北纬54°31′、东经74°和东经133°。
3.根据权利要求1所述的逐日气温的预测方法,其特征在于,所述空间网格中各格点的位置编号地理坐标的关系,包括下式:
式中,i为第m个格点m(i,j)的经度方向的位置编号,j为第m个格点m(i,j)的纬度方向的位置编号,λ0为空间网格西边界的经度,φ0为空间网格南边界的纬度,λm为第m个格点的经度,φm为第m个格点的纬度,为向下取整,Z为空间网格的分辨率。
4.根据权利要求1所述的逐日气温的预测方法,其特征在于,所述预处理环境数据包括:
所述环境数据包括多类环境数据,各类环境数据的时间分辨率不同;
根据各类环境数据的时间分辨率确定各类环境数据的日平均值,具体包括下式:
式中Tm,avg为第m个格点的一类环境数据的日平均值,l为时次序号,且初始值为0,tm,l为第m个格点当日第l时次的一类环境数据,h为一类环境数据的时间分辨率,且h≤24。
5.根据权利要求1所述的逐日气温的预测方法,其特征在于,所述利用预处理后的环境数据和待预测点的地理坐标计算辅助数据包括:
式中,Tempm为第m个格点的一类环境数据的辅助数据,M为空间网格中格点的总数,dm为第m个格点与待预测点的距离因子。
6.根据权利要求5所述的逐日气温的预测方法,其特征在于,所述第m个格点与待预测点的距离因子包括下式:
dm={dm,1,dm,2,dm,3,dm,4}
dm,1=D
dm,2=D2
dm,3=D3
Δλ=abs(λm-λ`)
Δφ=abs(φm-φ`)
式中,dm,1、dm,2、dm,3、dm,4,均为第m个格点与待预测点的距离因子的参数,D为曲面距离,λm为第m个格点的经度,λ`为待预测点的经度,φm为第m个格点的纬度,φ`为待预测点的纬度,Δλ是第m个格点与待预测点的经度差的绝对值,Δφ是第m个格点与待预测点的纬度差的绝对值。
7.根据权利要求1所述的逐日气温的预测方法,其特征在于,所述利用数据集预测待预测点的逐日气温包括下式:
H=αf1(X)+βf2(X)+γf3(X)+δf4(X)
式中,H为待预测点的逐日气温,X为数据集,α、β、γ、δ均为权重系数,f1(X)是支持向量机回归函数,f2(X)是K最近邻回归函数,f3(X)是多元线性回归函数,f4(X)是Xgboost算法函数。
8.一种逐日气温的预测装置,其特征在于,包括:
获取模块一,用于获取待预测点的地理坐标;
获取模块二,用于获取空间网格中各格点的环境数据;
预处理模块,用于预处理获取的环境数据;
辅助数据生成模块,用于利用预处理后的环境数据和待预测点的地理坐标计算辅助数据;
预测模块,将预处理后的环境数据和辅助数据写入数据集,并利用数据集预测待预测点的逐日气温。
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至7所述的方法中的任一方法。
10.一种计算设备,其特征在于,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至7所述的方法中的任一方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311030304.8A CN117272182B (zh) | 2023-08-16 | 2023-08-16 | 一种逐日气温的预测方法、装置、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311030304.8A CN117272182B (zh) | 2023-08-16 | 2023-08-16 | 一种逐日气温的预测方法、装置、介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117272182A true CN117272182A (zh) | 2023-12-22 |
CN117272182B CN117272182B (zh) | 2024-03-15 |
Family
ID=89211218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311030304.8A Active CN117272182B (zh) | 2023-08-16 | 2023-08-16 | 一种逐日气温的预测方法、装置、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117272182B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019224347A1 (en) * | 2018-05-25 | 2019-11-28 | Basf Agro Trademarks Gmbh | Training a machine learning algorithm and predicting a value for a weather data variable, especially at a field or sub-field level |
CN114019579A (zh) * | 2021-08-24 | 2022-02-08 | 中国农业科学院农业资源与农业区划研究所 | 高时空分辨率近地表空气温度重构方法、系统、设备 |
CN115526413A (zh) * | 2022-10-12 | 2022-12-27 | 中国气象科学研究院 | 一种基于全连接神经网络日最高气温的预报方法 |
CN116245227A (zh) * | 2023-02-02 | 2023-06-09 | 国家气候中心 | 逐日气象干旱预测方法、装置、存储介质和设备 |
-
2023
- 2023-08-16 CN CN202311030304.8A patent/CN117272182B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019224347A1 (en) * | 2018-05-25 | 2019-11-28 | Basf Agro Trademarks Gmbh | Training a machine learning algorithm and predicting a value for a weather data variable, especially at a field or sub-field level |
CN114019579A (zh) * | 2021-08-24 | 2022-02-08 | 中国农业科学院农业资源与农业区划研究所 | 高时空分辨率近地表空气温度重构方法、系统、设备 |
CN115526413A (zh) * | 2022-10-12 | 2022-12-27 | 中国气象科学研究院 | 一种基于全连接神经网络日最高气温的预报方法 |
CN116245227A (zh) * | 2023-02-02 | 2023-06-09 | 国家气候中心 | 逐日气象干旱预测方法、装置、存储介质和设备 |
Non-Patent Citations (1)
Title |
---|
刘焕莉;范增禄;韩明稚;田国强;: "基于ANUSPLIN的京津冀区域逐日气温格点数据集建立方法研究", 海洋气象学报, no. 03, 15 August 2020 (2020-08-15), pages 111 - 120 * |
Also Published As
Publication number | Publication date |
---|---|
CN117272182B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kaba et al. | Estimation of daily global solar radiation using deep learning model | |
CN107688906B (zh) | 多方法融合的输电线路气象要素降尺度分析系统及方法 | |
Surabuddin Mondal et al. | Modeling of spatio-temporal dynamics of land use and land cover in a part of Brahmaputra River basin using Geoinformatic techniques | |
Lemos et al. | A spatio-temporal model for mean, anomaly, and trend fields of North Atlantic sea surface temperature | |
CN113204061B (zh) | 一种构建格点风速订正模型的方法及装置 | |
CN114740180A (zh) | 基于多源遥感数据的土壤有机碳估算方法及装置 | |
CN112699959B (zh) | 基于能量泛函模型的多源多尺度降水数据融合方法和装置 | |
US20220012820A1 (en) | Forest stand target attribute prediction | |
CN114091764A (zh) | 气象预报要素订正方法、装置、计算机设备和存储介质 | |
EP3794386B1 (en) | Determination of location-specific weather information for agronomic decision support | |
CN115630567A (zh) | 一种海岸带土壤有机碳储量模拟及预测方法 | |
Tesfamichael et al. | Investigating the impact of discrete-return lidar point density on estimations of mean and dominant plot-level tree height in Eucalyptus grandis plantations | |
Ramírez-Cuesta et al. | Assessing reference evapotranspiration at regional scale based on remote sensing, weather forecast and GIS tools | |
CN116341841B (zh) | 径流预报误差校正方法、装置、设备、介质和程序产品 | |
CN117592005B (zh) | Pm2.5浓度卫星遥感估算方法、装置、设备及介质 | |
CN114595876A (zh) | 一种区域风场预测模型生成方法和装置、电子设备 | |
CN116609859A (zh) | 一种气象灾害高分辨率区域模式预报系统及方法 | |
CN117589646B (zh) | 大气细颗粒物浓度监测方法、装置、设备及介质 | |
Liu et al. | GNSS-derived PWV and meteorological data for short-term rainfall forecast based on support vector machine | |
Liu et al. | Sea level anomaly intelligent inversion model based on LSTM-RBF network | |
Bi et al. | A deep learning-based model for tropospheric wet delay prediction based on multi-layer 1D convolution neural network | |
CN117493476A (zh) | 一种融合物理机制和人工智能的径流回溯模拟方法及系统 | |
Thacker et al. | Assimilating XBT data into HYCOM | |
CN117272182B (zh) | 一种逐日气温的预测方法、装置、介质及设备 | |
CN117035174A (zh) | 一种木麻黄单木地上生物量的估算方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |