CN116186486B - 基于广义集成学习的卫星资料反演温度廓线方法 - Google Patents

基于广义集成学习的卫星资料反演温度廓线方法 Download PDF

Info

Publication number
CN116186486B
CN116186486B CN202211683319.XA CN202211683319A CN116186486B CN 116186486 B CN116186486 B CN 116186486B CN 202211683319 A CN202211683319 A CN 202211683319A CN 116186486 B CN116186486 B CN 116186486B
Authority
CN
China
Prior art keywords
data
temperature profile
model
machine learning
inversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211683319.XA
Other languages
English (en)
Other versions
CN116186486A (zh
Inventor
王根
袁松
韩威
叶松
邱学兴
邓淑梅
王静
方愿捷
谢丰
范传宇
朱爱国
蒋芸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
An Huishengqixiangtai
Chaohu University
Original Assignee
An Huishengqixiangtai
Chaohu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by An Huishengqixiangtai, Chaohu University filed Critical An Huishengqixiangtai
Priority to CN202211683319.XA priority Critical patent/CN116186486B/zh
Publication of CN116186486A publication Critical patent/CN116186486A/zh
Application granted granted Critical
Publication of CN116186486B publication Critical patent/CN116186486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Radiation Pyrometers (AREA)
  • Image Processing (AREA)

Abstract

本发明公开一种基于广义集成学习的卫星资料反演温度廓线方法,包括如下步骤:S1、资料预处理;S2、构建机器学习样本;S3、构建广义集成学习的卫星资料反演温度廓线模型。本发明结合静止卫星高光谱红外亮温资料的高时间和高垂直分辨率特点,提出了广义集成学习方法。在优化调整3个基础机器学习模型(Random Forest、XGBoost和LightGBM)超参数基础上,动态最优加权将其集成,也可以根据不同问题选择别的模型或者规定模型的总个数。本发明采用广义集成学习优化每个基础机器学习模型的最佳权重,以获取更多关于数据底层结构的信息,从而提高反演温度廓线方法的反演精度。本发明具有一定精度和质量,对于大气科学、生态环境、全球变暖和边界层等领域的研究具有一定意义。

Description

基于广义集成学习的卫星资料反演温度廓线方法
技术领域
本发明涉及大气科学技术领域,具体是涉及到大气热力状态研究中的重要参数温度廓线的反演方法。
背景技术
温度廓线(temperature profile),是描述大气中的温度随高度分布的曲线。在大气监测和天气预报中具有重要作用。欧洲中期天气预报中心(European Centre forMedium-Range Weather Forecasts,简称ECMWF)官方网站提供的ERA5数据中包括了温度廓线数据。有关温度廓线及时的信息对于预测天气至关重要。大气温度廓线资料不仅在大气监测和天气预报(如,高影响天气中的台风、强对流等天气现象)中较为重要,还被应用于生态环境、全球变暖和边界层等研究项目中。因此高精度和高频次的温度廓线应用较为广泛,需求也较大。
温度廓线可以通过卫星红外高光谱资料反演获得,卫星红外高光谱资料反演温度廓线包括:极轨卫星携带的高光谱探测器和静止卫星携带的高光谱探测器。极轨卫星高光谱资料的主要缺陷是资料的时间分辨率较低,即每天只能两次探测到同一个视场点(也称为观测点或像素点)。与极轨卫星相比,静止卫星具有高时间分辨率的优点,能实现大范围、快速和长期连续大气观测。静止气象卫星是能够从天气尺度和中小尺度上同步观测各种云系演变的空间平台,可以弥补无雷达地区资料的不足,为气象观测提供丰富的信息。
高精度和高频次的温度廓线很难直接获取,但可以通过静止卫星携带的高光谱探测器间接反演。由于静止卫星具有高时间分辨率的优点,能实现大范围、快速和长期连续大气观测,使得静止卫星高光谱资料具有较高的时间和垂直(或光谱)分辨率等优势,对高影响天气监测和预警至关重要,故静止卫星高光谱红外通道亮温资料反演温度廓线成为目前研究的热点。
如,中国新一代静止气象风云(Feng-Yun,简称FY)四号A星(FY-4A)携带的干涉式大气垂直探测仪(Geostationary Interferometric Infrared Sounder,简称GIIRS)共有1650个通道。FY-4A/GIIRS是地球静止气象卫星携带的第一个高光谱红外大气垂直探测仪。GIIRS在轨空间分辨率为16KM。GIIRS每个探测器有32×4个传感器元件,构成32×4的像素阵列。GIIRS的1650个通道覆盖700~2250cm-1光谱区域,长波和中波通道各689个和961个。与其他类似的仪器相比,FY-4A/GIIRS具有较高的时间分辨率。在短时间内,GIIRS可以提供同一区域的大量观测数据,非常适合训练机器学习模型。通过GIIRS反演得到的大气温度廓线可以为天气预报提供大范围、连续、快速的遥感信息。此外,风云四号A星多通道扫描成像辐射计(Advanced Geosynchronous Radiation Imager,简称AGRI)提供了4KM分辨率的全圆盘云检测产品(Cloud Mask,简称CLM)。
基于国内外研究进展可知,国内外学者开展了极轨或静止卫星高光谱红外探测器资料反演温度廓线的研究工作。如,EOS/AIRS(Earth Observing System(EOS)/Atmospheric Infrared Sounder,AIRS)、FY-3D/HIRAS(Hyperspectral InfraredAtmospheric Sounder,HIRAS)、FY-4A/GIIRS等,其方法主要有:统计回归反演、物理反演、一维变分法、机器学习方法和相关方法的变体。
虽然上述方法在极轨或静止卫星红外高光谱资料反演温度廓线领域取得了一些成功,但仍存在一些不足。统计回归反演方法很难描述卫星通道观测亮温和大气变量之间的非线性关系。物理反演方法或一维变分需要较为复杂的物理模型或辐射传输模式计算,在反演时效性方面比统计回归法耗时。近年来,机器学习算法在卫星资料反演大气廓线中得到了越来越多的应用。基于机器学习方法(如,随机森林等)可以很好地描述卫星通道观测亮温和大气变量之间的非线性关系,也无需考虑物理模型的复杂关系。但大多数研究工作只采用了较为单一的机器学习模型反演大气温度廓线。由于受到待解决问题的特征空间、模型大小和超参数选择等各种因素的影响,可能会导致采用单一模型得到精度不高的反演结果。另外,有证据表明,单个模型可以通过模型集成(即,模型组合以减少偏差、方差或两者)而使得性能表现更好。通过集成多个基础机器学习模型,可以获取更多关于数据底层结构的信息,以挖掘不同基础机器学习模型在估测或预测中表现出的“多样性”结果。
另外,大多数研究工作在应用机器学习模型时仅作为黑匣子处理,使用者只提供输入量和输出量,其关注的主要工作量为特征工程(即特征变量)的构建,而不过多考虑各个变量的重要性。即使研究变量的重要性基本采用其(如,随机森林)自带的重要性方法进行特征变量重要性的度量。但在模型的自变量具有不同测量尺度或不同类别时,随机森林等模型默认的变量重要性度量可能不可靠。
发明内容
发明目的:本发明目的在于针对现有技术的不足,基于不同基础机器学习模型在估测或预测中表现出的“多样性”结果,结合基础机器学习模型自身的特点和优势,提出了广义集成学习的卫星资料反演温度廓线方法,以获取更多关于数据底层结构的信息,从而提高反演精度。
技术方案:本发明所述基于广义集成学习的卫星资料反演温度廓线方法,包括如下步骤:
S1、资料预处理:收集静止卫星GIIRS的中波通道亮温数据,以及静止卫星的AGRI的CLM;对收集的数据进行预处理,清洗数据,再通过插值方法将CLM匹配至GIIRS的视场点;
S2、构建机器学习样本:以处理后的GIIRS中波通道亮温数据作为基础机器学习模型和集成模型的输入数据,建立温度廓线反演模型训练样本,总样本的80%数据集用于模型的训练和超参数优化,其余的20%用于独立测试和验证;
S3、构建广义集成学习的卫星资料反演温度廓线模型:
以GIIRS中波通道亮温数据作为模型自变量,以ERA5温度廓线作为模型因变量;
广义集成学习极小化目标函数定义如下:
其中,wj是与基础机器学习模型j相对应的集成权重;n是实例总数;xi是待反
演值i的实际值;是基础机器学习模型j对待反演值i的估测;
以构建的集成学习的卫星资料反演温度廓线模型形成温度廓线反演产品。
本发明进一步优选地技术方案为,步骤S1中,对静止卫星GIIRS的中波通道亮温数据预处理的方式为采用切趾函数对GIIRS中波通道亮温数据处理。
作为优选地,步骤S1中,在收集资料时,同时收集ERA5的温度廓线数据,作为模型的输出量,并且ERA5的温度廓线数据也用作验证反演温度廓线的准确性。
作为优选地,步骤S2在构建机器学习样本时,采用“最邻近”法将GIIRS各通道亮温等信息插到ERA5视场点,将GIIRS通道亮温和ERA5温度数据在时间和空间上同步,步骤S3中GIIRS的中波通道亮温作为基础机器学习模型和集成模型的模型自变量,ERA5温度廓线数据作为基础机器学习模型和集成模型的模型因变量。
作为优选地,步骤S2中还包括对GIIRS中波通道亮温数据进行变量特征重要性分析,对于不同的基础机器学习模型筛选不同的GIIRS中波通道亮温数据作为模型的变量特征,对广义集成学习则采用不同的基础机器学习模型筛选的变量特征交集。
作为优选地,步骤S2采用二步法进行特征变量的选择,第一步,建立GIIRS通道黑名单;第二步,在剔除黑名单的剩余通道中,采用置换重要性方法选择特征变量,置换重要性方法计算输入的自变量对基础机器学习模型的特征重要程度。
作为优选地,步骤S2和S3中,基础机器学习模型为Random Forest、XGBoost和LightGBM。
作为优选地,步骤S3构建的广义集成学习的卫星资料反演温度廓线模型中基础机器学习模型首先需要进行超参数调优。
作为优选地,Random Forest需要调优的超参数:树的数量n_estimators和树的最大深度max_depth;
XGBoost需要调优的超参数:树的数量n_estimators、树的最大深度max_depth、树的叶节点上进一步分区所需的最小损失减少量gamma和构造每棵树时列的子采样率learning_rate;
LightGBM需要调优的超参数:学习率learning_rate、每棵树的最多叶子数num_leaves和树的数量n_estimators。
作为优选地,基础机器学习模型基于均方误差对需要调优的超参数进行调优,其他参数使用默认值。
有益效果:(1)本发明结合静止卫星高光谱红外亮温资料的高时间和高垂直(或高光谱)分辨率特点,提出了广义集成学习方法,集成基础机器学习模型,也可以根据不同问题选择别的模型或者规定模型的总个数。本发明采用广义集成学习优化每个基础机器学习模型的最佳权重,以获取更多关于数据底层结构的信息,从而提高反演温度廓线方法的反演精度。
(2)本发明对数据进行预处理,以提高数据的质量,采用切趾函数处理GIIRS观测资料,通过插值方法将AGRI的CLM匹配至GIIRS视场点,以判断GIIRS视场点云量信息;通过插值将GIIRS和ERA5温度廓线数据在时间和空间上同步。为不引入其它误差信息,在构建机器学习模型的样本方面,以ERA5温度廓线的37层为基准。为了保持资料的统一性,本发明也将探空温度廓线插值至ERA5温度廓线相对应的垂直气压层。
(3)本发明在构建温度廓线反演模型样本输入和输出资料基础上,为了验证本发明方法的可行性和评估该方法的反演精度,采用最直接的方法将需要反演时次的卫星红外资料温度廓线反演值与目标或标准参考值或“真值”(ERA5温度廓线或探空温度廓线)进行比较。本发明总样本数据集(GIIRS通道亮温作为输入量,ERA5温度廓线作为输出量)的80%的数据集用于模型的训练和超参数优化等,其余20%用于独立测试和验证。且探空温度廓线资料不作为机器学习模型的输出量,仅用于评估反演的精度。
(4)在特征变量选择中,很多机器学习模型在应用时仅作为黑匣子处理,使用者只提供输入量和输出量,其关注的主要工作量为特征工程(即特征变量)的构建,而不过多考虑各个变量的重要性。即使研究变量的重要性基本采用其自带的重要性方法进行特征变量重要性的度量。但在模型的自变量具有不同测量尺度或不同类别时,随机森林等模型默认的变量重要性度量可能不可靠。为了克服此问题,找到较为重要的输入变量特征,本发明使用置换特征重要性方法计算基础机器学习模型的特征变量重要程度。因为GIIRS中波有961个通道,通道较多,故采用基于二步法的特征选择法进行通道最优选择,分别为:第一步,建立GIIRS通道黑名单。第二步,在剔除黑名单的剩余通道中,采用置换重要性方法选择特征变量,将得到的通道组合或特征变量组合用于温度廓线反演。
(5)本发明在超参数优化基础上,充分利用基础机器学习模型(Random Forest、XGBoost和LightGBM)在估测或预测中表现出的“多样性”结果,广义集成学习动态最优加权集成多个基础机器学习模型。通过集成多个基础机器学习模型,可以获取更多关于数据底层结构的信息。广义集成学习法整体上提高了大气廓线反演的精度。3种基础机器学习模型中,XGBoost显示出最低的性能。LightGBM显示出最佳的性能,在不同气压层下集成权重最大。Random Forest显示出的性能在2者之间。
(6)本发明的卫星红外通道亮温反演温度廓线新方法,可以帮助我们更好地监测高影响天气发生前的大气热力状态。此外本发明具有较强的推广性,可推广至其他国家地区和其他同类型的卫星资料,也可以推广至卫星或雷达资料估测或反演降水。或反演其它变量(如CO2)等。本发明也为风云后续系列静止卫星(如FY-4B)定量化应用奠定方法基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可根据这些附图获得其他的附图。
图1为本发明反演温度廓线方法的逻辑关系框架及流程图;
图2为实施例中利奇马期间的GIIRS加密区覆盖范围图;
图3为实施例中GIIRS通道在基础机器学习模型中的重要性排序图;
图4为实施例中随机森林不同超参数组合下的温度廓线反演精度对比图;
图5为实施例中不同模型反演温度廓线的精度比较图;
图6为实施例中不同气压层下基础机器学习模型的集成权重分布图;
图7为实施例中不同模型与探空温度和ERA5温度廓线对比分析图。
具体实施方式
下面通过附图对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:本实施例以中国新一代静止气象风云(Feng-Yun,简称FY)四号A星(FY-4A)高光谱GIIRS资料作为反演温度廓线的数据基础,FY-4A/GIIRS亮温数据和FY-4A/AGRI云检测产品数据来自中国国家卫星气象中心。网站地址为:http://satellite.nsmc.org.cn/portalsite/default.aspx?currenttc ulture=en-US。以2019年登陆中国的台风“利奇马”为例,对本发明的反演温度廓线方法进一步详细说明。同时以欧洲中期天气预报中心(European Centre for Medium-Range Weather Forecasts,简称ECMWF)的ERA5温度廓线数据,作为模型的输出量。并且ERA5的温度廓线数据也用作验证反演方法的准确性。ERA5温度廓线数据来自ECMWF官方网站,网站地址为:https://apps.ecmwf.int/datasets/。来源于全国综合气象信息共享平台(China IntegratedMeteorological Information Service System,简称CIMISS)的无线电探空仪资料中的温度廓线数据也用作验证反演方法的准确性。
总之,FY-4A/GIIRS中波通道亮温(模型自变量)和ERA5温度廓线数据(模型因变量)被用作基础机器学习模型(Random Forest、XGBoost和LightGBM)和集成模型的输入和输出数据。在训练集和测试集反演的温度廓线精度评估中采用ERA5温度廓线数据(图4和图5)。而在独立样本测试中采用ERA5和探空温度廓线数据2种资料评估本发明方法精度(图7)。
图2给出了2019年利奇马台风期间的GIIRS加密区覆盖范围。背景为2019年8月10日00时GIIRS通道1029观测亮温分布。资料覆盖区域约为98.1°E-160.4°E,12.8°N-49.1°N。
本发明的实施例的主要目的是验证广义集成学习的优势和可行性,选用了利奇马2019年8月9日00时至2019年8月9日15时(世界时)的GIIRS晴空视场点资料,总样本为24159。此时间段为GIIRS加密数据的时间段,每30分钟进行区域的全覆盖(图2)。规定当GIIRS视场点的云量小于0.1时,则此视场点被标记为“绝对晴空视场点”,即本发明的晴空视场点。总样本的80%数据集用于模型的训练和超参数优化,其余的20%用于独立测试和验证。进一步将此部分得到的优化参数结果,用于反演2019年8月10日00时(世界时)的温度廓线,并将此时刻的反演结果与探空资料进行比较。
具体基于广义集成学习(Generalized Ensemble Learning,GEL)的卫星资料反演温度廓线方法,包括如下步骤:
S1、资料预处理:收集FY-4A/GIIRS的中波通道亮温数据、FY-4A/AGRI云检测产品CLM;采用切趾函数对GIIRS中波通道亮温数据预处理,再通过插值方法将CLM匹配至GIIRS的视场点,以判断GIIRS视场点云量信息;收集ERA5的温度廓线数据,用作广义集成学习模型输出量,并进一步用作验证广义集成学习的卫星资料反演温度廓线模型的准确性。
S2、构建机器学习样本:以处理后的GIIRS中波通道亮温数据作为基础机器学习模型和集成学习模型的输入数据(自变量),采用“最邻近”法将GIIRS各通道亮温等信息插到ERA5视场点,将GIIRS通道亮温和ERA5温度数据(因变量)在时间和空间上同步,建立温度廓线反演模型的样本集,总样本数为24159。总样本数据集的80%的数据集用于模型的训练和超参数优化,其余20%用于独立测试和验证。
S3、特征变量选择:因GIIRS通道较多,采用基于二步法的特征变量选择:第一步,建立GIIRS通道黑名单。第二步,在剔除黑名单的剩余通道中,采用置换重要性方法选择特征变量。
图3给出了基于利奇马个例期间的GIIRS数据得到的随机森林Random Forest前100个、XGBoost前37个(第38个及之后的值几乎为0)和LightGBM前25个的变量重要性排序。由图3可知,在此个例中,GIIRS中波通道亮温在不同的基础机器学习模型(Random Forest、XGBoost和LightGBM)中表现不同。此也可能证明了广义集成学习要求的“多样性”。在3个基础机器学习模型中GIIRS中波通道9和307的重要性分别排名第1和第2。
S4、构建广义集成学习的卫星资料反演温度廓线模型:
由卫星观测资料推导求解大气参数的这一过程称为反演,也称为数学反问题。为了描述数学反问题,假设在某视场点x为待反演的大气目标参数,本实施例中表示n维度的温度廓线,y为卫星探测器通道的观测亮温,则正向关系如下:
其中,F:x→y表示正向模型。表示观测误差。
进一步将(1)式近似改写为:
y≈F(x)(2)
假定F可逆,则简化的卫星资料反演大气廓线基本框架如下:
x≈F-1(y)(3)
在实际反演过程中,由于对F-1的参数化方法不同,反演方法也不同。主要分为3类:统计回归反演、物理反演及机器学习方法和相关方法的变体。本实施例中的F-1采用广义集成学习方法。
以GIIRS的中波通道亮温作为基础机器学习模型和广义集成学习模型的模型自变量,ERA5温度廓线数据作为基础机器学习模型和广义集成学习模型的模型因变量;基础机器学习模型为随机森林Random Forest、极端梯度提升XGBoost和LightGBM。对GIIRS中波通道亮温数据进行变量特征重要性分析,对于不同的基础机器学习模型筛选不同的GIIRS中波通道亮温数据作为模型的变量特征。而对于广义集成学习模型,则采用不同基础机器学习模型选取的变量特征交集。
在具体执行广义集成学习反演温度廓线之前,基础机器学习模型还应该进行各自的超参数调优。
以随机森林Random Forest为例,给出不同参数组合的温度均方根误差(RootMean Square Error,RMSE)分析。其它模型(XGBoost和LightGBM)可参考此方案。图4给出了随机森林不同参数组合下训练和测试数据集中反演得到的温度RMSE垂直分布图。单位为K。选取参数组合n_estimators(10、20、30和40)和max_depth(5、10、15和20)进行训练和测试。为了更好地展示不同参数组合的反演精度,图4仅给出了部分结果。
由图4可知,对于不同的n_estimators和max_depth组合,温度RMSE显示出基本相同的变化误差曲线。与其它超参数组合相比,n_estimators为40和max_depth为20组合下的温度廓线反演结果最优。在训练样本预测中不同气压层反演的温度RMSE均小于0.6K;在测试样本预测中不同气压层反演的温度RMSE均小于1.33K,且150hPa至875hPa气压层之间的温度RMSE均小于1K。
本发明借鉴随机森林参数优化方法,且考虑到时效性,并结合计算资源成本等,表1给出了本发明中基础机器学习模型(Random Forest、XGBoost、LightGBM)的参数组合。其中“-”标记无此参数或此参数不在本发明考虑的参数优化范围之内。基础机器学习其他的参数使用默认值。
表1本实施例中基础机器学习模型超参数最优或次优组合
Random Forest需要调优的超参数:树的数量n_estimators和树的最大深度max_depth;
XGBoost需要调优的超参数:树的数量n_estimators、树的最大深度max_depth、树的叶节点上进一步分区所需的最小损失减少量gamma和构造每棵树时列的子采样率learning_rate;
LightGBM需要调优的超参数:学习率learning_rate、每棵树的最多叶子数num_leaves和树的数量n_estimators。
使用调优后的模型所做的预测作为广义集成学习优化模型的输入,采用广义集成学习找到组合基础机器学习模型反演温度的最佳集成权重。广义集成学习极小化目标函数定义如下:
其中,wj是与基础机器学习模型j相对应的集成权重;n是实例总数;xi是待反演值i的实际值;是基础机器学习模型j对待反演值i的估测。
在基础机器学习模型超参数优化基础上,图5给出了基础机器学习模型与广义集成学习模型反演温度廓线的精度对比。由图5可知,3个基础机器学习模型均取得了较好的效果。LightGBM反演温度廓线效果最好,其次为随机森林(Random Forest,简称RF),最后是XGBoost。在训练样本集中,随机森林得到的不同气压层温度RMSE均小于0.632K,XGBoost得到的温度RMSE均小于0.506K,LightGBM得到的温度RMSE均小于0.270K,广义集成学习得到的温度RMSE均小于0.253K。在测试样本集中相关模型反演的温度RMSE垂直层的最大值分别为1.364、1.523、1.358、1.267K。主要是高层(1hPa、2hPa、3hPa、5hPa)和近地面层(950hPa、975hPa、1000hPa)反演的温度RMSE较大。另外除了在100hPa和125hPa的温度RMSE也略大外,其它垂直层反演的温度RMSE均小于1K。
图6给出了此试验中3个基础机器学习模型(Random Forest、XGBoost、LightGBM)在不同气压层(1,2,3,5,…,950,975,1000hPa)温度反演中广义集成学习模型的集成权重。
综合图5和图6可知,广义集成学习得到了最优的反演结果。由于在3个基础机器学习模型中LightGBM的反演精度最高,故其对广义集成学习模型的集成权重最大。其次是随机森林,最后是XGBoost。XGBoost在某些气压层对广义集成学习模型的集成权重为0。
S5、模型精度或效果验证评估:
为了验证本发明方法的可行性和评估该方法的反演精度,采用最直接的方法将需要反演时次的卫星红外资料温度廓线反演值与目标或标准参考值或“真值”(ERA5温度廓线或探空温度廓线)进行比较。
区别于图4和图5仅采用ERA5温度廓线数据验证反演的准确性,此处图7采用了ERA5温度廓线和探空温度廓线2种资料。此部分选取安徽及周边区域探空站点的温度廓线用于反演效果的验证。选取的时间为2019年8月10日00时(世界时)。图7进一步给出了此时刻的2个探空温度廓线(标记为“探空温度”)、ERA5温度廓线(标记为“ERA5-温度”)和不同模型(随机森林Random Forest、XGBoost、LightGBM、广义集成学习)反演的结果。探空站点地理信息分别为(纬度:34.07N,经度:111.07E)和(纬度:30.73N,经度:111.37E)。将前面图5得到的训练模型及参数优化结果用于此处,以2019年8月10日00时的独立样本验证本发明方法的反演精度。
使用皮尔逊相关系数(Correlation Coefficient,CC)和均方根误差(Root MeanSquare Error,RMSE)作为精度评估的标准。
CC公式定义如下:
(5)
RMSE公式定义如下:
其中,m是匹配的样本总数量。Sk是卫星资料反演得到的温度廓线。Rk表示真实温度廓线,即目标或标准参考值或“真值”。和/>分别表示其平均值。
由图7可知,整体上,不同模型反演的温度廓线和目标温度廓线(探空温度廓线、ERA5温度廓线)具有较好的一致性,在温度变化拐角处也拟合良好。此2个探空站点的4种模型反演的温度廓线与探空温度廓线和ERA5温度廓线的相关性CC均分别超过0.92和0.99。
表2给出了不同模型反演2个探空站点温度廓线的精度。温度RMSE是不同模型反演结果与ERA5温度的统计值。
表2本实施例中不同模型反演的垂直层温度RMSE(单位:K)
结合图7和表2可知,本实施例的广义集成学习方法反演温度廓线精度优于3个基础机器学习模型(Random Forest、XGBoost、LightGBM)。
总之,结合图5和图7,本实施例广义集成学习在利奇马个例的晴空视场点温度廓线反演条件下,训练集中不同气压层反演得到的温度RMSE均小于0.3K。测试集在7hPa-925hPa之间温度RMSE均小于1K。在独立样本验证中,不同模型反演的温度廓线和目标温度廓线(探空温度廓线、ERA5温度廓线)具有较好的一致性,在温度变化拐角处也拟合良好。反演廓线与探空温度廓线具有较好的相关性。
本发明的优点还包括:
(1)区别于极轨卫星红外高光谱资料反演温度廓线的时间分辨率较低(每天只能两次探测到同一个视场点),静止卫星高光谱红外探测器反演温度廓线具有较高的时间分辨率。
(2)区别于ERA5的滞后性和时间分辨率等,GIIRS可近实时加密观测。在加密区每隔15分钟或30分钟可覆盖观测区域一次。GIIRS可实现目标适应性观测,故开展此资料的反演对于高影响天气发生前的应用至关重要。
(3)本发明的方法反演的温度廓线产品具有一定的精度和质量。高质量的大气温度廓线资料不仅可应用于大气监测和天气预报(如,高影响天气中的台风、强对流等天气现象),还可应用于生态环境、全球变暖和边界层等研究项目中。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到的变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (7)

1.基于广义集成学习的卫星资料反演温度廓线方法,其特征在于,包括如下步骤:
S1、资料预处理:收集静止卫星GIIRS的中波通道亮温数据,以及静止卫星的AGRI的CLM;对收集的数据进行预处理,清洗数据,再通过插值方法将CLM匹配至GIIRS的视场点;
S2、构建机器学习样本:以处理后的GIIRS中波通道亮温数据作为基础机器学习模型和集成模型的输入数据,建立温度廓线反演模型训练样本,总样本的80%数据集用于模型的训练和超参数优化,其余的20%用于独立测试和验证;在构建机器学习样本时,采用“最邻近”法将GIIRS各通道亮温信息插到ERA5视场点,将GIIRS通道亮温和ERA5温度数据在时间和空间上同步;还包括对GIIRS中波通道亮温数据进行变量特征重要性分析,对于不同的基础机器学习模型筛选不同的GIIRS中波通道亮温数据作为模型的变量特征,对广义集成学习则采用不同的基础机器学习模型筛选的变量特征交集;
S3、构建广义集成学习的卫星资料反演温度廓线模型:
GIIRS的中波通道亮温作为基础机器学习模型和集成模型的模型自变量,ERA5温度廓线数据作为基础机器学习模型和集成模型的模型因变量;
广义集成学习极小化目标函数定义如下:
其中,wj是与基础机器学习模型j相对应的集成权重;n是实例总数;xi是待反演值i的实际值;是基础机器学习模型j对待反演值i的估测;
步骤S2和S3中,基础机器学习模型为Random Forest、XGBoost和LightGBM;
以构建的集成学习的卫星资料反演温度廓线模型形成温度廓线反演产品。
2.根据权利要求1所述的基于广义集成学习的卫星资料反演温度廓线方法,其特征在于,步骤S1中,对静止卫星GIIRS的中波通道亮温数据预处理的方式为采用切趾函数对GIIRS中波通道亮温数据处理。
3.根据权利要求1所述的基于广义集成学习的卫星资料反演温度廓线方法,其特征在于,步骤S1中,在收集资料时,同时收集ERA5的温度廓线数据,作为模型的输出量,并且ERA5的温度廓线数据也用作验证反演温度廓线的准确性。
4.根据权利要求1所述的基于广义集成学习的卫星资料反演温度廓线方法,其特征在于,步骤S2采用二步法进行特征变量的选择,第一步,建立GIIRS通道黑名单;第二步,在剔除黑名单的剩余通道中,采用置换重要性方法选择特征变量,置换重要性方法计算输入的自变量对基础机器学习模型的特征重要程度。
5.根据权利要求1所述的基于广义集成学习的卫星资料反演温度廓线方法,其特征在于,步骤S3构建的广义集成学习的卫星资料反演温度廓线模型中基础机器学习模型首先需要进行超参数调优。
6.根据权利要求5所述的基于广义集成学习的卫星资料反演温度廓线方法,其特征在于,Random Forest需要调优的超参数:树的数量n_estimators和树的最大深度max_depth;
XGBoost需要调优的超参数:树的数量n_estimators、树的最大深度max_depth、树的叶节点上进一步分区所需的最小损失减少量gamma和构造每棵树时列的子采样率learning_rate;
LightGBM需要调优的超参数:学习率learning_rate、每棵树的最多叶子数num_leaves和树的数量n_estimators。
7.根据权利要求6所述的基于广义集成学习的卫星资料反演温度廓线方法,其特征在于,基础机器学习模型基于均方误差对需要调优的超参数进行调优,其他参数使用默认值。
CN202211683319.XA 2022-12-27 2022-12-27 基于广义集成学习的卫星资料反演温度廓线方法 Active CN116186486B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211683319.XA CN116186486B (zh) 2022-12-27 2022-12-27 基于广义集成学习的卫星资料反演温度廓线方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211683319.XA CN116186486B (zh) 2022-12-27 2022-12-27 基于广义集成学习的卫星资料反演温度廓线方法

Publications (2)

Publication Number Publication Date
CN116186486A CN116186486A (zh) 2023-05-30
CN116186486B true CN116186486B (zh) 2023-09-08

Family

ID=86433553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211683319.XA Active CN116186486B (zh) 2022-12-27 2022-12-27 基于广义集成学习的卫星资料反演温度廓线方法

Country Status (1)

Country Link
CN (1) CN116186486B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733394A (zh) * 2020-12-21 2021-04-30 国家卫星气象中心(国家空间天气监测预警中心) 一种大气参数反演方法及装置
CN113340836A (zh) * 2021-05-18 2021-09-03 国家卫星气象中心(国家空间天气监测预警中心) 一种针对高纬复杂下垫面的大气温湿廓线反演方法
CN113408742A (zh) * 2021-06-24 2021-09-17 桂林理工大学 一种基于机器学习的高精度海表温度反演方法
AU2021105120A4 (en) * 2021-08-09 2021-10-07 Institute Of Agricultural Resources And Regional Planning, Chinese Academy Of Agricultural Sciences Land surface temperature estimation method based on expert knowledge model data driving and machine learning
CN113591387A (zh) * 2021-08-05 2021-11-02 安徽省气象台 基于Huber范数约束的卫星资料反演降水方法及系统
CN114139444A (zh) * 2021-11-24 2022-03-04 大连海事大学 一种基于机器学习的近海海表温度反演方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733394A (zh) * 2020-12-21 2021-04-30 国家卫星气象中心(国家空间天气监测预警中心) 一种大气参数反演方法及装置
CN113340836A (zh) * 2021-05-18 2021-09-03 国家卫星气象中心(国家空间天气监测预警中心) 一种针对高纬复杂下垫面的大气温湿廓线反演方法
CN113408742A (zh) * 2021-06-24 2021-09-17 桂林理工大学 一种基于机器学习的高精度海表温度反演方法
CN113591387A (zh) * 2021-08-05 2021-11-02 安徽省气象台 基于Huber范数约束的卫星资料反演降水方法及系统
AU2021105120A4 (en) * 2021-08-09 2021-10-07 Institute Of Agricultural Resources And Regional Planning, Chinese Academy Of Agricultural Sciences Land surface temperature estimation method based on expert knowledge model data driving and machine learning
CN114139444A (zh) * 2021-11-24 2022-03-04 大连海事大学 一种基于机器学习的近海海表温度反演方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KNN不同距离度量对FY-4A/ AGRI红外亮温反演降水的影响研究;王根;陆雅君;王悦;吴瑞姣;丁从慧;;红外(第04期);43-50 *

Also Published As

Publication number Publication date
CN116186486A (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
Manivasagam et al. Practices for upscaling crop simulation models from field scale to large regions
Hulme A 1951–80 global land precipitation climatology for the evaluation of general circulation models
Peng et al. Estimation of shortwave solar radiation using the artificial neural network from Himawari-8 satellite imagery over China
He et al. Estimating the aboveground dry biomass of grass by assimilation of retrieved LAI into a crop growth model
CN113591387B (zh) 基于Huber范数约束的卫星资料反演降水方法及系统
CN113108918B (zh) 一种极轨气象卫星热红外遥感数据反演气温方法
Yue et al. Relationship between marine boundary layer clouds and lower tropospheric stability observed by AIRS, CloudSat, and CALIOP
Wang et al. Assessment of land suitability potentials for selecting winter wheat cultivation areas in Beijing, China, using RS and GIS
CN113935956B (zh) 一种二向混合建模矿区土壤含水量数据缺失修复方法
CN114819737B (zh) 公路路域植被的碳储量估算方法、系统及存储介质
CN113408111A (zh) 大气可降水量反演方法及系统、电子设备和存储介质
CN115375036A (zh) 遥感、光能利用率模型与气象融合的作物成熟期预测方法
CN110321528B (zh) 一种基于半监督地理空间回归分析的高光谱影像土壤重金属浓度评估方法
Colaninno et al. Towards an operational model for estimating day and night instantaneous near-surface air temperature for urban heat island studies: outline and assessment
CN111366195A (zh) 一种地表水热通量的多尺度观测方法
Privé et al. Evaluation of the earth systems research laboratory's global observing system simulation experiment system
Wu et al. Spatial scaling transformation modeling based on fractal theory for the leaf area index retrieved from remote sensing imagery
CN117826112A (zh) 一种基于sar的土壤含水量的反演方法
Xu et al. Comparison of ocean surface rain rates from the global precipitation mission and the Meteosat second-generation satellite for wind scatterometer quality control
CN116186486B (zh) 基于广义集成学习的卫星资料反演温度廓线方法
Jorda et al. The SMOS L3 mapping algorithm for sea surface salinity
Joyce et al. Standardisation of temperature observed by automatic weather stations
Felicísimo Pérez et al. A method of downscaling temperature maps based on analytical hillshading for use in species distribution modelling
He et al. Improving land surface temperature simulation of Noah-MP on the Tibetan Plateau
Karamouz et al. Soil moisture data: From using citizen science to satellite technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant