CN116306282A

CN116306282A - 基于机器学习的近实时卫星反演降水校正方法、装置及系统

Info

Publication number: CN116306282A
Application number: CN202310260631.6A
Authority: CN
Inventors: 吕毅; 雍斌; 齐伟擎; 宋佳; 梅俊
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-06-23

Abstract

本发明公开了一种基于机器学习的近实时卫星反演降水校正方法、装置及系统，包括实时获取近实时卫星反演降水数据；将所述近实时卫星反演降水数据发送至预先训练好的机器学习模型，获得降水校正数据；所述机器学习模型通过如下步骤得到：获取基于历史近实时卫星反演降水数据和观测降水数据预先构建的训练集和验证集；综合考虑回归准确率、时间复杂度与输入数据量，从多个备选的机器学习模型中选择出当前训练集下最优的机器学习模型；基于所述训练集和验证集，采用预设算法对选出的机器学习模型进行训练，得到预先训练好的机器学习模型。本发明采用了机器寻优技术，提取了非直接模拟、观测资料的特征，使校正的结果更具可靠性。

Description

基于机器学习的近实时卫星反演降水校正方法、装置及系统

技术领域

本发明属于卫星测量降水数据处理技术领域，具体涉及一种基于机器学习的近实时卫星反演降水校正方法、装置及系统。

背景技术

降水是全球水循环系统的关键组成部分。获取高时空分辨率降水信息，尤其是近实时降水数据，对径流预报、洪水预警、水库调度等关乎人民群众生命财产安全的重大科学问题起着关键作用。

卫星测量降水具有不受下垫面限制、快速获取大范围降水信息、且空间分布相对精度较高的优点。风云四号系列卫星是中国自主研发的新一代静止轨道运行的气象卫星。2016年，搭载着性能位于国际前列的静止轨道辐射成像仪的风云四号A星(FY4A)成功发射并投入使用。

国家气象中心自2018年来向公众发布风云卫星反演官方降水产品FY4A-REGC，初步实现了近实时卫星测雨国产化。但是，受限于传感器的系统误差、时空采样的影响以及反演算法的局限等因素，实时卫星降水产品的测量精度仍不高。风云卫星反演降水的精度和国际对标产品IMERG-Early比，仍有差距。

随着机器学习算法的蓬勃发展，深刻影响了卫星测量降水产品的校正方法，但目前仍没有一套针对国产卫星近实时反演降水的数据校正方法。

发明内容

针对上述问题，本发明提出一种基于机器学习的近实时卫星反演降水校正方法、装置及系统，采用了机器寻优技术，提取了非直接模拟、观测资料的特征，使校正的结果更具可靠性。

为了实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

第一方面，本发明提供了一种基于机器学习的近实时卫星反演降水校正方法，包括：

实时获取近实时卫星反演降水数据；

将所述近实时卫星反演降水数据发送至预先训练好的机器学习模型，获得降水校正数据；

所述机器学习模型通过如下步骤得到：

获取基于历史近实时卫星反演降水数据和观测降水数据预先构建的训练集和验证集；

综合考虑回归准确率、时间复杂度与输入数据量，从多个备选的机器学习模型中选择出当前训练集下最优的机器学习模型；

基于所述训练集和验证集，采用预设算法对选出的机器学习模型进行训练，得到预先训练好的机器学习模型。

可选地，所述训练集的构建方法包括：

从获取到的第一近实时卫星反演降水数据、第二近实时卫星反演降水数据和自动站观测数据中筛选出发生降水事件的部分，生成第一降水数据、第二降水数据和观测降水数据；

对所述第一降水数据和第二降水数据的时空分辨率进行重采样，以匹配所述观测降水数据，并进一步选取预设比例的第一降水数据作为输入数据，将第二降水数据作为标定数据，生成训练集。

可选地，所述第一近实时卫星反演降水数据为国产卫星风云4A近实时卫星反演降水数据FY4A-REGC；所述第二近实时卫星反演降水数据为全球降雨测量计划GPM近实时卫星反演降水数据IMERG-Early。

可选地，所述基于所述训练集和验证集，采用预设算法对选出的机器学习模型进行训练，得到预先训练好的机器学习模型，包括：

利用预先构建的训练集作为输入，采用预设算法对选出的机器学习模型进行训练，得到第一机器学习模型；

利用预先构建的验证集验证所述第一机器学习模型，若所述第一机器学习模型的预测结果满足设定条件，则将所述第一机器学习模型作为最终机器学习模型。

可选地，所述利用预先构建的验证集验证所述第一机器学习模型，若所述第一机器学习模型的预测结果满足设定条件，则将所述第一机器学习模型作为最终机器学习模型，包括：

选取预设比例的第一降水数据作为输入数据，将所述观测降水数据作为验证集的验证真值，生成验证集；

将所述预设比例的第一降水数据输入至所述第一机器学习模型，获得校正后数据；

基于所述校正后数据和观测降水数据，计算出预设的指标值；

若各预设的指标值满足要求，则将所述第一机器学习模型作为最终机器学习模型。

可选地，所述预设的指标值的计算公式包括：

其中，CC代表相关系数，RMSE代表均方根系数，Bias代表相对误差，n代表校正后的第一降水数据的总量；G代表观测降水数据，

代表观测降水数据的均值；S_i代表校正后的第一降水数据中的第i个值，/>

代表代表校正后的第一降水数据的均值。

可选地，所述备选的机器学习模型包括XGBoost模型、LightGBM模型和RandomForest模型；

从多个备选的机器学习模型中选择出当前训练集下最优的机器学习模型时，各机器学习模型均使用默认参数，一旦选出最优的机器学习模型，则通过网格寻优方法获取该机器学习模型的最佳参数。

可选地，综合考虑回归准确率、时间复杂度与输入数据量，从多个备选的机器学习模型中选择出当前训练集下最优的机器学习模型，包括：

分别计算出各备选的机器学习模型在不同输入数据量下产生的回归准确率和所需时间；

基于不同输入数据量下产生的回归准确率和所需时间，筛选出最优的机器学习模型。

第二方面，本发明提供了一种基于机器学习的近实时卫星反演降水校正装置，包括：

获取模块，用于实时获取近实时卫星反演降水数据；

校正模块，用于将所述近实时卫星反演降水数据发送至预先训练好的机器学习模型，获得降水校正数据；

所述机器学习模型通过如下步骤得到：

第三方面，本发明提供了一种基于机器学习的近实时卫星反演降水校正系统，包括存储介质和处理器；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据第一方面中任一项所述的方法。

与现有技术相比，本发明的有益效果：

本发明综合考虑了多种机器学习模型，综合回归准确率、时间复杂度、输入数据量选取最佳的机器学习模型，并对该最佳的机器学习模型进行训练，获得最优参数模型，而不是固定使用某种机器学习模型。经系统评估，本发明所涉及的方法能够有效且快速地提升FY4A-REGC的降水估计质量，使其获得接近于IMERG-Early的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图，其中：

图1为本发明一种实施例中降水校正方法的基本流程示意图；

图2(a)为本发明一种实施例中的FY4A-Adj与CMPA自动站数据的散点关系图；

图2(b)为本发明一种实施例中的FY4A-REGC与CMPA自动站数据的散点关系图；

图2(c)为本发明一种实施例中的IMERG-Early与CMPA自动站数据的散点关系图；

图3为本发明一种实施例中基于每种机器学习模型运行各数据量级的输入数据后，训练模型的回归精度和所需时间形成的热力图；

图4为本发明一种实施例中各数据集训练后与验证真值计算所得的回归准确率(RMSE)。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

实施例1

本发明实施例中提供了一种基于机器学习的近实时卫星反演降水校正方法，包括以下步骤：

(1)实时获取近实时卫星反演降水数据；

(2)将所述近实时卫星反演降水数据发送至预先训练好的机器学习模型，获得降水校正数据；

所述机器学习模型通过如下步骤得到：

本发明综合考虑了多种机器学习模型，综合回归准确率、时间复杂度、输入数据量选取最佳的机器学习模型，并对该最佳的机器学习模型进行训练，获得最优参数模型，而不是固定使用某种机器学习模型。

在本发明实施例的一种具体实施方式中，所述训练集的构建方法包括：

在本发明实施例的一种具体实施方式中，所述第一近实时卫星反演降水数据为国产卫星风云4A近实时卫星反演降水数据FY4A-REGC；所述第二近实时卫星反演降水数据为全球降雨测量计划GPM近实时卫星反演降水数据IMERG-Early。

在本发明实施例的一种具体实施方式中，所述基于所述训练集和验证集，采用预设算法对选出的机器学习模型进行训练，得到预先训练好的机器学习模型，包括：

具体地，所述利用预先构建的验证集验证所述第一机器学习模型，若所述第一机器学习模型的预测误差满足预设阈值，则将所述第一机器学习模型作为最终机器学习模型，包括：

在本发明实施例的一种具体实施方式中，所述预设的指标值的计算公式包括：

代表代表校正后的第一降水数据的均值。

在本发明实施例的一种具体实施方式中，所述备选的机器学习模型包括XGBoost模型、LightGBM模型和Random Forest模型。当从多个备选的机器学习模型中选择出当前训练集下最优的机器学习模型时，各机器学习模型均使用默认参数，一旦选出最优的机器学习模型，则通过网格寻优方法获取该机器学习模型的最佳参数。不同数据、不同时空下的特性都不同，有必要选取更适合相应数据特性的机器学习模型。本发明中的网格调参法运算所需次数较多。针对自身运算时间复杂度高的模型，寻找最优参数的时间非常长，现实条件难以满足。本发明中的超参数选取是数据驱动类模型对数据特性的适应，可能存在巧合性，所一般使用默认参数以判别模型性能。优选地，在实验过程中发现，国产卫星风云4A近实时反演降水数据FY4A-REGC的质量是在随着时间变化的，且越来越好。因此，在具体实施过程中，选用计算速度更快的LightGBM模型作为最优的机器学习模型。实验发现，当训练集的输入数据量为2的23次方时机器学习模型的预测效果最好，因此，每当获取到新的输入数据，则利用新的输入数据替换旧的数据，使得输入数据量始终保持在2的23次方。在本发明实施例的一种具体实施方式中，综合考虑回归准确率、时间复杂度与输入数据量，从多个备选的机器学习模型中选择出当前训练集下最优的机器学习模型，包括：

分别计算出各备选的机器学习模型在不同输入数据量下产生的回归准确率和所需时间；在实验过程中发现，数据量保持在2的23次方时，机器学习模型的预测效果最好。

FY4A-REGC是近实时降水反演产品，校正必须考虑其时效性。因此，本发明需要挑选一种在数据量级逐步提升的条件下，仍能兼顾运行时间、校正精度的模型。图3通过热力图的形式，给出了每种机器学习模型运行各数据量级的输入数据后，训练模型的回归精度和所需时间(运行平台如表1所示)。

表1

随着训练输入数据量的提升，所有模型训练所需时间呈线性增长，但训练精度则与选取数据段本身有关，受训练输入数量级影响不大。三种模型的训练精度虽然并没有明显差别，但训练LightGBM所需的时间却明显少于其他两种模型。从训练精度看，在训练数据量提升至2的23次方前，LightGBM的精度略优于XGBoost和Random Forest，而XGBoost和LightGBM在获得2的23次方数据输入时，略优于Random Forest。从训练时间看，虽然三者获得了相近的训练效果，但是XGBoost需要训练的时间大约是LightGBM的5倍，而RandomForest所需要的训练时间更约为LightGBM的25倍，在数据量提升后，所需时间更是提升到了LightGBM的40倍左右。

因此，选取LightGBM作为快速订正近实时降水反演产品FY4A-REGC的主要方法。

图4给出了各数据集训练后与验证真值计算所得的RMSE，为了避免在训练过程中容易产生“过拟合”(即模型过度拟合了数据，导致模型泛化能力减弱)的现象。因此本发明研究的对象是：将未参与训练的验证集数据输入经过网格搜索调参后的LightGBM模型后，生成的数据集FY4A-Adj(FY4A近实时订正产品)。网格搜索法调整的参数如表2所示。针对不同数量级的数据输入，生成了不同的模型，借此来确定应用层面合适的序列长度。

表2

下面结合一具体实施方式对本发明实施例中的方法进行详细说明。

所述基于机器学习的国产卫星近实时卫星反演降水校正方法，包括以下步骤：

步骤一，数据获取：

获取国产卫星风云4A近实时卫星反演降水数据FY4A-REGC、全球降雨测量计划GPM近实时卫星反演降水数据IMERG-Early、自动站观测数据CMPA，并提取出上述数据中发生降水实践的部分，用于供后续的步骤二-四使用。

其中，所述国产卫星风云4A近实时卫星反演降水数据FY4A-REGC、全球降雨测量计划GPM近实时卫星反演降水数据IMERG-Early用于作为模型训练的输入数据。自动站观测数据CMPA的观测方式包括但不限于通过卫星遥感反演、雨量计观测，时间跨度包括但不限2018年至2019年。

步骤二，数据预处理：

将FY4A-REGC和IMERG-Early的时空分辨率重采样至0.1°/1小时以匹配自动站观测数据。

步骤三，数据集构建：

选取80％的FY4A-REGC作为输入的训练集，同时将IMERG-Early作为训练数据集标定；剩余20％的FY4A-REGC验证集的输入，自动站观测数据作为验证集的验证真值。

其中，对于训练数据集和测试数据集的划分方法是为本发明专门设计的，卫星反演降水、自动站观测等手段所获取到的信息特征是不相同的，因此需要针对数据特性进行训练数据集和测试数据集的划分。

例如：卫星反演降水的面降水信息比较准确，时间空间覆盖度较强，适合作为训练的基础数据集；自动站观测数据是最为准确的，但数据量较少且为点信息，适合用作优化用和检验用数据集。

步骤四：预选取三种机器学习模型XGBoost、LightGBM、Random Forest，综合考虑回归准确率、时间复杂度与输入数据量的关系，获取默认参数下当前任务下最优的机器学习模型。确定最优的机器学习模型后，通过网格搜索法对该模型的参数进一步优化，获取模型及对应参数。

其中，机器学习的方法均是决策树模型的改进，通过实际运行考虑回归准确率、时间复杂度与输入数据量三大问题决定当前任务下最优的机器学习模型，使用的机器学习方法包括但不限于XGBoost、LightGBM、Random Forest。模型间互相比较时都使用默认参数，而一旦选取最优模型，则需要通过网格搜索获取该模型的最佳参数。

步骤五，模型运行：

将验证集输入上一流程获取的模型中，输出订正数据集FY4A-Adj(时空分辨率1小时/0.1°)。

步骤六，结果验证：通过相关系数CC、均方根系数RMSE、相对误差Bias等指标进行效果评估。

所述预设的指标值的计算公式包括：

代表代表校正后的第一降水数据的均值。

评估结果如图2(a)-图2(c)所示：

图2(a)-图2(c)分别给出了FY4A-Adj、FY4A-REGC、IMERG-Early与CMPA自动站数据的散点关系图。图2(b)和图2(c)表明，研究时间段内，IMERG-Early和FY4A-REGC估计的降水主要集中在0～5毫米，能够较为均匀地分布在45°线附近。图2(a)展示了FY4A-Adj和CMPA自动站数据的散点关系图。可以发现：经过校正，更多的数据点集中在了45°线上(尤其是在0～2毫米降水区间范围内)。这说明本发明实施例中的方法对FY4A-REGC的订正是卓有成效的。

实施例2

基于与实施例1相同的发明构思，本发明提供了一种基于机器学习的近实时卫星反演降水校正装置，包括：

获取模块，用于实时获取近实时卫星反演降水数据；

所述机器学习模型通过如下步骤得到：

获取基于历史近实时卫星反演降水数据预和观测降水数据先构建的训练集和验证集；

其余部分均与实施例1相同。

实施例3

本发明实施例中提供了一种基于机器学习的近实时卫星反演降水校正系统，包括存储介质和处理器；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据实施例1中任一项所述的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于机器学习的近实时卫星反演降水校正方法，其特征在于，包括：

实时获取近实时卫星反演降水数据；

所述机器学习模型通过如下步骤得到：

获取基于历史近实时卫星反演降水数据和观测降水数据预先构建的训练集和验证集；综合考虑回归准确率、时间复杂度与输入数据量，从多个备选的机器学习模型中选择出当前训练集下最优的机器学习模型；

2.根据权利要求1所述的一种基于机器学习的近实时卫星反演降水校正方法，其特征在于：所述训练集的构建方法包括：

3.根据权利要求2所述的一种基于机器学习的近实时卫星反演降水校正方法，其特征在于：所述第一近实时卫星反演降水数据为国产卫星风云4A近实时卫星反演降水数据FY4A-REGC；所述第二近实时卫星反演降水数据为全球降雨测量计划GPM近实时卫星反演降水数据IMERG-Early。

4.根据权利要求2所述的一种基于机器学习的近实时卫星反演降水校正方法，其特征在于：所述基于所述训练集和验证集，采用预设算法对选出的机器学习模型进行训练，得到预先训练好的机器学习模型，包括：

5.根据权利要求4所述的一种基于机器学习的近实时卫星反演降水校正方法，其特征在于：所述利用预先构建的验证集验证所述第一机器学习模型，若所述第一机器学习模型的预测结果满足设定条件，则将所述第一机器学习模型作为最终机器学习模型，包括：

6.根据权利要求4所述的一种基于机器学习的近实时卫星反演降水校正方法，其特征在于：所述预设的指标值的计算公式包括：

代表代表校正后的第一降水数据的均值。

7.根据权利要求1所述的一种基于机器学习的近实时卫星反演降水校正方法，其特征在于：所述备选的机器学习模型包括XGBoost模型、LightGBM模型和Random Forest模型；

8.根据权利要求1所述的一种基于机器学习的近实时卫星反演降水校正方法，其特征在于：综合考虑回归准确率、时间复杂度与输入数据量，从多个备选的机器学习模型中选择出当前训练集下最优的机器学习模型，包括：

分别计算出各备选的机器学习模型在不同输入数据量下产生的回归准确率和所需时间；基于不同输入数据量下产生的回归准确率和所需时间，筛选出最优的机器学习模型。

9.一种基于机器学习的近实时卫星反演降水校正装置，其特征在于，包括：

获取模块，用于实时获取近实时卫星反演降水数据；

所述机器学习模型通过如下步骤得到：

10.一种基于机器学习的近实时卫星反演降水校正系统，其特征在于，包括存储介质和处理器；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1-8中任一项所述的方法。