CN112966862A

CN112966862A - 一种基于机器学习算法的短期定量降水预报方法

Info

Publication number: CN112966862A
Application number: CN202110210841.5A
Authority: CN
Inventors: 黄武斌; 黄玉霞; 刘新伟; 王一丞; 郭润霞; 刘娜; 张君霞; 李文莉
Original assignee: Lanzhou Central Meteorological Station Lanzhou Drought Ecological Environment Monitoring And Prediction Center
Current assignee: Lanzhou Central Meteorological Station Lanzhou Drought Ecological Environment Monitoring And Prediction Center
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-06-15

Abstract

本发明公开了一种基于机器学习算法的短期定量降水预报方法，包括支撑体系、技术架构、开发模式、地理信息系统支撑架构、总体算法、预报模型和降水预报分区及检验，支撑体系通过软件架构设计，包括基础网络环境、支撑平台、应用系统、安全系统和运行保障中心，基础网络环境采用层递进式服务。本发明与现有技术相比的优点在于：不仅对未来气象工作的研究很重要，而且对气象预报方法的丰富和气象预报，能力的提高都具有积极而重要的影响，采用机器学习方法进行降雨预报，从数据驱动的角度，研究更为简单、高效的预报方法，依据本方法搭建的平台功能合理且完备，大大提高了降水预报的准确性和效率，适用性好。

Description

一种基于机器学习算法的短期定量降水预报方法

技术领域

本发明涉及气象软件，具体是指一种基于机器学习算法的短期定量降水预报方法。

背景技术

随着人工智能技术的不断普及和应用推广，依托人工智能技术实现气象预报预警业务的需求越来越广泛，应用场景越来越丰富，因此，在人工智能研究的基础上，结合降水特征，提出了区域分块化、数据模型化、降水优选化的总体建设理念，可完成短时定量降水的客观预报产品。

发明内容

本发明要解决的技术问题是传统的降雨预报方法主要是利用数值方法、外推技术和概念模型等来预报。这些降雨预测的方法考虑的因素众多、模型的构造过于复杂且预测步骤多、累计误差较大。机器学习方法由于气象数据不平稳、多维度多尺度，有时空属性不确定性和周期性等特点，传统的预报方法进行分析、处理会有很多困难。

为解决上述技术问题，本发明提供的技术方案为：一种基于机器学习算法的短期定量降水预报方法，包括支撑体系、技术架构、开发模式、地理信息系统支撑架构、总体算法、预报模型和降水预报分区及检验，支撑体系通过软件架构设计，包括基础网络环境、支撑平台、应用系统、安全系统和运行保障中心，基础网络环境采用层递进式服务，作为系统内综合业务运行的基础，通过信道接入气象台内部局域网络；支撑平台包括平台运行所需的服务器操作系统、数据库系统、文件管理系统、应用服务系统及WebGIS应用环境；应用系统采用层递进式服务，由结构化数据中心、文件资料中心、后台任务、前端应用四个部分组成，根据业务所需进行布局，采用松耦合度进行各功能模块的设计与开发，通过封装与集成构成一个整体的业务系统；安全系统包括网络安全、支撑系统安全和应用系统安全，由多层面的安全子单元构成整体系统的安全体系，应用安全则采用用户身份验证、角色权限的管理，实现应用系统层的安全；运行保障中心为整个平台的网络、数据中心、终端应用提供强有力的技术支撑保障，负责物理数据的维护和优化，通过应用系统的管理功能进行系统基础配置和管理，负责调度系统的各功能模块，以确保整个系统能够在健康、高效的条件下不间断运行；

技术架构采用BWD的应用模型构建整个系统，在网络环境下，应用程序由三层组成：数据层、业务逻辑层、表述层，其中，数据层是应用程序的最低层，用于处理原始数据；业务逻辑层在数据层之上，使数据根据业务规则进行活动以成为活动数据；表述层在业务逻辑层之上，使用户能够使用这个程序；

开发模式为平台的开发载体，采用MVC设计模式，软件开发分为三个整体：视图、实体、控制，三者之间达到松散型结合，系统的应用服务层提供了大量通用功能；

地理信息系统支撑架构对短期定量降水预报功能进行设计，由硬件环境、软件支撑环境和地理信息数据三部分组成，功能上包括应用业务融合；

总体算法采用随机森林算法，对数据中检测到的内在估计误差、分类能力和相关性决定选择特征的数目；

预报模型用于采集气象数据生成相关预报产品，包括预报数据类型、预报数据格式、模型优化和订正模块；

降水预报分区及检验基于SCTP算法，利用泰勒多边形算法对骨干站级实况、CLDAS智能网格融合实况产品进行初步分区，将初步分区产品用空间聚类方法进行聚类，形成最终的降水分区产品；算法采用K-means聚类。

本发明与现有技术相比的优点在于：将数据挖掘方法应用于气象预报，探寻出不同气象要素及天气现象之间的内在联系，找出能揭示未知气象理论的各种潜在规律，不仅对未来气象工作的研究很重要，而且对气象预报方法的丰富和气象预报，能力的提高都具有积极而重要的影响，采用机器学习方法进行降雨预报，从数据驱动的角度，研究更为简单、高效的预报方法，依据本方法搭建的平台功能合理且完备，大大提高了降水预报的准确性和效率，适用性好。

作为改进，地理信息系统支撑架构的硬件环境由Server地图服务器和应用服务器组成，气象地理信息的核心节点(中心机房)配置若干台地理信息专用服务器，包括数据库服务器和应用服务器等，提供数据的存储和应用服务，并通过网络与其它各部门专业系统建立联系，其中，数据库服务器配置如下：

微处理器：4核2.8GHzXeon CPU；

高速缓存：32MB；

内存：4GB；

内部磁盘驱动器：RAID1 300GB UltraSCSI；

扩展插槽：7个PCI-X热插/任意交换适配器；

总线：32位和64位；

操作系统：Window Server 2003；

应用服务器配置如下：

微处理器：4核2.8GHzXeon CPU；

高速缓存：32MB；

内存：4GB；

内部磁盘驱动器：300GB UltraSCSI；

扩展插槽：7个PCI-X热插/任意交换适配器；

总线：32位和64位；

操作系统：Window Server 2003。

作为改进，地理信息系统支撑架构的软件环境配置如下：

平台构架：采用B/S(Browser/Server，浏览器服务器)架构；

开发平台：IntelliJ IDEA 2019.3.3x64；

数据管理结构：采用ArcGIS Server10.1和Oracle为数据管理和二维GIS开发平台，实现三维仿真数据和属性数据等资料海量数据的管理、维护；

支持软件：Java和Python；

WEB服务器Tomcat。

作为改进，地理信息系统支撑架构的地理信息数据根据项目要求，提供的GIS空间数据包括矢量数据，应包括图层有：省、州、界线、县界线、乡镇线；

地理信息系统支撑架构的功能通过GIS实现数据分区域的监测显示、预报产品、检验结果显示等工作，需要在GIS环境下发布相应的地图服务实现以上的业务需求，包括矢量地图服务。

作为改进，总体算法步骤如下：

S1、采用自助法从原始数据集中随机抽取K个不同的样本数据集，作为各决策树的子训练集；

S2、对每个样本数据集分别建立分类回归树，生成K棵决策树，在生成过程中，对于决策树的每个节点，原始数据变量集随机采样得到变量子集，根据Gini指标最小准则从子集中选取最优变量进行节点分裂、分枝；

S3、每棵分类回归树从上至下递归分枝生长，直到达到设定的叶节点最小样本数或其它停止生长条件，决策树停止生长，所有决策树组合成随机森林；

S4、将测试数据输入随机森林模型，根据多数投票机制来进行预测。

作为改进，预报模型的预报数据类型模块采用多个气象站点的EC物理量作为数据源，包括实况降水量和若干个要素作为训练数据要素；

预报数据格式模块按照降水模式，规定为3小时降水，按照站点检测范围完成降水量的预报分析工作，资料分为MICAPS格式；

模型优化模块将人工智能预报结果、EC、CMA等数据进行编组，采用优选方案，二次对预报结果进行订正，形成新的预报结论；

订正模块对数据采用贝叶斯进行偏差订正；在降水优选订正方面，针对降水站点，将EC、CMA模式数据过去一段时间以来的表现最好的站点数据采用滑动平均和动态系统调整完成预报降水量的订正工作，生成新的预报产品。

作为改进，降水预报分区及检验包括降水预报分区模块和检验模块，降水预报分区模块利用历史降水实况，结合各区域站坡度，通过聚类方法实现地区历史上逐月降水落区的分区模拟，结合人工经验完成降水落区分布图的绘制工作，算法采用K-means聚类；

检验模块对于采用人工智能生成的客观降水预报产品，结合模式订正技术，生成预报产品，对降水预报情况进行了对比分析。

附图说明

图1是一种基于机器学习算法的短期定量降水预报方法的设计示意图。

图2是一种基于机器学习算法的短期定量降水预报方法的地理信息系统支撑架构的结构示意图。

图3是一种基于机器学习算法的短期定量降水预报方法的总体算法的步骤示意图。

图4是一种基于机器学习算法的短期定量降水预报方法的预报模型模块的结构示意图。

图5是一种基于机器学习算法的短期定量降水预报方法的降水预报分区及检验模块的结构示意图。

图6是一种基于机器学习算法的短期定量降水预报方法的BWD三层应用模型的结构示意图。

图7是一种基于机器学习算法的短期定量降水预报方法的随机森林算法的算法流程图。

如图所示：1、支撑体系，2、基础网络环境，3、支撑平台，4、应用系统，5、安全系统，6、运行保障中心，7、技术架构，8、开发模式，9、地理信息系统支撑架构，10、总体算法，11、预报模型，12、降水预报分区及检验。

具体实施方式

下面结合附图对本发明做进一步的详细说明。

本发明在具体实施时，一种基于机器学习算法的短期定量降水预报方法，包括支撑体系1、技术架构7、开发模式8、地理信息系统支撑架构9、总体算法10、预报模型11和降水预报分区及检验12，所述支撑体系1通过软件架构设计，包括基础网络环境2、支撑平台3、应用系统4、安全系统5和运行保障中心6，所述基础网络环境2采用层递进式服务，作为系统内综合业务运行的基础，通过信道接入气象台内部局域网络；所述支撑平台3包括平台运行所需的服务器操作系统、数据库系统、文件管理系统、应用服务系统及WebGIS应用环境；所述应用系统4采用层递进式服务，由结构化数据中心、文件资料中心、后台任务、前端应用四个部分组成，根据业务所需进行布局，采用松耦合度进行各功能模块的设计与开发，通过封装与集成构成一个整体的业务系统；所述安全系统5包括网络安全、支撑系统安全和应用系统安全，由多层面的安全子单元构成整体系统的安全体系，应用安全则采用用户身份验证、角色权限的管理，实现应用系统层的安全；所述运行保障中心6为整个平台的网络、数据中心、终端应用提供强有力的技术支撑保障，负责物理数据的维护和优化，通过应用系统的管理功能进行系统基础配置和管理，负责调度系统的各功能模块，以确保整个系统能够在健康、高效的条件下不间断运行；

所述技术架构7采用BWD的应用模型构建整个系统，在网络环境下，应用程序由三层组成：数据层、业务逻辑层、表述层，其中，数据层是应用程序的最低层，用于处理原始数据；业务逻辑层在数据层之上，使数据根据业务规则进行活动以成为活动数据；表述层在业务逻辑层之上，使用户能够使用这个程序；

所述开发模式8为平台的开发载体，采用MVC设计模式，软件开发分为三个整体：视图、实体、控制，三者之间达到松散型结合，系统的应用服务层提供了大量通用功能；

所述地理信息系统支撑架构9对短期定量降水预报功能进行设计，由硬件环境、软件支撑环境和地理信息数据三部分组成，功能上包括应用业务融合；

所述总体算法10采用随机森林算法，对数据中检测到的内在估计误差、分类能力和相关性决定选择特征的数目；

所述预报模型11用于采集气象数据生成相关预报产品，包括预报数据类型、预报数据格式、模型优化和订正模块；

所述降水预报分区及检验12基于SCTP算法，利用泰勒多边形算法对骨干站级实况、CLDAS智能网格融合实况产品进行初步分区，将初步分区产品用空间聚类方法进行聚类，形成最终的降水分区产品；算法采用K-means聚类。

所述地理信息系统支撑架构9的硬件环境由Server地图服务器和应用服务器组成，气象地理信息的核心节点(中心机房)配置若干台地理信息专用服务器，包括数据库服务器和应用服务器等，提供数据的存储和应用服务，并通过网络与其它各部门专业系统建立联系，其中，数据库服务器配置如下：

微处理器：4核2.8GHzXeon CPU；

高速缓存：32MB；

内存：4GB；

内部磁盘驱动器：RAID1 300GB UltraSCSI；

扩展插槽：7个PCI-X热插/任意交换适配器；

总线：32位和64位；

操作系统：Window Server 2003；

应用服务器配置如下：

微处理器：4核2.8GHzXeon CPU；

高速缓存：32MB；

内存：4GB；

内部磁盘驱动器：300GB UltraSCSI；

扩展插槽：7个PCI-X热插/任意交换适配器；

总线：32位和64位；

操作系统：Window Server 2003。

所述地理信息系统支撑架构9的软件环境配置如下：

平台构架：采用B/S(Browser/Server，浏览器服务器)架构；

开发平台：IntelliJ IDEA 2019.3.3x64；

支持软件：Java和Python；

WEB服务器Tomcat。

所述地理信息系统支撑架构9的地理信息数据根据项目要求，提供的GIS空间数据包括矢量数据，应包括图层有：省、州、界线、县界线、乡镇线；

地理信息系统支撑架构9的功能通过GIS实现数据分区域的监测显示、预报产品、检验结果显示等工作，需要在GIS环境下发布相应的地图服务实现以上的业务需求，包括矢量地图服务。

所述总体算法10步骤如下：

所述预报模型11的预报数据类型模块采用多个气象站点的EC物理量作为数据源，包括实况降水量和若干个要素作为训练数据要素；

所述降水预报分区及检验12包括降水预报分区模块和检验模块，降水预报分区模块利用历史降水实况，结合各区域站坡度，通过聚类方法实现地区历史上逐月降水落区的分区模拟，结合人工经验完成降水落区分布图的绘制工作，算法采用K-means聚类；

本发明的工作原理：系统支撑由其所在的网络环境、支撑系统、应用系统、安全系统四个部分组成，其中网络环境、支撑系统、应用系统则是逐层递进式服务，即外层向内层提供支撑服务，而每一层则有自己的安全系统，这些安全系统统一构成了应用系统的安全体系。

一、基础网络环境

综合业务系统是基于网络技术的网络化应用系统，因此，网络环境是综合业务系统运行的基础，本综合业务系统的核心将运行于气象台内部局域网络。

1、支撑平台

支撑系统包括平台运行所需的服务器操作系统、数据库系统、文件管理系统、应用服务系统及WebGIS应用环境等。本平台拟采用的支撑系统构成如下：

1)服务器操作系统：Windows2012；

2)数据库系统：Microsoft SQL Server2008；

3)文件管理系统：FTP目录服务体系；

4)应用服务系统：tomcat7；

5)GIS&WebGIS：ArcGIS10.2。

以上支撑系统都是成熟、稳定的，能够为综合业务系统提供性能优良，稳定可靠的支撑环境。

2、应用系统

应用系统是指系统本身，应由结构化数据中心、文件资料中心、后台任务、前端应用四个部分组成，是属于系统本身的技术设计与开发。

应用系统的设计则需要根据业务所需进行科学、合理的布局，采用松耦合度进行各子系统(或功能模块)的设计与开发，最终通过封装与集成构成一个整体的业务系统，但在开放性上要达到较高的要求，用户体验要尽可能符合业务人员的日常操作习惯。

3、安全系统

“安全”是贯穿于整个系统组成部分中，包括网络安全、支撑系统安全和应用系统安全，这些不同层面的安全构成了整个系统的安全体系。其中网络安全和支撑系统安全目前均具备系统所需，而应用安全则采用用户身份验证、角色权限的管理，实现应用系统层的安全。

/4、运行保障中心

运行保障中心将为整个平台的网络、数据中心、终端应用提供强有力的技术支撑保障，负责物理数据的维护和优化，通过应用系统的“系统管理”进行系统基础配置和管理，负责调度系统的各功能模块，以确保整个系统能够在健康、高效的条件下不间断运行。

二、系统技术架构

基于本系统建设的特点，结合当前以及未来几年信息技术的主要发展方向，总体方案中，我们已经提到采用BWD的应用模型构建整个系统。在网络环境下，典型的应用程序总是由三层组成的。是用户与整个系统交流的部分，这部分可以是各种设备，如移动电话、计算机等多种设备。图中的其余部分均是在网络本地需要建设的部分，应用程序的三个部分称为“层”，因为它们是依赖的。数据层是应用程序的最低层，处理原始数据。业务逻辑层在数据层之上，使数据根据业务规则进行活动，从而成为活动数据。表述层在业务逻辑层之上，使用户能够使用这个程序。其中：

表述层(Web服务器)：表述层提供与用户的交互方式。GUI(图形用户界面)屏幕和Web页面是表述层的典型例子。是用户和整个系统的接口部分，担负用户和网络系统的交互对话功能，检查用户输入信息，显示应用输出结果信息。网络系统数据的显示如文件、网页、报表均是放在该层。

业务逻辑层(应用程序服务器)：该层包含各种业务规则和应用程序访问数据的各种规则。应用服务器层是网络系统业务逻辑处理的主体，是完成具体的业务处理的逻辑部分。信息的校验、处理、变换和控制都由业务逻辑层完成。

数据层：即DBMS层，负责管理整个系统使用的数据。将数据存放在数据文件中的应用称为自身实现数据层。许多应用程序用数据库管理数据存储，数据库本身就是应用程序的数据层。对数据库的读写和查询操作，并保证对数据库操作的正确性和安全性，以及负责数据库敏感数据的备份。根据本系统建设的需求、成本及扩展性、兼容性、升级性方面的考虑，我们的系统将采用BWD(Browser/Web/Database)应用模式，利用Microsoft.NET体系结构。

三、系统开发模式

完全基于企业级系统开发，采用MVC设计模式，MVC开发模式是目前B/S开发中最流行的设计模式，软件开发分为三个整体：视图、实体、控制，三者之间达到松散型结合。系统应用服务层已经提供了大量通用功能。对于客户而言，意味着基础功能可以快速建立，业务系统能够随业务变化而方便调整。同时通过应用三者之间标准的规范数据接口，避免了在不同的系统之间结合而开发大量的接口，提高软件的整体可靠性，减少建设和维护的投入，最终降低总成本。

四、地理信息系统支撑架构

1、定位与目标

短期定量降水预报技术项目地理信息系统环境建设由硬件环境、软件支撑环境和地理信息数据三部分组成。

2、硬件环境要求

硬件设备系统由Server地图服务器和应用服务器组成。硬件平台由网络、服务器和存储设备等构成。硬件平台建设的重点是在气象地理信息的核心节点(中心机房)配置若干台地理信息专用服务器，包括数据库服务器和应用服务器等，提供数据的存储和应用服务，并通过网络与其它各部门专业系统建立联系，硬件要求如下：

(1)数据库服务器配置(后台)：

1、微处理器4核2.8GHzXeon CPU

2、高速缓存32MB

3、内存4GB

4、内部磁盘驱动器RAID1 300GB UltraSCSI

5、扩展插槽7个PCI-X热插/任意交换适配器

6、总线32位和64位

7、操作系统Window Server 2003

(2)应用服务器配置(前台)：

1、微处理器4核2.8GHzXeon CPU

2、高速缓存32MB

3、内存4GB

4、内部磁盘驱动器300GB UltraSCSI

5、扩展插槽7个PCI-X热插/任意交换适配器

6、总线32位和64位

7、操作系统Window Server 2003

3、软件环境要求

平台构架：采用B/S(Browser/Server，浏览器/服务器)架构；

开发平台：IntelliJ IDEA 2019.3.3x64；

支持软件：Java和Python；

WEB服务器Tomcat

4、地理信息数据

根据项目要求，提供的GIS空间数据包括矢量数据，应包括图层有省、州、界线、县界线、乡镇线

5、应用业务融合

短期定量降水预报技术项目是以GIS为应用基础而构建的一套业务平台。系统通过GIS实现数据分区域的监测显示，预报产品、检验结果显示等工作。因此，需要在GIS环境下发布相应的地图服务实现以上的业务需求。矢量地图服务，在业务系统中，需要大量的数据查询、预报产品显示、预报检验显示，需要发布甘肃省带乡镇界的地图服务。

五、算法总体设计说明

1、随机森林算法原理，随机森林由LeoBreiman(2001)提出，它通过自助法(bootstrap)重采样技术，抽取k个新的自助样本集，并由此构建k棵分类树组成随机森林，新数据的分类结果按分类树投票多少形成的分数而定。其实质是对决策树算法的一种改进，将多个决策树合并在一起，每棵树的建立依赖于一个独立抽取的样本，森林中的每棵树具有相同的分布，分类误差取决于每一棵树的分类能力和它们之间的相关性。特征选择采用随机的方法去分裂每一个节点，然后比较不同情况下产生的误差。能够检测到的内在估计误差、分类能力和相关性决定选择特征的数目。单棵树的分类能力可能很小，但在随机产生大量的决策树后，一个测试样本可以通过每一棵树的分类结果经统计后选择最可能的分类。

2、随机森林算法流程：

步骤1采用自助法从原始数据集中随机抽取K个不同的样本数据集，作为各决策树的子训练集；

步骤2对每个样本数据集分别建立分类回归树，生成K棵决策树，在生成过程中，对于决策树的每个节点，原始数据变量集随机采样得到变量子集，根据Gini指标最小准则从子集中选取最优变量进行节点分裂、分枝；

步骤3每棵分类回归树从上至下递归分枝生长，直到达到设定的叶节点最小样本数或其它停止生长条件，决策树停止生长，所有决策树组合成随机森林；

步骤4将测试数据输入随机森林模型，根据多数投票机制来进行预测。

3、随机森林模型优缺点

模型优势：

(1)可以处理高维数据，不同进行特征选择(特征子集是随机选择)

(2)模型的泛化能力较强

(3)训练模型时速度快，成并行化方式，即树之间相互独立

(4)模型可以处理不平衡数据，平衡误差

(5)最终训练结果，可以对特征排序，选择比较重要的特征

(6)随机森林有袋外数据(OOB)，因此不需要单独划分交叉验证集

(7)对缺失值、异常值不敏感

(8)模型训练结果准确度高

(9)相对Bagging能够收敛于更小的泛化误差

模型劣势：

(1)当数据噪声比较大时，会产生过拟合现象

(2)对有不同取值的属性的数据，取值划分较多的属性会对随机森林产生更大的影响。

六、预报数据类型

1、系统模型所用的数据为各个地区站点的EC物理量，包括实况降水量和若干个要素作为训练数据要素。

基于中心台之前关于人工智能算法的研究结论，本系统使用随机森林人工智能方案，实现降水量72小时内逐3小时降水量的预报工作。作为新兴起的、高度灵活的一种机器学习算法，随机森林(Random Forest，简称RF)拥有广泛的应用前景，从数据到气象预报，既可以用来做数据局建模，也可用来预测天气。随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支—集成学习(Ensemble Learning)方法。随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。“森林”我们很好理解，一棵叫做树，那么成百上千棵就可以叫做森林了，这样的比喻还是很贴切的，其实这也是随机森林的主要思想--集成思想的体现。其实从直观角度来解释，每棵决策树都是一个分类器(假设现在针对的是分类问题)，那么对于一个输入样本，N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出，这就是一种最简单的Bagging思想。

2、模型优化

采用人工智能预报方法预报输出，只是考虑了EC模式物理量，因此，极容易造成单一数字化输出。因此，为了提高预报水平，本系统将人工智能预报结果、EC、CMA等数据进行编组，采用优选等方案，二次对预报结果进行订正，形成新的预报结论。

3、贝叶斯偏差订正

为了消除人工智能预报的不确定性，系统采用贝叶斯进行偏差订正。贝叶斯模型平均(Bayesian model averaging，BMA)是为解决模型的不确定性而提出的，它是通过模型在验证集上预测精度的后验概率作为模型的权重，对多个随机森林模型赋以合理的权重，解决单个模型的不确定性和单一性，将多个模型组合到一起的降低风险的方法。贝叶斯方法在理论上是最优的，并且在许多任务中具有很好的性能，贝叶斯模型平均也被视为集成学习中结合基学习器的一种标准方法。

4、降水优选订正

针对降水站点，将EC、CMA模式数据过去一段时间以来的表现最好的站点数据采用滑动平均和动态系统调整完成预报降水量的订正工作，生成新的预报产品。

七、降水预报分区

系统将基于基于SCTP算法(Spatial Cluster approach and Tyson Polygon)，利用泰勒多边形算法对骨干站级实况、CLDAS智能网格融合实况产品进行初步分区，然后将初步分区产品用空间聚类方法进行聚类，形成最终的甘肃省降水分区产品。在降水分区基础上，结合多种快速同化更新的高分辨率数值模式，并进行质量控制，建成适用于机器学习算法且逐日动态更新的数据库。

1、数据来源说明

实况站点数据来源于兰州中心气象台数据中心平台，通过数据接口及数据库直连，并在本地进行二次转换。实况数据库：Mysql。

2、水分区概述

利用历史降水实况，结合各区域站坡度，通过聚类方法实现甘肃省历史上逐月降水落区的分区模拟，结合人工经验完成降水落区分布图的绘制工作。分区方法是采用聚类思想来实现的，在聚类的过程中使用了K-means聚类。K-means聚类：K-means是机器学习中的一个经典例子。其核心主要为两个部分：其一是K，K在这里代表着类的数目，我们要把数据聚为多少类。其二是means，表示在每一次计算聚类中心的时候采取的是计算平均值

3、坡度计算算法说明

坡度是地表单元陡缓的程度，通常把坡面的垂直高度和水平距离的比值称为坡度。坡度的表示方法有百分比法、度数法、密位法和分数法四种，其中以百分比法和度数法较为常用，在本系统中采用度数法描述。

度数法定义说明：

用度数来表示坡度，利用反三角函数计算而得，其公式如下：

tanα(坡度)＝高程差/水平距离

通常，将坡度分为五级，分别描述如下：

1级：坡度≤2度

2级：2＜坡度≤6度

3级：6＜坡度≤15度

4级：15＜坡度≤25度

5级：坡度＞25度

4.5分区计算算法说明

本系统采用K-means聚类算法，该算法也称k均值聚类算法，是集简单和经典于一身的基于距离的聚类算法。它采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为类簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。

K-means聚类算法是一种迭代求解的聚类分析算法，其步骤是随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小。

其实现步骤如下：

1、首先确定一个k值，即我们希望将数据集经过聚类得到k个集合。

2、从数据集中随机选择k个数据点作为质心。

3、对数据集中每一个点，计算其与每一个质心的距离(如欧式距离)，离哪个质心近，就划分到那个质心所属的集合。

4、把所有数据归好集合后，一共有k个集合。然后重新计算每个集合的质心。

5、如果新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值(表示重新计算的质心的位置变化不大，趋于稳定，或者说收敛)，我们可以认为聚类已经达到期望的结果，算法终止。

6、如果新质心和原质心距离变化很大，需要迭代3～5步骤。

八、降水预报及检验

对于采用人工智能生成的客观降水预报产品，结合模式订正技术，生成预报产品。

九、基于本发明介绍的方法搭建的平台，包括预报产品展示及检验结果展示两大模块。

1、总体功能结构设计

系统功能总体上分为预报展示以及检验结果两部分，从逻辑实现主要指后台数据中心和前端界面展示部分。

2、数据中心设计思想

(1)业务数据定义，本系统所涉及的业务数据有模式预报数据和实时数据资料；

(2)数据中心总体设计，指以气象数据为基础内容，按照一定的业务需求，根据相关数据的属性(或特点)构建的数据支撑部分，是构建相关业务应用系统的核心支撑部分。

数据中心应该由两部分构成，其一是运行于后端服务器(或称前置机)的后端应用系统，这些应用将为系统业务数据提供预处理和加工计算等服务，经后端应用处理后的数据将进入业务数据部分，这部分将由若干结构化数据库以及相关文件资源共同组成。由于气象业务数据的连续性、时效性和量级所致，本数据中心在设计时将必须考虑以下几个问题：数据标准化问题、海量数据存储问题、文件资料目录体系问题。

(3)数据来源，源于国家气象局分布式文件系统中，通过远程下载文件，需要在本地进行二次加工处理的数据或者需要在本地数据长期保存的数据，则进行二次加工处理后存入本地数据库，以备不同的业务系统使用。

(4)数据资料加工与处理，数据加工预处理是采用前置机的形式，利用多线程技术进行的多任务、多并发气象资料加工处理系统。气象资料的数据来源于兰州中心气象台数据中心、本地预报以及CIMISS接口数据，通过资料获取与分析汇总系统进行加工处理并按性质入数据库或分目录体系存储，应用平台通过查询条件进行数据的获取与利用。数据采集分析是将不同的数据源，通过数据链接服务通道，与本地数据库建立链接后，并在逐小时对原数据进行监测，如发现新数据，自动进行汇总，并转入到本地数据库中，为业务服务提供数据支撑。

3、EC模式预报产品解析入库

(1)定位及目标，为提供系统实时运行所必须的模式产品数据而开发。该模块主要功能有EC模式产品下载，解析入库功能。

(2)主要功能设计，该模块的数据主要分为两部分，即EC模式产品下载、解析入库。

EC模式产品下载功能：实现每天定时从M4分布式文件系统中下载当天数据。

解析入库功能：实现对下载到的文件进行解析入库。

4、智能预报系统

(1)定位及目标，本功能模块为系统核心，主要是根据当天模式预报数据按预测模型生成当天预报产品。

(2)功能设计，预报产品订正功能：实现340个站72小时内逐3小时预报产品生成。

5、预报产品及检验结果展示

(1)定位及目标，本功能模块主要提供用户对预报产品及检验结果进行查看，该模块功能有预报产品展示，检验结果汇总和检验结果检查。

(2)功能设计，该模块的数据主要分为两部分，即预报产品展示、检验结果汇总以及检验结果检查。预报产品展示：该模块主要是提供用户对预报产品查看，提供预报数据的表格展示和地图展示；检验结果汇总：该模块主要是提供用户对检验结果的汇总数据查询，提供预报数据的表格展示；检验结果检查：该模块主要是提供用户对检验过程中预报数据及实况数据的准确性进行检查，提供预报数据的表格展示。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”，“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于机器学习算法的短期定量降水预报方法，包括支撑体系(1)、技术架构(7)、开发模式(8)、地理信息系统支撑架构(9)、总体算法(10)、预报模型(11)和降水预报分区及检验(12)，其特征在于：所述支撑体系(1)通过软件架构设计，包括基础网络环境(2)、支撑平台(3)、应用系统(4)、安全系统(5)和运行保障中心(6)，所述基础网络环境(2)采用层递进式服务，作为系统内综合业务运行的基础，通过信道接入气象台内部局域网络；所述支撑平台(3)包括平台运行所需的服务器操作系统、数据库系统、文件管理系统、应用服务系统及WebGIS应用环境；所述应用系统(4)采用层递进式服务，由结构化数据中心、文件资料中心、后台任务、前端应用四个部分组成，根据业务所需进行布局，采用松耦合度进行各功能模块的设计与开发，通过封装与集成构成一个整体的业务系统；所述安全系统(5)包括网络安全、支撑系统安全和应用系统安全，由多层面的安全子单元构成整体系统的安全体系，应用安全则采用用户身份验证、角色权限的管理，实现应用系统层的安全；所述运行保障中心(6)为整个平台的网络、数据中心、终端应用提供强有力的技术支撑保障，负责物理数据的维护和优化，通过应用系统的管理功能进行系统基础配置和管理，负责调度系统的各功能模块，以确保整个系统能够在健康、高效的条件下不间断运行；

所述技术架构(7)采用BWD的应用模型构建整个系统，在网络环境下，应用程序由三层组成：数据层、业务逻辑层、表述层，其中，数据层是应用程序的最低层，用于处理原始数据；业务逻辑层在数据层之上，使数据根据业务规则进行活动以成为活动数据；表述层在业务逻辑层之上，使用户能够使用这个程序；

所述开发模式(8)为平台的开发载体，采用MVC设计模式，软件开发分为三个整体：视图、实体、控制，三者之间达到松散型结合，系统的应用服务层提供了大量通用功能；

所述地理信息系统支撑架构(9)对短期定量降水预报功能进行设计，由硬件环境、软件支撑环境和地理信息数据三部分组成，功能上包括应用业务融合；

所述总体算法(10)采用随机森林算法，对数据中检测到的内在估计误差、分类能力和相关性决定选择特征的数目；

所述预报模型(11)用于采集气象数据生成相关预报产品，包括预报数据类型、预报数据格式、模型优化和订正模块；

所述降水预报分区及检验(12)基于SCTP算法，利用泰勒多边形算法对骨干站级实况、CLDAS智能网格融合实况产品进行初步分区，将初步分区产品用空间聚类方法进行聚类，形成最终的降水分区产品；算法采用K-means聚类。

2.根据权利要求1所述的一种基于机器学习算法的短期定量降水预报方法，其特征在于：所述地理信息系统支撑架构(9)的硬件环境由Server地图服务器和应用服务器组成，气象地理信息的核心节点(中心机房)配置若干台地理信息专用服务器，包括数据库服务器和应用服务器等，提供数据的存储和应用服务，并通过网络与其它各部门专业系统建立联系，其中，数据库服务器配置如下：

微处理器：4核2.8GHzXeon CPU；

高速缓存：32MB；

内存：4GB；

内部磁盘驱动器：RAID1 300GB UltraSCSI；

扩展插槽：7个PCI-X热插/任意交换适配器；

总线：32位和64位；

操作系统：Window Server 2003；

应用服务器配置如下：

微处理器：4核2.8GHzXeon CPU；

高速缓存：32MB；

内存：4GB；

内部磁盘驱动器：300GB UltraSCSI；

扩展插槽：7个PCI-X热插/任意交换适配器；

总线：32位和64位；

操作系统：Window Server 2003。

3.根据权利要求1所述的一种基于机器学习算法的短期定量降水预报方法，其特征在于：所述地理信息系统支撑架构(9)的软件环境配置如下：

平台构架：采用B/S(Browser/Server，浏览器服务器)架构；

开发平台：IntelliJ IDEA 2019.3.3x64；

支持软件：Java和Python；

WEB服务器Tomcat。

4.根据权利要求1所述的一种基于机器学习算法的短期定量降水预报方法，其特征在于：所述地理信息系统支撑架构(9)的地理信息数据根据项目要求，提供的GIS空间数据包括矢量数据，应包括图层有：省、州、界线、县界线、乡镇线；

地理信息系统支撑架构(9)的功能通过GIS实现数据分区域的监测显示、预报产品、检验结果显示等工作，需要在GIS环境下发布相应的地图服务实现以上的业务需求，包括矢量地图服务。

5.根据权利要求1所述的一种基于机器学习算法的短期定量降水预报方法，其特征在于：所述总体算法(10)步骤如下：

6.根据权利要求1所述的一种基于机器学习算法的短期定量降水预报方法，其特征在于：所述预报模型(11)的预报数据类型模块采用多个气象站点的EC物理量作为数据源，包括实况降水量和若干个要素作为训练数据要素；

7.根据权利要求1所述的一种基于机器学习算法的短期定量降水预报方法，其特征在于：所述降水预报分区及检验(12)包括降水预报分区模块和检验模块，降水预报分区模块利用历史降水实况，结合各区域站坡度，通过聚类方法实现地区历史上逐月降水落区的分区模拟，结合人工经验完成降水落区分布图的绘制工作，算法采用K-means聚类；