CN110609923A - 一种分布式的多算法融合的气象数据插值方法 - Google Patents
一种分布式的多算法融合的气象数据插值方法 Download PDFInfo
- Publication number
- CN110609923A CN110609923A CN201910702080.8A CN201910702080A CN110609923A CN 110609923 A CN110609923 A CN 110609923A CN 201910702080 A CN201910702080 A CN 201910702080A CN 110609923 A CN110609923 A CN 110609923A
- Authority
- CN
- China
- Prior art keywords
- interpolation
- data
- distributed
- national
- results
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种分布式的多算法融合的气象数据插值方法,方法由基础数据获取,分布式存储,分布式计算框架,样条插值和漂移克里金插值计算,动态权重融合插值结果,收集拼接各块结果部分组成;该方法包括以下步骤:步骤S1:用户配置数据下载插件;步骤S2:用户配置样条插值插件和漂移克里金插件,为插件配置要处理的数据集并输入到分布式计算集群Spark,以及配置计算所需的CPU和内存资源;步骤S3:用户编排任务清单;步骤S4:调度器根据任务清单执行其中的插件;步骤S5:获得结果。通过分布式存储和计算,实现了对海量气象数据的高效、高分辨率的插值计算处理。相对传统方法可提高计算效率。
Description
技术领域
本发明涉及气象数据插值技术领域,具体为一种分布式的多算法融合的气象数据插值方法。
背景技术
气象数据插值用于获取气象站点覆盖全局范围内的各个点位的气象数据,在气象站点分布较少、不均匀的情况下通常需要进行气象数据插值,以得到格点数据满足各行业的需要。
随着气象探测手段的丰富以及时空密度的增加,气象数据体量在迅速增大,利用传统方法将数据下载到本地,并基于本地资源在对海量气象数据进行高时空分别率插值时对计算提出了很高的要求,造成处理海量数据成本过高、甚至无法处理单个大文件,无法满足对海量气象数据的分析、研究、个性处理的需求。
此外,目前气象中应用的插值算法虽然很多,各算法各有自己的优势,但是通常在计算中只选择唯一一种插值算法,不同算法之间融合程度较低,不能很好的发挥各算法的优点,影响了插值的准确性。
根据检索,目前也有一些涉及到气象数据插值方法的专利申请(如高空格点气象数据的四维插值方法),提出了一种对气象数据插值的方法,其中缺乏对海量数据进行高分辨率插值算法的支持以及多种插值方法的融合,而这是当前海量气象数据计算处理的关键技术。
发明内容
本发明的目的在于提供一种分布式的多算法融合的气象数据插值方法,以解决现有的技术缺陷和不能达到的技术要求。
为实现上述目的,本发明提供如下技术方案:一种分布式的多算法融合的气象数据插值方法,该方法包括基础数据获取、分布式存储、分布式计算框架、样条插值和漂移克里金插值计算、动态权重融合插值结果与收集拼接各块结果;该方法包括以下步骤:步骤S1:用户配置数据下载插件;步骤S2:用户配置样条插值插件和漂移克里金插件,为插件配置要处理的数据集并输入到分布式计算集群Spark,以及配置计算所需的CPU和内存资源;步骤S3:用户编排任务清单;步骤S4:调度器根据任务清单执行其中的插件;步骤S5:获得结果。
优选的,所述基础数据获取包括从国家气象局通过Cimiss系统获取国家站气象观测数据和自动站观测数据以及从国家公开的1km全国高程数据。
优选的,步骤S2包括步骤S201:根据各区域内国家站数量合理将全国划为若干块形成国家区域分块,保证各块内国家站数量基本相等;步骤S202:将各块内的国家站数据以及高程数据做成分块数据集,将这些分块数据制作RDD数据集;步骤S203:基于Spark集群计算,用样条插值和引入高程作为漂移项的克里金插值分别对各个区域进行插值;步骤S204:分布式计算两种插值返回结果相对自动站数据的误差,动态调整两种结果的权重,直到两种结果融合达到误差最小,得到插值效果最好的融合结果;步骤S205:收集各块结果并进行拼接,得到全国插值结果。
优选的,对国家区域进行分块,将各块内的国家站数据以及高程数据做成分块数据集,将这些分块数据制作Resilient Distributed Datasets数据集,输入到分布式计算集群Spark,使用分布式计算进行处理。
优选的,该分布式计算处理步骤包括插值和动态融合:首先利用样条插值和漂移克里金插值对各数据集进行插值,之后将两种插值方法得到的各区域数据集取不同权重融合,利用全国自动站实际观测数据对融合结果计算误差,通过动态不断调整权重,得到最小误差对应的权重;最后将分布式计算结果收集、合并、拼接,得最终的插值结果;为保证拼接之后各区域分界线处过渡更平滑,在分块的基础上,分别在各块四周再往外拓展2.5°。
优选的,所述国家区域分块是以分得的各区域国家站数量基本相等为目标。
优选的,将所述分布式计算框架中各块区域分布式计算得到样条插值和漂移克里金插值结果,包括基于分布式计算,对各块区域基于国家站数据进行样条插值和漂移克里金插值,漂移克里金插值以全国高程数据为漂移项。
优选的,所述动态权重融合插值基于全国自动站实际观测数据对融合结果计算误差,通过动态不断调整权重,得到最小误差对应的权重。
优选的,通过所述分布式计算对海量气象数据的统一存储和访问,将动态融合多种算法的插值方法封装为插件,通过工作流配置任务,调用模块化的插件对数据进行分布式计算插值以及动态融合。
与现有技术相比,本发明的有益效果如下:
1.本方案提出一种全新的气象数据插值方法,通过分布式存储和计算,实现了对海量气象数据的高效、高分辨率的插值计算处理。相对传统方法可提高计算效率。
2.动态融合样条插值和将高程参量作为漂移项的漂移克里金插值结果,集中了样条插值和漂移克里金插值方法的各自优势,能够反映地形、海拔对于气象要素的影响。得到的插值结果更符合各地实际情况,精度更高。各格点数据之间过渡更平滑。
3.应用分布式存储和计算技术提出分布式的多算法融合的气象数据插值方法,此方法还使用了动态权重技术,可进一步提升插值精度;实现对数据的统一、高效处理。该插值方法将各算法优势互补,旨在提高对气象数据插值的准确率。
4.可以对海量气象数据进行高分辨率插值计算,提高运算效率,解决传统方式计算海量气象数据对计算性能要求过高的瓶颈;综合各插值算法的优势,考虑海拔对气象要素的影响,提高插值的准确率;解决分块分布式插值虽提高运算速度,但插值结果在各块分界处不平滑的现象。
附图说明
图1为本发明分布式计算框架图;
图2为本发明方法工作流程图;
图3为本发明气象数据导入流程图;
图4为本发明计算流程图。
具体实施方式
下面将结合本发明,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种技术方案:一种分布式的多算法融合的气象数据插值方法,该方法包括基础数据获取、分布式存储、分布式计算框架、样条插值和漂移克里金插值计算、动态权重融合插值结果与收集拼接各块结果;该方法包括以下步骤:步骤S1:用户配置数据下载插件;步骤S2:用户配置样条插值插件和漂移克里金插件,为插件配置要处理的数据集并输入到分布式计算集群Spark,以及配置计算所需的CPU和内存资源;步骤S3:用户编排任务清单;步骤S4:调度器根据任务清单执行其中的插件;步骤S5:获得结果。
基础数据获取包括从国家气象局通过Cimiss系统获取国家站气象观测数据和自动站观测数据以及从国家公开的1km全国高程数据。
步骤S2包括步骤S201:根据各区域内国家站数量合理将全国划为若干块形成国家区域分块,保证各块内国家站数量基本相等;步骤S202:将各块内的国家站数据以及高程数据做成分块数据集,将这些分块数据制作RDD数据集;步骤S203:基于Spark集群计算,用样条插值和引入高程作为漂移项的克里金插值分别对各个区域进行插值;步骤S204:分布式计算两种插值返回结果相对自动站数据的误差,动态调整两种结果的权重,直到两种结果融合达到误差最小,得到插值效果最好的融合结果;步骤S205:收集各块结果并进行拼接,得到全国插值结果。
对国家区域进行分块,将各块内的国家站数据以及高程数据做成分块数据集,将这些分块数据制作Resilient Distributed Datasets数据集,输入到分布式计算集群Spark,使用分布式计算进行处理。
该分布式计算处理步骤包括插值和动态融合:首先利用样条插值和漂移克里金插值对各数据集进行插值,之后将两种插值方法得到的各区域数据集取不同权重融合,利用全国自动站实际观测数据对融合结果计算误差,通过动态不断调整权重,得到最小误差对应的权重;最后将分布式计算结果收集、合并、拼接,得最终的插值结果;为保证拼接之后各区域分界线处过渡更平滑,在分块的基础上,分别在各块四周再往外拓展2.5°。
国家区域分块是以分得的各区域国家站数量基本相等为目标。
将所述分布式计算框架中各块区域分布式计算得到样条插值和漂移克里金插值结果,包括基于分布式计算,对各块区域基于国家站数据进行样条插值和漂移克里金插值,漂移克里金插值以全国高程数据为漂移项。
动态权重融合插值基于全国自动站实际观测数据对融合结果计算误差,通过动态不断调整权重,得到最小误差对应的权重。
通过所述分布式计算对海量气象数据的统一存储和访问,将动态融合多种算法的插值方法封装为插件,通过工作流配置任务,调用模块化的插件对数据进行分布式计算插值以及动态融合。
实施例一
本发明所述的一种分布式的多算法融合的气象数据插值方法在本实施例中分布式的多算法融合的气象数据插值步骤如下:
步骤S1:用户配置数据下载插件;
步骤S2:用户编排任务清单;
步骤S3:调度器根据任务清单执行其中的插件;
步骤S4:获得结果。
实施例二
本发明所述的一种分布式的多算法融合的气象数据插值方法在本实施例中分布式的多算法融合的气象数据插值步骤如下:
步骤S1:用户配置数据下载插件;
步骤S2:用户配置样条插值插件和漂移克里金插件,为插件配置要处理的数据集并输入到分布式计算集群Spark,以及配置计算所需的CPU和内存资源;
步骤S201:根据各区域内国家站数量合理将全国划为若干块形成国家区域分块,保证各块内国家站数量基本相等;
步骤S202:将各块内的国家站数据以及高程数据做成分块数据集,将这些分块数据制作RDD数据集;
步骤S203:基于Spark集群计算,用样条插值和引入高程作为漂移项的克里金插值分别对各个区域进行插值;
步骤S204:分布式计算两种插值返回结果相对自动站数据的误差,动态调整两种结果的权重,直到两种结果融合达到误差最小,得到插值效果最好的融合结果;
步骤S205:收集各块结果并进行拼接,得到全国插值结果;
步骤S3:用户编排任务清单;
步骤S4:调度器根据任务清单执行其中的插件;
步骤S5:获得结果。
本发明采用分布式计算:将分布式计算技术应用于气象数据插值计算,可用普通服务器实现全国范围的气象数据插值,首先是提出了一整套分布式计算框架;其次是提出了原始数据分块和RDD数据集的构建方法,与分块结果的合并方法,共同构成了完整的分布式插值步骤。该方法可在分布式集群上运行,通过任务调度中心,自动在各节点上运行插值算法程序后回收分块数据,然后拼接成最终数据,参考这一框架将实现不同插值算法的分布式计算;基于分布式计算框架,可提供海量的计算资源,因而可实现动态权重融合多种插值结果,可对插值结果进行检验后(可用自动站和交叉检验的方法),在误差的基础上动态调整不同结果在融合数据集中所占的比重,最终形成误差最小的数据集,此方法需要大量的计算,但由于通过分布式计算,可实时快速计算得到结果,最终实现动态获得最优结果。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (9)
1.一种分布式的多算法融合的气象数据插值方法,其特征在于:该方法包括基础数据获取、分布式存储、分布式计算框架、样条插值和漂移克里金插值计算、动态权重融合插值结果与收集拼接各块结果;该方法包括以下步骤:步骤S1:用户配置数据下载插件;步骤S2:用户配置样条插值插件和漂移克里金插件,为插件配置要处理的数据集并输入到分布式计算集群Spark,以及配置计算所需的CPU和内存资源;步骤S3:用户编排任务清单;步骤S4:调度器根据任务清单执行其中的插件;步骤S5:获得结果。
2.根据权利要求1所述的一种分布式的多算法融合的气象数据插值方法,其特征在于:所述基础数据获取包括从国家气象局通过Cimiss系统获取国家站气象观测数据和自动站观测数据以及从国家公开的1km全国高程数据。
3.根据权利要求1所述的一种分布式的多算法融合的气象数据插值方法,其特征在于:步骤S2包括步骤S201:根据各区域内国家站数量合理将全国划为若干块形成国家区域分块,保证各块内国家站数量基本相等;步骤S202:将各块内的国家站数据以及高程数据做成分块数据集,将这些分块数据制作RDD数据集;步骤S203:基于Spark集群计算,用样条插值和引入高程作为漂移项的克里金插值分别对各个区域进行插值;步骤S204:分布式计算两种插值返回结果相对自动站数据的误差,动态调整两种结果的权重,直到两种结果融合达到误差最小,得到插值效果最好的融合结果;步骤S205:收集各块结果并进行拼接,得到全国插值结果。
4.根据权利要求1所述的一种分布式的多算法融合的气象数据插值方法,其特征在于:对国家区域进行分块,将各块内的国家站数据以及高程数据做成分块数据集,将这些分块数据制作Resilient Distributed Datasets数据集,输入到分布式计算集群Spark,使用分布式计算进行处理。
5.根据权利要求4所述的一种分布式的多算法融合的气象数据插值方法,其特征在于:该分布式计算处理步骤包括插值和动态融合:首先利用样条插值和漂移克里金插值对各数据集进行插值,之后将两种插值方法得到的各区域数据集取不同权重融合,利用全国自动站实际观测数据对融合结果计算误差,通过动态不断调整权重,得到最小误差对应的权重;最后将分布式计算结果收集、合并、拼接,得最终的插值结果;为保证拼接之后各区域分界线处过渡更平滑,在分块的基础上,分别在各块四周再往外拓展2.5°。
6.根据权利要求2所述的一种分布式的多算法融合的气象数据插值方法,其特征在于:所述国家区域分块是以分得的各区域国家站数量基本相等为目标。
7.根据权利要求3所述的一种分布式的多算法融合的气象数据插值方法,其特征在于:将所述分布式计算框架中各块区域分布式计算得到样条插值和漂移克里金插值结果,包括基于分布式计算,对各块区域基于国家站数据进行样条插值和漂移克里金插值,漂移克里金插值以全国高程数据为漂移项。
8.根据权利要求5所述的一种分布式的多算法融合的气象数据插值方法,其特征在于:所述动态权重融合插值基于全国自动站实际观测数据对融合结果计算误差,通过动态不断调整权重,得到最小误差对应的权重。
9.根据权利要求4所述的一种分布式的多算法融合的气象数据插值方法,其特征在于:通过所述分布式计算对海量气象数据的统一存储和访问,将动态融合多种算法的插值方法封装为插件,通过工作流配置任务,调用模块化的插件对数据进行分布式计算插值以及动态融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910702080.8A CN110609923A (zh) | 2019-07-31 | 2019-07-31 | 一种分布式的多算法融合的气象数据插值方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910702080.8A CN110609923A (zh) | 2019-07-31 | 2019-07-31 | 一种分布式的多算法融合的气象数据插值方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110609923A true CN110609923A (zh) | 2019-12-24 |
Family
ID=68890321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910702080.8A Pending CN110609923A (zh) | 2019-07-31 | 2019-07-31 | 一种分布式的多算法融合的气象数据插值方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110609923A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070094317A1 (en) * | 2005-10-25 | 2007-04-26 | Broadcom Corporation | Method and system for B-spline interpolation of a one-dimensional signal using a fractional interpolation ratio |
CN103473408A (zh) * | 2013-08-28 | 2013-12-25 | 河南大学 | 一种融合时空信息的气温缺失记录重建方法 |
CN107329982A (zh) * | 2017-06-01 | 2017-11-07 | 华南理工大学 | 一种基于分布式列式存储的大数据并行计算方法及系统 |
CN108255539A (zh) * | 2017-12-21 | 2018-07-06 | 华风象辑(北京)气象科技有限公司 | 基于云计算和数据虚拟化的气象卫星数据处理系统 |
CN109344865A (zh) * | 2018-08-24 | 2019-02-15 | 山东省环境规划研究院 | 一种多数据源的数据融合方法 |
-
2019
- 2019-07-31 CN CN201910702080.8A patent/CN110609923A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070094317A1 (en) * | 2005-10-25 | 2007-04-26 | Broadcom Corporation | Method and system for B-spline interpolation of a one-dimensional signal using a fractional interpolation ratio |
CN103473408A (zh) * | 2013-08-28 | 2013-12-25 | 河南大学 | 一种融合时空信息的气温缺失记录重建方法 |
CN107329982A (zh) * | 2017-06-01 | 2017-11-07 | 华南理工大学 | 一种基于分布式列式存储的大数据并行计算方法及系统 |
CN108255539A (zh) * | 2017-12-21 | 2018-07-06 | 华风象辑(北京)气象科技有限公司 | 基于云计算和数据虚拟化的气象卫星数据处理系统 |
CN109344865A (zh) * | 2018-08-24 | 2019-02-15 | 山东省环境规划研究院 | 一种多数据源的数据融合方法 |
Non-Patent Citations (1)
Title |
---|
方彩萍: "基于克里金和自助法对辽宁省气象数据的研究", 《中国优秀硕士学位论文全文数据库(基础科学辑)》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106777093B (zh) | 基于空间时序数据流应用的Skyline查询系统 | |
CN110019595B (zh) | 一种多源气象数据集成方法及系统 | |
CN104618045B (zh) | 基于采集数据的无线信道传播模型的建立方法和系统 | |
CN106708989A (zh) | 基于空间时序数据流应用的Skyline查询方法 | |
CN103870591B (zh) | 用于针对空间数据进行并行空间分析服务的方法及系统 | |
CN104579854A (zh) | 众包测试方法 | |
CN107798059B (zh) | 一种nco气象数据结构化存储方法和装置 | |
CN112148774B (zh) | 一种高分辨率空间多区域气象数据处理系统及方法 | |
CN101568127A (zh) | 一种网络仿真中确定话务分布的方法及装置 | |
CN104899228A (zh) | 一种发布网页资源的方法及装置 | |
CN105808341A (zh) | 一种资源调度的方法、装置和系统 | |
WO2019019653A1 (zh) | 对地形边界进行提取的设备和方法 | |
CN112100450A (zh) | 一种图计算数据分割方法、终端设备及存储介质 | |
CN105205051B (zh) | 移动通信资源的分析方法和系统 | |
CN115795329A (zh) | 一种基于大数据网格下的用电异常行为分析方法和装置 | |
CN115733244A (zh) | 一种区域电网数字孪生方法、系统及存储介质 | |
CN107301094A (zh) | 面向大规模动态事务查询的动态自适应数据模型 | |
CN112486676B (zh) | 一种基于边缘计算的数据共享分发装置 | |
CN107679133B (zh) | 一种实用于海量实时pmu数据的挖掘方法 | |
CN112948123A (zh) | 一种基于Spark的网格水文模型分布式计算方法 | |
CN110609923A (zh) | 一种分布式的多算法融合的气象数据插值方法 | |
CN112231481A (zh) | 网址的分类方法、装置、计算机设备和存储介质 | |
CN112052372B (zh) | 通讯网络网格化分裂及重组自动爬虫算法 | |
CN115983478A (zh) | 分布式光伏发电功率预测分析方法、系统、终端及介质 | |
CN114511239B (zh) | 土壤重金属污染风险区划分方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: No.218-430079, Wuhan New Wuhu science and Technology Park, Wuhan Applicant after: Xiangji Technology Co.,Ltd. Address before: No.218-430079, Wuhan New Wuhu science and Technology Park, Wuhan Applicant before: XIANGJI ZHIYUAN (WUHAN) TECHNOLOGY CO.,LTD. |
|
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191224 |