CN116301796A

CN116301796A - 一种基于人工智能技术的气象数据分析系统及方法

Info

Publication number: CN116301796A
Application number: CN202310116539.2A
Authority: CN
Inventors: 向筱铭; 王�琦; 徐晓莉; 霍庆; 何文春; 江蕾; 杨雪; 张常亮
Original assignee: Sichuan Meteorological Observation Data Center
Current assignee: Sichuan Meteorological Observation Data Center
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-06-23

Abstract

本发明公开了一种基于人工智能技术的气象数据分析系统及方法，系统包括：算力资源层，包括硬件子模块和基础算力子模块，硬件子模块用于构成CPU集群和GPU集群；基础算力子模块用于向上层提供计算资源和存储资源；容器实例层用于通过Kubernetes将CPU集群和GPU集群进行统一管理；控制层用于构成前端的数据、模型和镜像业务逻辑线的后端独立逻辑实体；应用层用于实现系统与用户进行功能的交互。本发明提供气象数据挖掘分析所需的数据接入、算力资源弹性调度、模型编排研发，为海量气象数据挖掘分析提供平台级工具，本发明获得“四川省科技计划(2022YFS0544)资助”支持。

Description

一种基于人工智能技术的气象数据分析系统及方法

技术领域

本发明属于机器学习技术领域，具体涉及一种基于人工智能模型训练的气象数据分析系统及方法。

背景技术

近年来，随着世界气象组织(WMO)提出采用“地球系统方法”重构全球气象业务、服务、科研与组织架构，气象学科发展进入地球系统时代，各国均加强气象信息资源的统筹集约管理和高效利用，以高水平数据治理提升数据竞争力，拓展应用疆域，大数据智能已成为国内外先进气象机构的战略重点。如美国国家海洋和大气管理局(NOAA)出台人工智能、云计算和数据三大战略，欧洲中期天气预报中心(ECMWF)加快开展“全工作流”人工智能应用等。中国气象局建设了“云+端”技术体系的“数算一体”平台“天擎”，实现数据、算力和算法的集约化管理。气象科学和信息技术的融合应用为气象业务升级带来了新机遇。

人工智能技术近年来迅速发展，尤其是在图像识别、自然语言处理和语音识别等方面取得了很大的进展，气象数据的分析作为人工智能技术的重要应用的方面，在数据质量控制、资料同化、天气系统识别、AI辅助预报系统^[5]、短临预警等方面展现出了巨大的应用价值，并在气象业务和服务的不同环节投入应用。

因此，随着大数据和人工智能技术的发展，气象数据分析从传统的少量、高质量样本气象数据分析向海量、泛气象数据分析转变。大数据背景下的气象数据研究工作有诸多独特的学科特点，便捷取用的气象数据、池化且可弹性伸缩的基础算力和各类算法模型，是气象数据分析工作开展的重要基础，当前已经业务化运行的“天擎”系统，已经存储海量气象数据，还需匹配可用于气象数据分析的弹性计算资源调度、气象数据接入和气象数据分析的平台环境，基于平台级的工具支撑研究人员的建模过程以及数据分析成果的协同和共享。

目前，国家级和省级气象部门采用机器学习技术，都开展了不同规模的数据分析工作，尤其是在雷达外推、预报检验等方面。上述工作的开展，主要采用独立的服务器或者个人工作站，缺乏集约化的设计，导致不同的用户开展工作需要进行重复的基础环境建设，且不同研究团队的研究成果难以通过平台的形式进行协作和共享，而相关的算力设施的构建，属于独立环境中的碎片化算力建设，与当前的气象信息化基础设施的建设脱节，导致算力资源利用率不高。

在人工智能分析方面，常见的方案，主要是由公有云厂商提供，平台依赖于公有云或者特定的基础设施，费用较为昂贵，且海量数据从气象内网上行至公有云平台，效率较低，且较易于产生数据安全问题。与此同时，用户普遍面临气象数据的快速接入，弹性可伸缩的算力调度，气象专有工具与机器学习框架的融合，以及气象研究成果的共享和迭代等需求。

与此同时，国内常见的方案，一般采用基于IPython协议的Notebook技术，通过Jupyter等开源代码二次开发而成，采用Notebook编写代码的优点是能够将代码、结果及markdown文本写入一个文件中，便于用户查看。但面对一个项目由多个python文件构成的情况，仅用Notebook编写就会导致该部分内容无法在其他开发工具上查看，通用性不高；而且面对大型的工程，开发过程一般需要进行调试，Notebook则难以提供相应的功能。

因此，有必要整合基于IPython协议的Notebook、CloudIDE和容器云技术，用户创建的代码工程，既可以用传统Notebook视图进行代码编写，也可以通过CloudIDE的视图进行代码调试。Notebook和CloudIDE运行所需的容器及实例，由容器云进行资源调度。本发明获得“四川省科技计划(2022YFS0544)资助”支持。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于人工智能技术的气象数据分析系统及方法解决了海量气象数据快速接入、模型训练代码Notebook可视化和CloudIDE调试双场景融合等问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于人工智能技术的气象数据分析系统，所述系统包括：

算力资源层，包括硬件子模块和基础算力子模块，所述硬件子模块包括服务器设备、NAS设备和网络设备，所述硬件子模块用于构成CPU集群和GPU集群；所述基础算力子模块用于向上层提供计算资源和存储资源；

容器实例层，用于通过Kubernetes将CPU集群和GPU集群进行统一管理，还用于向上层应用提供各类的pod；

控制层，用于构成前端的数据、模型和镜像业务逻辑线的后端独立逻辑实体；

应用层，用于实现系统与用户进行功能的交互。

进一步地：所述容器实例层包括系统管理节点和用户工作节点，所述系统管理节点用于维持系统运行，所述用户工作节点用于用户模型编排研发和模型训练；

所述系统管理节点的平台运行pod包括MongoDB数据库、镜像仓库服务、文件存储服务和平台Web服务集；

所述用户工作节点的用户实例容器组包括kernel容器组件、proxy容器组件、sidecar容器组件和fileserver容器组件，其中，所述kernel容器组件用于为用户提供相应的Python/R计算环境；proxy容器组件用于将用户的前端请求根据类型分发至不同的容器组件；sidecar容器组件用于进行容器的资源监控、状态管理和信息上报；fileserver容器组件用于支持数据集、工作区和项目输出文件系统功能；

所述用户工作节点的pod用于在项目运行的时从对应实例类型的集群中调度对应配置的服务器提供计算服务，当项目关闭后可以自动释放运算资源，使资源能够服务于其它业务。

进一步地：所述容器实例层包括资源调度组件、镜像管理组件、Pod管理组件、任务管理组件、流量代理组件和模型发布组件，各组件用于实现对Kubernetes相关操作的封装和相关策略接口的自定义实现，并由应用层基于用户的操作需求进行调用。

一种基于人工智能技术的气象数据分析系统的方法，所述方法包括：

S1、在前端页面配置实例，搭建Kubernetes集群；

S2、在Kubernetes集群中启动在线集成开发环境的交互式建模环境；

S3、在交互式建模环境中进行模型编排和研发；

S4、在交互式建模环境中进行模型训练。

进一步地：所述S3具体为：

S31、建立模型编排和研发项目，并为项目命名、撰写描述信息和上传本地代码；

S32、建立工程匹配的数据集，包括全新上传本地数据至服务器以及系统中其他用户共享的数据集，并指定挂载路径；

S33、选择资源类型，包括各种规格的计算资源和镜像；

S34、建立项目运行任务，在任务调度后分配资源，并进入Notebook界面；

S35、在Notebook界面编写代码并进行调试，将生成的结果存入用户空间，完成模型编排和研发。

进一步地：所述S35中，在Notebook界面编写代码并进行调试的方法，所述方法还包括：

将CloudIDE模块作为独立应用进行设计，并与Notebook界面的服务运行在同一个实例之上，以独立容器对CloudIDE模块和Notebook界面进行管理。

上述进一步方案的有益效果为：以独立容器进行管理，从而可以使得两者产生的文件可以互相访问，CloudIDE可以利用Notebook已有的基础设施，进而能够比较便捷的完成通过CloudIDE进行脚本文件式的数据处理工作，进而使用Notebook进行数据分析与建模工作的工作流程。

进一步地：所述将CloudIDE模块作为独立应用进行设计的方法具体为：

将基于Theia拓展的CloudIDE模块作为用户进入运行时独立的CloudIDE应用，CloudIDE应用包含了前端渲染进程和后端服务进程，并根据RESTful API和WebSocket协议通信提供服务。

上述进一步方案的有益效果为：本发明采用Notebook和CloudIDE的双场景融合设计，使得用户创建的代码工程，既可以用传统Notebook视图进行代码编写，也可以通过CloudIDE的视图进行代码调试，实现了模型训练代码Notebook可视化和CloudIDE调试双场景融合，能够最大程度满足用户的个性化研发需求。

进一步地：所述S4具体为：

S41、建立模型训练任务，并设定使用的资源和镜像的运算环境参数；

S42、选择模型训练的项目及代码版本进行模型训练设置；

S43、通过资源调度分配资源，根据分配资源和模型训练设置进行模型训练，将生成的结果存入用户空间，完成模型训练。

进一步地：所述S33和S43中，所述分配资源的方法具体为：设置用户的优先级，根据用户的优先级结合算法调度规则分配资源；

所述设置用户的优先级的方法具体为：

将用户的优先级分为若干组，包括高优先级、中优先级、低优先级和极高优先级。

进一步地：所述根据用户的优先级结合算法调度规则分配资源的方法具体为：

为用户赋予一个时间段的优先级，按照优先级为用户进行排序，每个优先级在一个队列中，同优先级的用户采用FCFS的方式进行排队；

先为优先级高的用户分配资源，同一优先级内先为能满足资源调度的用户分配资源，后根据优先级队列中用户的序号分配资源，其中，资源调度采用HDRF算法；

将同一用户的模型编排和研发项目、在线建模任务延续时长和模型训练任务放在同一队列中进行管理；

所有用户创建时默认为最低优先级，当用户变更优先级时将该用户放入更高优先级的池。

本发明的有益效果为：

(1)本发明提供的一种基于人工智能技术的气象数据分析系统基于容器云的架构设计，能够将算力进行池化后以快速弹性可伸缩的方式提供给用户，较传统的本地购置服务器或者工作站的方式搭建计算环境，能够极大地提高算力的复用率，且通过专业的数据中心动力环境保障，可以提高运行的稳定性和可靠性，实现7*24*365的不间断的高可靠算力资源供给。规避了碎片化算力建设导致的算力资源利用率不高和可靠性的问题。

(2)本发明系统的整体架构设计，使得用户基于自身权限，能够快速获取海量气象数据，较使用公有云的方案，本方案中，数据仅在气象私有云环境中流转，获取速度快，效率高，且不会产生数据安全性问题。

(3)本发明提供的一种基于人工智能技术的气象数据分析方法设计了模型编排和研发流程的设计，使得用户所能使用的算力资源实现了量化可控，不会出现一个用户占据了大量资源的情况。且能够自定义数据分析所用的镜像环境，从而实现与用户本地运行深度学习算法等效的用户体验，满足用户对训练环境的个性化需求。

(4)本发明方法设计了面向算力众筹的调度规则，能够将用户群体进行区分，分别为高产出价值用户群体、算力贡献用户群体、应急任务用户群体和平台用户群体，能够引导用户对资源的合理利用，以及引导用户所在部门向平台众筹投入算力资源，实现对应急任务的算力保障。

附图说明

图1为一种基于人工智能技术的气象数据分析系统结构示意图。

图2为一种基于人工智能技术的气象数据分析系统的方法流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，在本发明的一个实施例中，一种基于人工智能技术的气象数据分析系统，所述系统包括：

应用层，用于实现系统与用户进行功能的交互。

所述容器实例层包括系统管理节点和用户工作节点，所述系统管理节点用于维持系统运行，所述用户工作节点用于用户模型编排研发和模型训练；

所述用户工作节点的pod用于在项目运行的时从对应实例类型的集群中调度对应配置的服务器提供计算服务，当项目关闭后可以自动释放运算资源，使资源能够服务于其它业务。提升计算资源利用率和可复用性。

所述容器实例层包括资源调度组件、镜像管理组件、Pod管理组件、任务管理组件、流量代理组件和模型发布组件，各组件用于实现对Kubernetes相关操作的封装和相关策略接口的自定义实现，并由应用层基于用户的操作需求进行调用。

如图2所示，在本实施例中，一种基于人工智能技术的气象数据分析系统的方法，所述方法包括：

S1、在前端页面配置实例，搭建Kubernetes集群；

S3、在交互式建模环境中进行模型编排和研发；

S4、在交互式建模环境中进行模型训练。

所述S3具体为：

S33、选择资源类型，包括各种规格的计算资源和镜像；

在本实施例中，在线模型开发是通过Web界面的方式，向用户提供线上代码编辑功能，且可以查看到实时的运行结果，其涉及到用户创建项目、上传数据集、个性化开发环境镜像、分配计算实例和运行模型训练代码等过程。

所述S35中，在Notebook界面编写代码并进行调试的方法，所述方法还包括：

在本实施例中，以独立容器进行管理，从而可以使得两者产生的文件可以互相访问，CloudIDE可以利用Notebook已有的基础设施，进而能够比较便捷的完成通过CloudIDE进行脚本文件式的数据处理工作，进而使用Notebook进行数据分析与建模工作的工作流程。

所述将CloudIDE模块作为独立应用进行设计的方法具体为：

将基于Theia拓展的CloudIDE模块作为用户进入运行时独立的CloudIDE应用，CloudIDE应用包含了前端渲染进程和后端服务进程，并根据RESTful API和WebSocket协议通信提供服务。前端进程支持客户端基础界面和插件的界面渲染，后端进程主要采用Node.js，不干预任何渲染事务。

CloudIDE工程层面由扩展包构成，前端应用进程和主后端应用进程均包含多个扩展。一个npm软件包可以公开一个或多个扩展，这些扩展可以被前端和主后端应用程序使用。一个扩展包就是一个npm包，在这个npm包中公开了用于创建DI容器的多个模块(Container Module)。通过在应用程序的package.json中添加npm包的依赖项来使用扩展包，扩展包能够在运行时安装和卸载，这将触发重新编译和重启。通过这些模块，扩展包能提供从类型到具体实现的绑定，即提供服务和功能。同时，CloudIDE支持OS级log查询，类继承层级查看等桌面端IDE功能。由于对单项目的运行状态实现了独立POD的机制，CloudIDE可以使用镜像内所有已安装的依赖和第三方工具。

CloudIDE提供文件编辑器与运行面板作为核心支持流程，与资源镜像进行管理与打通，根据本地开发环境的用户习惯，CloudIDE侧边栏提供五个组件工具，其具体为：

文件资源管理器，用于浏览和管理文件和文件夹，将根据与机器学习平台的整体文件管理需求提供专门设计的文件管理目录。

跨文件搜索，用于在当前文件夹内进行跨文件的搜索。

源代码管理，用于对当前文件夹下的代码进行版本管理，CloudIDE支持的版本管理软件是Git。

启动和调试，用于对当前文件夹下的项目进行运行和调试。

扩展管理，用于下载和管理CloudIDE里的插件。

文件资源管理器层面，为了保障CloudIDE编辑的文件可在项目一级跟随项目的版本管理，同时在项目层级可以查看对应的文件，重新设计、实现跟随项目的工作区逻辑用户的文件树目录设计具体为：

1)/home/user/project为适应CloudIDE所采用的跟随项目的目录，CloudIDE所新建、编辑、生成的文件都将默认放在本目录中，跟随项目版本对这里的文件进行版本管理，在项目层级可查阅，相关文件在实例被释放或者生成版本时将会被独立持久化存储与对象存储中，并在项目层级实现FileServer服务，可查看文件列表，Notebook产生的需要跟随项目的文件也会默认放在本文件夹。

2)/home/user/input作为数据挂载目录，用户所使用的数据会被默认放在本文件夹下，避免与工作区文件混淆与污染，方便独立管理数据文件。

3)/home/user/temp使用当前计算实例所在机器的存储空间，可充分利用本地环境的高性能存储作为运算过程中临时存储空间，在实例释放后，存放在这个目录的文件将不会被保存。

4)/home/user/work为给用户提供的跨项目存储的独立存储空间，放在该空间的文件将会被持久化存储，运行不同的项目均可看到该目录下的文件，但不会在项目层级被感知。

由于Notebook与CloudIDE共享一套文件系统，因此CloudIDE所编辑的文件、所运行产生的结果，同时也可以在Notebook运行环境中查看，并且可利用其文件编辑器进行编辑。同时Notebook运行环境产生的数据、文件，也可以在CloudIDE中进行查看，从而可以让数据的提取、探索、建模、加工可以高效的进行全流程工作流的支撑。

所述S4具体为：

S42、选择模型训练的项目及代码版本进行模型训练设置；

在本实施例中，由于不同的框架，对于环境变量等各不相同，且可能存在冲突的情况，因此，平台针对PyTorch、TensorFlow和PaddlePaddle等框架建立基础镜像，基础镜像也包含了气象算法研究过程中的常用工具包(包括Xarray，Meteva，MetDig，Metpy，Cartopy等)。用户可以直接采用该基础框架镜像，也可以基于该镜像进行个性化定制，增添相应的软件包，从而实现与用户本地运行深度学习算法等效的用户体验，满足用户对训练环境的个性化需求。

所述S33和S43中，所述分配资源的方法具体为：设置用户的优先级，根据用户的优先级结合算法调度规则分配资源；

所述设置用户的优先级的方法具体为：

将用户的优先级分为若干组，如表一所示，包括高优先级、中优先级、低优先级和极高优先级。

表1平台算力调度优先级设计

在本实施例中，高优先级组主要面向对业务类用户，或者对平台硬件和应用成效有显著贡献的用户。中优先级组则面向对平台硬件算力有共享的用户，低优先级组是一个默认优先级，对平台算力无共享的用户归属该等级。

所述根据用户的优先级结合算法调度规则分配资源的方法具体为：

本发明的有益效果为：本发明提供的一种基于人工智能技术的气象数据分析系统基于容器云的架构设计，能够将算力进行池化后以快速弹性可伸缩的方式提供给用户，较传统的本地购置服务器或者工作站的方式搭建计算环境，能够极大地提高算力的复用率，且通过专业的数据中心动力环境保障，可以提高运行的稳定性和可靠性，实现7*24*365的不间断的高可靠算力资源供给。规避了碎片化算力建设导致的算力资源利用率不高和可靠性的问题。

本发明系统的整体架构设计，使得用户基于自身权限，能够快速获取海量气象数据，较使用公有云的方案，本方案中，数据仅在气象私有云环境中流转，获取速度快，效率高，且不会产生数据安全性问题。

本发明提供的一种基于人工智能技术的气象数据分析方法设计了模型编排和研发流程的设计，使得用户所能使用的算力资源实现了量化可控，不会出现一个用户占据了大量资源的情况。且能够自定义数据分析所用的镜像环境，从而实现与用户本地运行深度学习算法等效的用户体验，满足用户对训练环境的个性化需求。

本发明方法设计了面向算力众筹的调度规则，能够将用户群体进行区分，分别为高产出价值用户群体、算力贡献用户群体、应急任务用户群体和平台用户群体，能够引导用户对资源的合理利用，以及引导用户所在部门向平台众筹投入算力资源，实现对应急任务的算力保障。

在本发明的描述中，需要理解的是，术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此，限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

Claims

1.一种基于人工智能技术的气象数据分析系统，其特征在于，所述系统包括：

应用层，用于实现系统与用户进行功能的交互。

2.根据权利要求1所述的基于人工智能技术的气象数据分析系统，其特征在于，所述容器实例层包括系统管理节点和用户工作节点，所述系统管理节点用于维持系统运行，所述用户工作节点用于用户模型编排研发和模型训练；

3.根据权利要求1所述的基于人工智能技术的气象数据分析系统，其特征在于，所述容器实例层包括资源调度组件、镜像管理组件、Pod管理组件、任务管理组件、流量代理组件和模型发布组件，各组件用于实现对Kubernetes相关操作的封装和相关策略接口的自定义实现，并由应用层基于用户的操作需求进行调用。

4.一种根据权利要求1～3所述基于人工智能技术的气象数据分析系统的方法，其特征在于，所述方法包括：

S1、在前端页面配置实例，搭建Kubernetes集群；

S3、在交互式建模环境中进行模型编排和研发；

S4、在交互式建模环境中进行模型训练。

5.根据权利要求4所述的基于人工智能技术的气象数据分析方法，其特征在于，所述S3具体为：

S33、选择资源类型，包括各种规格的计算资源和镜像；

6.根据权利要求5所述的基于人工智能技术的气象数据分析方法，其特征在于，所述S35中，在Notebook界面编写代码并进行调试的方法，所述方法还包括：

7.根据权利要求5所述的基于人工智能技术的气象数据分析方法，其特征在于，所述将CloudIDE模块作为独立应用进行设计的方法具体为：

将基于Theia拓展的CloudIDE模块作为用户进入运行时独立的CloudIDE应用，CloudIDE应用包含了前端渲染进程和后端服务进程，并根据RESTfulAPI和WebSocket协议通信提供服务。

8.根据权利要求5所述的基于人工智能技术的气象数据分析方法，其特征在于，所述S4具体为：

S42、选择模型训练的项目及代码版本进行模型训练设置；

9.根据权利要求8所述的基于人工智能技术的气象数据分析方法，其特征在于，所述S33和S43中，所述分配资源的方法具体为：设置用户的优先级，根据用户的优先级结合算法调度规则分配资源；

所述设置用户的优先级的方法具体为：

10.根据权利要求8所述的基于人工智能技术的气象数据分析方法，其特征在于，所述根据用户的优先级结合算法调度规则分配资源的方法具体为：