CN117075930A - 一种计算框架管理系统 - Google Patents

一种计算框架管理系统 Download PDF

Info

Publication number
CN117075930A
CN117075930A CN202311344160.3A CN202311344160A CN117075930A CN 117075930 A CN117075930 A CN 117075930A CN 202311344160 A CN202311344160 A CN 202311344160A CN 117075930 A CN117075930 A CN 117075930A
Authority
CN
China
Prior art keywords
computing
cluster
target
frame
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311344160.3A
Other languages
English (en)
Other versions
CN117075930B (zh
Inventor
宋全恒
杨非
傅科杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202311344160.3A priority Critical patent/CN117075930B/zh
Publication of CN117075930A publication Critical patent/CN117075930A/zh
Application granted granted Critical
Publication of CN117075930B publication Critical patent/CN117075930B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/61Installation
    • G06F8/63Image based installation; Cloning; Build to order
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Stored Programmes (AREA)

Abstract

本说明书公开了一种计算框架管理系统。所述计算框架管理系统包括:计算框架安装模块、计算框架管理模块、交互模块、调度模块,可以根据用户的需求为用户提供用户所需的交互方式与用户进行交互,使得用户不需要学习与计算框架及其依赖的计算集群的使用方式,仅通过计算框架管理系统对不同的计算框架进行安装、配置以及使用,并可以通过计算框架管理系统自动监控计算集群和计算任务的执行状态,并自动处置存在异常的计算任务,进而可以在提升用户的体验同时,有效地在异构计算集群上对计算框架进行管理。

Description

一种计算框架管理系统
技术领域
本说明书涉及计算机技术领域,尤其涉及一种计算框架管理系统。
背景技术
随着人工智能、大数据、大模型等技术的发展和应用,在科研、金融、生命科学、育种、基因、天文等多个领域出现了各种各样的计算任务,这些计算任务中存在部分计算任务具有计算密集、数据密集、资源消耗巨大等特征,因此,针对这部分计算任务,需要使用科学计算集群以及专用的计算框架来执行这部分计算任务。
通常情况下,各种专用的计算框架的安装方式也并不相同,例如:一部分计算框架可以以传统的高性能计算(High Performance Computing,HPC)的形式安装在各个科学计算集群中。再例如:一部分计算框架也可以以被打包成容器(如:Docker镜像容器)以供科学计算集群调度,从而使得这部分计算框架可以在计算集群中任何机器上运行或者迁移。这其中,以调度Docker镜像容器为特征的计算集群和传统的直接将计算框架安装在宿主机操作系统上的HPC集群为异构集群。
为了满足各类计算任务的运行并适应不同计算框架的安装形式,通常需要搭建异构集群来负责运行不同计算框架的计算任务,而如何在异构集群上对计算框架进行管理,则是一个亟待解决的问题。
发明内容
本说明书提供一种计算框架管理系统,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了计算框架管理系统,所述计算框架管理系统包括:计算框架安装模块、计算框架管理模块、交互模块、调度模块;
所述计算框架安装模块用于接收用户发送的计算框架安装请求,根据所述计算框架安装请求确定用户所需的计算集群的需求信息,并根据所述需求信息从各计算集群中确定出目标计算集群,以及,根据所述计算框架安装请求,确定所述用户进行任务执行所需的初始计算框架,并将所述初始计算框架安装到指定位置;
所述计算框架管理模块用于接收所述用户发送的计算框架配置请求,根据所述计算框架配置请求,确定对于所述初始计算框架的配置信息,并根据所述配置信息对所述初始计算框架进行配置,得到目标计算框架,其中配置信息包括所述目标计算框架运行的计算集群资源需求信息和运行参数信息;
所述交互模块用于通过所述目标计算框架与所述用户进行交互,并接收所述用户通过所述目标计算框架填写的资源参数和运行参数,并发送任务请求,根据所述任务请求生成计算任务;
所述调度模块用于将所述计算任务调度至所述目标计算集群,以通过所述目标计算集群进行任务执行。
可选地,所述计算框架管理系统还包括:计算集群管理模块;
所述计算集群管理模块用于获取每个计算集群的集群信息,以及,针对每个计算集群,对该计算集群进行监听,以实时确定每个计算集群的集群状态信息,所述集群信息包括:计算集群中用于管理计算集群的节点的标识信息、计算集群的端口信息、计算集群的管理员账户信息,所述集群状态信息包括:该计算集群当前是否可用的信息、该计算集群中包含计算资源信占用信息、该计算集群中的计算任务的执行信息中的至少一种。
可选地,交互模块用于根据所述计算框架构建请求,从预设的各交互方式中确定用户所需的交互方式,作为指定交互方式,并根据所述指定交互方式渲染得到所述目标计算框架的用户交互界面,以使所述用户通过所述用户交互界面发送任务请求,所述各交互方式包括:表单交互、接口API交互、会话交互中的至少一种。
可选地,所述计算框架安装模块用于根据所述计算框架安装请求,确定所述目标计算框架的类型,并根据所述目标计算框架的类型,确定安装所述初始计算框架的指定位置,将所述初始计算框架安装到指定位置。
可选地,所述目标计算框架的类型包括:镜像类计算框架;
所述计算框架安装模块用于根据所述计算框架安装请求,确定基础镜像,将所述初始计算框架安装到所述基础镜像中,得到目标镜像,并将所述目标镜像保存到预设的镜像仓库中。
可选地,所述目标计算框架的类型包括:宿主机类计算框架;
所述计算框架安装模块用于根据所述计算框架安装请求,确定目标计算集群,并通过所述目标计算集群将所述初始计算框架安装到挂载在所述目标计算集群上的分布式文件系统中。
可选地,所述计算框架管理系统还包括:存储模块;
所述存储模块用于存储各待存储信息,所述各待存储信息包括:所述目标计算框架的结构化信息、所述目标计算集群的集群信息,所述交互模块与所述用户进行交互的交互数据,通过所述目标计算集群进行任务执行的执行结果中的至少一种,所述结构化信息包括:所述目标计算框架的版本号,所述目标计算框架的运行环境,用户提交的计算任务信息,计算集群的信息。
可选地,所述存储模块用于针对每个待存储信息,根据预设的待存储信息的类型和预设的各子存储模块之间的对应关系,从所述各子存储模块,确定用于存储该待存储信息的子存储模块,作为目标子存储模块,并将所述待存储信息存储到所述目标子存储模块中,所述各子存储模块包括:第一子存储模块和/或第二子存储模块,所述第一子存储模块包括:数据库,所述第二子存储模块包括:分布式文件系统和/或镜像仓库。
可选地,所述调度模块用于监听所述计算任务的执行状态,若确定通过所述目标计算集群执行所述计算任务存在异常,则根据所述异常的类型,从预设的异常处理策略中确定出与所述异常的类型相匹配的异常处理策略,作为目标异常处理策略,并根据所述目标异常处理策略进行异常处理。
可选地,所述调度模块用于根据所述目标计算集群所支持的指定脚本语法,生成所述计算任务对应的启动脚本文件,并将所述启动脚本文件传输至所述目标计算集群,以通过所述计算集群管理模块,从所述目标计算集群中确定启动脚本文件中与所述资源参数相应的资源并启动计算框架运行所述运行参数相应的计算任务,以进行任务执行。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书提供的计算框架管理系统中,计算框架管理系统包括:计算框架安装模块、计算框架管理模块、交互模块、调度模块,其中,计算框架安装模块用于接收用户发送的计算框架安装请求,根据计算框架安装请求确定用户所需的计算集群的需求信息,并根据需求信息从各计算集群中确定出目标计算集群,以及,根据计算框架安装请求,确定用户进行任务执行所需的初始计算框架,并将初始计算框架安装到指定位置,计算框架管理模块用于接收用户发送的计算框架配置请求,根据计算框架配置请求,确定对于初始计算框架的配置信息,并根据配置信息对所述初始计算框架进行配置,得到目标计算框架,其中配置信息包括目标计算框架运行的计算集群资源需求信息和运行参数信息,交互模块用于通过目标计算框架与所述用户进行交互,并接收用户通过目标计算框架填写的资源参数和运行参数,并发送任务请求,根据任务请求生成计算任务,调度模块用于将计算任务调度至所述目标计算集群,以通过目标计算集群进行任务执行。
从上述方法可以看出,可以通过计算框架管理系统来统一对各不同的计算框架进行管理,以及与用户进行交互,从而可以避免用户学习多种不同计算框架的管理和交互方式,以可以在提升用户的体验同时,有效地在异构计算集群上对计算框架进行管理。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中提供的一种计算框架管理系统的示意图;
图2为本说明书中提供的初始计算框架的安装过程的示意图;
图3为本说明书中提供的计算任务生成过程的示意图;
图4A为本说明书中提供的通过表单交互方式或接口API交互方式进行交互的过程示意图;
图4B为本说明书中提供的通过会话交互方式进行交互的过程示意图;
图4C为本说明书中提供的通过基于JupyterLab方式进行交互的过程示意图;
图5为本说明书中提供的一种模型部署的方法的流程示意图;
图6为本说明书提供的一种对应于图5的电子设备示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书中提供的一种计算框架管理系统的示意图。
结合图1可以看出,本说明书中提供的计算框架管理系统包括:计算框架安装模块、计算框架管理模块、交互模块、调度模块,其中,计算框架安装模块用于接收用户发送的计算框架安装请求,根据计算框架安装请求确定用户所需的计算集群的需求信息,并根据需求信息从各计算集群中确定出目标计算集群,以及,根据计算框架安装请求,确定用户进行任务执行所需的初始计算框架及其安装方式,并按照确定出的初始计算框架的安装方式将初始计算框架安装到指定位置。
上述的需求信息可以是指用户通过目标计算框架进行任务执行所需的计算集群中的计算节点的数量、用户所需的计算集群的类型等,这里的计算集群的类型可以是指以调度Docker镜像容器来运行计算框架的计算集群,如:Kubernetes计算集群等,和传统的直接将计算框架安装在宿主机操作系统上的高性能计算(High Performance Computing,HPC)集群这两种计算集群,如:Slurm计算集群中的至少一种。
需要说明的是,上述的各计算集群中可以包含互为异构的计算集群,这里的互为异构的计算集群可以是指上述的以调度Docker镜像容器来运行计算框架的计算集群,和传统的直接将计算框架安装在宿主机操作系统上的高性能计算(High PerformanceComputing,HPC)集群这两种计算集群。
进一步地,计算框架安装模块可以根据计算框架安装请求,确定目标计算框架的类型,并根据目标计算框架的类型,确定安装初始计算框架的指定位置,将初始计算框架安装到确定出的指定位置,具体如图2所示。
图2为本说明书中提供的初始计算框架的安装过程的示意图。
结合图2可以看出,目标计算框架的类型包括:镜像类计算框架、宿主机类计算框架,若确定出的目标计算框架的类型为镜相类计算框架,则计算框架安装模块可以根据计算框架安装请求,确定基础镜像,并利用镜像构建技术将初始计算框架安装到基础镜像中,得到目标镜像,并将目标镜像保存到预设的镜像仓库中,以使目标计算集群可以从镜像仓库中调取目标计算框架并运行。
上述的基础镜像是指Docker镜像容器中提供的一种特殊镜像容器,这种镜像容器没有父镜像(换句话说,基础镜像可以理解为是一个空白的镜像),这里的镜像容器是指通过虚拟化容器技术将计算框架的代码以及计算框架运行所需的软件环境打包之后得到的一个容器,计算框架在安装到镜像容器之后可以不需要重新配置运行环境就可以直接运行。
需要说明的是,计算框架安装模块可以根据用户发送的计算框架安装请求,解析出待安装的初始计算框架、及其安装方式和运行环境,通过整合使用诸如:apt、yum、pip、conda等安装程序以及其他预设的源码编译安装的方式完成计算框架的安装。
进一步地,为了交互的方便,计算框架安装模块还可以在镜像中安装jupyterlab、sshd等交互方式的软件并启动交互服务,以在镜像启动容器时可以自动的和交互模块进行数据的交互,最终生成符合要求的包含计算框架的目标镜像,常见的镜像构建技术指的是以Dockerfile文件为配置文件调用docker构建语句完成目标镜像的构建,Dockerfile文件的内容主要包括基础镜像的信息,例如:计算框架运行环境的配置和计算框架安装的指令,交互框架依赖安装指令,交互框架安装指令,端口映射指令等信息。
若确定出的目标计算框架的类型为宿主机类计算框架,则计算框架安装模块可以根据计算框架安装请求,确定目标计算集群,并通过目标计算集群将初始计算框架安装到挂载在目标计算集群上的分布式文件系统中。
具体地,在HPC类的计算框架上安装计算框架,可以采用诸如:EasyBuild、Spack等计算框架安装工具来部署,也可以通过手动方式源码安装计算框架,常见的计算框架源码安装使用configure-make-make install的过程可以安装,在安装时,确定计算框架安装的目录为分布式文件系统中使得计算集群中所有节点都可以正常的访问计算框架。另外,在HPC计算框架管理时,通常会使用类似environment modules或Lmod的工具展示HPC计算集群上已经安装的计算框架,方便用户选择使用。
其中,分布式文件系统可以是指分布在多个物理设备上的文件系统,这里的文件系统为用于为用户管理文件(如:为用户建立文件、存储文件、读取文件、修改文件、转储文件、撤销文件等)的软件,分布式文件系统需要挂载在目标计算集群后,目标计算集群方可通过分布式文件系统访问相应的文件。
进一步地,上述的计算框架管理模块用于接收用户发送的计算框架配置请求,根据计算框架配置请求,确定针对初始计算框架的配置信息,并根据配置信息对初始计算框架进行配置,得到目标计算框架,其中配置信息包括目标计算框架运行的计算集群资源需求信息和运行参数信息。
上述的配置信息用于在交互模块进行有效的展示,方便用户快速填入合法有效参数值,其中,配置信息可以包括目标计算框架运行的计算集群资源需求信息和运行参数信息,诸如:计算框架的名称、计算框架的版本号、计算框架使用的资源信息(如:计算框架运行所需的使用的计算集群的节点数、可以使用的中央处理器(Central Processing Unit,CPU)的限额,可以使用的内存的限额等),上述的计算框架的运行参数信息包括:计算框架启动的脚本,计算框架启动脚本可以接收的运行参数名称、类型约束和示例值等信息。
上述的交互模块用于通过目标计算框架与所述用户进行交互,并接收所述用户通过目标计算框架填写的资源参数和运行参数,并发送任务请求,根据任务请求生成计算任务,具体如图3所示。
图3为本说明书中提供的计算任务生成过程的示意图。
结合图3可以看出,交互模块可以根据用户发送的计算框架配置请求,从预设的各交互方式中确定用户所需的交互方式,作为指定交互方式,并按照确定出的指定交互方式渲染得到目标计算框架的用户交互界面。
用户可以在使用计算框架进行任务执行之前,选择通过计算框架进行任务执行所需的资源参数和运行参数,进而可以通过指定交互方式在构建出的用户交互界面中填写的资源参数和运行参数,并根据用户填写的资源参数和运行参数,发送任务请求,上述的各交互方式包括:表单交互、接口API交互、会话交互中的至少一种。
上述的资源参数可以为使用计算框架执行运算参数相应任务所需的计算节点数,启动的任务数,需要的cpu数量,需要占用的内存数量等资源规格参数,上述的运行参数可以为执行用户所发起的任务所需的计算框架的运行参数,具体可以为计算框架处理的文件、运算参数值。
从上述内容中可以看出,用户可以从计算框架管理系统预先提供的各交互方式中选择一种交互方式,进而可以使得交互模块根据用户发送的计算框架构建请求,确定用户所选择的交互方式作为指定交互方式,并按照用户所选择的指定交互方式,渲染得到与用户进行交互的用户交互页面,具体如图4A、图4B、图4C所示。
图4A为本说明书中提供的通过表单交互方式或接口API交互方式进行交互的过程示意图。
结合图4A可以看出,当预先确定用户所需的指定交互方式为表单交互或接口API交互时,交互模块可以获取用户配置的目标计算框架运行的运行参数信息,从而可以根据获取到的运行参数信息,生成启动脚本,并可以通过目标计算框架中预设的启动脚本转换程序将启动脚本的格式转换为目标计算集群所支持的格式,进而可以通过启动脚本建立目标计算集群与目标计算框架之间的连接,以使用户可以通过交互模块与目标计算框架进行交互,生成任务请求并通过目标计算集群执行相应的计算任务。
其中,若上述的目标计算集群为slurm集群,其对应的配置文件如下所示:
“job.h
#!/bin/bash #SBATCH 资源参数 bash run.sh 运算参数 运算文件参数”
若上述的目标计算集群为kubernetes集群,其对应的配置文件如下所示:
“job.yaml
apiVersion: *** kind: Job spec: containers: - command: - /bin/bash --c - bash run.sh 运算参数 运算文件参数 resources:- 资源参数image: 镜像名称”。
图4B为本说明书中提供的通过会话交互方式进行交互的过程示意图。
结合图4B可以看出,当预先确定用户所需的指定交互方式为会话交互时,交互模块可以接收用户发送的交互请求,并响应接收到的交互请求,为用户生成用户交互界面,以使用户通过生成的用户交互界面与目标计算框架进行交互,并生成任务请求。
其中,交互模块在生成用户交互界面时,可以先判断目标计算框架的类型是否为镜像类计算框架,若是,则可以通过目标计算集群中包含的计算集群登录节点拉取基础镜像,并基于基础镜像构造具有交互功能的临时镜像,以通过临时镜像调度至目标计算集群的计算节点以启动容器,进行交互端口映射、挂载必要的文件,进而可以通过临时镜像生成用户交互界面。
若否,则可以通过目标计算集群中包含的计算集群登录节点拉取用于交互的基础镜像,并通过基础镜像启动容器,进行交互端口映射、分布式文件系统的挂载、目标计算集群的操纵,进而可以通过基础镜像生成用户交互界面。
图4C为本说明书中提供的通过基于JupyterLab方式进行交互的过程示意图。
结合图4C可以看出,当预先确定用户所需的指定交互方式为基于JupyterLab的交互方式时,交互模块可以生成镜像构建工作目录,生成镜像构建dockerfile文件,通过镜像构建技术基于Dockerfile完成交互计算框架临时镜像生成,以临时镜像、用户输入的资源参数和运算参数由系统通过集群调度语法调度至计算节点,并将端口映射至内部JupyterLab端口,用户直接使用浏览器访问JupyterLab客户端界面与目标计算框架进行交互,并生成任务请求。
其中,上述生成镜像构建dockerfile文件的方法可以为,添加基础镜像,添加JupyterLab依赖dockerfile指令安装,添加JupyterLab交互框架dockerfile安装指令,添加密码设置指令,添加JupyterLab端口暴露指令,添加JupyterLab为镜像启动入口程序。
除此之外,用户还可以根据计算框架管理系统中预先提供的用于生成用户交互页面的接口(可以理解为用户生成用户交互页面的模板),自行设计所需的交互方式,作为指定交互方式,并将指定交互方式发送给交互模块,以使交互模块根据用户自行设计的指定交互方式渲染得到与用户进行交互的用户交互页面。
进一步地,上述的调度模块用于将计算任务调度至目标计算集群,以通过目标计算集群中包含的至少部分计算节点进行任务执行。
具体地,调度模块可以根据目标计算集群所支持的指定脚本语法,在获取计算框架配置的资源参数和运行参数后,按照所述的指定语法生成计算任务对应的启动脚本文件,因此所述的启动脚本文件中包含了计算框架运行的计算任务信息和任务信息所需要的资源,并将启动脚本文件传输至目标计算集群,以通过计算集群管理模块,从目标计算集群中确定启动脚本文件中与资源参数规格相应的资源并启动计算框架运行于运行参数相应的计算任务,以进行任务执行。
除此之外,调度模块还可以实时监听计算任务的执行状态,若确定通过目标计算集群执行计算任务的过程中存在异常,则根据确定出的异常的类型,从预设的异常处理策略中确定出与确定出的异常的类型相匹配的异常处理策略,作为目标异常处理策略,并根据确定出的目标异常处理策略进行异常处理。
其中,上述的异常可以是指计算集群的状态异常(如:计算集群中的部分节点出现故障等),计算集群的查询响应率(Queries Per Second,QBS)异常,计算集群中的节点CPU使用率异常,计算集群中的节点磁盘使用率异常等。
除此之外,上述的计算框架管理系统中还可以包括:计算集群管理模块,其中,计算集群管理模块用于获取每个计算集群的集群信息,以及,针对每个计算集群,对该计算集群进行监听,以实时确定每个计算集群的集群状态信息,这里的集群信息包括:计算集群中用于管理计算集群的节点的标识信息、计算集群的端口信息、计算集群的管理员账户信息,这里的集群状态信息包括:该计算集群当前是否可用的信息、该计算集群中包含计算资源信占用信息、该计算集群中的计算任务的执行信息中的至少一种。
另外,上述的计算框架管理系统还可以包括:存储模块,其中,存储模块用于存储各待存储信息,这里的各待存储信息包括:目标计算框架的结构化信息、目标计算集群的集群信息,交互模块与用户进行交互的交互数据,通过目标计算集群进行任务执行的执行结果中的至少一种,结构化信息包括:目标计算框架的版本号,目标计算框架的运行环境,用户提交的计算任务信息,计算集群的信息等。
具体地,存储模块可以针对每个待存储信息,根据预设的待存储信息的类型和预设的各子存储模块之间的对应关系,从各子存储模块,确定用于存储该待存储信息的子存储模块,作为目标子存储模块,并将待存储信息存储到目标子存储模块中,其中,各子存储模块包括:第一子存储模块和/或第二子存储模块,第一子存储模块包括:数据库,第二子存储模块包括:分布式文件系统和/或镜像仓库。
从上述内容中可以看出,计算框架管理系统可以为用户提供各种不同的交互方式、不同类型的计算框架以及互为异构的计算集群供用户选择,用户可以根据实际需求选择出所需的交互方式、计算框架和计算集群,进而可以使得计算框架管理系统能够根据用户需求,配置出目标计算框架,并将目标计算框架安装到目标计算集群可以调用的指定位置,以及,可以按照用户的指定交互方式,渲染出相应的用户交互界面供用户使用,从而可以优化用户的使用体验,提升计算任务的执行效率。
除此之外,计算框架管理系统还预设有接口供用户自行扩展相应的功能,提升了计算框架管理系统的灵活性和可扩展性。并且,在计算框架管理系统中预设有针对各种类型的异常进行处理的异常处理策略,可以通过调度模块对目标计算集群执行计算任务时的执行状态进行监听,从而可以在目标计算集群执行计算任务的过程中出现异常时,能够及时的根据预设异常处理策略对异常进行处理,进而可以提升计算框架管理系统的容错性。
为了进一步地对本说明书进行说明,下面详细描述通过上述计算框架管理系统对计算框架进行管理的过程,如图5所示。
图5为本说明书提供的一种计算框架管理方法的流程示意图,包括:
S501:接收用户发送的计算框架安装请求,根据所述计算框架安装请求确定用户所需的计算集群的需求信息,并根据所述需求信息从各计算集群中确定出目标计算集群,以及,根据所述计算框架安装请求,确定所述用户进行任务执行所需的初始计算框架,并将所述初始计算框架安装到指定位置。
S502:接收所述用户发送的计算框架配置请求,根据所述计算框架配置请求,确定针对所述初始计算框架的配置信息,并根据所述配置信息对所述初始计算框架进行配置,得到目标计算框架,其中,所述配置信息包括所述目标计算框架运行的计算集群资源需求信息和运行参数信息。
S503:通过所述目标计算框架与所述用户进行交互,并接收所述用户通过所述目标计算框架填写的资源参数和运行参数,并发送任务请求,根据所述任务请求生成计算任务。
S504:将所述计算任务调度至所述目标计算集群,以通过所述目标计算集群进行任务执行。
在本说明书中,计算框架管理系统可以通过计算框架安装模块接收用户发送的计算框架安装请求,并根据计算框架安装请求确定用户所需的计算集群的需求信息,并根据确定出的用户所需的计算集群的需求信息从各计算集群中确定出目标计算集群,以及,根据计算框架安装请求,确定用户进行任务执行所需的初始计算框架及其安装方式,并将初始计算框架安装到指定位置。
进一步地,计算框架管理系统可以通过计算框架配置模块接收用户发送的计算框架配置请求,根据计算框架配置请求,确定针对初始计算框架的配置信息,并根据配置信息对所述初始计算框架进行配置,得到目标计算框架,其中,配置信息包括目标计算框架运行的计算集群资源需求信息和运行参数信息。
进一步地,计算框架管理系统可以通过交互模块与用户进行交互,并接收用户通过目标计算框架填写的资源参数和运行参数,并发送任务请求,根据任务请求生成计算任务,并可以通过调度模块将计算任务调度至目标计算集群,以通过目标计算集群进行任务执行。
具体地,计算框架管理系统可以根据计算框架安装请求,确定目标计算框架的类型,并根据目标计算框架的类型,确定安装初始计算框架的指定位置,将初始计算框架安装到指定位置。
其中,若目标计算框架的类型为镜像类计算框架,则可以根据计算框架构建请求,确定基础镜像,并利用镜像构建技术将初始计算框架安装到基础镜像中,并将基础镜像保存到预设的镜像仓库中。
若目标计算框架的类型为宿主机类计算框架,则可以根据计算框架构建请求,确定目标计算集群及计算框架安装方式,如使用EasyBuild或者Spack等HPC计算框架部署方案,或通过源码编译安装计算框架的安装方式,并通过目标计算集群将初始计算框架安装到挂载在目标计算集群上的分布式文件系统中。
除此之外,计算框架管理系统还可以通过交互模块根据计算框架配置请求,从预设的各交互方式中确定用户所需的交互方式,作为指定交互方式,并根据指定交互方式渲染得到目标计算框架的用户交互界面,以使用户通过用户交互界面发送任务请求,这里的各交互方式包括:表单交互、接口API交互、会话交互中的至少一种。
进一步地,计算框架管理模块可以通过调度模块监听计算任务的执行状态,若确定通过目标计算集群执行计算任务存在异常,则根据异常的类型,从预设的异常处理策略中确定出与异常的类型相匹配的异常处理策略,作为目标异常处理策略,并根据目标异常处理策略进行异常处理。
另外,计算框架管理系统可以通过计算集群管理模块用于获取每个计算集群的集群信息,以及,针对每个计算集群,对该计算集群进行监听,以实时确定每个计算集群的集群状态信息,其中,集群信息包括:计算集群中用于管理计算集群的节点的标识信息、计算集群的端口信息、计算集群的管理员账户信息,集群状态信息包括:该计算集群当前是否可用的信息、该计算集群中包含计算资源信占用信息、该计算集群中的计算任务的执行信息中的至少一种。
在实际应用场景中,上述的计算框架管理系统还包括:存储模块,计算框架管理系统可以通过存储模块针对每个待存储信息,根据预设的待存储信息的类型和预设的各子存储模块之间的对应关系,从各子存储模块,确定用于存储该待存储信息的子存储模块,作为目标子存储模块,并将待存储信息存储到目标子存储模块中,所述各子存储模块包括:第一子存储模块和/或第二子存储模块,其中,第一子存储模块包括:数据库,第二子存储模块包括:分布式文件系统和/或镜像仓库。
从上述内容中可以看出,计算框架管理系统可以为用户提供各种不同的交互方式、不同类型的计算框架以及互为异构的计算集群供用户选择,用户可以根据实际需求选择出所需的交互方式、计算框架和计算集群,进而可以使得计算框架管理系统能够根据用户需求,配置出目标计算框架,并将目标计算框架安装到目标计算集群可以调用的指定位置,以及,可以按照用户的指定交互方式,渲染出相应的用户交互界面供用户使用,从而可以优化用户的使用体验,提升计算任务的执行效率。
除此之外,计算框架管理系统还预设有接口供用户自行扩展相应的功能,提升了计算框架管理系统的灵活性和可扩展性。并且,在计算框架管理系统中预设有针对各种类型的异常进行处理的异常处理策略,可以通过调度模块对目标计算集群执行计算任务时的执行状态进行监听,从而可以在目标计算集群执行计算任务的过程中出现异常时,能够及时的根据预设异常处理策略对异常进行处理,进而可以提升计算框架管理系统的容错性。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图5提供的一种计算框架管理方法。
本说明书还提供了图6所示的一种对应于图6的电子设备的示意结构图。如图6所述,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的计算框架管理方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(ProgrammableLogic Device, PLD)(例如现场可编程门阵列(Field Programmable Gate Array,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(HardwareDescription Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(AdvancedBoolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(JavaHardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby HardwareDescription Language)等,目前最普遍使用的是VHDL(Very-High-Speed IntegratedCircuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (10)

1.一种计算框架管理系统,其特征在于,所述计算框架管理系统包括:计算框架安装模块、计算框架管理模块、交互模块、调度模块;
所述计算框架安装模块用于接收用户发送的计算框架安装请求,根据所述计算框架安装请求确定用户所需的计算集群的需求信息,并根据所述需求信息从各计算集群中确定出目标计算集群,以及,根据所述计算框架安装请求,确定所述用户进行任务执行所需的初始计算框架,并将所述初始计算框架安装到指定位置;
所述计算框架管理模块用于接收所述用户发送的计算框架配置请求,根据所述计算框架配置请求,确定针对所述初始计算框架的配置信息,并根据所述配置信息对所述初始计算框架进行配置,得到目标计算框架,其中,所述配置信息包括所述目标计算框架运行的计算集群资源需求信息和运行参数信息;
所述交互模块用于通过所述目标计算框架与所述用户进行交互,并接收所述用户通过所述目标计算框架填写的资源参数和运行参数,并发送任务请求,根据所述任务请求生成计算任务;
所述调度模块用于将所述计算任务调度至所述目标计算集群,以通过所述目标计算集群进行任务执行。
2.如权利要求1所述的计算框架管理系统,其特征在于,所述计算框架管理系统还包括:计算集群管理模块;
所述计算集群管理模块用于获取每个计算集群的集群信息,以及,针对每个计算集群,对该计算集群进行监听,以实时确定每个计算集群的集群状态信息,所述集群信息包括:计算集群中用于管理计算集群的节点的标识信息、计算集群的端口信息、计算集群的管理员账户信息,所述集群状态信息包括:该计算集群当前是否可用的信息、该计算集群中包含计算资源信占用信息、该计算集群中的计算任务的执行信息中的至少一种。
3.如权利要求1所述的计算框架管理系统,其特征在于,交互模块用于根据所述计算框架构建请求,从预设的各交互方式中确定用户所需的交互方式,作为指定交互方式,并根据所述指定交互方式渲染得到所述目标计算框架的用户交互界面,以使所述用户通过所述用户交互界面发送任务请求,所述各交互方式包括:表单交互、接口API交互、会话交互中的至少一种。
4.如权利要求1所述的计算框架管理系统,其特征在于,所述计算框架安装模块用于根据所述计算框架安装请求,确定所述目标计算框架的类型,并根据所述目标计算框架的类型,确定安装所述初始计算框架的指定位置,将所述初始计算框架安装到指定位置。
5.如权利要求4所述的计算框架管理系统,其特征在于,所述目标计算框架的类型包括:镜像类计算框架;
所述计算框架安装模块用于根据所述计算框架安装请求,确定基础镜像,将所述初始计算框架安装到所述基础镜像中,得到目标镜像,并将所述目标镜像保存到预设的镜像仓库中。
6.如权利要求4所述的计算框架管理系统,其特征在于,所述目标计算框架的类型包括:宿主机类计算框架;
所述计算框架安装模块用于根据所述计算框架安装请求,确定目标计算集群,并通过所述目标计算集群将所述初始计算框架安装到挂载在所述目标计算集群上的分布式文件系统中。
7.如权利要求1所述的计算框架管理系统,其特征在于,所述计算框架管理系统还包括:存储模块;
所述存储模块用于存储各待存储信息,所述各待存储信息包括:所述目标计算框架的结构化信息、所述目标计算集群的集群信息,所述交互模块与所述用户进行交互的交互数据,通过所述目标计算集群进行任务执行的执行结果中的至少一种,所述结构化信息包括:所述目标计算框架的版本号,所述目标计算框架的运行环境,用户提交的计算任务信息,计算集群的信息。
8.如权利要求7所述的计算框架管理系统,其特征在于,所述存储模块用于针对每个待存储信息,根据预设的待存储信息的类型和预设的各子存储模块之间的对应关系,从所述各子存储模块,确定用于存储该待存储信息的子存储模块,作为目标子存储模块,并将所述待存储信息存储到所述目标子存储模块中,所述各子存储模块包括:第一子存储模块和/或第二子存储模块,所述第一子存储模块包括:数据库,所述第二子存储模块包括:分布式文件系统和/或镜像仓库。
9.如权利要求1所述的计算框架管理系统,其特征在于,所述调度模块用于监听所述计算任务的执行状态,若确定通过所述目标计算集群执行所述计算任务存在异常,则根据所述异常的类型,从预设的异常处理策略中确定出与所述异常的类型相匹配的异常处理策略,作为目标异常处理策略,并根据所述目标异常处理策略进行异常处理。
10.如权利要求1所述的计算框架管理系统,其特征在于,所述调度模块用于根据所述目标计算集群所支持的指定脚本语法,生成所述计算任务对应的启动脚本文件,并将所述启动脚本文件传输至所述目标计算集群,以通过所述计算集群管理模块,从所述目标计算集群中确定启动脚本文件中与所述资源参数相应的资源并启动计算框架运行所述运行参数相应的计算任务,以进行任务执行。
CN202311344160.3A 2023-10-17 2023-10-17 一种计算框架管理系统 Active CN117075930B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311344160.3A CN117075930B (zh) 2023-10-17 2023-10-17 一种计算框架管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311344160.3A CN117075930B (zh) 2023-10-17 2023-10-17 一种计算框架管理系统

Publications (2)

Publication Number Publication Date
CN117075930A true CN117075930A (zh) 2023-11-17
CN117075930B CN117075930B (zh) 2024-01-26

Family

ID=88719851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311344160.3A Active CN117075930B (zh) 2023-10-17 2023-10-17 一种计算框架管理系统

Country Status (1)

Country Link
CN (1) CN117075930B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117519912A (zh) * 2024-01-04 2024-02-06 之江实验室 一种镜像仓库部署的方法、装置、存储介质、设备
CN117573359A (zh) * 2023-11-28 2024-02-20 之江实验室 一种基于异构集群的计算框架管理系统及方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834561A (zh) * 2015-04-29 2015-08-12 华为技术有限公司 一种数据处理方法及装置
CN105187500A (zh) * 2015-08-07 2015-12-23 浪潮(北京)电子信息产业有限公司 一种基于容器的分布式存储系统部署方法
CN107733977A (zh) * 2017-08-31 2018-02-23 北京百度网讯科技有限公司 一种基于Docker的集群管理方法及装置
CN107943555A (zh) * 2017-10-17 2018-04-20 华南理工大学 一种云计算环境下的大数据存储和处理平台及处理方法
CN109165022A (zh) * 2018-07-18 2019-01-08 山东中创软件商用中间件股份有限公司 一种大数据集群部署方法、系统、介质及设备
CN109814995A (zh) * 2019-01-04 2019-05-28 深圳壹账通智能科技有限公司 任务调度方法、装置、计算机设备和存储介质
CN109933306A (zh) * 2019-02-11 2019-06-25 山东大学 混合计算框架生成、数据处理方法、装置及混合计算框架
CN110781007A (zh) * 2019-10-31 2020-02-11 广州市网星信息技术有限公司 任务处理方法、装置、服务器、客户端、系统和存储介质
CN111190718A (zh) * 2020-01-07 2020-05-22 第四范式(北京)技术有限公司 实现任务调度的方法、装置及系统
CN111212116A (zh) * 2019-12-24 2020-05-29 湖南舜康信息技术有限公司 一种基于容器云的高性能计算集群创建方法和系统
CN112068847A (zh) * 2020-09-07 2020-12-11 海南大学 基于kubernets平台的计算环境部署方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834561A (zh) * 2015-04-29 2015-08-12 华为技术有限公司 一种数据处理方法及装置
CN105187500A (zh) * 2015-08-07 2015-12-23 浪潮(北京)电子信息产业有限公司 一种基于容器的分布式存储系统部署方法
CN107733977A (zh) * 2017-08-31 2018-02-23 北京百度网讯科技有限公司 一种基于Docker的集群管理方法及装置
CN107943555A (zh) * 2017-10-17 2018-04-20 华南理工大学 一种云计算环境下的大数据存储和处理平台及处理方法
CN109165022A (zh) * 2018-07-18 2019-01-08 山东中创软件商用中间件股份有限公司 一种大数据集群部署方法、系统、介质及设备
CN109814995A (zh) * 2019-01-04 2019-05-28 深圳壹账通智能科技有限公司 任务调度方法、装置、计算机设备和存储介质
CN109933306A (zh) * 2019-02-11 2019-06-25 山东大学 混合计算框架生成、数据处理方法、装置及混合计算框架
CN110781007A (zh) * 2019-10-31 2020-02-11 广州市网星信息技术有限公司 任务处理方法、装置、服务器、客户端、系统和存储介质
CN111212116A (zh) * 2019-12-24 2020-05-29 湖南舜康信息技术有限公司 一种基于容器云的高性能计算集群创建方法和系统
CN111190718A (zh) * 2020-01-07 2020-05-22 第四范式(北京)技术有限公司 实现任务调度的方法、装置及系统
CN112068847A (zh) * 2020-09-07 2020-12-11 海南大学 基于kubernets平台的计算环境部署方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573359A (zh) * 2023-11-28 2024-02-20 之江实验室 一种基于异构集群的计算框架管理系统及方法
CN117519912A (zh) * 2024-01-04 2024-02-06 之江实验室 一种镜像仓库部署的方法、装置、存储介质、设备
CN117519912B (zh) * 2024-01-04 2024-04-05 之江实验室 一种镜像仓库部署的方法、装置、存储介质、设备

Also Published As

Publication number Publication date
CN117075930B (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
CN117075930B (zh) 一种计算框架管理系统
US11853816B2 (en) Extending the Kubernetes API in-process
US11948014B2 (en) Multi-tenant control plane management on computing platform
CN110401700B (zh) 模型加载方法及系统、控制节点及执行节点
CN116126365B (zh) 一种模型部署的方法、系统、存储介质及电子设备
CN113204353A (zh) 一种大数据平台组件部署方法及装置
US9772835B1 (en) Modification of program code for execution in a multi-tenant or distributed computing environment
CN109947643A (zh) 一种基于a/b测试的实验方案的配置方法、装置及设备
CN117093352B (zh) 基于模板的计算集群作业调度系统及方法、装置
CN107621946B (zh) 一种软件开发方法、装置及系统
CN111273965A (zh) 一种容器应用启动方法、系统、装置及电子设备
US20230128271A1 (en) Method, electronic device, and computer program product for managing inference process
CN111338655A (zh) 一种安装包分发方法和系统
CN113656001A (zh) 平台组件开发方法、装置、计算机设备及存储介质
CN116302457A (zh) 一种云原生工作流引擎实现方法、系统、介质及电子设备
CN111459573A (zh) 一种智能合约执行环境的启动方法以及装置
CN116107728A (zh) 一种任务执行方法、装置、存储介质及电子设备
CN114333102A (zh) 一种无人驾驶设备的参数配置方法及配置装置
CN111984720A (zh) 一种数据获取方法、装置、电子设备和接口适配装置
CN117032739B (zh) 一种镜像生成的方法、系统、存储介质及电子设备
CN115269562B (zh) 一种数据库管理方法、装置、存储介质及电子设备
CN113672470B (zh) 一种接口监控方法、装置、设备及介质
RU2820753C1 (ru) Способ и система управления объектами и процессами в вычислительной среде
CN112328213B (zh) 一种在线软件开发过程的隔离方法、设备及介质
CN117331626A (zh) 一种Python模型的交付及部署方法、电子设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant