CN117632491A - 一种gpu集群管理系统 - Google Patents
一种gpu集群管理系统 Download PDFInfo
- Publication number
- CN117632491A CN117632491A CN202311595220.9A CN202311595220A CN117632491A CN 117632491 A CN117632491 A CN 117632491A CN 202311595220 A CN202311595220 A CN 202311595220A CN 117632491 A CN117632491 A CN 117632491A
- Authority
- CN
- China
- Prior art keywords
- gpu
- cluster
- management
- card
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 claims abstract description 120
- 238000003860 storage Methods 0.000 claims abstract description 36
- 238000004891 communication Methods 0.000 claims abstract description 24
- 238000009826 distribution Methods 0.000 claims abstract description 18
- 238000013500 data storage Methods 0.000 claims abstract description 9
- 230000001133 acceleration Effects 0.000 claims description 7
- 238000013480 data collection Methods 0.000 claims description 4
- 238000002955 isolation Methods 0.000 claims description 4
- 230000007774 longterm Effects 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 4
- 238000011451 sequencing strategy Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 239000003795 chemical substances by application Substances 0.000 description 12
- 238000000034 method Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 6
- 238000005259 measurement Methods 0.000 description 5
- 230000002688 persistence Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Hardware Redundancy (AREA)
Abstract
本发明公开了一种GPU集群管理系统,属于GPU集群管理领域,包括GPU管理集群模块,用于对GPU卡进行管理,包括上下线管理、分配管理、卡状态上报管理、卡故障管理和镜像管理;GPU节点集群模块,用于通过运行在该GPU节点集群模块每个工作节点上的客户端程序来实现与GPU管理集群的通信,并最终实现与GPU的通信;GPU存储集群模块,用于对GPU卡的相关信息进行存储,确保数据存储可靠性。本发明提出了新的解决方案,实现了对GPU集群的管理。
Description
技术领域
本发明涉及GPU集群管理领域,更为具体的,涉及一种GPU集群管理系统。
背景技术
目前航天测控领域,主要是基于FPGA来实现测控功能。其开发周期长、硬件制作成本高,灵活性差。随着通用服务器的CPU和GPU组合的算力越来越强大。测控功能逐渐迁移到通用平台上。由于航天测控任务越来越多,采用CPU+GPU组合的算法,每个任务都需要2块左右的GPU,一个大型的测控站多达上百块的GPU,形成GPU集群。这就面临着GPU管理难的问题:GPU上下线、GPU卡分配、GPU故障等,迫切需要一套GPU集群管理技术方案。
发明内容
本发明的目的在于克服现有技术的不足,提供一种GPU集群管理系统,提出了新的解决方案,实现服务器下对GPU的注册发现、调用以及管理等功能。
本发明的目的是通过以下方案实现的:
一种GPU集群管理系统,包括:
GPU管理集群模块,用于对GPU卡进行管理,包括上下线管理、分配管理、卡状态上报管理、卡故障管理和镜像管理;
GPU节点集群模块,用于通过运行在该GPU节点集群模块每个工作节点上的客户端程序来实现与GPU管理集群的通信,并最终实现与GPU的通信;
GPU存储集群模块,用于对GPU卡的相关信息进行存储,确保数据存储可靠性。
进一步地,所述GPU管理集群模块,具体采用微服务的架构进行设计,集群注册发现基于Nacos集群进行搭建,其能够支持多语言功能,从而实现跨平台能力。
进一步地,所述采用微服务的架构进行设计,集群注册发现基于Nacos集群进行搭建,具体包括如下模块:
Web服务模块,用于提供对外的web管理页面和HTTP调用接口服务,通过该服务提供的页面和http接口来实现对整个系统的管理;
状态服务模块,用于实现对GPU的所有节点的状态监视和参数的数据收集;
镜像服务模块,用于实现对GPU的可执行程序镜像的存储管理;
故障服务模块,用于实现GPU的故障管理和故障隔离管理;
卡分配服务模块,用于通过对GPU卡信息进行综合分析,并根据配置的分配策略实现卡最分配最优化;
存储服务模块,用于实现GPU卡基础信息、状态等信息的存储。
进一步地,所述通过对GPU卡信息进行综合分析,并根据配置的分配策略实现卡最分配最优化,具体包括:设计如下三种用于GPU卡分配策略:均分策略、指定策略和顺序策略;所述均分策略根据GPU所在的服务器和每台服务器上安装的GPU卡数量进行均匀分配,避免某台设备运行过载或者长期运行;所述指定策略由应用申请方使用的时候,指定GPU的cardId来实现对特定GPU的使用,用以满足某些特殊功能;所述顺序策略由GPU管理集群查询数据库可用GPU的列表,从第一块GPU开始轮训往下分配使用。
进一步地,所述GPU节点集群模块由部署到服务器上的GPU和Agent服务组成。
进一步地,所述GPU节点集群模块具体包括:
注册服务模块,用于通过注册到GPU管理集群,实现GPU卡信息的注册功能;
镜像下载模块,用于通过获取数据库中镜像信息,下载对应的镜像到GPU;
状态获取模块,用于读取加速卡的信息,进行上报;
数据通信模块,用于应用于各GPU之间建立TCP或者UDP通信;
Opencl模块,用于通过它完成agent和加速卡的所有通信。
进一步地,所述GPU存储集群模块具体采用mysql四个节点搭建高可用存储集群,集群包括二主两从,部署在容器环境中,master1节点负责读写,master2节点作为备用主库,与master1共享数据存储,当master1节点故障或宕机时,写流量切换到master2,从节点也切换到master2复制binlog日志,master1恢复时作为备用主库重新加入到集群中,slave节点只负责读,集群中任一从节点挂掉,会被集群调度恢复并作为从节点重新加入到集群中。
进一步地,所述GPU存储集群模块包括如下数据表结构:
t_d_card:完成卡名字、所在节点、是否在线、是否忙的管理;
t_d_fault_record:完成对卡的故障记录表;
t_d_image:GPU卡对应的镜像程序管理记录表;
t_d_strategy:卡的分配策略管理表,支持策略的扩展性,当有新的策略需要增加时,只需要添加相应的策略,并在管理服务器里面增加对应的实现逻辑即可;
t_d_app_record:应用对GPU卡使用记录进行管理,包括开始时间、结束时间、是否完成、使用的镜像的记录;管理服务将在结束时间点强制收回GPU卡。
进一步地,所述GPU存储集群模块具备Mysql主从部署架构下拥有的能力,并且主备节点自动切换,主从拓扑结构信息变更对客户端透明,并且数据实现持久化管理。
本发明的有益效果包括:
本发明提出了新的解决方案,可实现对GPU在任何通用平台下的注册发现管理、状态管理、故障管理、分配管理和镜像管理等功能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的GPU集群管理总体架构;
图2为本发明实施例的GPU管理集群内部结构;
图3为本发明实施例的存储集群高可用架构;
图4为本发明实施例的数据库设计;
图5为本发明实施例的Agent服务内部结构。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
如图1所示,本发明包括:
GPU管理集群(GPU Manager Cluster),通过该集群实现对GPU卡的上下线管理、分配管理、卡状态上报管理、卡故障管理、镜像管理。
GPU存储集群(GPU Storage Cluster),通过该集群实现对GPU卡的相关信息存储,确保数据存储可靠性。
GPU节点集群(GPU Node Cluster)。该集群及是所有GPU工作节点集合,是算法运行的载体,通过运行在该集群每个工作节点上的客户端程序(client)来实现与GPU管理集群的通信,并最终实现与GPU的通信。
综上所述,通过本发明构思设计三个集群,实现了对GPU集群的管理。
进一步的实施方式中,具体包括:
一、GPU管理集群设计方案
GPU管理集群是整个集群的核心,采用微服务的架构进行设计,集群注册发现采用阿里的Nacos集群进行搭建,其支持多语言功能,从而实现跨平台能力,如图2所示,本发明系统按照功能模块分为如下微服务模块:
Web服务模块:提供对外的web管理页面和HTTP调用接口服务。通过该服务提供的页面和http接口来实现对整个系统的管理。
状态服务模块:实现对GPU的所有节点的状态监视、主要参数的数据收集。
镜像服务模块:实现对GPU的可执行程序镜像的存储管理。
故障服务模块:实现GPU的故障管理,故障隔离管理。
卡分配服务模块:通过对GPU卡信息进行综合分析,并根据配置的分配策略,实现卡最分配最优化。
存储服务模块:实现GPU卡基础信息、状态等信息的存储。
本发明还设计了GPU分配策略:均分策略、指定策略和顺序策略。均分策略:根据GPU所在的服务器和每台服务器上安装的GPU卡数量进行均匀分配,避免某台设备运行过载或者长期运行。指定策略:由应用申请方使用的时候,指定GPU的cardId来实现对特定GPU的使用,用以满足某些特殊功能。顺序策略:由GPU管理集群查询数据库可用GPU的列表,从第一块GPU开始轮训往下分配使用。
二、GPU存储集群设计方案
GPU存储集群需要保证数据的高可用性,本发明采用mysql四个节点搭建高可用存储集群,如图3所示,集群包括二主两从,部署在容器环境中,master1节点负责读写,master2节点作为备用主库,与master1共享数据存储,当master1节点故障或宕机时,写流量切换到master2,从节点也切换到master2复制binlog日志,master1恢复时作为备用主库重新加入到集群中,slave节点只负责读,集群中任一从节点挂掉,会被集群调度恢复并作为从节点重新加入到集群中。
本发明的GPU存储集群具有主要优势:具备一切Mysql主从部署架构下拥有的能力,比如数据的安全性保证,数据天然备份、mysql节点访问压力分摊等。主备节点自动切换,主从拓扑结构信息变更对客户端透明。结合容器技术和相应的持久化卷技术实现数据的持久化,不管mysql主从节点如何调度都能正确找到对应数据。
本发明还根据管理集群微服务的卡管理、分配等功能,存储集群设计了如图4所示的数据表结构:
t_d_card:完成卡名字、所在节点、是否在线、是否忙等管理。
t_d_fault_record:完成对卡的故障记录表。
t_d_image:GPU卡对应的镜像程序管理记录表。
t_d_strategy:卡的分配策略管理表,支持策略的扩展性,当有新的策略需要增加时,只需要添加相应的策略,并在管理服务器里面增加对应的实现逻辑即可。
t_d_app_record:应用对GPU卡使用记录进行管理,包括开始时间、结束时间、是否完成、使用的镜像等记录。管理服务将在结束时间点强制收回GPU卡。
三、GPU节点集群设计方案
本发明的GPU节点集群,由部署到服务器上的GPU和Agent服务组成,如图5所示,具体包括:
注册服务模块:通过注册到GPU管理集群,实现GPU卡信息的注册功能。
镜像下载模块:通过获取数据库中镜像信息,下载对应的镜像到GPU。
状态获取模块:读取加速卡的信息,进行上报。
数据通信模块:应用与GPU之间建立TCP或者UDP通信。
Opencl:通过它完成agent和加速卡的所有通信。
在其他实施方式中,基于本发明的系统还包括GPU上下线流程:
步骤1,GPU插入pcie插槽;
步骤2,安装与opencl适配的驱动程序;
步骤3,服务器上电,运行agent服务程序,并向GPU管理集群注册;
步骤4,读取GPU信息,并上报;
步骤5,GPU管理集群根据上报信息,写入数据库;
步骤6,GPU管理集群周期性读取信息并更新GPU状态。
在其他实施方式中,基于本发明的系统还应用使用流程:
步骤1,应用申请方向GPU管理集群申请卡使用;
步骤2,GPU管理集群根据分配策略,获取卡信息,并返回卡所对应的agent所在节点的IP地址、卡密钥;
步骤3,应用申请方根据IP信息、卡密钥,与卡agent数据通信模块建立连接;
步骤4,应用申请方通过卡agent下载镜像程序;
步骤5,通过agent的通信模块进行数据传输;
步骤6,应用请求结束使用GPU卡或GPU管理集群检测卡到期时间并回收卡。
需要说明的是,在本发明权利要求书中所限定的保护范围内,以下实施例均可以从上述具体实施方式中,例如公开的技术原理,公开的技术特征或隐含公开的技术特征等,以合乎逻辑的任何方式进行组合和/或扩展、替换。
实施例1
一种GPU集群管理系统,包括:
GPU管理集群模块,用于对GPU卡进行管理,包括上下线管理、分配管理、卡状态上报管理、卡故障管理和镜像管理;
GPU节点集群模块,用于通过运行在该GPU节点集群模块每个工作节点上的客户端程序来实现与GPU管理集群的通信,并最终实现与GPU的通信;
GPU存储集群模块,用于对GPU卡的相关信息进行存储,确保数据存储可靠性。
实施例2
在实施例1的基础上,所述GPU管理集群模块,具体采用微服务的架构进行设计,集群注册发现基于Nacos集群进行搭建,其能够支持多语言功能,从而实现跨平台能力。
实施例3
在实施例2的基础上,所述采用微服务的架构进行设计,集群注册发现基于Nacos集群进行搭建,具体包括如下模块:
Web服务模块,用于提供对外的web管理页面和HTTP调用接口服务,通过该服务提供的页面和http接口来实现对整个系统的管理;
状态服务模块,用于实现对GPU的所有节点的状态监视和参数的数据收集;
镜像服务模块,用于实现对GPU的可执行程序镜像的存储管理;
故障服务模块,用于实现GPU的故障管理和故障隔离管理;
卡分配服务模块,用于通过对GPU卡信息进行综合分析,并根据配置的分配策略实现卡最分配最优化;
存储服务模块,用于实现GPU卡基础信息、状态等信息的存储。
实施例4
在实施例3的基础上,所述通过对GPU卡信息进行综合分析,并根据配置的分配策略实现卡最分配最优化,具体包括:设计如下三种用于GPU卡分配策略:均分策略、指定策略和顺序策略;所述均分策略根据GPU所在的服务器和每台服务器上安装的GPU卡数量进行均匀分配,避免某台设备运行过载或者长期运行;所述指定策略由应用申请方使用的时候,指定GPU的cardId来实现对特定GPU的使用,用以满足某些特殊功能;所述顺序策略由GPU管理集群查询数据库可用GPU的列表,从第一块GPU开始轮训往下分配使用。
实施例5
在实施例1的基础上,所述GPU节点集群模块由部署到服务器上的GPU和Agent服务组成。
实施例6
在实施例1的基础上,所述GPU节点集群模块具体包括:
注册服务模块,用于通过注册到GPU管理集群,实现GPU卡信息的注册功能;
镜像下载模块,用于通过获取数据库中镜像信息,下载对应的镜像到GPU;
状态获取模块,用于读取加速卡的信息,进行上报;
数据通信模块,用于应用于各GPU之间建立TCP或者UDP通信;
Opencl模块,用于通过它完成agent和加速卡的所有通信。
实施例7
在实施例1的基础上,所述GPU存储集群模块具体采用mysql四个节点搭建高可用存储集群,集群包括二主两从,部署在容器环境中,master1节点负责读写,master2节点作为备用主库,与master1共享数据存储,当master1节点故障或宕机时,写流量切换到master2,从节点也切换到master2复制binlog日志,master1恢复时作为备用主库重新加入到集群中,slave节点只负责读,集群中任一从节点挂掉,会被集群调度恢复并作为从节点重新加入到集群中。
实施例8
在实施例1的基础上,所述GPU存储集群模块包括如下数据表结构:
t_d_card:完成卡名字、所在节点、是否在线、是否忙的管理;
t_d_fault_record:完成对卡的故障记录表;
t_d_image:GPU卡对应的镜像程序管理记录表;
t_d_strategy:卡的分配策略管理表,支持策略的扩展性,当有新的策略需要增加时,只需要添加相应的策略,并在管理服务器里面增加对应的实现逻辑即可;
t_d_app_record:应用对GPU卡使用记录进行管理,包括开始时间、结束时间、是否完成、使用的镜像的记录;管理服务将在结束时间点强制收回GPU卡。
实施例9
在实施例1的基础上,所述GPU存储集群模块具备Mysql主从部署架构下拥有的能力,并且主备节点自动切换,主从拓扑结构信息变更对客户端透明,并且数据实现持久化管理。
根据本发明实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
作为另一方面,本发明实施例还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (9)
1.一种GPU集群管理系统,其特征在于,包括:
GPU管理集群模块,用于对GPU卡进行管理,包括上下线管理、分配管理、卡状态上报管理、卡故障管理和镜像管理;
GPU节点集群模块,用于通过运行在该GPU节点集群模块每个工作节点上的客户端程序来实现与GPU管理集群的通信,并最终实现与GPU的通信;
GPU存储集群模块,用于对GPU卡的相关信息进行存储,确保数据存储可靠性。
2.根据权利要求1所述的GPU集群管理系统,其特征在于,所述GPU管理集群模块,具体采用微服务的架构进行设计,集群注册发现基于Nacos集群进行搭建,其能够支持多语言功能,从而实现跨平台能力。
3.根据权利要求2所述的GPU集群管理系统,其特征在于,所述采用微服务的架构进行设计,集群注册发现基于Nacos集群进行搭建,具体包括如下模块:
Web服务模块,用于提供对外的web管理页面和HTTP调用接口服务,通过该服务提供的页面和http接口来实现对整个系统的管理;
状态服务模块,用于实现对GPU的所有节点的状态监视和参数的数据收集;
镜像服务模块,用于实现对GPU的可执行程序镜像的存储管理;
故障服务模块,用于实现GPU的故障管理和故障隔离管理;
卡分配服务模块,用于通过对GPU卡信息进行综合分析,并根据配置的分配策略实现卡最分配最优化;
存储服务模块,用于实现GPU卡基础信息、状态等信息的存储。
4.根据权利要求3所述的GPU集群管理系统,其特征在于,所述通过对GPU卡信息进行综合分析,并根据配置的分配策略实现卡最分配最优化,具体包括:设计如下三种用于GPU卡分配策略:均分策略、指定策略和顺序策略;所述均分策略根据GPU所在的服务器和每台服务器上安装的GPU卡数量进行均匀分配,避免某台设备运行过载或者长期运行;所述指定策略由应用申请方使用的时候,指定GPU的cardId来实现对特定GPU的使用,用以满足某些特殊功能;所述顺序策略由GPU管理集群查询数据库可用GPU的列表,从第一块GPU开始轮训往下分配使用。
5.根据权利要求1所述的GPU集群管理系统,其特征在于,所述GPU节点集群模块由部署到服务器上的GPU和Agent服务组成。
6.根据权利要求1所述的GPU集群管理系统,其特征在于,所述GPU节点集群模块具体包括:
注册服务模块,用于通过注册到GPU管理集群,实现GPU卡信息的注册功能;
镜像下载模块,用于通过获取数据库中镜像信息,下载对应的镜像到GPU;
状态获取模块,用于读取加速卡的信息,进行上报;
数据通信模块,用于应用于各GPU之间建立TCP或者UDP通信;
Opencl模块,用于通过它完成agent和加速卡的所有通信。
7.根据权利要求1所述的GPU集群管理系统,其特征在于,所述GPU存储集群模块具体采用mysql四个节点搭建高可用存储集群,集群包括二主两从,部署在容器环境中,master1节点负责读写,master2节点作为备用主库,与master1共享数据存储,当master1节点故障或宕机时,写流量切换到master2,从节点也切换到master2复制binlog日志,master1恢复时作为备用主库重新加入到集群中,slave节点只负责读,集群中任一从节点挂掉,会被集群调度恢复并作为从节点重新加入到集群中。
8.根据权利要求1所述的GPU集群管理系统,其特征在于,所述GPU存储集群模块包括如下数据表结构:
t_d_card:完成卡名字、所在节点、是否在线、是否忙的管理;
t_d_fault_record:完成对卡的故障记录表;
t_d_image:GPU卡对应的镜像程序管理记录表;
t_d_strategy:卡的分配策略管理表,支持策略的扩展性,当有新的策略需要增加时,只需要添加相应的策略,并在管理服务器里面增加对应的实现逻辑即可;
t_d_app_record:应用对GPU卡使用记录进行管理,包括开始时间、结束时间、是否完成、使用的镜像的记录;管理服务将在结束时间点强制收回GPU卡。
9.根据权利要求1所述的GPU集群管理系统,其特征在于,所述GPU存储集群模块具备Mysql主从部署架构下拥有的能力,并且主备节点自动切换,主从拓扑结构信息变更对客户端透明,并且数据实现持久化管理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311595220.9A CN117632491A (zh) | 2023-11-24 | 2023-11-24 | 一种gpu集群管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311595220.9A CN117632491A (zh) | 2023-11-24 | 2023-11-24 | 一种gpu集群管理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117632491A true CN117632491A (zh) | 2024-03-01 |
Family
ID=90026406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311595220.9A Pending CN117632491A (zh) | 2023-11-24 | 2023-11-24 | 一种gpu集群管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117632491A (zh) |
-
2023
- 2023-11-24 CN CN202311595220.9A patent/CN117632491A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110784350B (zh) | 一种实时高可用集群管理系统的设计方法 | |
CN108270726B (zh) | 应用实例部署方法及装置 | |
CN107544783B (zh) | 一种数据更新方法、装置及系统 | |
CN110377395A (zh) | 一种Kubernetes集群中的Pod迁移方法 | |
CN111343219B (zh) | 计算服务云平台 | |
CN111124277A (zh) | 一种深度学习数据集缓存方法、系统、终端及存储介质 | |
CN113204353B (zh) | 一种大数据平台组件部署方法及装置 | |
CN114138754A (zh) | 基于Kubernetes平台的软件部署方法及装置 | |
CN109992373B (zh) | 资源调度方法、信息管理方法和装置及任务部署系统 | |
CN113312145A (zh) | 一种容器调度方法、装置、电子设备及介质 | |
CN112230853A (zh) | 存储容量调整方法、装置、设备及存储介质 | |
US11533391B2 (en) | State replication, allocation and failover in stream processing | |
CN104573428A (zh) | 一种提高服务器集群资源有效性的方法及系统 | |
CN114565502A (zh) | Gpu资源管理方法、调度方法、装置、电子设备及存储介质 | |
CN112243030A (zh) | 分布式存储系统的数据同步方法、装置、设备及介质 | |
CN116708266A (zh) | 一种云服务拓扑图实时更新方法、装置、设备及介质 | |
CN117632491A (zh) | 一种gpu集群管理系统 | |
CN116723077A (zh) | 一种分布式it自动化运维系统 | |
CN115543548A (zh) | 一种容器组的配置方法、装置、设备及可读存储介质 | |
CN116633724A (zh) | 多维度限流和动态路由的系统和部署方法 | |
CN114338670A (zh) | 一种边缘云平台和具有其的网联交通三级云控平台 | |
CN111338647B (zh) | 一种大数据集群管理方法和装置 | |
CN112799835A (zh) | 一种分布式数据库系统元数据的处理方法及系统 | |
CN113157476A (zh) | 虚拟云环境中显卡故障的处理方法及装置 | |
CN115510167B (zh) | 一种分布式数据库系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |