CN117632491A

CN117632491A - 一种gpu集群管理系统

Info

Publication number: CN117632491A
Application number: CN202311595220.9A
Authority: CN
Inventors: 刘永福
Original assignee: CETC 10 Research Institute
Current assignee: CETC 10 Research Institute
Priority date: 2023-11-24
Filing date: 2023-11-24
Publication date: 2024-03-01

Abstract

本发明公开了一种GPU集群管理系统，属于GPU集群管理领域，包括GPU管理集群模块，用于对GPU卡进行管理，包括上下线管理、分配管理、卡状态上报管理、卡故障管理和镜像管理；GPU节点集群模块，用于通过运行在该GPU节点集群模块每个工作节点上的客户端程序来实现与GPU管理集群的通信，并最终实现与GPU的通信；GPU存储集群模块，用于对GPU卡的相关信息进行存储，确保数据存储可靠性。本发明提出了新的解决方案，实现了对GPU集群的管理。

Description

一种GPU集群管理系统

技术领域

本发明涉及GPU集群管理领域，更为具体的，涉及一种GPU集群管理系统。

背景技术

目前航天测控领域，主要是基于FPGA来实现测控功能。其开发周期长、硬件制作成本高，灵活性差。随着通用服务器的CPU和GPU组合的算力越来越强大。测控功能逐渐迁移到通用平台上。由于航天测控任务越来越多，采用CPU+GPU组合的算法，每个任务都需要2块左右的GPU，一个大型的测控站多达上百块的GPU，形成GPU集群。这就面临着GPU管理难的问题：GPU上下线、GPU卡分配、GPU故障等，迫切需要一套GPU集群管理技术方案。

发明内容

本发明的目的在于克服现有技术的不足，提供一种GPU集群管理系统，提出了新的解决方案，实现服务器下对GPU的注册发现、调用以及管理等功能。

本发明的目的是通过以下方案实现的：

一种GPU集群管理系统，包括：

GPU管理集群模块，用于对GPU卡进行管理，包括上下线管理、分配管理、卡状态上报管理、卡故障管理和镜像管理；

GPU节点集群模块，用于通过运行在该GPU节点集群模块每个工作节点上的客户端程序来实现与GPU管理集群的通信，并最终实现与GPU的通信；

GPU存储集群模块，用于对GPU卡的相关信息进行存储，确保数据存储可靠性。

进一步地，所述GPU管理集群模块，具体采用微服务的架构进行设计，集群注册发现基于Nacos集群进行搭建，其能够支持多语言功能，从而实现跨平台能力。

进一步地，所述采用微服务的架构进行设计，集群注册发现基于Nacos集群进行搭建，具体包括如下模块：

Web服务模块，用于提供对外的web管理页面和HTTP调用接口服务，通过该服务提供的页面和http接口来实现对整个系统的管理；

状态服务模块，用于实现对GPU的所有节点的状态监视和参数的数据收集；

镜像服务模块，用于实现对GPU的可执行程序镜像的存储管理；

故障服务模块，用于实现GPU的故障管理和故障隔离管理；

卡分配服务模块，用于通过对GPU卡信息进行综合分析，并根据配置的分配策略实现卡最分配最优化；

存储服务模块，用于实现GPU卡基础信息、状态等信息的存储。

进一步地，所述通过对GPU卡信息进行综合分析，并根据配置的分配策略实现卡最分配最优化，具体包括：设计如下三种用于GPU卡分配策略：均分策略、指定策略和顺序策略；所述均分策略根据GPU所在的服务器和每台服务器上安装的GPU卡数量进行均匀分配，避免某台设备运行过载或者长期运行；所述指定策略由应用申请方使用的时候，指定GPU的cardId来实现对特定GPU的使用，用以满足某些特殊功能；所述顺序策略由GPU管理集群查询数据库可用GPU的列表，从第一块GPU开始轮训往下分配使用。

进一步地，所述GPU节点集群模块由部署到服务器上的GPU和Agent服务组成。

进一步地，所述GPU节点集群模块具体包括：

注册服务模块，用于通过注册到GPU管理集群，实现GPU卡信息的注册功能；

镜像下载模块，用于通过获取数据库中镜像信息，下载对应的镜像到GPU；

状态获取模块，用于读取加速卡的信息，进行上报；

数据通信模块，用于应用于各GPU之间建立TCP或者UDP通信；

Opencl模块，用于通过它完成agent和加速卡的所有通信。

进一步地，所述GPU存储集群模块具体采用mysql四个节点搭建高可用存储集群，集群包括二主两从，部署在容器环境中，master1节点负责读写，master2节点作为备用主库，与master1共享数据存储，当master1节点故障或宕机时，写流量切换到master2，从节点也切换到master2复制binlog日志，master1恢复时作为备用主库重新加入到集群中，slave节点只负责读，集群中任一从节点挂掉，会被集群调度恢复并作为从节点重新加入到集群中。

进一步地，所述GPU存储集群模块包括如下数据表结构：

t_d_card：完成卡名字、所在节点、是否在线、是否忙的管理；

t_d_fault_record：完成对卡的故障记录表；

t_d_image：GPU卡对应的镜像程序管理记录表；

t_d_strategy：卡的分配策略管理表，支持策略的扩展性，当有新的策略需要增加时，只需要添加相应的策略，并在管理服务器里面增加对应的实现逻辑即可；

t_d_app_record：应用对GPU卡使用记录进行管理,包括开始时间、结束时间、是否完成、使用的镜像的记录；管理服务将在结束时间点强制收回GPU卡。

进一步地，所述GPU存储集群模块具备Mysql主从部署架构下拥有的能力，并且主备节点自动切换，主从拓扑结构信息变更对客户端透明，并且数据实现持久化管理。

本发明的有益效果包括：

本发明提出了新的解决方案，可实现对GPU在任何通用平台下的注册发现管理、状态管理、故障管理、分配管理和镜像管理等功能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的GPU集群管理总体架构；

图2为本发明实施例的GPU管理集群内部结构；

图3为本发明实施例的存储集群高可用架构；

图4为本发明实施例的数据库设计；

图5为本发明实施例的Agent服务内部结构。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

如图1所示，本发明包括：

GPU管理集群(GPU Manager Cluster)，通过该集群实现对GPU卡的上下线管理、分配管理、卡状态上报管理、卡故障管理、镜像管理。

GPU存储集群(GPU Storage Cluster)，通过该集群实现对GPU卡的相关信息存储，确保数据存储可靠性。

GPU节点集群(GPU Node Cluster)。该集群及是所有GPU工作节点集合，是算法运行的载体，通过运行在该集群每个工作节点上的客户端程序(client)来实现与GPU管理集群的通信，并最终实现与GPU的通信。

综上所述，通过本发明构思设计三个集群，实现了对GPU集群的管理。

进一步的实施方式中，具体包括：

一、GPU管理集群设计方案

GPU管理集群是整个集群的核心，采用微服务的架构进行设计，集群注册发现采用阿里的Nacos集群进行搭建，其支持多语言功能，从而实现跨平台能力，如图2所示，本发明系统按照功能模块分为如下微服务模块：

Web服务模块：提供对外的web管理页面和HTTP调用接口服务。通过该服务提供的页面和http接口来实现对整个系统的管理。

状态服务模块：实现对GPU的所有节点的状态监视、主要参数的数据收集。

镜像服务模块：实现对GPU的可执行程序镜像的存储管理。

故障服务模块：实现GPU的故障管理，故障隔离管理。

卡分配服务模块：通过对GPU卡信息进行综合分析，并根据配置的分配策略，实现卡最分配最优化。

存储服务模块：实现GPU卡基础信息、状态等信息的存储。

本发明还设计了GPU分配策略：均分策略、指定策略和顺序策略。均分策略：根据GPU所在的服务器和每台服务器上安装的GPU卡数量进行均匀分配，避免某台设备运行过载或者长期运行。指定策略：由应用申请方使用的时候，指定GPU的cardId来实现对特定GPU的使用，用以满足某些特殊功能。顺序策略：由GPU管理集群查询数据库可用GPU的列表，从第一块GPU开始轮训往下分配使用。

二、GPU存储集群设计方案

GPU存储集群需要保证数据的高可用性，本发明采用mysql四个节点搭建高可用存储集群，如图3所示，集群包括二主两从，部署在容器环境中，master1节点负责读写，master2节点作为备用主库，与master1共享数据存储，当master1节点故障或宕机时，写流量切换到master2，从节点也切换到master2复制binlog日志，master1恢复时作为备用主库重新加入到集群中，slave节点只负责读，集群中任一从节点挂掉，会被集群调度恢复并作为从节点重新加入到集群中。

本发明的GPU存储集群具有主要优势：具备一切Mysql主从部署架构下拥有的能力，比如数据的安全性保证，数据天然备份、mysql节点访问压力分摊等。主备节点自动切换，主从拓扑结构信息变更对客户端透明。结合容器技术和相应的持久化卷技术实现数据的持久化，不管mysql主从节点如何调度都能正确找到对应数据。

本发明还根据管理集群微服务的卡管理、分配等功能，存储集群设计了如图4所示的数据表结构：

t_d_card：完成卡名字、所在节点、是否在线、是否忙等管理。

t_d_fault_record：完成对卡的故障记录表。

t_d_image：GPU卡对应的镜像程序管理记录表。

t_d_strategy：卡的分配策略管理表，支持策略的扩展性，当有新的策略需要增加时，只需要添加相应的策略，并在管理服务器里面增加对应的实现逻辑即可。

t_d_app_record：应用对GPU卡使用记录进行管理,包括开始时间、结束时间、是否完成、使用的镜像等记录。管理服务将在结束时间点强制收回GPU卡。

三、GPU节点集群设计方案

本发明的GPU节点集群，由部署到服务器上的GPU和Agent服务组成，如图5所示，具体包括：

注册服务模块：通过注册到GPU管理集群，实现GPU卡信息的注册功能。

镜像下载模块：通过获取数据库中镜像信息，下载对应的镜像到GPU。

状态获取模块：读取加速卡的信息，进行上报。

数据通信模块：应用与GPU之间建立TCP或者UDP通信。

Opencl：通过它完成agent和加速卡的所有通信。

在其他实施方式中，基于本发明的系统还包括GPU上下线流程：

步骤1，GPU插入pcie插槽；

步骤2，安装与opencl适配的驱动程序；

步骤3，服务器上电，运行agent服务程序，并向GPU管理集群注册；

步骤4，读取GPU信息，并上报；

步骤5，GPU管理集群根据上报信息，写入数据库；

步骤6，GPU管理集群周期性读取信息并更新GPU状态。

在其他实施方式中，基于本发明的系统还应用使用流程：

步骤1，应用申请方向GPU管理集群申请卡使用；

步骤2，GPU管理集群根据分配策略，获取卡信息，并返回卡所对应的agent所在节点的IP地址、卡密钥；

步骤3，应用申请方根据IP信息、卡密钥，与卡agent数据通信模块建立连接；

步骤4，应用申请方通过卡agent下载镜像程序；

步骤5，通过agent的通信模块进行数据传输；

步骤6，应用请求结束使用GPU卡或GPU管理集群检测卡到期时间并回收卡。

需要说明的是，在本发明权利要求书中所限定的保护范围内，以下实施例均可以从上述具体实施方式中，例如公开的技术原理，公开的技术特征或隐含公开的技术特征等，以合乎逻辑的任何方式进行组合和/或扩展、替换。

实施例1

一种GPU集群管理系统，包括：

实施例2

在实施例1的基础上，所述GPU管理集群模块，具体采用微服务的架构进行设计，集群注册发现基于Nacos集群进行搭建，其能够支持多语言功能，从而实现跨平台能力。

实施例3

在实施例2的基础上，所述采用微服务的架构进行设计，集群注册发现基于Nacos集群进行搭建，具体包括如下模块：

故障服务模块，用于实现GPU的故障管理和故障隔离管理；

实施例4

在实施例3的基础上，所述通过对GPU卡信息进行综合分析，并根据配置的分配策略实现卡最分配最优化，具体包括：设计如下三种用于GPU卡分配策略：均分策略、指定策略和顺序策略；所述均分策略根据GPU所在的服务器和每台服务器上安装的GPU卡数量进行均匀分配，避免某台设备运行过载或者长期运行；所述指定策略由应用申请方使用的时候，指定GPU的cardId来实现对特定GPU的使用，用以满足某些特殊功能；所述顺序策略由GPU管理集群查询数据库可用GPU的列表，从第一块GPU开始轮训往下分配使用。

实施例5

在实施例1的基础上，所述GPU节点集群模块由部署到服务器上的GPU和Agent服务组成。

实施例6

在实施例1的基础上，所述GPU节点集群模块具体包括：

状态获取模块，用于读取加速卡的信息，进行上报；

数据通信模块，用于应用于各GPU之间建立TCP或者UDP通信；

Opencl模块，用于通过它完成agent和加速卡的所有通信。

实施例7

在实施例1的基础上，所述GPU存储集群模块具体采用mysql四个节点搭建高可用存储集群，集群包括二主两从，部署在容器环境中，master1节点负责读写，master2节点作为备用主库，与master1共享数据存储，当master1节点故障或宕机时，写流量切换到master2，从节点也切换到master2复制binlog日志，master1恢复时作为备用主库重新加入到集群中，slave节点只负责读，集群中任一从节点挂掉，会被集群调度恢复并作为从节点重新加入到集群中。

实施例8

在实施例1的基础上，所述GPU存储集群模块包括如下数据表结构：

t_d_fault_record：完成对卡的故障记录表；

t_d_image：GPU卡对应的镜像程序管理记录表；

实施例9

在实施例1的基础上，所述GPU存储集群模块具备Mysql主从部署架构下拥有的能力，并且主备节点自动切换，主从拓扑结构信息变更对客户端透明，并且数据实现持久化管理。

根据本发明实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

作为另一方面，本发明实施例还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种GPU集群管理系统，其特征在于，包括：

2.根据权利要求1所述的GPU集群管理系统，其特征在于，所述GPU管理集群模块，具体采用微服务的架构进行设计，集群注册发现基于Nacos集群进行搭建，其能够支持多语言功能，从而实现跨平台能力。

3.根据权利要求2所述的GPU集群管理系统，其特征在于，所述采用微服务的架构进行设计，集群注册发现基于Nacos集群进行搭建，具体包括如下模块：

故障服务模块，用于实现GPU的故障管理和故障隔离管理；

4.根据权利要求3所述的GPU集群管理系统，其特征在于，所述通过对GPU卡信息进行综合分析，并根据配置的分配策略实现卡最分配最优化，具体包括：设计如下三种用于GPU卡分配策略：均分策略、指定策略和顺序策略；所述均分策略根据GPU所在的服务器和每台服务器上安装的GPU卡数量进行均匀分配，避免某台设备运行过载或者长期运行；所述指定策略由应用申请方使用的时候，指定GPU的cardId来实现对特定GPU的使用，用以满足某些特殊功能；所述顺序策略由GPU管理集群查询数据库可用GPU的列表，从第一块GPU开始轮训往下分配使用。

5.根据权利要求1所述的GPU集群管理系统，其特征在于，所述GPU节点集群模块由部署到服务器上的GPU和Agent服务组成。

6.根据权利要求1所述的GPU集群管理系统，其特征在于，所述GPU节点集群模块具体包括：

状态获取模块，用于读取加速卡的信息，进行上报；

数据通信模块，用于应用于各GPU之间建立TCP或者UDP通信；

Opencl模块，用于通过它完成agent和加速卡的所有通信。

7.根据权利要求1所述的GPU集群管理系统，其特征在于，所述GPU存储集群模块具体采用mysql四个节点搭建高可用存储集群，集群包括二主两从，部署在容器环境中，master1节点负责读写，master2节点作为备用主库，与master1共享数据存储，当master1节点故障或宕机时，写流量切换到master2，从节点也切换到master2复制binlog日志，master1恢复时作为备用主库重新加入到集群中，slave节点只负责读，集群中任一从节点挂掉，会被集群调度恢复并作为从节点重新加入到集群中。

8.根据权利要求1所述的GPU集群管理系统，其特征在于，所述GPU存储集群模块包括如下数据表结构：

t_d_fault_record：完成对卡的故障记录表；

t_d_image：GPU卡对应的镜像程序管理记录表；

9.根据权利要求1所述的GPU集群管理系统，其特征在于，所述GPU存储集群模块具备Mysql主从部署架构下拥有的能力，并且主备节点自动切换，主从拓扑结构信息变更对客户端透明，并且数据实现持久化管理。