CN113973049A - 一种fpga集群管理与部署比特流的方法 - Google Patents

一种fpga集群管理与部署比特流的方法 Download PDF

Info

Publication number
CN113973049A
CN113973049A CN202111190477.7A CN202111190477A CN113973049A CN 113973049 A CN113973049 A CN 113973049A CN 202111190477 A CN202111190477 A CN 202111190477A CN 113973049 A CN113973049 A CN 113973049A
Authority
CN
China
Prior art keywords
fpga
programmable logic
container
logic device
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111190477.7A
Other languages
English (en)
Other versions
CN113973049B (zh
Inventor
张科
王泽霖
齐乐
赵然
常轶松
王嵩岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202111190477.7A priority Critical patent/CN113973049B/zh
Publication of CN113973049A publication Critical patent/CN113973049A/zh
Application granted granted Critical
Publication of CN113973049B publication Critical patent/CN113973049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/09Mapping addresses
    • H04L61/10Mapping addresses of different types
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45562Creating, deleting, cloning virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances

Abstract

本发明提供一种FPGA集群,包括FPGA集群管理节点、FPGA节点以及FPGA容器编排系统,所述FPGA节点包括FPGA芯片、内存、NVMe固态硬盘以及网卡,其中FPGA容器编排系统包括运行FPGA集群管理节点上的容器编排系统调度进程以及运行在FPGA节点上的容器编排系统代理进程,其中所述容器编排系统调度进程用于将包含比特流文件的作业封装到容器镜像中提供给容器编排系统代理进程,所述容器编排系统代理进程用于将容器实例内包含的比特流文件配置到相应的FPGA可编程逻辑设备的可编程逻辑中。基于本发明的实施例,提供了一种异构计算集群的管理方法,既可以管理传统的CPU,又可以管理FPGA加速卡,并且可以提高FPGA可编程逻辑资源的利用率和集群的吞吐率。

Description

一种FPGA集群管理与部署比特流的方法
技术领域
本发明涉及计算机系统结构以及异构处理系统领域,特别涉及一种异构计算集群的管理及使用方法。
背景技术
随着云计算、大数据等概念的兴起,数据中心对计算能力的需求也大幅上升,诸如直播视频的编码与解码、图像的风格迁移、海量数据的加密与解密等等各类应用对计算能力的需求已经远远超过传统CPU处理器能力所及,因此异构计算系统逐渐成为产业发展的必经之路。相较于传统的单一CPU系统而言,在某些特定场景下(如视频的编码与解码),异构计算系统往往能够达到几十倍甚至上百倍的性能提升。
然而开发、部署一个异构计算程序门槛较高,往往需要程序员高成本地购置领域专用加速卡,人们迫切需求异构加速卡能够像云主机一样,在任何时间、任何地点在异构加速卡上调试异构计算程序。在此需求下催生了不同类型的异构计算集群平台,例如FPGA平台、GPU平台、NPU平台等等。这里提到的异构计算平台既可以是云服务厂商提供托管服务的、用户通过互联网访问的异构计算系统平台(以下简称云托管平台);也可以是自托管的,用户通过内网访问的异构计算平台(以下简称自托管平台)。现场可编程逻辑门阵列(FieldProgrammable Gate Array,FPGA)是一种可以对电路进行编程的芯片。通过对FPGA进行编程,可以高吞吐且低延时地完成大规模计算任务。以FPGA云托管平台为例,最近几年,各大云服务厂商纷纷推出基于FPGA加速卡的云服务,例如2017年1月阿里云发布了异构FPGA计算解决方案;同年4月,美国亚马逊公司上线了FPGA EC2实例F1。目前云服务厂商提供的FPGA云托管的FPGA集群平台,都是基于FPGA加速卡依附于x86中央处理器的架构,二者通过PCI-E总线连接。
目前FPGA集群的管理与比特流的部署方法的研究仍处于起步阶段。各大云服务厂商提供的FPGA云实例均是将x86资源与FPGA加速卡资源一同打包租售给用户。对于FPGA实例的用户来说,他们需要远程登录工具,例如使用SSH(Secure Shell,一种创建在应用层和传输层基础上的安全协议,可用于登录远程操作系统的工具)来登录到对应的x86主机中,手动部署比特流到FPGA加速卡中。对于FPGA集群管理与运维人员而言,他们也很难监控一个异构集群内所有FPGA加速卡的物理资源使用情况,此前一种集群管理方法是,逐个主机收集通过PCI-E接口连接的FPGA加速卡的使用情况监控数据,最后统一汇合为一个集群的FPGA加速卡的使用情况监控数据。此外,如果一个实例中的FPGA加速卡资源始终空闲,而其所依附的x86资源已经租售给用户的情况下,这个空闲的FPGA加速卡资源是无法租售给另一个用户的。因此,传统的FPGA集群平台管理方法会造成1)用户部署比特流的不便、2)运维人员难以监控一个集群的FPGA使用情况、3)FPGA加速卡资源的浪费。
发明内容
针对上述问题,根据本发明的第一方面,提出一种FPGA集群,包括FPGA集群管理节点、FPGA节点以及FPGA容器编排系统,所述FPGA节点包括FPGA芯片、内存、NVMe固态硬盘以及网卡,其中FPGA容器编排系统包括运行FPGA集群管理节点上的容器编排系统调度进程以及运行在FPGA节点上的容器编排系统代理进程,其中所述容器编排系统调度进程用于将包含比特流文件的作业封装到容器镜像中提供给容器编排系统代理进程,所述容器编排系统代理进程用于将容器实例内包含的比特流文件配置到相应的FPGA可编程逻辑设备的可编程逻辑中,所述容器编排系统调度进程与所述容器编排系统代理进程采用消息进行调度,所述消息的参数包括用于申请FPGA可编程逻辑设备的比特流文件,以及用于释放FPGA可编程逻辑设备的比特流文件。
在本发明的一个实施例中,其中所述容器编排系统调度进程用于接收用户提交的包含比特流文件的作业,确定FPGA可编程逻辑设备名称,将所述比特流文件封装到一个容器镜像中,选择一个具有所述比特流文件所需的FPGA可编程逻辑设备FPGA节点以运行所述容器镜像,以及将所述作业分配给该FPGA节点。
在本发明的一个实施例中,所述FPGA节点的容器编排系统代理进程用于接受容器镜像,并为该容器创建实例,挂载FPGA可编程逻辑设备的系统文件接口到容器实例中,将容器实例内包含的比特流文件配置到该FPGA节点的FPGA可编程逻辑设备的可编程逻辑中,以及向所述容器编排系统调度进程返回用户FPGA资源申请是否成功的信息。
根据本发明的第二方面,提供一种用于本发明的FPGA集群的部署比特流文件的方法,包括:
步骤100:容器编排系统调度进程接收用户提交的包含比特流文件的作业,确定FPGA可编程逻辑设备名称,将所述比特流文件封装到一个容器镜像中,选择一个具有所述比特流文件所需的FPGA可编程逻辑设备FPGA节点运行所述容器镜像,,将所述作业分配给该FPGA节点;
步骤200:被选中的FPGA节点的容器编排系统代理进程接受容器镜像,并为该容器创建实例,挂载FPGA可编程逻辑设备的系统文件接口到容器实例中,将容器实例内包含的比特流文件配置到该FPGA节点的FPGA可编程逻辑设备的可编程逻辑中;
步骤300:容器编排系统调度进程返回用户FPGA资源申请是否成功。
在本发明的一个实施例中,步骤100中确定FPGA可编程逻辑设备名称包括:
根据用户在作业中指定的所需的FPGA可编程逻辑设备的名称作为确定的FPGA可编程逻辑设备名称;或者
在用户没有指定FPGA可编程逻辑设备的名称时,则获得该比特流文件所需要的可编程逻辑资源容量,根据所需可编程逻辑资源容量选择设备名称,所选择的设备名称的容量应为在所有大于所需容量的设备名称中容量最小的设备。
在本发明的一个实施例中,步骤100还包括:如果当前集群中无空闲的所需FPGA可编程逻辑设备,可以选择容量更大一些的设备名称,或等待一个最大超时时间;如果没有容量更大一些的FPGA可编程逻辑设备或超时后仍未有空闲FPGA可编程逻辑设备则返回用户调度失败。
在本发明的一个实施例中,还包括:当FPGA节点加入集群时,容器编排系统代理进程向容器编排系统调度进程注册所述FPGA节点的FPGA可编程逻辑设备。
在本发明的一个实施例中,还包括:容器编排系统代理进程注册FPGA可编程逻辑设备后,循环监听所注册的FPGA可编程逻辑设备的占用情况,并定期上报给容器编排系统调度进程。
根据本发明的第三方面,提供一种用于本发明的FPGA集群的释放FPGA设备的方法,包括:
步骤1000:容器编排系统调度进程接收用户提交的释放FPGA可编程逻辑设备请求后,向容器实例发送释放FPGA可编程逻辑设备信号,容器实例根据所述信号采取释放FPGA可编程逻辑设备动作;
步骤2000:如果释放FPGA可编程逻辑设备成功,容器编排系统调度进程将该FPGA设备状态转为空闲,向用户返回释放FPGA可编程逻辑设备成功。
在本发明的一个实施例中,其中容器实例释放FPGA可编程逻辑设备包括:将用户请求释放的FPGA可编程逻辑设备中可编程逻辑部分重置信号置为有效,将可编程逻辑中配置的逻辑刷新掉。
根据本发明的第四方面,提供一种用于本发明的FPGA集群的监控方法,还包括:通过在FPGA集群中部署额外的监控系统对整个集群中的FPGA节点进行监控。
在本发明的一个实施例中,部署额外的监控系统包括:
部署虚拟网络服务,使得所有容器均运行在同一个虚拟子网下;建立集群内地址解析服务,为集群内容器名称到容器IP建立映射关系;部署FPGA节点信息采集器,使得FPGA节点的所有物理资源使用信息被收集并集中上报给集群管理节点。
与现有技术相比,本发明的优点在于提供了一种异构计算集群的管理方法,既可以管理传统的CPU,又可以管理FPGA加速卡,并且可以提高FPGA可编程逻辑资源的利用率和集群的吞吐率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了根据本发明实施例的FPGA集群示意图。
具体实施方式
针对背景技术中提出的问题,发明人进行了研究,提出通过FPGA容器编排系统来完成对FPGA集群的管理工作,FPGA容器编排系统基于现有的容器编排系统构建对FPGA可编程逻辑资源的管理能力,因此FPGA容器编排系统既可以管理传统CPU资源,又可以管理FPGA资源,可以利用的现有的容器编排系统包括但不限于Google公司开源的容器调度工具Kubernetes、Docker公司开源的Docker Swarm。FPGA集群的管理工作主要包括比特流部署,例如将一个比特流文件封装为一个比特流容器,由FPGA容器编排系统自动选择一个空闲的FPGA设备进行比特流文件的部署。
如图1所示,本发明的FPGA集群包括FPGA集群管理节点和FPGA节点,图中FPGA节点被编号为FPGA#1、FPGA#2、…FPGA#N。FPGA节点为FPGA加速卡,FPGA加速卡包括FPGA芯片、内存、NVMe固态硬盘、网卡等。本发明采用的FPGA芯片包括软核或硬核,硬核例如ARM+FPGA的SoC中的ARM,软核即在FPGA可编程逻辑中划分出一部分逻辑专门运行CPU的逻辑,因此软核或硬核可以作为CPU运行,并在软核或硬核中运行操作系统,例如Linux。集群管理节点可以在任意类型的服务器上运行,包括但不限于ARM架构、x86架构、RISC-V架构、或者FPGA架构,因此还可以运行在FPGA节点的FPGA芯片的软核或硬核中。该FPGA集群还可以管理传统的服务器(图1中未示出),这些服务器是ARM架构、x86架构等架构,因此既可以管理传统的CPU,又可以管理FPGA加速卡。
FPGA容器编排系统包括运行在FPGA集群管理节点上的容器编排系统调度进程(以下简称调度进程)与运行在FPGA节点上的容器编排系统代理进程(以下简称代理进程)。FPGA集群可以有奇数个集群管理节点,一个或多个管理节点组成FPGA容器编排系统的控制平面。在集群管理节点上运行创建管理节点程序从而新建容器编排系统的控制平面。FPGA节点中的操作系统上运行容器编排系统代理进程,该操作系统运行在FPGA节点中的FPGA芯片内,以使本FPGA节点加入到FPGA容器编排系统管理的FPGA集群中,并接受调度进程的调度,容器编排系统调度进程也可以运行在FPGA节点上,该节点既是集群管理节点也是FPGA节点。
在本发明中FPGA可编程逻辑作为独立的设备向FPGA容器编排系统调度进程注册,并被称为FPGA可编程逻辑设备。为了节约FPGA可编程逻辑资源,当比特流文件所需FPGA可编程逻辑资源较少时,不必将一个FPGA芯片的所有FPGA可编程逻辑都分配给该比特流文件,而是选择仅分配该芯片的一部分可编程逻辑,只要大于比特流文件所需的容量即可。因此可以将一个FPGA芯片的可编程逻辑分为多份,例如2份,每份为该芯片可编程逻辑的1/2,或分为4份,每份为该芯片可编程逻辑的1/4,或其它任意分配方案,例如分为3份,1份为该芯片可编程逻辑的1/2,2份为1/4。当一个FPGA芯片的所有FPGA可编程逻辑被分为多份,则需为其注册多个设备,不同容量的可编程逻辑被指定为不同的设备名称,由于设备名称可以任意设定,为了方便管理,优选地,设备名称应反映容量大小,例如“四之分一FPGA逻辑可编程逻辑设备”、“二之分一FPGA逻辑可编程逻辑设备”等,由于设备名称指某类设备的名称,不同的FPGA节点上相同容量的可编程逻辑设备的名称相同。
当FPGA节点加入集群时,代理进程将该节点空闲的FPGA可编程逻辑设备的容量大小和数量上报给集群管理节点的数据库。此时该FPGA节点向调度进程注册了一组FPGA可编程逻辑设备。例如集群中一个FPGA节点中可能具有4个FPGA可编程逻辑设备,每个设备占有该FPGA节点的FPGA可编程逻辑的1/4,或者仅有1个FPGA可编程逻辑设备,该设备占有该FPGA节点的所有FPGA可编程逻辑。每个FPGA节点在注册了FPGA可编程逻辑设备后,该节点代理进程需要循环监听所注册的FPGA可编程逻辑设备的占用情况,并定期上报给FPGA集群管理节点,以使集群管理节点中的FPGA设备资源的占用情况与其管理的所有FPGA节点的实际信息一致。信息不一致是由各种异常造成,例如,FPGA节点的FPGA可编程逻辑设备没有通过FPGA容器编排系统就被占用了,或者网络异常也可导致信息不一致。
根据本发明的一个实施例,提供一种用户申请FPGA可编程逻辑设备的处理方法,其包括:
步骤11:当用户想要申请FPGA可编程逻辑设备时,需要通过例如网页客户端向调度进程提交一个包含比特流文件的作业(如图1中的①),可选地,用户可以同时指定所需的FPGA可编程逻辑设备的名称。
步骤12:调度进程收到用户提交的比特流作业后,如果在步骤11中,用户没有指定FPGA可编程逻辑设备的名称,则首先获得该比特流文件所需要的可编程逻辑资源容量,根据所需可编程逻辑资源容量选择设备名称,所选择的设备名称的容量应为在所有大于所需容量的设备名称中容量最小的设备。然后打包比特流文件到容器镜像中。调度进程选择一个FPGA节点来运行这个容器镜像,这个节点需要具有比特流文件所需的FPGA可编程逻辑设备(如附图1中②)。如果当前集群中无空闲的所需FPGA可编程逻辑设备,可以选择容量更大一些的设备名称,或等待一个最大超时时间,如果没有容量更大一些的FPGA可编程逻辑设备或超时后仍未有空闲FPGA可编程逻辑设备则会返回用户调度失败。
步骤13:被选中的FPGA节点上的代理进程接受封装好的容器镜像并为该容器创建实例,创建容器实例时挂载FPGA可编程逻辑设备的系统文件接口到容器实例中,使得容器实例内可以访问对应的FPGA可编程逻辑设备,将容器实例内包含的比特流文件配置到该FPGA节点的被选中的FPGA可编程逻辑设备的可编程逻辑中,如果处理成功,向调度进程返回处理成功的响应,否则返回处理失败的响应(如附图1中③)。
步骤14:如果申请FPGA可编程逻辑设备成功,则调度进程返回用户申请成功(如附图1中④),否则返回用户申请失败。
用户申请FPGA可编程逻辑设备成功后,可以在容器实例内运行用户与FPGA可编程逻辑交互的代码来测试自己的硬件逻辑正确与否。
根据本发明的一个实施例,提供一种用户释放FPGA设备的处理方法,其包括:
步骤21:当用户想要释放FPGA可编程逻辑设备时,用户通过例如网页客户端向调度进程发出释放FPGA可编程逻辑设备请求;
步骤22:调度进程收到请求后,向容器实例发送例如SIGKILL信号,容器实例收到信号后,可进行例如如下操作:将用户请求释放的FPGA可编程逻辑设备中可编程逻辑部分重置信号置为有效,以及将可编程逻辑中配置的逻辑刷新掉。如果释放FPGA可编程逻辑设备成功,则向调度进程返回释放成功,如果在经过最大超时等待时间后未能成功释放FPGA可编程逻辑设备,则会向调度进程返回释放失败;
步骤23:如果释放FPGA可编程逻辑设备成功,调度进程将该FPGA设备状态转为空闲,向用户返回释放FPGA可编程逻辑设备成功;如果FPGA可编程逻辑设备失败,调度进程向用户返回释放FPGA可编程逻辑设备失败。
此外,可以在FPGA集群中部署额外的监控系统(例如由SoundCloud公司开源的Prometheus监控系统),以对整个集群中的FPGA节点进行监控。根据本发明的一个实施例,在上述集群系统中部署虚拟网络服务(例如Calico、Fannel、Cilium),使得所有容器均运行在同一个虚拟子网下;建立集群内地址解析服务(例如CoreDNS),为集群内容器名称到容器IP建立映射关系;部署FPGA节点信息采集器,使得FPGA节点的所有物理资源使用信息(如FPGA板卡上的内存用量、板卡上NVMe固态硬盘的存储用量、板卡上可编程逻辑的使用情况、板卡上所有网卡的流量信息等等)可以被收集并集中上报给集群管理节点中运行的监控数据的数据库(如Prometheus)。
为使本领域任何普通技术人员能够实现或者使用本公开内容,上面围绕本公开内容进行了描述。对于本领域普通技术人员来说,对本公开内容进行各种修改是显而易见的,并且,本文定义的通用原理也可以在不脱离本公开内容的精神或保护范围的基础上适用于其它变型。此外,除非另外说明,否则任何方面和/或实施例的所有部分或一部分可以与任何其它方面和/或实施例的所有部分或一部分一起使用。因此,本公开内容并不限于本文所描述的例子和设计方案,而是与本文公开的原理和新颖性特征的最广范围相一致。

Claims (12)

1.一种FPGA集群,包括FPGA集群管理节点、FPGA节点以及FPGA容器编排系统,所述FPGA节点包括FPGA芯片、内存、NVMe固态硬盘以及网卡,其中FPGA容器编排系统包括运行FPGA集群管理节点上的容器编排系统调度进程以及运行在FPGA节点上的容器编排系统代理进程,其中所述容器编排系统调度进程用于将包含比特流文件的作业封装到容器镜像中提供给容器编排系统代理进程,所述容器编排系统代理进程用于将容器实例内包含的比特流文件配置到相应的FPGA可编程逻辑设备的可编程逻辑中,所述容器编排系统调度进程与所述容器编排系统代理进程采用消息进行调度,所述消息的参数包括用于申请FPGA可编程逻辑设备的比特流文件,以及用于释放FPGA可编程逻辑设备的比特流文件。
2.根据权利要求1所述的FPGA集群,其中所述容器编排系统调度进程用于接收用户提交的包含比特流文件的作业,确定FPGA可编程逻辑设备名称,将所述比特流文件封装到一个容器镜像中,选择一个具有所述比特流文件所需的FPGA可编程逻辑设备FPGA节点以运行所述容器镜像,以及将所述作业分配给该FPGA节点。
3.根据权利要求2所述的FPGA集群,所述FPGA节点的容器编排系统代理进程用于接受容器镜像,并为该容器创建实例,挂载FPGA可编程逻辑设备的系统文件接口到容器实例中,将容器实例内包含的比特流文件配置到该FPGA节点的FPGA可编程逻辑设备的可编程逻辑中,以及向所述容器编排系统调度进程返回用户FPGA资源申请是否成功的信息。
4.一种用于权利要求1-3之一的FPGA集群的部署比特流文件的方法,包括:
步骤100:容器编排系统调度进程接收用户提交的包含比特流文件的作业,确定FPGA可编程逻辑设备名称,将所述比特流文件封装到一个容器镜像中,选择一个具有所述比特流文件所需的FPGA可编程逻辑设备FPGA节点运行所述容器镜像,,将所述作业分配给该FPGA节点;
步骤200:被选中的FPGA节点的容器编排系统代理进程接受容器镜像,并为该容器创建实例,挂载FPGA可编程逻辑设备的系统文件接口到容器实例中,将容器实例内包含的比特流文件配置到该FPGA节点的FPGA可编程逻辑设备的可编程逻辑中;
步骤300:容器编排系统调度进程返回用户FPGA资源申请是否成功。
5.根据权利要求4所述的方法,步骤100中确定FPGA可编程逻辑设备名称包括:
根据用户在作业中指定的所需的FPGA可编程逻辑设备的名称作为确定的FPGA可编程逻辑设备名称;或者
在用户没有指定FPGA可编程逻辑设备的名称时,则获得该比特流文件所需要的可编程逻辑资源容量,根据所需可编程逻辑资源容量选择设备名称,所选择的设备名称的容量应为在所有大于所需容量的设备名称中容量最小的设备。
6.根据权利要求4所述的方法,步骤100还包括:如果当前集群中无空闲的所需FPGA可编程逻辑设备,可以选择容量更大一些的设备名称,或等待一个最大超时时间;如果没有容量更大一些的FPGA可编程逻辑设备或超时后仍未有空闲FPGA可编程逻辑设备则返回用户调度失败。
7.根据权利要求4所述的方法,还包括:当FPGA节点加入集群时,容器编排系统代理进程向容器编排系统调度进程注册所述FPGA节点的FPGA可编程逻辑设备。
8.根据权利要求5所述的方法,还包括:容器编排系统代理进程注册FPGA可编程逻辑设备后,循环监听所注册的FPGA可编程逻辑设备的占用情况,并定期上报给容器编排系统调度进程。
9.一种用于权利要求1-3之一所述FPGA集群的释放FPGA设备的方法,包括:
步骤1000:容器编排系统调度进程接收用户提交的释放FPGA可编程逻辑设备请求后,向容器实例发送释放FPGA可编程逻辑设备信号,容器实例根据所述信号采取释放FPGA可编程逻辑设备动作;
步骤2000:如果释放FPGA可编程逻辑设备成功,容器编排系统调度进程将该FPGA设备状态转为空闲,向用户返回释放FPGA可编程逻辑设备成功。
10.根据权利要求7所述的方法,其中容器实例释放FPGA可编程逻辑设备包括:将用户请求释放的FPGA可编程逻辑设备中可编程逻辑部分重置信号置为有效,将可编程逻辑中配置的逻辑刷新掉。
11.一种用于权利要求1所述FPGA集群的监控方法,还包括:通过在FPGA集群中部署额外的监控系统对整个集群中的FPGA节点进行监控。
12.根据权利要求11所述的方法,部署额外的监控系统包括:
部署虚拟网络服务,使得所有容器均运行在同一个虚拟子网下;建立集群内地址解析服务,为集群内容器名称到容器IP建立映射关系;部署FPGA节点信息采集器,使得FPGA节点的所有物理资源使用信息被收集并集中上报给集群管理节点。
CN202111190477.7A 2021-10-13 2021-10-13 一种fpga集群管理与部署比特流的方法 Active CN113973049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111190477.7A CN113973049B (zh) 2021-10-13 2021-10-13 一种fpga集群管理与部署比特流的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111190477.7A CN113973049B (zh) 2021-10-13 2021-10-13 一种fpga集群管理与部署比特流的方法

Publications (2)

Publication Number Publication Date
CN113973049A true CN113973049A (zh) 2022-01-25
CN113973049B CN113973049B (zh) 2022-08-02

Family

ID=79587418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111190477.7A Active CN113973049B (zh) 2021-10-13 2021-10-13 一种fpga集群管理与部署比特流的方法

Country Status (1)

Country Link
CN (1) CN113973049B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109313584A (zh) * 2016-07-22 2019-02-05 英特尔公司 用于管理加速器资源的分配的技术
CN110719206A (zh) * 2019-10-21 2020-01-21 中国科学院空间应用工程与技术中心 天基fpga虚拟化计算服务系统、方法和可读存储介质
CN111124607A (zh) * 2019-12-16 2020-05-08 上海大学 Fpga虚拟化部署实现高速安全的服务器集群管理方法
US20200174840A1 (en) * 2018-11-30 2020-06-04 EMC IP Holding Company LLC Dynamic composition of data pipeline in accelerator-as-a-service computing environment
CN111858035A (zh) * 2020-06-29 2020-10-30 浪潮电子信息产业股份有限公司 一种fpga设备分配方法、装置、设备及存储介质
CN112241321A (zh) * 2020-09-24 2021-01-19 北京影谱科技股份有限公司 基于Kubernetes的算力调度方法和装置
CN112433819A (zh) * 2020-11-30 2021-03-02 中国科学院深圳先进技术研究院 异构集群调度的模拟方法、装置、计算机设备及存储介质
CN113377529A (zh) * 2021-05-24 2021-09-10 阿里巴巴新加坡控股有限公司 一种智能加速卡及基于智能加速卡的数据处理方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109313584A (zh) * 2016-07-22 2019-02-05 英特尔公司 用于管理加速器资源的分配的技术
US20200174840A1 (en) * 2018-11-30 2020-06-04 EMC IP Holding Company LLC Dynamic composition of data pipeline in accelerator-as-a-service computing environment
CN110719206A (zh) * 2019-10-21 2020-01-21 中国科学院空间应用工程与技术中心 天基fpga虚拟化计算服务系统、方法和可读存储介质
CN111124607A (zh) * 2019-12-16 2020-05-08 上海大学 Fpga虚拟化部署实现高速安全的服务器集群管理方法
CN111858035A (zh) * 2020-06-29 2020-10-30 浪潮电子信息产业股份有限公司 一种fpga设备分配方法、装置、设备及存储介质
CN112241321A (zh) * 2020-09-24 2021-01-19 北京影谱科技股份有限公司 基于Kubernetes的算力调度方法和装置
CN112433819A (zh) * 2020-11-30 2021-03-02 中国科学院深圳先进技术研究院 异构集群调度的模拟方法、装置、计算机设备及存储介质
CN113377529A (zh) * 2021-05-24 2021-09-10 阿里巴巴新加坡控股有限公司 一种智能加速卡及基于智能加速卡的数据处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
阳王东,王昊天,张宇峰,林圣乐,蔡沁耘: "《异构混合并行计算综述》", 《计算机科学》 *

Also Published As

Publication number Publication date
CN113973049B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
US9413604B2 (en) Instance host configuration
US20190377604A1 (en) Scalable function as a service platform
US10782950B2 (en) Function portability for services hubs using a function checkpoint
JP6614340B2 (ja) ネットワーク機能仮想化管理オーケストレーション装置と方法とプログラム
US20180329738A1 (en) Methods and systems that verify endpoints and external tasks in release-pipeline prior to execution
WO2017071460A1 (zh) 一种容器监控方法和装置
US9350682B1 (en) Compute instance migrations across availability zones of a provider network
EP2948865B1 (en) Instance host configuration
US9535754B1 (en) Dynamic provisioning of computing resources
US8966025B2 (en) Instance configuration on remote platforms
CN112035228A (zh) 一种资源调度方法及装置
CN109117252B (zh) 基于容器的任务处理的方法、系统及容器集群管理系统
US9104501B2 (en) Preparing parallel tasks to use a synchronization register
KR102524540B1 (ko) 멀티 클라우드 서비스 플랫폼 장치 및 방법
CN113382077B (zh) 微服务调度方法、装置、计算机设备和存储介质
WO2020057438A1 (zh) 云计算服务中的软件调试的方法和装置
CN112783672B (zh) 一种远程过程调用处理方法及系统
CN109992373B (zh) 资源调度方法、信息管理方法和装置及任务部署系统
US11656944B1 (en) Code function checkpoint and restore
US8180846B1 (en) Method and apparatus for obtaining agent status in a network management application
CN113973049B (zh) 一种fpga集群管理与部署比特流的方法
CN108696550B (zh) 快速构建和复制云的系统和方法
CN111835809A (zh) 工单消息分配方法、装置、服务器及存储介质
US20230195512A1 (en) Monitoring container-implemented software applications
CN115145695A (zh) 资源调度方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant