CN115242660B - 基于中心化的异构算力联邦系统及组网和执行方法 - Google Patents

基于中心化的异构算力联邦系统及组网和执行方法 Download PDF

Info

Publication number
CN115242660B
CN115242660B CN202211149183.4A CN202211149183A CN115242660B CN 115242660 B CN115242660 B CN 115242660B CN 202211149183 A CN202211149183 A CN 202211149183A CN 115242660 B CN115242660 B CN 115242660B
Authority
CN
China
Prior art keywords
heterogeneous
computational power
cluster
power
federal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211149183.4A
Other languages
English (en)
Other versions
CN115242660A (zh
Inventor
朱世强
潘爱民
林露
高翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202211149183.4A priority Critical patent/CN115242660B/zh
Publication of CN115242660A publication Critical patent/CN115242660A/zh
Application granted granted Critical
Publication of CN115242660B publication Critical patent/CN115242660B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于中心化的异构算力联邦系统及组网和执行方法,其中所述异构算力联邦系统架构总体上分为2层:视图层和资源层。在视图层包含2个模块:异构算力联邦服务模块和异构算力联邦控制模块;在资源层中包含2个模块:异构算力集群管理模块和异构算力联邦探针模块。根据上述架构,异构算力集群进行组网:首先在在异构算力集群管理模块部署异构算力联邦探针模块;然后在异构算力联邦控制模块创建异构算力集群描述模型;之后异构算力联邦探针模块收集异构算力集群信息推送到异构算力联邦控制模块;最后由异构算力联邦控制模块填充异构算力集群资源描述模型,完成异构算力联邦系统的统一算力视图。

Description

基于中心化的异构算力联邦系统及组网和执行方法
技术领域
本发明涉及计算机应用技术领域,特别涉及基于中心化的异构算力联邦系统及组网和执行方法。
背景技术
随着各行业生产运营中数字化转型的深化,各类行业终端将产生海量的原始数据,因此亟需大量的算力进行处理,为满足业务层秒级响应,低延时和业务连续性的要求,常采用算力集群方式提供高可用、高吞吐和高扩展的技术架构。
在算力集群逐年建设过程中,在同一数据中心或者不同数据中心,存在大量异构算力集群资源,如何能够在统一的平台对这些算力资源进行管理和调度,使得算力使用方可以方便根据需要、使用习惯调用算力资源是及待解决的问题。
发明内容
本发明的目的在于提供基于中心化的异构算力联邦系统及组网和执行方法,以解决目前无法对异构集群进行统一管控的难题。
为实现上述目的,本发明提供如下技术方案:
本申请公开了一种基于中心化的异构算力联邦系统,包括视图层和资源层,所述视图层内设有异构算力联邦服务模块和异构算力联邦控制模块;
所述异构算力联邦服务模块基于异构算力联邦控制模块存储的异构算力集群资源描述模型,对外提供统一的异构算力使用接口;
所述异构算力联邦控制模块接收来自异构算力联邦探针模块的信息推送,填充异构算力集群资源描述模型,形成异构算力资源的统一视图;接收来自异构算力联邦服务模块的异构算力使用请求,并根据异构算力资源的统一视图将异构算力使用请求转发到异构算力联邦探针模块;
所述资源层内设有异构算力联邦探针模块和异构算力集群管理模块;
所述异构算力联邦探针模块基于从异构算力管理模块获取的异构算力集群资源信息,并将其转换为异构算力集群资源描述模型的属性,最后将异构算力集群资源描述模型上报给异构算力联邦控制模块;
所述异构算力集群管理模块由异构算力集群自行定义,针对不同的异构算力集群存在不同类型的异构算力集群管理模块,不同的异构算力集群管理模块之间的差异性由异构算力联邦探针模块分别适配解决。
作为优选,所述异构算力联邦服务模块以API业务网关的方式对外提供HTTP接口。
作为优选,所述异构算力联邦控制模块包括计算机构和存储架构,所述计算架构采用SpringMVC技术提供HTTP接口,包括作业创建接口、查询作业列表接口、查询作业详情接口、删除作业接口、申请集群资源接口、释放集群资源接口、添加集群信息接口、更新集群信息接口和删除集群信息接口;所述存储架构采用MySQL数据库以表的形式存储,包括作业表、集群资源表和集群资源使用记录表。
本发明还公开了一种基于中心化的异构算力联邦系统的组网方法,具体包括如下步骤:
S1、在异构算力集群管理模块中部署适配该异构算力集群管理模块的异构算力联邦探针模块,使异构算力联邦探针模块与异构算力集群管理模块进行通信,获取该异构算力集群的资源信息,同时异构算力联邦探针模块能够与异构算力联邦控制模块进行通信,上报异构算力集群资源描述模型的信息;
S2、在异构算力联邦控制模块创建异构算力集群资源描述模型,所述异构算力集群资源描述模型包含异构算力集群元数据,异构算力集群资源数据和异构算力集群状态数据;
S3、异构算力联邦探针模块从异构算力集群管理模块获取异构算力集群资源信息,将异构算力集群资源信息转换为异构算力集群资源描述模型的属性,最后将该异构算力集群资源描述模型的数据上报给异构算力联邦控制模块;
S4、异构算力联邦控制模块接收到异构算力联邦探针模块周期性上报的异构算力集群资源描述模型的数据后,首先更新存储在异构算力联邦控制模块的异构算力集群资源描述模型,最后再重构异构算力资源的统一视图。
作为优选,所述异构算力集群元数据包括异构算力集群名称、异构算力集群创建时间、异构算力集群失效时间、异构算力集群标签和异构算力集群注解;所述异构算力集群资源数据包括异构算力集群唯一标识、异构算力联邦探针类型、异构算力集群管理接口、异构算力集群地域、异构算力集群分组、异构算力集群总CPU核数、异构算力集群总GPU卡数、异构算力集群总内存大小和异构算力集群节点数;所述异构算力集群状态数据包括异构算力集群管理模块版本、异构算力集群已使用CPU核数、异构算力集群已使用GPU卡数、异构算力集群已使用内存大小和异构算力集群已使用节点数。
本发明还公开了一种基于中心化的异构算力联邦系统的执行方法,具体包括如下步骤:
A1、算力需求方通过异构算力联邦服务模块提供的统一的异构算力使用接口提交计算任务;
A2、异构算力联邦服务模块将收到的计算任务提交到异构算力联邦控制模块,异构算力联邦控制模块根据计算任务的计算资源需求查询异构算力资源的统一视图,获取一个异构算力集群资源描述模型;
A3、异构算力联邦服务模块根据该异构算力集群资源描述模型将计算任务转发到该异构算力集群的异构算力联邦探针模块;
A4、异构算力联邦探针模块将收到的计算任务提交到异构算力集群管理模块,由异构算力集群管理模块将该计算任务分配到该异构算力集群的节点上执行该计算任务。
本发明的有益效果:
1、提供了一种异构算力集群统一管控的方式,基于全局异构算力视图,由异构算力联邦服务模块提供了统一的管理接口,解决了不同异构算力集群使用不同的管理接口导致使用成本和管理成本较大的问题。
2、提供了一种异构算力作业统一提交的方式,由异构算力联邦探针模块适配不同异构算力集群的作业提交模式,再由异构算力联邦服务模块提供统一的作业接口,解决了不同异构算力集群使用不同的作业接口导致的使用成本和管理成本较大的问题。
3、提供了一种异构算力统一调度的方式,由异构算力联邦控制模块统一智能化调度不同异构算力作业到不同的异构算力集群,解决了在运行异构算力作业的时候需切换到不同异构算力集群导致的使用成本较大的问题。
本发明的特征及优点将通过实施例结合附图进行详细说明。
附图说明
图1是本发明一种基于中心化的异构算力联邦系统的架构示意图;
图2是本发明一种基于中心化的异构算力联邦系统的组网方法流程示意图;
图3是本发明一种基于中心化的异构算力联邦系统的执行方法流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,其具体架构如下:
视图层:该层为异构算力联邦系统中的核心层,主要负责提供统一的算力视图和统一的管理接口,该功能主要由2个模块实现:
模块一:异构算力联邦服务模块,该模块基于异构算力联邦控制模块存储的异构算力集群资源描述模型,对外提供统一的异构算力使用接口;
模块二:异构算力联邦控制模块,该模块首先接收来自异构算力联邦探针模块的信息推送,填充异构算力集群资源描述模型,形成异构算力资源的统一视图;然后接收来自异构算力联邦服务模块的异构算力使用请求,并根据异构算力资源的统一视图将异构算力使用请求转发到异构算力联邦探针模块;
资源层:该层为异构算力联邦系统中的资源池,主要负责运行由视图层下发的计算任务,该功能主要由2个模块实现:
模块三:异构算力联邦探针模块,该模块基于从异构算力管理模块获取的异构算力集群资源信息,并将其转换为异构算力集群资源描述模型属性,最后将异构算力集群资源描述模型上报给异构算力联邦控制模块;
模块四:异构算力集群管理模块,该模块由异构算力集群自行定义,针对不同的异构算力集群存在不同类型的异构算力集群管理模块,不同的异构算力集群管理模块之间的差异性由异构算力联邦探针模块分别适配解决。
基于上述联邦架构,不同的异构算力集群资源加入到本网络的方法如下:
步骤一:在异构算力集群管理模块中部署异构算力联邦探针模块,该异构算力联邦探针模块为适配该异构算力集群管理模块的定制模块。部署完成后,异构算力联邦探针模块能够与异构算力集群管理模块进行通信,并获取该异构算力集群的资源信息,同时异构算力联邦探针模块能够与异构算力联邦控制模块进行通信,上报异构算力集群资源描述模型信息。
步骤二:在异构算力联邦控制模块创建异构算力集群资源描述模型,异构算力联邦控制模块利用分布式集群容器编排管理软件,例如kubernates,创建异构算力集群资源描述模型,该模型包含异构算力集群元数据,异构算力集群资源数据和异构算力集群状态数据:
异构算力集群元数据:包含异构算力集群名称、异构算力集群创建时间、异构算力集群失效时间、异构算力集群标签和异构算力集群注解;
异构算力集群资源数据:包含异构算力集群唯一标识、异构算力联邦探针类型、异构算力集群管理接口、异构算力集群地域、异构算力集群分组、异构算力集群总CPU核数、异构算力集群总GPU卡数、异构算力集群总内存大小和异构算力集群节点数;
异构算力集群状态数据:包含异构算力集群管理模块版本、异构算力集群已使用CPU核数、异构算力集群已使用GPU卡数、异构算力集群已使用内存大小和异构算力集群已使用节点数。
步骤三:异构算力联邦探针模块周期性收集异构算力集群资源信息,并将其转换为异构算力集群资源描述模型属性后推送到异构算力联邦控制模块。异构算力联邦探针模块从异构算力集群管理模块提供异构算力集群资源信息接口获取到基础的异构算力集群资源信息后,将该数据按照统一的异构算力集群资源描述模型进行转换,最后将该异构算力集群资源描述模型数据上报给异构算力联邦控制模块。
步骤四:异构算力联邦控制模块更新异构算力集群资源描述模型,并更新异构算力资源统一视图。异构算力联邦控制模块接收到异构算力联邦探针模块周期性上报的异构算力集群资源描述模型后,首先更新存储在异构算力联邦控制模块的异构算力集群资源描述模型,最后再重构异构算力资源统一视图。
基于上述步骤后,不同的异构算力集群资源已经完成组网,形成了异构算力集群资源统一视图,具体的计算任务执行过程如图3所示:
过程一:算力需求方通过异构算力联邦服务模块提供的统一的异构算力使用接口提交计算任务;
过程二:异构算力联邦服务模块将收到的计算任务提交到异构算力联邦控制模块,异构算力联邦控制模块根据该计算任务的计算资源需求查询异构算力资源统一视图,获取一个异构算力集群资源描述模型,
过程三:异构算力联邦服务模块根据该异构算力集群资源描述模型将计算任务转发到该异构算力集群的异构算力联邦探针模块;
过程四:异构算力联邦探针模块将收到的计算任务提交到异构算力集群管理模块,由异构算力集群管理模块将该计算任务分配到该异构算力集群的节点上执行该计算任务。
实施例:
模块一:异构算力联邦服务模块,在一些实例当中,异构算力联邦服务模块以API业务网关的方式对外提供HTTP接口。作为微服务体系中的核心基础设施,提供接口管理、协议适配、熔断限流、安全防护等功能。目前常用的API业务网关有Zuul、SpringCloudGateway和基于SpringMVC进行自研。基于全局异构算力视图,由异构算力联邦服务模块提供了统一的管理接口,解决了不同异构算力集群使用不同的管理接口导致使用成本和管理成本较大的问题;
模块二:异构算力联邦控制模块,在一些实例当中,异构算力联邦控制模块通过自研的方式构建计算和存储2层架构。计算架构例如采用SpringMVC技术提供HTTP接口,包含但不限于以下接口:作业创建接口、查询作业列表接口、查询作业详情接口、删除作业接口、申请集群资源接口、释放集群资源接口、添加集群信息接口、更新集群信息接口和删除集群信息接口。存储架构例如采用MySQL数据库,相关信息以表的形式持久化存储,包含但不限于以下表:作业表、集群资源表和集群资源使用记录表。由异构算力联邦控制模块统一智能化调度不同异构算力作业到不同的异构算力集群,解决了在运行异构算力作业的时候需切换到不同异构算力集群导致的使用成本较大的问题。
模块三:异构算力联邦探针模块,在一些实例当中,异构算力联邦探针模块针对不同的异构算力集群管理模块采用不同的异构算力联邦探针模块。例如在以Kubernetes管理的集群当中,采用client-go作为异构算力联邦探针模块与Kubernetes管理的集群进行交互;例如在以Slurm管理的集群当中,采用Red-box作为异构算力联邦探针模块与Slurm管理的集群进行交互。
模块四:异构算力集群管理模块,在一些实例当中,异构算力集群管理模块针对不同的异构算力集群采用不同的异构算力集群管理模块。例如Kubernetes和Slurm。
图2异构算力联邦组网方法结合上面的实例介绍组网示例方法:
步骤一:在异构算力集群管理模块中部署异构算力联邦探针模块,例如在异构算力联邦控制模块中直接使用client-go可以与Kubernetes集群进行交互,无需部署探针模块;在Slurm集群中需部署Red-box和Virtual Kubelet。
步骤二:在异构算力联邦控制模块创建异构算力集群资源描述模型,例如异构算力集群资源描述模型包含以下三方面的信息:
异构算力集群元数据:包含异构算力集群名称、异构算力集群创建时间、异构算力集群失效时间、异构算力集群标签和异构算力集群注解;
异构算力集群资源数据:包含异构算力集群唯一标识、异构算力联邦探针类型、异构算力集群管理接口、异构算力集群地域、异构算力集群分组、异构算力集群总CPU核数、异构算力集群总GPU卡数、异构算力集群总内存大小和异构算力集群节点数;
异构算力集群状态数据:包含异构算力集群管理模块版本、异构算力集群已使用CPU核数、异构算力集群已使用GPU卡数、异构算力集群已使用内存大小和异构算力集群已使用节点数。
步骤三:异构算力联邦探针模块周期性收集异构算力集群资源信息,例如使用client-go周期性的调用kubernetes的API接口获取异构算力集群资源数据和异构算力集群状态数据。
步骤四:异构算力联邦控制模块更新异构算力集群资源描述模型,例如使用client-go周期性的调用kubernetes的API接口获取异构算力集群资源数据和异构算力集群状态数据后,将相关数据更新到MySQL的集群资源表中。
图3计算任务执行过程结合上面的示例介绍具体的任务执行示例方法:
过程一:算力需求方通过异构算力联邦服务模块提供的统一的异构算力使用接口提交计算任务,表1是根据本公开一些实施例的第一算力信息获取请求的HTTPS RESTful接口报文格式。表2是根据本公开一些实施例的第一算力信息获取请求的参数。表3是根据本公开一些实施例的第一算力信息获取响应的参数:
表1 HTTPS RESTful接口
Figure 954724DEST_PATH_IMAGE001
表2 请求参数
Figure 403022DEST_PATH_IMAGE002
表3 响应参数
Figure 713918DEST_PATH_IMAGE003
过程二:异构算力联邦服务模块将收到的计算任务提交到异构算力联邦控制模块,例如采用RPC的方式异构算力联邦服务模块将收到的计算任务提交到异构算力联邦控制模块,常用的RPC框架有gRpc,Dubbbo等,在使用RPC框架的时候指定的异构算力作业描述模型示例如表四所示:
表四 异构算力作业描述模型
Figure 374707DEST_PATH_IMAGE004
过程三:异构算力联邦服务模块将计算任务转发到该异构算力集群的异构算力联邦探针模块,例如使用client-go将异构算力作业描述模型发送到Kubernetes管理的集群中;使用client-go将异构算力作业描述模型发送到Virtual Kubelet。
过程四:异构算力联邦探针模块将收到的计算任务提交到异构算力集群管理模块,例如Virtual Kubelet调用Red-box命令下发异构算力作业描述模型到Slurm管理的集群中。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于中心化的异构算力联邦系统,其特征在于:包括视图层和资源层,所述视图层内设有异构算力联邦服务模块和异构算力联邦控制模块;
所述异构算力联邦服务模块基于异构算力联邦控制模块存储的异构算力集群资源描述模型,对外提供统一的异构算力使用接口;所述异构算力集群资源描述模型包含异构算力集群元数据,异构算力集群资源数据和异构算力集群状态数据;
所述异构算力联邦控制模块接收来自异构算力联邦探针模块的信息推送,填充异构算力集群资源描述模型,形成异构算力资源的统一视图;接收来自异构算力联邦服务模块的异构算力使用请求,并根据异构算力资源的统一视图将异构算力使用请求转发到异构算力联邦探针模块;
所述资源层内设有异构算力联邦探针模块和异构算力集群管理模块;
所述异构算力联邦探针模块基于从异构算力管理模块获取的异构算力集群资源信息,并将其转换为异构算力集群资源描述模型的属性,最后将异构算力集群资源描述模型上报给异构算力联邦控制模块;
所述异构算力集群管理模块由异构算力集群自行定义,针对不同的异构算力集群存在不同类型的异构算力集群管理模块,不同的异构算力集群管理模块之间的差异性由异构算力联邦探针模块分别适配解决。
2.如权利要求1所述的一种基于中心化的异构算力联邦系统,其特征在于:所述异构算力联邦服务模块以API业务网关的方式对外提供HTTP接口。
3.如权利要求1所述的一种基于中心化的异构算力联邦系统,其特征在于:所述异构算力联邦控制模块包括计算架构和存储架构,所述计算架构采用SpringMVC技术提供HTTP接口,包括作业创建接口、查询作业列表接口、查询作业详情接口、删除作业接口、申请集群资源接口、释放集群资源接口、添加集群信息接口、更新集群信息接口和删除集群信息接口;所述存储架构采用MySQL数据库以表的形式存储,包括作业表、集群资源表和集群资源使用记录表。
4.一种应用如权利要求1-3任一项所述的联邦系统的组网方法,其特征在于,具体包括如下步骤:
S1、在异构算力集群管理模块中部署适配该异构算力集群管理模块的异构算力联邦探针模块,使异构算力联邦探针模块与异构算力集群管理模块进行通信,获取该异构算力集群的资源信息;
S2、在异构算力联邦控制模块创建异构算力集群资源描述模型,所述异构算力集群资源描述模型包含异构算力集群元数据,异构算力集群资源数据和异构算力集群状态数据;
S3、异构算力联邦探针模块从异构算力集群管理模块获取异构算力集群资源信息,将异构算力集群资源信息转换为异构算力集群资源描述模型的属性,最后将该异构算力集群资源描述模型的数据上报给异构算力联邦控制模块;异构算力联邦探针模块能够与异构算力联邦控制模块进行通信;
S4、异构算力联邦控制模块接收到异构算力联邦探针模块周期性上报的异构算力集群资源描述模型的数据后,首先更新存储在异构算力联邦控制模块的异构算力集群资源描述模型,最后再重构异构算力资源的统一视图。
5.如权利要求4所述的联邦系统的组网方法,其特征在于,所述异构算力集群元数据包括异构算力集群名称、异构算力集群创建时间、异构算力集群失效时间、异构算力集群标签和异构算力集群注解;所述异构算力集群资源数据包括异构算力集群唯一标识、异构算力联邦探针类型、异构算力集群管理接口、异构算力集群地域、异构算力集群分组、异构算力集群总CPU核数、异构算力集群总GPU卡数、异构算力集群总内存大小和异构算力集群节点数;所述异构算力集群状态数据包括异构算力集群管理模块版本、异构算力集群已使用CPU核数、异构算力集群已使用GPU卡数、异构算力集群已使用内存大小和异构算力集群已使用节点数。
6.一种应用如权利要求1-3任一项所述的联邦系统的执行方法,其特征在于,具体包括如下步骤:
A1、算力需求方通过异构算力联邦服务模块提供的统一的异构算力使用接口提交计算任务;
A2、异构算力联邦服务模块将收到的计算任务提交到异构算力联邦控制模块,异构算力联邦控制模块根据计算任务的计算资源需求查询异构算力资源的统一视图,获取一个异构算力集群资源描述模型;
A3、异构算力联邦服务模块根据该异构算力集群资源描述模型将计算任务转发到该异构算力集群的异构算力联邦探针模块;
A4、异构算力联邦探针模块将收到的计算任务提交到异构算力集群管理模块,由异构算力集群管理模块将该计算任务分配到该异构算力集群的节点上执行该计算任务。
CN202211149183.4A 2022-09-21 2022-09-21 基于中心化的异构算力联邦系统及组网和执行方法 Active CN115242660B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211149183.4A CN115242660B (zh) 2022-09-21 2022-09-21 基于中心化的异构算力联邦系统及组网和执行方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211149183.4A CN115242660B (zh) 2022-09-21 2022-09-21 基于中心化的异构算力联邦系统及组网和执行方法

Publications (2)

Publication Number Publication Date
CN115242660A CN115242660A (zh) 2022-10-25
CN115242660B true CN115242660B (zh) 2022-12-13

Family

ID=83680353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211149183.4A Active CN115242660B (zh) 2022-09-21 2022-09-21 基于中心化的异构算力联邦系统及组网和执行方法

Country Status (1)

Country Link
CN (1) CN115242660B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117707794A (zh) * 2024-02-05 2024-03-15 之江实验室 一种面向异构联邦的多类别作业分发管理方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033082A (zh) * 2021-03-10 2021-06-25 中国科学技术大学苏州高等研究院 基于异构算力感知的去中心化联邦学习框架及建模方法
CN113839814A (zh) * 2021-09-22 2021-12-24 银河麒麟软件(长沙)有限公司 去中心化的Kubernetes集群联邦实现方法及系统
CN114064278A (zh) * 2021-11-18 2022-02-18 深圳致星科技有限公司 用于联邦学习的异构加速引擎及方法
CN114868113A (zh) * 2019-11-07 2022-08-05 瑞典爱立信有限公司 计算机网络节点管理系统中的分散式集群联邦

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210225463A1 (en) * 2020-01-22 2021-07-22 doc.ai, Inc. System and Method with Federated Learning Model for Medical Research Applications
CN111522639B (zh) * 2020-04-16 2022-11-01 南京邮电大学 Kubernetes集群架构系统下多维资源调度方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114868113A (zh) * 2019-11-07 2022-08-05 瑞典爱立信有限公司 计算机网络节点管理系统中的分散式集群联邦
CN113033082A (zh) * 2021-03-10 2021-06-25 中国科学技术大学苏州高等研究院 基于异构算力感知的去中心化联邦学习框架及建模方法
CN113839814A (zh) * 2021-09-22 2021-12-24 银河麒麟软件(长沙)有限公司 去中心化的Kubernetes集群联邦实现方法及系统
CN114064278A (zh) * 2021-11-18 2022-02-18 深圳致星科技有限公司 用于联邦学习的异构加速引擎及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deployment of elastic virtual hybrid clusters across cloud sites;miguel caballer et al.;《hournal of grid computing》;20210215;第1-10页 *
勘探开发梦想云平台架构设计与实现;马涛等;《中国石油勘探》;20201231(第05期);第75-85页 *
面向6G的去中心化的人工智能理论与技术;乔秀全等;《移动通信》;20200615(第06期);第125-129页 *

Also Published As

Publication number Publication date
CN115242660A (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN111866191B (zh) 消息事件的分发方法、分发平台、系统及服务器
CN111506412B (zh) 基于Airflow的分布式异步任务构建、调度系统及方法
CN108920259B (zh) 深度学习作业调度方法、系统和相关设备
CN103092698B (zh) 云计算应用自动部署系统及方法
CN109150987B (zh) 基于主机层和容器层的两层式容器集群弹性扩容方法
CN110022349A (zh) 一种基于边缘计算的异构工业网络设备组态微服务方法
CN109743137B (zh) 一种支持更新的分布式延迟消息队列处理系统
CN106126332A (zh) 分布式定时任务调度系统及方法
CN101645022A (zh) 用于多个集群的作业调度管理系统及方法
CN102291464A (zh) BPM中业务流程动态生成Web Service的系统及方法
CN115242660B (zh) 基于中心化的异构算力联邦系统及组网和执行方法
CN103716397B (zh) 一种面向服务仿真时钟推进方法
CN114995841B (zh) 一种实现数据库云服务升级的方法和系统
CN102891768A (zh) 网络管理的方法和网元
CN109284324A (zh) 基于Apache Oozie框架处理大数据的流程任务的调度装置
CN109992373A (zh) 资源调度方法、信息管理方法和装置及任务部署系统
CN116775420A (zh) 基于Flink流计算的信创云平台资源展示和预警方法及系统
CN115037757B (zh) 一种多集群服务管理系统
CN103152380A (zh) 分布式的仿真通信框架和通信效能计算方法
CN113254143B (zh) 虚拟化网络功能网元编排调度方法、装置和系统
CN113641760A (zh) 数据同步方法及装置
CN103269327A (zh) 一种基于代理机制的通用文件数据服务的实现方法
CN112445590A (zh) 一种计算资源接入及调度系统和方法
CN102681881B (zh) 跨机调度方法及其系统
CN113098960A (zh) 服务运行方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant