CN114039921B - 一种适用于异构计算平台的ice负载均衡系统 - Google Patents

一种适用于异构计算平台的ice负载均衡系统 Download PDF

Info

Publication number
CN114039921B
CN114039921B CN202111382668.3A CN202111382668A CN114039921B CN 114039921 B CN114039921 B CN 114039921B CN 202111382668 A CN202111382668 A CN 202111382668A CN 114039921 B CN114039921 B CN 114039921B
Authority
CN
China
Prior art keywords
load balancing
ice
coprocessor
npu
gpu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111382668.3A
Other languages
English (en)
Other versions
CN114039921A (zh
Inventor
瞿秋薏
寇金桥
籍雁翔
赵漫菲
王浩枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202111382668.3A priority Critical patent/CN114039921B/zh
Publication of CN114039921A publication Critical patent/CN114039921A/zh
Application granted granted Critical
Publication of CN114039921B publication Critical patent/CN114039921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • H04L47/125Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明涉及一种适用于异构计算平台的ICE负载均衡系统,属于负载均衡领域。本发明实时采集节点服务器上GPU或NPU协处理器负载信息,根据任务类型和自定义负载均衡算法,选取特定协处理器作为响应客户端请求的节点,从而增强了系统的稳定性和鲁棒性,扩展了ICE对异构计算平台的负载均衡管理能力。本发明结合GPU、NPU等协处理器资源实时负载信息自定义ICE负载均衡方法,实现对ICE负载均衡模块的扩展。ICE注册中心通过调用扩展的负载均衡方法筛选目标对象适配器,从而实现对GPU、NPU等协处理器算力资源的负载均衡管理。

Description

一种适用于异构计算平台的ICE负载均衡系统
技术领域
本发明属于负载均衡领域,具体涉及一种适用于异构计算平台的ICE负载均衡系统。
背景技术
ICE(International Communication Engine)中间件是一种轻量级的网络通信引擎,由于其跨平台跨语言特性,被广泛使用在分布式计算系统中,其中保证平台及应用服务稳定性的负载均衡模块即显得尤为重要。然而ICE中间件自带的负载均衡策略仅考虑了节点服务器CPU侧的负载信息,不支持对NPU、GPU等协处理器算力资源的负载均衡。而以深度学习为核心的人工智能应用往往采用CPU+GPU或CPU+NPU等异构计算平台,且同一节点服务器往往有多个协处理器模块。充分利用多个协处理器模块资源,实现针对协处理器的负载均衡需要有效的优化手段支撑。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何提供一种适用于异构计算平台的ICE负载均衡系统,以解决ICE中间件自带的负载均衡策略仅考虑了节点服务器CPU侧的负载信息,不支持对NPU、GPU等协处理器算力资源的负载均衡的问题。
(二)技术方案
为了解决上述技术问题,本发明提出一种适用于异构计算平台的ICE负载均衡系统,该系统包括资源监控模块、自定义负载均衡算法模块和副本组过滤器;
所述资源监控模块负责实时采集节点服务器的GPU或NPU的资源负载量化值,形成负载量化值序列Lgpu={l1,l2,…,lM}和Lnpu={l1,l2,…,lN},其中M为节点服务器上GPU模块的数目,N为节点服务器上NPU模块的数目,li为各个GPU或NPU模块上的负载量化值;
自定义负载均衡算法模块负责选择用以响应客户端请求的协处理器,根据应用需求设计不同的协处理器选取规则;
副本组过滤器扩展的filter方法调用自定义负载均衡算法模块获取满足条件的协处理器,并将传入的对象适配器列表映射为服务列表,再将协处理器标识和服务属性相匹配,最终返回运行在该协处理器上的服务的对象适配器。
进一步地,协处理器包括GPU或NPU。
进一步地,所述资源监控模块调用硬件厂商提供的接口采集节点服务器的GPU或NPU的资源负载量化值。
进一步地,资源监控模块将采集到的协处理器资源负载量化值定期报告给自定义负载均衡算法模块。
进一步地,所述协处理器选取规则包括随机法、最近最少使用法和最小负载法。
进一步地,所述最小负载法即从负载量化值序列Lgpu和Lnpu中直接返回一个负载量化值最小的GPU和NPU的设备标识给副本组过滤器。
进一步地,副本组过滤器继承ICE的ReplicaGroupFilter类并实现父类自带的filter方法。
进一步地,客户端通过ICE通信中间件向该ICE负载均衡系统请求对象适配器列表,该ICE负载均衡系统回传满足条件的对象适配器列表。
进一步地,在应用的配置文件中会指明协处理器模块标识,该标识将作为服务启动参数自动传入。
进一步地,当ICE注册中心收到客户端的服务地址请求时,会根据任务类型和协处理器模块标识将不同版本的智能算法分配到对应的GPU或NPU上,并返回被请求对象的一串对象适配器列表,同时调用副本组过滤器进行响应拦截处理,进一步筛选符合条件的对象适配器,最后ICE注册中心将该对象适配器的服务地址返回给客户端。
(三)有益效果
本发明提出一种适用于异构计算平台的ICE负载均衡系统,该系统实时采集节点服务器上GPU或NPU协处理器负载信息,根据任务类型和自定义负载均衡算法,选取特定协处理器作为响应客户端请求的节点,从而增强了系统的稳定性和鲁棒性,扩展了ICE对异构计算平台的负载均衡管理能力。
本发明结合GPU、NPU等协处理器资源实时负载信息自定义ICE负载均衡方法,实现对ICE负载均衡模块的扩展。ICE注册中心通过调用扩展的负载均衡系统筛选目标对象适配器,从而实现对GPU、NPU等协处理器算力资源的负载均衡管理。
本发明提出一种适用于异构计算平台的ICE负载均衡系统,和ICE仅考虑CPU侧负载信息相比,本发明考虑了更全面的资源负载数据,能够更加全面准确地评估节点服务器的整体状态,合理分配系统资源,提高资源利用率,更好地优化系统整体性能。
附图说明
图1为本发明ICE负载均衡系统示意图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明的目的是提出一种适用于异构计算平台的ICE负载均衡系统,扩展ICE对GPU、NPU等协处理器模块的负载均衡管理能力。
本发明提出一种适用于异构计算平台的ICE负载均衡系统。该系统实时采集节点服务器上GPU或NPU协处理器负载信息,根据任务类型和自定义负载均衡算法,选取特定协处理器作为响应客户端请求的节点,从而增强了系统的稳定性和鲁棒性,扩展了ICE对异构计算平台的负载均衡管理能力。
图1是本发明技术方案的系统框图。如图1所示,本发明提出的一种适用于异构计算平台的ICE负载均衡系统包括下列模块:
(1)资源监控模块
负责调用硬件厂商提供的接口实时采集节点服务器的GPU或NPU的资源负载量化值,形成负载量化值序列Lgpu={l1,l2,…,lM}和Lnpu={l1,l2,…,lN},其中M为节点服务器上GPU模块的数目,N为节点服务器上NPU模块的数目,li为各个GPU或NPU模块上的负载量化值。资源监控模块将采集到的协处理器资源负载量化值定期报告给自定义负载均衡算法模块。
(2)自定义负载均衡算法模块
自定义负载均衡算法模块负责选择用以响应客户端请求的协处理器,根据应用需求设计不同的协处理器选取规则,常见规则有随机法、最近最少使用法和最小负载法等。本发明实施例采用最小负载法,也就是从负载量化值序列Lgpu和Lnpu中直接返回一个负载量化值最小的GPU和NPU的设备标识给副本组过滤器。
(3)副本组过滤器
ICE提供副本组过滤器扩展以支持用户自定义负载均衡插件,帮助ICE注册中心过滤返回给客户端的响应。实现副本组过滤器主要是继承ICE的ReplicaGroupFilter类并实现父类自带的filter方法。filter方法调用自定义负载均衡算法模块获取满足条件的协处理器,并将传入的对象适配器列表映射为服务列表,再将协处理器标识和服务属性相匹配,最终返回运行在该协处理器上的服务的对象适配器。
在应用的配置文件中会指明协处理器模块标识,该标识将作为服务启动参数自动传入。当ICE注册中心收到客户端的服务地址请求时,会根据任务类型和协处理器模块标识将不同版本的智能算法分配到对应的GPU或NPU上,并返回被请求对象的一串对象适配器列表,同时调用副本组过滤器进行响应拦截处理,进一步筛选符合条件的对象适配器,最后ICE注册中心将该对象适配器的服务地址返回给客户端。
本发明结合GPU、NPU等协处理器资源实时负载信息自定义ICE负载均衡方法,实现对ICE负载均衡模块的扩展。ICE注册中心通过调用扩展的负载均衡系统筛选目标对象适配器,从而实现对GPU、NPU等协处理器算力资源的负载均衡管理。
本发明提出一种适用于异构计算平台的ICE负载均衡系统,和ICE仅考虑CPU侧负载信息相比,本发明考虑了更全面的资源负载数据,能够更加全面准确地评估节点服务器的整体状态,合理分配系统资源,提高资源利用率,更好地优化系统整体性能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (7)

1.一种适用于异构计算平台的ICE负载均衡系统,其特征在于,该系统包括资源监控模块、自定义负载均衡算法模块和副本组过滤器;
所述资源监控模块负责实时采集节点服务器的GPU或NPU的资源负载量化值,形成负载量化值序列Lgpu={l1,l2,…,lM}和Lnpu={l1,l2,…,lN},其中M为节点服务器上GPU模块的数目,N为节点服务器上NPU模块的数目,li为各个GPU或NPU模块上的负载量化值;
自定义负载均衡算法模块负责选择用以响应客户端请求的协处理器,根据应用需求设计不同的协处理器选取规则;
副本组过滤器扩展的filter方法调用自定义负载均衡算法模块获取满足条件的协处理器,并将传入的对象适配器列表映射为服务列表,再将协处理器标识和服务属性相匹配,最终返回运行在该协处理器上的服务的对象适配器;
其中,
副本组过滤器继承ICE的ReplicaGroupFilter类并实现父类自带的filter方法;
客户端通过ICE通信中间件向该ICE负载均衡系统请求对象适配器列表,该ICE负载均衡系统回传满足条件的对象适配器列表;
当ICE注册中心收到客户端的服务地址请求时,会根据任务类型和协处理器模块标识将不同版本的智能算法分配到对应的GPU或NPU上,并返回被请求对象的一串对象适配器列表,同时调用副本组过滤器进行响应拦截处理,进一步筛选符合条件的对象适配器,最后ICE注册中心将该对象适配器的服务地址返回给客户端。
2.如权利要求1所述的适用于异构计算平台的ICE负载均衡系统,其特征在于,协处理器包括GPU或NPU。
3.如权利要求1所述的适用于异构计算平台的ICE负载均衡系统,其特征在于,所述资源监控模块调用硬件厂商提供的接口采集节点服务器的GPU或NPU的资源负载量化值。
4.如权利要求1所述的适用于异构计算平台的ICE负载均衡系统,其特征在于,资源监控模块将采集到的协处理器资源负载量化值定期报告给自定义负载均衡算法模块。
5.如权利要求1所述的适用于异构计算平台的ICE负载均衡系统,其特征在于,所述协处理器选取规则包括随机法、最近最少使用法和最小负载法。
6.如权利要求5所述的适用于异构计算平台的ICE负载均衡系统,其特征在于,所述最小负载法即从负载量化值序列Lgpu和Lnpu中直接返回一个负载量化值最小的GPU和NPU的设备标识给副本组过滤器。
7.如权利要求1所述的适用于异构计算平台的ICE负载均衡系统,其特征在于,在应用的配置文件中会指明协处理器模块标识,该标识将作为服务启动参数自动传入。
CN202111382668.3A 2021-11-22 2021-11-22 一种适用于异构计算平台的ice负载均衡系统 Active CN114039921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111382668.3A CN114039921B (zh) 2021-11-22 2021-11-22 一种适用于异构计算平台的ice负载均衡系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111382668.3A CN114039921B (zh) 2021-11-22 2021-11-22 一种适用于异构计算平台的ice负载均衡系统

Publications (2)

Publication Number Publication Date
CN114039921A CN114039921A (zh) 2022-02-11
CN114039921B true CN114039921B (zh) 2024-04-19

Family

ID=80145035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111382668.3A Active CN114039921B (zh) 2021-11-22 2021-11-22 一种适用于异构计算平台的ice负载均衡系统

Country Status (1)

Country Link
CN (1) CN114039921B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101207550A (zh) * 2007-03-16 2008-06-25 中国科学技术大学 负载均衡系统及多种业务实现负载均衡的方法
CN104102546A (zh) * 2014-07-23 2014-10-15 浪潮(北京)电子信息产业有限公司 一种实现cpu和gpu负载均衡的方法及系统
CN104778080A (zh) * 2014-01-14 2015-07-15 中兴通讯股份有限公司 基于协处理器的作业调度处理方法及装置
CN105959404A (zh) * 2016-06-27 2016-09-21 江苏易乐网络科技有限公司 一种基于云计算的gpu虚拟化平台
US10262390B1 (en) * 2017-04-14 2019-04-16 EMC IP Holding Company LLC Managing access to a resource pool of graphics processing units under fine grain control

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10672362B2 (en) * 2018-08-17 2020-06-02 Ffipco, Llc Systems and methods for digital content creation and rendering

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101207550A (zh) * 2007-03-16 2008-06-25 中国科学技术大学 负载均衡系统及多种业务实现负载均衡的方法
CN104778080A (zh) * 2014-01-14 2015-07-15 中兴通讯股份有限公司 基于协处理器的作业调度处理方法及装置
CN104102546A (zh) * 2014-07-23 2014-10-15 浪潮(北京)电子信息产业有限公司 一种实现cpu和gpu负载均衡的方法及系统
CN105959404A (zh) * 2016-06-27 2016-09-21 江苏易乐网络科技有限公司 一种基于云计算的gpu虚拟化平台
US10262390B1 (en) * 2017-04-14 2019-04-16 EMC IP Holding Company LLC Managing access to a resource pool of graphics processing units under fine grain control

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Sara Ayubian ; Shadi Alawneh ; Martin Richard ; Jan Thij ssen.Implementation and Performance of a GPU-Based Monte-Carlo Framework for Determining Design Ice Load.IEEE.2017,全文. *
基于线程池的GPU任务并行计算模式研究;李涛;董前琨;张帅;孔令晏;康宏;杨愚鲁;;计算机学报(第10期);全文 *

Also Published As

Publication number Publication date
CN114039921A (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
US20180069806A1 (en) Dynamic Discovery and Management of Microservices for Multi-Cluster Computing Platforms
CN105554102A (zh) 基于容器集群的弹性伸缩方法及其应用系统
CN109656688B (zh) 一种实现分布式业务规则的方法、系统和服务器
CN108509523A (zh) 区块链数据的结构化处理方法、设备及可读存储介质
US20110307564A1 (en) Data node apparatus, peer information acquisition method and system
CN109981757B (zh) 一种面向小规模微服务架构的api网关负载均衡方法
CN110430068A (zh) 一种特征工程编排方法及装置
CN103607424A (zh) 一种服务器连接方法及服务器系统
CN105656964B (zh) 数据推送的实现方法及装置
CN111858033A (zh) 基于集群和多进程的负载均衡方法
CN112799839A (zh) 请求处理方法、装置、计算机可读存储介质及电子设备
CN111324429B (zh) 一种基于多代血统参考距离的微服务组合调度方法
CN105872082B (zh) 基于容器集群负载均衡算法的细粒度资源响应系统
CN113645076B (zh) 基于超图匹配算法的虚拟网络资源分配方法
CN111131040A (zh) 路由的配置方法、装置及系统、存储介质、电子装置
CN114039921B (zh) 一种适用于异构计算平台的ice负载均衡系统
CN113377866A (zh) 一种虚拟化数据库代理服务的负载均衡方法及装置
CN118193188A (zh) 一种基于虚拟化平台动态负载均衡系统及方法
CN113177179A (zh) 数据请求连接管理方法、装置、设备及存储介质
CN106657333B (zh) 一种基于云服务模式的集中式目录数据交换系统及方法
CN114257503A (zh) 加速域名部署方法、服务器、系统和存储介质
CN110798512A (zh) 一种集中式数据推送方法、智能终端及存储介质
KR20200112402A (ko) 전력 실시간 데이터 브로커 플랫폼
CN110650135A (zh) 一种节点处理方法、相关设备及计算机可读存储介质
CN113535329B (zh) 一种多租户云中虚拟机的部署方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant