CN114039921A - 一种适用于异构计算平台的ice负载均衡系统 - Google Patents

一种适用于异构计算平台的ice负载均衡系统 Download PDF

Info

Publication number
CN114039921A
CN114039921A CN202111382668.3A CN202111382668A CN114039921A CN 114039921 A CN114039921 A CN 114039921A CN 202111382668 A CN202111382668 A CN 202111382668A CN 114039921 A CN114039921 A CN 114039921A
Authority
CN
China
Prior art keywords
ice
load balancing
load
coprocessor
npu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111382668.3A
Other languages
English (en)
Other versions
CN114039921B (zh
Inventor
瞿秋薏
寇金桥
籍雁翔
赵漫菲
王浩枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202111382668.3A priority Critical patent/CN114039921B/zh
Publication of CN114039921A publication Critical patent/CN114039921A/zh
Application granted granted Critical
Publication of CN114039921B publication Critical patent/CN114039921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • H04L47/125Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明涉及一种适用于异构计算平台的ICE负载均衡系统,属于负载均衡领域。本发明实时采集节点服务器上GPU或NPU协处理器负载信息,根据任务类型和自定义负载均衡算法,选取特定协处理器作为响应客户端请求的节点,从而增强了系统的稳定性和鲁棒性,扩展了ICE对异构计算平台的负载均衡管理能力。本发明结合GPU、NPU等协处理器资源实时负载信息自定义ICE负载均衡方法,实现对ICE负载均衡模块的扩展。ICE注册中心通过调用扩展的负载均衡方法筛选目标对象适配器,从而实现对GPU、NPU等协处理器算力资源的负载均衡管理。

Description

一种适用于异构计算平台的ICE负载均衡系统
技术领域
本发明属于负载均衡领域,具体涉及一种适用于异构计算平台的ICE负载均衡系统。
背景技术
ICE(International Communication Engine)中间件是一种轻量级的网络通信引擎,由于其跨平台跨语言特性,被广泛使用在分布式计算系统中,其中保证平台及应用服务稳定性的负载均衡模块即显得尤为重要。然而ICE中间件自带的负载均衡策略仅考虑了节点服务器CPU侧的负载信息,不支持对NPU、GPU等协处理器算力资源的负载均衡。而以深度学习为核心的人工智能应用往往采用CPU+GPU或CPU+NPU等异构计算平台,且同一节点服务器往往有多个协处理器模块。充分利用多个协处理器模块资源,实现针对协处理器的负载均衡需要有效的优化手段支撑。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何提供一种适用于异构计算平台的ICE负载均衡系统,以解决ICE中间件自带的负载均衡策略仅考虑了节点服务器CPU侧的负载信息,不支持对NPU、GPU等协处理器算力资源的负载均衡的问题。
(二)技术方案
为了解决上述技术问题,本发明提出一种适用于异构计算平台的ICE负载均衡系统,该系统包括资源监控模块、自定义负载均衡算法模块和副本组过滤器;
所述资源监控模块负责实时采集节点服务器的GPU或NPU的资源负载量化值,形成负载量化值序列Lgpu={l1,l2,…,lM}和Lnpu={l1,l2,…,lN},其中M为节点服务器上GPU模块的数目,N为节点服务器上NPU模块的数目,li为各个GPU或NPU模块上的负载量化值;
自定义负载均衡算法模块负责选择用以响应客户端请求的协处理器,根据应用需求设计不同的协处理器选取规则;
副本组过滤器扩展的filter方法调用自定义负载均衡算法模块获取满足条件的协处理器,并将传入的对象适配器列表映射为服务列表,再将协处理器标识和服务属性相匹配,最终返回运行在该协处理器上的服务的对象适配器。
进一步地,协处理器包括GPU或NPU。
进一步地,所述资源监控模块调用硬件厂商提供的接口采集节点服务器的GPU或NPU的资源负载量化值。
进一步地,资源监控模块将采集到的协处理器资源负载量化值定期报告给自定义负载均衡算法模块。
进一步地,所述协处理器选取规则包括随机法、最近最少使用法和最小负载法。
进一步地,所述最小负载法即从负载量化值序列Lgpu和Lnpu中直接返回一个负载量化值最小的GPU和NPU的设备标识给副本组过滤器。
进一步地,副本组过滤器继承ICE的ReplicaGroupFilter类并实现父类自带的filter方法。
进一步地,客户端通过ICE通信中间件向该ICE负载均衡系统请求对象适配器列表,该ICE负载均衡系统回传满足条件的对象适配器列表。
进一步地,在应用的配置文件中会指明协处理器模块标识,该标识将作为服务启动参数自动传入。
进一步地,当ICE注册中心收到客户端的服务地址请求时,会根据任务类型和协处理器模块标识将不同版本的智能算法分配到对应的GPU或NPU上,并返回被请求对象的一串对象适配器列表,同时调用副本组过滤器进行响应拦截处理,进一步筛选符合条件的对象适配器,最后ICE注册中心将该对象适配器的服务地址返回给客户端。
(三)有益效果
本发明提出一种适用于异构计算平台的ICE负载均衡系统,该系统实时采集节点服务器上GPU或NPU协处理器负载信息,根据任务类型和自定义负载均衡算法,选取特定协处理器作为响应客户端请求的节点,从而增强了系统的稳定性和鲁棒性,扩展了ICE对异构计算平台的负载均衡管理能力。
本发明结合GPU、NPU等协处理器资源实时负载信息自定义ICE负载均衡方法,实现对ICE负载均衡模块的扩展。ICE注册中心通过调用扩展的负载均衡系统筛选目标对象适配器,从而实现对GPU、NPU等协处理器算力资源的负载均衡管理。
本发明提出一种适用于异构计算平台的ICE负载均衡系统,和ICE仅考虑CPU侧负载信息相比,本发明考虑了更全面的资源负载数据,能够更加全面准确地评估节点服务器的整体状态,合理分配系统资源,提高资源利用率,更好地优化系统整体性能。
附图说明
图1为本发明ICE负载均衡系统示意图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明的目的是提出一种适用于异构计算平台的ICE负载均衡系统,扩展ICE对GPU、NPU等协处理器模块的负载均衡管理能力。
本发明提出一种适用于异构计算平台的ICE负载均衡系统。该系统实时采集节点服务器上GPU或NPU协处理器负载信息,根据任务类型和自定义负载均衡算法,选取特定协处理器作为响应客户端请求的节点,从而增强了系统的稳定性和鲁棒性,扩展了ICE对异构计算平台的负载均衡管理能力。
图1是本发明技术方案的系统框图。如图1所示,本发明提出的一种适用于异构计算平台的ICE负载均衡系统包括下列模块:
(1)资源监控模块
负责调用硬件厂商提供的接口实时采集节点服务器的GPU或NPU的资源负载量化值,形成负载量化值序列Lgpu={l1,l2,…,lM}和Lnpu={l1,l2,…,lN},其中M为节点服务器上GPU模块的数目,N为节点服务器上NPU模块的数目,li为各个GPU或NPU模块上的负载量化值。资源监控模块将采集到的协处理器资源负载量化值定期报告给自定义负载均衡算法模块。
(2)自定义负载均衡算法模块
自定义负载均衡算法模块负责选择用以响应客户端请求的协处理器,根据应用需求设计不同的协处理器选取规则,常见规则有随机法、最近最少使用法和最小负载法等。本发明实施例采用最小负载法,也就是从负载量化值序列Lgpu和Lnpu中直接返回一个负载量化值最小的GPU和NPU的设备标识给副本组过滤器。
(3)副本组过滤器
ICE提供副本组过滤器扩展以支持用户自定义负载均衡插件,帮助ICE注册中心过滤返回给客户端的响应。实现副本组过滤器主要是继承ICE的ReplicaGroupFilter类并实现父类自带的filter方法。filter方法调用自定义负载均衡算法模块获取满足条件的协处理器,并将传入的对象适配器列表映射为服务列表,再将协处理器标识和服务属性相匹配,最终返回运行在该协处理器上的服务的对象适配器。
在应用的配置文件中会指明协处理器模块标识,该标识将作为服务启动参数自动传入。当ICE注册中心收到客户端的服务地址请求时,会根据任务类型和协处理器模块标识将不同版本的智能算法分配到对应的GPU或NPU上,并返回被请求对象的一串对象适配器列表,同时调用副本组过滤器进行响应拦截处理,进一步筛选符合条件的对象适配器,最后ICE注册中心将该对象适配器的服务地址返回给客户端。
本发明结合GPU、NPU等协处理器资源实时负载信息自定义ICE负载均衡方法,实现对ICE负载均衡模块的扩展。ICE注册中心通过调用扩展的负载均衡系统筛选目标对象适配器,从而实现对GPU、NPU等协处理器算力资源的负载均衡管理。
本发明提出一种适用于异构计算平台的ICE负载均衡系统,和ICE仅考虑CPU侧负载信息相比,本发明考虑了更全面的资源负载数据,能够更加全面准确地评估节点服务器的整体状态,合理分配系统资源,提高资源利用率,更好地优化系统整体性能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种适用于异构计算平台的ICE负载均衡系统,其特征在于,该系统包括资源监控模块、自定义负载均衡算法模块和副本组过滤器;
所述资源监控模块负责实时采集节点服务器的GPU或NPU的资源负载量化值,形成负载量化值序列Lgpu={l1,l2,…,lM}和Lnpu={l1,l2,…,lN},其中M为节点服务器上GPU模块的数目,N为节点服务器上NPU模块的数目,li为各个GPU或NPU模块上的负载量化值;
自定义负载均衡算法模块负责选择用以响应客户端请求的协处理器,根据应用需求设计不同的协处理器选取规则;
副本组过滤器扩展的filter方法调用自定义负载均衡算法模块获取满足条件的协处理器,并将传入的对象适配器列表映射为服务列表,再将协处理器标识和服务属性相匹配,最终返回运行在该协处理器上的服务的对象适配器。
2.如权利要求1所述的适用于异构计算平台的ICE负载均衡系统,其特征在于,协处理器包括GPU或NPU。
3.如权利要求1所述的适用于异构计算平台的ICE负载均衡系统,其特征在于,所述资源监控模块调用硬件厂商提供的接口采集节点服务器的GPU或NPU的资源负载量化值。
4.如权利要求1所述的适用于异构计算平台的ICE负载均衡系统,其特征在于,资源监控模块将采集到的协处理器资源负载量化值定期报告给自定义负载均衡算法模块。
5.如权利要求1所述的适用于异构计算平台的ICE负载均衡系统,其特征在于,所述协处理器选取规则包括随机法、最近最少使用法和最小负载法。
6.如权利要求5所述的适用于异构计算平台的ICE负载均衡系统,其特征在于,所述最小负载法即从负载量化值序列Lgpu和Lnpu中直接返回一个负载量化值最小的GPU和NPU的设备标识给副本组过滤器。
7.如权利要求1所述的适用于异构计算平台的ICE负载均衡系统,其特征在于,副本组过滤器继承ICE的ReplicaGroupFilter类并实现父类自带的filter方法。
8.如权利要求1-7任一项所述的适用于异构计算平台的ICE负载均衡系统,其特征在于,客户端通过ICE通信中间件向该ICE负载均衡系统请求对象适配器列表,该ICE负载均衡系统回传满足条件的对象适配器列表。
9.如权利要求8所述的适用于异构计算平台的ICE负载均衡系统,其特征在于,在应用的配置文件中会指明协处理器模块标识,该标识将作为服务启动参数自动传入。
10.如权利要求9所述的适用于异构计算平台的ICE负载均衡系统,其特征在于,当ICE注册中心收到客户端的服务地址请求时,会根据任务类型和协处理器模块标识将不同版本的智能算法分配到对应的GPU或NPU上,并返回被请求对象的一串对象适配器列表,同时调用副本组过滤器进行响应拦截处理,进一步筛选符合条件的对象适配器,最后ICE注册中心将该对象适配器的服务地址返回给客户端。
CN202111382668.3A 2021-11-22 2021-11-22 一种适用于异构计算平台的ice负载均衡系统 Active CN114039921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111382668.3A CN114039921B (zh) 2021-11-22 2021-11-22 一种适用于异构计算平台的ice负载均衡系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111382668.3A CN114039921B (zh) 2021-11-22 2021-11-22 一种适用于异构计算平台的ice负载均衡系统

Publications (2)

Publication Number Publication Date
CN114039921A true CN114039921A (zh) 2022-02-11
CN114039921B CN114039921B (zh) 2024-04-19

Family

ID=80145035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111382668.3A Active CN114039921B (zh) 2021-11-22 2021-11-22 一种适用于异构计算平台的ice负载均衡系统

Country Status (1)

Country Link
CN (1) CN114039921B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101207550A (zh) * 2007-03-16 2008-06-25 中国科学技术大学 负载均衡系统及多种业务实现负载均衡的方法
CN104102546A (zh) * 2014-07-23 2014-10-15 浪潮(北京)电子信息产业有限公司 一种实现cpu和gpu负载均衡的方法及系统
CN104778080A (zh) * 2014-01-14 2015-07-15 中兴通讯股份有限公司 基于协处理器的作业调度处理方法及装置
CN105959404A (zh) * 2016-06-27 2016-09-21 江苏易乐网络科技有限公司 一种基于云计算的gpu虚拟化平台
US10262390B1 (en) * 2017-04-14 2019-04-16 EMC IP Holding Company LLC Managing access to a resource pool of graphics processing units under fine grain control
US20200058263A1 (en) * 2018-08-17 2020-02-20 Ffipco Llc Systems and methods for digital content creation and rendering

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101207550A (zh) * 2007-03-16 2008-06-25 中国科学技术大学 负载均衡系统及多种业务实现负载均衡的方法
CN104778080A (zh) * 2014-01-14 2015-07-15 中兴通讯股份有限公司 基于协处理器的作业调度处理方法及装置
CN104102546A (zh) * 2014-07-23 2014-10-15 浪潮(北京)电子信息产业有限公司 一种实现cpu和gpu负载均衡的方法及系统
CN105959404A (zh) * 2016-06-27 2016-09-21 江苏易乐网络科技有限公司 一种基于云计算的gpu虚拟化平台
US10262390B1 (en) * 2017-04-14 2019-04-16 EMC IP Holding Company LLC Managing access to a resource pool of graphics processing units under fine grain control
US20200058263A1 (en) * 2018-08-17 2020-02-20 Ffipco Llc Systems and methods for digital content creation and rendering

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SARA AYUBIAN; SHADI ALAWNEH; MARTIN RICHARD; JAN THIJ SSEN: "Implementation and Performance of a GPU-Based Monte-Carlo Framework for Determining Design Ice Load", IEEE, 14 September 2017 (2017-09-14) *
李涛;董前琨;张帅;孔令晏;康宏;杨愚鲁;: "基于线程池的GPU任务并行计算模式研究", 计算机学报, no. 10 *

Also Published As

Publication number Publication date
CN114039921B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
US10178045B2 (en) Dynamic discovery and management of microservices for multi-cluster computing platforms
US11159411B2 (en) Distributed testing service
CN110933139A (zh) 一种解决Web服务器高并发的系统及方法
CN109656688B (zh) 一种实现分布式业务规则的方法、系统和服务器
CN110311948B (zh) 容器/容器组间的通信方法及基于此的容器云网络系统
CN112631680B (zh) 微服务容器调度系统、方法、装置和计算机设备
CN109981757B (zh) 一种面向小规模微服务架构的api网关负载均衡方法
CN112579319B (zh) 一种基于LRU Cache优化的服务调用方法及装置
CN112799839A (zh) 请求处理方法、装置、计算机可读存储介质及电子设备
CN106713353A (zh) 一种地理信息服务的智能化无缝聚合方法及系统
CN105872082B (zh) 基于容器集群负载均衡算法的细粒度资源响应系统
CN114371931A (zh) 服务集群资源分配方法、装置及计算机设备
CN118193188A (zh) 一种基于虚拟化平台动态负载均衡系统及方法
CN113377866A (zh) 一种虚拟化数据库代理服务的负载均衡方法及装置
CN116743836A (zh) 长连接通信链路建立方法及其装置、电子设备及存储介质
CN114039921A (zh) 一种适用于异构计算平台的ice负载均衡系统
Vijayalakshmi et al. Investigations on job scheduling algorithms in cloud computing
CN110855787A (zh) 基于Consul实现OpenResty动态负载均衡的方法
CN115225645A (zh) 一种服务更新方法、装置、系统和存储介质
CN117667327A (zh) 作业调度方法、调度器及相关设备
CN112491066B (zh) 负载均衡方法、装置、系统、目标负载均衡设备及介质
CN109769019B (zh) 一种一致性负载均衡方法及装置
CN113613261A (zh) 基于合作队列博弈的边缘计算网络中的任务卸载分配方法
CN112787948A (zh) 一种流量负载均衡方法及相关装置
CN111078772A (zh) 多数据源服务负载均衡的能力管理平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant