CN117112239B - 一种异构推理后端上的可扩展负载均衡方法及系统 - Google Patents
一种异构推理后端上的可扩展负载均衡方法及系统 Download PDFInfo
- Publication number
- CN117112239B CN117112239B CN202311373531.0A CN202311373531A CN117112239B CN 117112239 B CN117112239 B CN 117112239B CN 202311373531 A CN202311373531 A CN 202311373531A CN 117112239 B CN117112239 B CN 117112239B
- Authority
- CN
- China
- Prior art keywords
- reasoning
- back end
- priority
- precision
- waiting time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims abstract description 35
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 abstract 1
- 238000007405 data analysis Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000010223 real-time analysis Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5038—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种异构推理后端上的可扩展负载均衡方法及系统,包括如下步骤:S1:将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度;S2:计算所有推理后端的优先级,以推理后端由高到低的优先级排序作为步骤S3的后端选择顺序;S3:设定控制阈值,计算上一个查询队列和当前查询队列的等待时间,若当前查询队列的等待时间大于控制阈值,则根据步骤S2中的优先级排序添加一个高优先级的推理后端,若上一个查询队列的等待时间小于等于控制阈值,则根据步骤S2中优先级排序去掉一个低优先级的推理后端;该可扩展负载均衡方法及系统实现自适应的精度‑延迟权衡。
Description
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种异构推理后端上的可扩展负载均衡方法及系统。
背景技术
从物联网和移动设备到边缘和云服务器,机器学习(ML)模型的推理服务无处不在。高精度和低延迟是大多数推理服务共有的两个典型服务级目标。在实际系统中,由于资源的限制,应用程序通常对精度和延迟有不同的偏好。像虚拟现实和语音助手这样的应用程序来说,确保实时推理是非常重要的。
现有方法主要集中在提高单个后端推理效率和生成精度和延迟不等的推理后端。模型压缩减小了ML模型的大小,以便在移动甚至嵌入式设备上执行低延迟推理,但精度略有下降。近似缓存从缓存中为到达的查询返回与先前处理的查询类似的快速响应。近似缓存机制需要在命中率和返回推断结果的准确性之间进行权衡。管道配置调整特定于任务的可配置旋钮(例如,视频分析中的帧分辨率和骨干神经网络),以平衡效率和准确性,以上这些方法均不能自适应的实现精度-延迟权衡。
发明内容
基于背景技术存在的技术问题,本发明提出了一种异构推理后端上的可扩展负载均衡方法及系统,根据实时精度,动态地将查询分配到静态更快的推理后端,以实现自适应的精度-延迟权衡。
本发明提出的一种异构推理后端上的可扩展负载均衡方法,包括如下步骤:
S1:将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度;
S2:计算所有推理后端的优先级,以推理后端由高到低的优先级排序作为步骤S3的后端选择顺序;
S3:设定控制阈值,计算上一个查询队列和当前查询队列的等待时间,若当前查询队列的等待时间大于控制阈值,则根据步骤S2中的优先级排序添加一个高优先级的推理后端,若上一个查询队列的等待时间小于等于控制阈值,则根据步骤S2中优先级排序去掉一个低优先级的推理后端。
步骤S2的推理后端优先级计算过程如下:
其中,表示精度和时延权衡能力值,/>表示第/>个推理后端,/>表示第/>个推理后端的推理精度,/>表示第/>个推理后端的服务速率,/>表示常数。
进一步地,在步骤S1:将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度中,具体包括:
将多个推理后端中的其中一个后端作为黄金标准后端;
在一个时间窗口内收集进入包含黄金标准后端和其他推理后端的数据对,并记录数据对在黄金标准后端的输出结果;
以数据对在黄金标准后端的输出结果为标准,计算其他推理后端输出部分重合数据对的输出结果精度,以该输出结果精度估计其他推理后端推理精度。
进一步地,在步骤S3的计算上一个查询队列和当前查询队列的等待时间中,其中查询队列的具体公式如下:
其中,表示等待时间,/>表示查询队列,/>表示队列长度,/>表示前/>个推理后端的平均服务速率,/>表示查询请求的到达速率,/>表示最大等待时间。
进一步地,在步骤S1:将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度中,黄金标准后端处理查询请求时,推理后端需满足两个条件:一是推理后端空闲,二是推理后端的服务速率高于当前到达速率。
一种异构推理后端上的可扩展负载均衡的系统,包括推理精度估计模块、优先级计算模块和负载平衡输出模块;
推理精度估计模块用于将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度;
优先级计算模块用于计算所有推理后端的优先级,以推理后端由高到低的优先级排序作为负载平衡输出模块的后端选择顺序;
负载平衡输出模块用于设定控制阈值,计算上一个查询队列和当前查询队列的等待时间,若当前查询队列的等待时间大于控制阈值,则根据优先级计算模块中的优先级排序添加一个高优先级的推理后端,若上一个查询队列的等待时间小于等于控制阈值,则根据优先级计算模块中优先级排序去掉一个低优先级的推理后端。
本发明提供的一种异构推理后端上的可扩展负载均衡方法及系统的优点在于:本发明结构中提供的一种异构推理后端上的可扩展负载均衡方法及系统,能够自适应地通过负载平衡控制器来决定每个查询应该分布到哪个后端。利用了动态精度估计器以及考虑系状态和用户需求的后端优先排序器,本发明在大规模高并发的系统上可以实现异构推理后端上的负载均衡。本实施例设计了一个动态感知负载和精度的负载平衡控制器,实现延迟与准确性之间的权衡。适用于云端大规模数据分析、物联网边缘数据实时分析,端设备低功耗数据分析等场景。
附图说明
图1为本发明的流程示意图;
图2为动态精度估计器、后端优先排序器和负载平衡控制器之间逻辑关系示意图;
图3为负载平衡控制器的平衡逻辑示意图。
具体实施方式
下面,通过具体实施例对本发明的技术方案进行详细说明,在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
为了解决背景技术中的技术问题,本实施例通过协作地利用多个异构推理后端,而不是独立地使用单个后端的方式实现负载平衡。具体来说,需要一个与机制无关的负载平衡控制器来决定每个查询应该分布到哪个后端,它面临以下三个主要挑战:
1)精度感知与领域相关的精度动态变化。由于优化机会在于低延迟后端可以输出高精度结果的查询,因此控制器需要具有精度感知能力。
2)负载感知与随机突发流量。推理服务系统必须响应随机和突发的查询流量。
3)高频控制与指数扩展决策空间。根据理论分析,搜索最优负载平衡决策的复杂性随着推理后端数量的增加呈指数增长。需要高频控制来最大化优化机会和最小化违反的概率。
因而本实施例提出了在异构推理后端上自适应推理查询的方法,如图1至3所示,本发明提出的一种异构推理后端上的可扩展负载均衡方法,包括如下步骤:
S1:将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度;
S2:计算所有推理后端的优先级,以推理后端由高到低的优先级排序作为步骤S3的后端选择顺序;
S3:设定控制阈值,计算上一个查询队列和当前查询队列的等待时间,若当前查询队列的等待时间大于控制阈值,则根据步骤S2中的优先级排序添加一个高优先级的推理后端,若上一个查询队列的等待时间小于等于控制阈值,则根据步骤S2中优先级排序去掉一个低优先级的推理后端。
根据步骤S1至S3,能够自适应地通过负载平衡控制器来决定每个查询应该分布到哪个后端。利用了动态精度估计器以及考虑系状态和用户需求的后端优先排序器,本发明在大规模高并发的系统上可以实现异构推理后端上的负载均衡。本实施例设计了一个动态感知负载和精度的负载平衡控制器,实现延迟与准确性之间的权衡。适用于云端大规模数据分析、物联网边缘数据实时分析,端设备低功耗数据分析等场景。
以下具体说明:动态精度估计器、后端优先排序器和负载平衡控制器。
(A)动态精度估计器,对应步骤S1。
本实施例设计了基于反馈的精度分析,并采用了一种不影响延迟的反空转精度估计方式。设计了一种基于反馈(或基于输出)的反空转的精度估计方法,该方法基于它们的输出配置推理后端的动态精度。具体来说,计算其他推理后端与黄金标准后端一致的输出的比例作为其他推理后端的精度。注意,本实施例的目标是分析当前时间窗口中即时适应性的精度,而不是总体精度。直观地说,策略旨在尽可能避免后端空闲,同时不影响未来查询的延迟。在扩展负载均衡的方法中,相同查询的推理结果可以用于准确性分析。为此,设计了一种反空转精度估计(AAP)方法。具体来说,当选择黄金标准后端处理查询时,AAP将查询发送到推理后端时,后端需要满足两个条件:(1)后端空闲,(2)后端服务速率高于当前到达速率。第(2)个条件期望这些推理后端在下一个查询请求到达之前完成处理。
其他推理后端的的推理精度估计过程如下:
(a1)将多个推理后端中的其中一个后端作为黄金标准后端;
黄金标准后端的精度和服务速率均为可知的,其他推理后端的精度根据黄金标准后端估计。
(a2)在一个时间窗口内收集进入包含黄金标准后端和其他推理后端的数据对,并记录数据对在黄金标准后端的输出结果;
(a3)以数据对在黄金标准后端的输出结果为标准,计算其他推理后端输出部分重合数据对的输出结果精度,以该输出结果精度估计其他推理后端推理精度。
例如图2所示,进入的推理后端一的数据对为1和2,进入推理后端二的数据对为1和3,进入推理后端的数据对为2和4,若设定推理后端一作为黄金标准后端,则以数据对1和2在黄金标准后端的输出为标准,计算数据对1和2在其他推理后端的输出结果精度,以估计其他推理后端的推力精度。
具体地,数据对1进入推理后端二,推理后端二输出数据对1的结果如果与黄金标准后端一致,则为有效输出,推理后端二输出数据对1的结果如果与黄金标准后端不一致,则为无效输出,将有效输出与无效输出相加,得到总输出,将有效输出与总输出的比值作为推理后端二的输出结果精度,该结果精度作为推理后端二的推理精度。
同理,数据对2进入推理后端,推理后端/>输出数据对2的结果如果与黄金标准后端一致,则为有效输出,推理后端/>输出数据对2的结果如果与黄金标准后端不一致,则为无效输出,将有效输出与无效输出相加,得到总输出,将有效输出与总输出的比值作为推理后端/>的输出结果精度,该结果精度作为推理后端/>的推理精度。
特别说明的是,如果进入推理后端的数据对为3和4,在以推理后端一作为黄金标准后端时,数据对3和4与数据对1和2没有任何重合关系,在此次精度估计中将不对推理后端/>进行精度估计,等下一个时间窗口的数据对是否与设定的黄金标准后端的数据对有一定的重合关系,如果有,则可以根据重合数据对在黄金标准后端的输出作为在推理后端的输出标准,以计算推理后端/>的推理精度,如果无,继续等下一个时间窗口。
(B)后端优先排序器,对应步骤S2。
阈值型算法结构首先需要推理后端的优先级列表。在本实施例实现过程中发现优先级不依赖于队列长度和请求的到达率。但是没有一个简单的封闭表达式,需要迭代DP过程直到收敛。因而本实施例提出一种基于和黄金标准两两配对进行优先级计算的方法。
具体地,在个后端中,对于第/>个推理后端,定义其推理精度为/>(由步骤S1得到),服务速率为/>,通过如下公式计算其优先级,
其中,表示精度和时延权衡能力值,/>表示常数,/>仅依赖于黄金标准后端的服务速率,可以通过一次性的离线拟合DP策略得到。通过归纳法证明了在黄金标准假设下,所提出的优先级计算方法提供了一种最优的优先级度量。
根据由大到小进行排序,得到推理后端的优先级,在(C)中,无论是添加推理后端还是去掉推理后端,均按照这个推理后端的优先级进行添加或去掉操作,例如,计算得到的推理后端的优先级为H1、H2、H3、H4、H5·····,若当前使用的推理后端为H1、H2、H3,当需要添加推理后端时,将H4添加上,当需要去掉推理后端时,将H3去掉。
(C)负载平衡控制器,对应步骤S3。
在确定推理后端优先级之后,下一步是控制阈值。阈值取决于到达率、服务速率和后端准确率,没有封闭形式的表达式。与优先排序相比,控制阈值的控制任务还依赖于两个参数:队列长度和请求的到达率。这种依赖性的根源在于等待时间对目标函数的贡献。有三种情况:(1)如果当前等待时间超过阈值,即,此时再添加一个后端使用;(2)如果,此时少使用一个后端;(3)除了(1)和(2)的情况,将继续使用当前的后端,即/>或者/>。
推理后端的状态转换说明见图3,其中为推理后端的数量,/>是一个计算函数,计算结果表示等待时间,具体公式为:
其中,表示队列长度,/>表示前/>个推理后端的平均服务速率,/>表示查询请求的到达速率,/>表示最大等待时间,一般可以人工地进行经验设定。
本实施例提供的异构推理后端上的可扩展负载均衡方法,其有益效果为:根据实时精度,动态地将查询分配到静态更快的推理后端,以实现自适应的精度-延迟权衡,具有更高的即时精度。通过这种方式,可以在不影响准确性的情况下显著降低响应延迟且具有任务不可知的准确性感知和负载感知。在移动工作负载上,与现有最优方法相比,本发明降低了85.2%的P99延迟(快5.8倍),提高了5.9%的准确性。
作为一实施例
对来自一家全球银行智能客户服务系统的一天问答记录。使用在生产环境中运行的基于Bert的神经网络作为黄金标准后端。基于Bert的模型在人工标记的业务相关培训数据上进行了微调。计算与黄金标准后端一致的输出的比例作为后端精度。训练了一个嵌入层,该嵌入层使用相同的数据集将单词序列映射为128维特征向量。使用训练过的嵌入,部署了一个基于KNN的缓存作为第二个推理后端。当选择黄金标准后端处理查询时,AAP将查询发送到满足两个条件的后端:(1)后端空闲,(2)后端服务速率高于当前到达速率。之后计算出推理后端的优先级列表。获得推理后端的优先级顺序后,通过阈值控制,决定后端的使用状态,实现负载均衡算法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (3)
1.一种异构推理后端上的可扩展负载均衡方法,其特征在于,包括如下步骤:
S1:将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度;
S2:计算所有推理后端的优先级,以推理后端由高到低的优先级排序作为步骤S3的后端选择顺序;
S3:设定控制阈值,计算上一个查询队列和当前查询队列的等待时间,若当前查询队列的等待时间大于控制阈值,则根据步骤S2中的优先级排序添加一个高优先级的推理后端,若上一个查询队列的等待时间小于等于控制阈值,则根据步骤S2中优先级排序去掉一个低优先级的推理后端;
在步骤S1:将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度中,具体包括:
将多个推理后端中的其中一个后端作为黄金标准后端;
在一个时间窗口内收集进入包含黄金标准后端和其他推理后端的数据对,并记录数据对在黄金标准后端的输出结果;
以数据对在黄金标准后端的输出结果为标准,计算其他推理后端输出部分重合数据对的输出结果精度,以该输出结果精度估计其他推理后端推理精度;
步骤S2的推理后端优先级计算过程如下:
其中,表示精度和时延权衡能力值,/>表示第/>个推理后端,/>表示第/>个推理后端的推理精度,/>表示第/>个推理后端的服务速率,/>表示常数;
在步骤S3的计算上一个查询队列和当前查询队列的等待时间中,其中查询队列的具体公式如下:
其中,表示等待时间,/>表示查询队列,/>表示队列长度,/>表示前/>个推理后端的平均服务速率,/>表示查询请求的到达速率,/>表示最大等待时间。
2.根据权利要求1所述的异构推理后端上的可扩展负载均衡方法,其特征在于,在步骤S1:将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度中,黄金标准后端处理查询请求时,推理后端需满足两个条件:一是推理后端空闲,二是推理后端的服务速率高于当前到达速率。
3.一种异构推理后端上的可扩展负载均衡系统,其特征在于,包括推理精度估计模块、优先级计算模块和负载平衡输出模块;
推理精度估计模块用于将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度;
优先级计算模块用于计算所有推理后端的优先级,以推理后端由高到低的优先级排序作为负载平衡输出模块的后端选择顺序;
负载平衡输出模块用于设定控制阈值,计算上一个查询队列和当前查询队列的等待时间,若当前查询队列的等待时间大于控制阈值,则根据优先级计算模块中的优先级排序添加一个高优先级的推理后端,若上一个查询队列的等待时间小于等于控制阈值,则根据优先级计算模块中优先级排序去掉一个低优先级的推理后端;
在推理精度估计模块中,具体包括:
将多个推理后端中的其中一个后端作为黄金标准后端;
在一个时间窗口内收集进入包含黄金标准后端和其他推理后端的数据对,并记录数据对在黄金标准后端的输出结果;
以数据对在黄金标准后端的输出结果为标准,计算其他推理后端输出部分重合数据对的输出结果精度,以该输出结果精度估计其他推理后端推理精度;
优先级计算模块对推理后端优先级的计算过程如下:
其中,表示精度和时延权衡能力值,/>表示第/>个推理后端,/>表示第/>个推理后端的推理精度,/>表示第/>个推理后端的服务速率,/>表示常数;
在负载平衡输出模块的计算上一个查询队列和当前查询队列的等待时间中,其中查询队列的具体公式如下:
其中,表示等待时间,/>表示查询队列,/>表示队列长度,/>表示前/>个推理后端的平均服务速率,/>表示查询请求的到达速率,/>表示最大等待时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311373531.0A CN117112239B (zh) | 2023-10-23 | 2023-10-23 | 一种异构推理后端上的可扩展负载均衡方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311373531.0A CN117112239B (zh) | 2023-10-23 | 2023-10-23 | 一种异构推理后端上的可扩展负载均衡方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117112239A CN117112239A (zh) | 2023-11-24 |
CN117112239B true CN117112239B (zh) | 2024-02-09 |
Family
ID=88811316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311373531.0A Active CN117112239B (zh) | 2023-10-23 | 2023-10-23 | 一种异构推理后端上的可扩展负载均衡方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117112239B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1078937A (ja) * | 1996-07-12 | 1998-03-24 | Nec Corp | 複数コンピュータ間の業務分散システム、業務分散方法 および業務分散プログラムを記録した記録媒体 |
KR20100071613A (ko) * | 2008-12-19 | 2010-06-29 | 윤대일 | 유에스엔(usn) 미들웨어 질의 처리 로드 밸런싱 시스템 및 그 방법 |
CN106257424A (zh) * | 2016-06-16 | 2016-12-28 | 山东大学 | 一种基于kvm云平台的分布式数据库系统实现自动伸缩负载均衡的方法 |
CN106789726A (zh) * | 2016-12-20 | 2017-05-31 | 兴唐通信科技有限公司 | 一种基于业务优先级的高并发服务资源分配方法 |
CN108205541A (zh) * | 2016-12-16 | 2018-06-26 | 北大方正集团有限公司 | 分布式网络爬虫任务的调度方法及装置 |
CN109104500A (zh) * | 2018-09-29 | 2018-12-28 | 广东省信息工程有限公司 | 一种动态调整的服务器负载均衡方法及装置 |
CN109960585A (zh) * | 2019-02-02 | 2019-07-02 | 浙江工业大学 | 一种基于kubernetes的资源调度方法 |
CN110213351A (zh) * | 2019-05-17 | 2019-09-06 | 北京航空航天大学 | 一种面向广域高性能计算环境的动态自适应io负载均衡方法 |
CN110677274A (zh) * | 2019-08-26 | 2020-01-10 | 国信电子票据平台信息服务有限公司 | 一种基于事件的云网络服务调度方法及装置 |
US10855808B1 (en) * | 2019-07-05 | 2020-12-01 | Servicenow, Inc. | Intelligent load balancer |
CN113420152A (zh) * | 2021-08-23 | 2021-09-21 | 北京好欣晴移动医疗科技有限公司 | 基于模糊逻辑的业务处理方法、装置和系统 |
CN114968566A (zh) * | 2022-05-17 | 2022-08-30 | 南京邮电大学 | 一种面向共享式gpu集群下的容器调度方法及装置 |
CN115292039A (zh) * | 2022-07-29 | 2022-11-04 | 北京神舟航天软件技术股份有限公司 | 一种面向异构计算平台的多任务分布式调度负载均衡方法 |
CN115629854A (zh) * | 2022-10-12 | 2023-01-20 | 神策网络科技(北京)有限公司 | 分布式任务调度方法、系统、电子设备和存储介质 |
CN115629865A (zh) * | 2022-12-20 | 2023-01-20 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种基于边缘计算的深度学习推理任务调度方法 |
WO2023087190A1 (zh) * | 2021-11-17 | 2023-05-25 | 北京小米移动软件有限公司 | 一种基于人工智能的网络任务处理方法、装置及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020056000A1 (en) * | 2000-11-08 | 2002-05-09 | Albert Coussement Stefaan Valere | Personal interaction interface for communication-center customers |
US8365174B2 (en) * | 2008-10-14 | 2013-01-29 | Chetan Kumar Gupta | System and method for modifying scheduling of queries in response to the balancing average stretch and maximum stretch of scheduled queries |
US9491114B2 (en) * | 2012-10-24 | 2016-11-08 | Messageone, Inc. | System and method for optimizing resource utilization in a clustered or cloud environment |
JP2022150451A (ja) * | 2021-03-26 | 2022-10-07 | 富士通株式会社 | 情報処理装置、推論実行制御方法および推論実行制御プログラム |
-
2023
- 2023-10-23 CN CN202311373531.0A patent/CN117112239B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1078937A (ja) * | 1996-07-12 | 1998-03-24 | Nec Corp | 複数コンピュータ間の業務分散システム、業務分散方法 および業務分散プログラムを記録した記録媒体 |
KR20100071613A (ko) * | 2008-12-19 | 2010-06-29 | 윤대일 | 유에스엔(usn) 미들웨어 질의 처리 로드 밸런싱 시스템 및 그 방법 |
CN106257424A (zh) * | 2016-06-16 | 2016-12-28 | 山东大学 | 一种基于kvm云平台的分布式数据库系统实现自动伸缩负载均衡的方法 |
CN108205541A (zh) * | 2016-12-16 | 2018-06-26 | 北大方正集团有限公司 | 分布式网络爬虫任务的调度方法及装置 |
CN106789726A (zh) * | 2016-12-20 | 2017-05-31 | 兴唐通信科技有限公司 | 一种基于业务优先级的高并发服务资源分配方法 |
CN109104500A (zh) * | 2018-09-29 | 2018-12-28 | 广东省信息工程有限公司 | 一种动态调整的服务器负载均衡方法及装置 |
CN109960585A (zh) * | 2019-02-02 | 2019-07-02 | 浙江工业大学 | 一种基于kubernetes的资源调度方法 |
CN110213351A (zh) * | 2019-05-17 | 2019-09-06 | 北京航空航天大学 | 一种面向广域高性能计算环境的动态自适应io负载均衡方法 |
US10855808B1 (en) * | 2019-07-05 | 2020-12-01 | Servicenow, Inc. | Intelligent load balancer |
CN110677274A (zh) * | 2019-08-26 | 2020-01-10 | 国信电子票据平台信息服务有限公司 | 一种基于事件的云网络服务调度方法及装置 |
CN113420152A (zh) * | 2021-08-23 | 2021-09-21 | 北京好欣晴移动医疗科技有限公司 | 基于模糊逻辑的业务处理方法、装置和系统 |
WO2023087190A1 (zh) * | 2021-11-17 | 2023-05-25 | 北京小米移动软件有限公司 | 一种基于人工智能的网络任务处理方法、装置及存储介质 |
CN114968566A (zh) * | 2022-05-17 | 2022-08-30 | 南京邮电大学 | 一种面向共享式gpu集群下的容器调度方法及装置 |
CN115292039A (zh) * | 2022-07-29 | 2022-11-04 | 北京神舟航天软件技术股份有限公司 | 一种面向异构计算平台的多任务分布式调度负载均衡方法 |
CN115629854A (zh) * | 2022-10-12 | 2023-01-20 | 神策网络科技(北京)有限公司 | 分布式任务调度方法、系统、电子设备和存储介质 |
CN115629865A (zh) * | 2022-12-20 | 2023-01-20 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种基于边缘计算的深度学习推理任务调度方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117112239A (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiao et al. | Multi-objective parallel task offloading and content caching in D2D-aided MEC networks | |
CN110109953B (zh) | 一种数据查询方法、装置及设备 | |
WO2021067107A1 (en) | Systems and methods for intelligent application instantiation | |
CN113989561B (zh) | 基于异步联邦学习的参数聚合更新方法、设备及系统 | |
CN109978177B (zh) | 模型训练方法、业务处理方法、装置及相关设备 | |
CN110213097B (zh) | 一种基于资源动态分配的边缘服务供应优化方法 | |
CN106453608B (zh) | 一种基于云端的移动应用的后台请求自适应调度算法 | |
Liu et al. | Fedpa: An adaptively partial model aggregation strategy in federated learning | |
CN113778691B (zh) | 一种任务迁移决策的方法、装置及系统 | |
US11379539B2 (en) | Efficient freshness crawl scheduling | |
CN106250240A (zh) | 一种任务优化调度方法 | |
WO2020219085A1 (en) | Dynamically delaying execution of automated assistant actions and/or background application requests | |
Wang et al. | Distributed join-the-idle-queue for low latency cloud services | |
CN114065863A (zh) | 联邦学习的方法、装置、系统、电子设备及存储介质 | |
CN108769253B (zh) | 一种分布式系统访问性能优化的自适应预取控制方法 | |
US7747792B2 (en) | Relative typing waiting time before disambiguation aids | |
CN117112239B (zh) | 一种异构推理后端上的可扩展负载均衡方法及系统 | |
JP7200299B2 (ja) | 検索システムを最適化する方法、装置、電子機器、記憶媒体及びプログラム | |
CN114997400A (zh) | 一种神经网络加速推理方法 | |
US11805068B2 (en) | Selective delaying of provisioning, to assistant device(s), assistant data that is locally utilizable by a corresponding local assistant client | |
CN115632948B (zh) | 应用于网卡的中断调控方法、装置、存储介质及电子设备 | |
CN112102821B (zh) | 应用于电子设备的数据处理方法、装置、系统、介质 | |
US20230141570A1 (en) | Query admission control for online data systems based on response time objectives | |
US20230342216A1 (en) | System and method for inference model generalization for a distributed environment | |
Narawade et al. | NNRA-CAC: NARX neural network-based rate adjustment for congestion avoidance and control in wireless sensor networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |