CN117112239B

CN117112239B - 一种异构推理后端上的可扩展负载均衡方法及系统

Info

Publication number: CN117112239B
Application number: CN202311373531.0A
Authority: CN
Inventors: 张兰; 李向阳; 袁牧; 宋淼荟
Original assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-02-09
Anticipated expiration: 2043-10-23
Also published as: CN117112239A

Abstract

本发明公开了一种异构推理后端上的可扩展负载均衡方法及系统，包括如下步骤：S1：将多个推理后端中的其中一个后端作为黄金标准后端，基于黄金标准后端估计其他推理后端的推理精度；S2：计算所有推理后端的优先级，以推理后端由高到低的优先级排序作为步骤S3的后端选择顺序；S3：设定控制阈值，计算上一个查询队列和当前查询队列的等待时间，若当前查询队列的等待时间大于控制阈值，则根据步骤S2中的优先级排序添加一个高优先级的推理后端，若上一个查询队列的等待时间小于等于控制阈值，则根据步骤S2中优先级排序去掉一个低优先级的推理后端；该可扩展负载均衡方法及系统实现自适应的精度‑延迟权衡。

Description

一种异构推理后端上的可扩展负载均衡方法及系统

技术领域

本发明涉及计算机网络技术领域，尤其涉及一种异构推理后端上的可扩展负载均衡方法及系统。

背景技术

从物联网和移动设备到边缘和云服务器，机器学习（ML）模型的推理服务无处不在。高精度和低延迟是大多数推理服务共有的两个典型服务级目标。在实际系统中，由于资源的限制，应用程序通常对精度和延迟有不同的偏好。像虚拟现实和语音助手这样的应用程序来说，确保实时推理是非常重要的。

现有方法主要集中在提高单个后端推理效率和生成精度和延迟不等的推理后端。模型压缩减小了ML模型的大小，以便在移动甚至嵌入式设备上执行低延迟推理，但精度略有下降。近似缓存从缓存中为到达的查询返回与先前处理的查询类似的快速响应。近似缓存机制需要在命中率和返回推断结果的准确性之间进行权衡。管道配置调整特定于任务的可配置旋钮（例如，视频分析中的帧分辨率和骨干神经网络），以平衡效率和准确性，以上这些方法均不能自适应的实现精度-延迟权衡。

发明内容

基于背景技术存在的技术问题，本发明提出了一种异构推理后端上的可扩展负载均衡方法及系统，根据实时精度，动态地将查询分配到静态更快的推理后端，以实现自适应的精度-延迟权衡。

本发明提出的一种异构推理后端上的可扩展负载均衡方法，包括如下步骤：

S1：将多个推理后端中的其中一个后端作为黄金标准后端，基于黄金标准后端估计其他推理后端的推理精度；

S2：计算所有推理后端的优先级，以推理后端由高到低的优先级排序作为步骤S3的后端选择顺序；

S3：设定控制阈值，计算上一个查询队列和当前查询队列的等待时间，若当前查询队列的等待时间大于控制阈值，则根据步骤S2中的优先级排序添加一个高优先级的推理后端，若上一个查询队列的等待时间小于等于控制阈值，则根据步骤S2中优先级排序去掉一个低优先级的推理后端。

步骤S2的推理后端优先级计算过程如下：

其中，表示精度和时延权衡能力值，/>表示第/>个推理后端，/>表示第/>个推理后端的推理精度，/>表示第/>个推理后端的服务速率，/>表示常数。

进一步地，在步骤S1：将多个推理后端中的其中一个后端作为黄金标准后端，基于黄金标准后端估计其他推理后端的推理精度中，具体包括：

将多个推理后端中的其中一个后端作为黄金标准后端；

在一个时间窗口内收集进入包含黄金标准后端和其他推理后端的数据对，并记录数据对在黄金标准后端的输出结果；

以数据对在黄金标准后端的输出结果为标准，计算其他推理后端输出部分重合数据对的输出结果精度，以该输出结果精度估计其他推理后端推理精度。

进一步地，在步骤S3的计算上一个查询队列和当前查询队列的等待时间中，其中查询队列的具体公式如下：

其中，表示等待时间，/>表示查询队列，/>表示队列长度，/>表示前/>个推理后端的平均服务速率，/>表示查询请求的到达速率，/>表示最大等待时间。

进一步地，在步骤S1：将多个推理后端中的其中一个后端作为黄金标准后端，基于黄金标准后端估计其他推理后端的推理精度中，黄金标准后端处理查询请求时，推理后端需满足两个条件：一是推理后端空闲，二是推理后端的服务速率高于当前到达速率。

一种异构推理后端上的可扩展负载均衡的系统，包括推理精度估计模块、优先级计算模块和负载平衡输出模块；

推理精度估计模块用于将多个推理后端中的其中一个后端作为黄金标准后端，基于黄金标准后端估计其他推理后端的推理精度；

优先级计算模块用于计算所有推理后端的优先级，以推理后端由高到低的优先级排序作为负载平衡输出模块的后端选择顺序；

负载平衡输出模块用于设定控制阈值，计算上一个查询队列和当前查询队列的等待时间，若当前查询队列的等待时间大于控制阈值，则根据优先级计算模块中的优先级排序添加一个高优先级的推理后端，若上一个查询队列的等待时间小于等于控制阈值，则根据优先级计算模块中优先级排序去掉一个低优先级的推理后端。

本发明提供的一种异构推理后端上的可扩展负载均衡方法及系统的优点在于：本发明结构中提供的一种异构推理后端上的可扩展负载均衡方法及系统，能够自适应地通过负载平衡控制器来决定每个查询应该分布到哪个后端。利用了动态精度估计器以及考虑系状态和用户需求的后端优先排序器，本发明在大规模高并发的系统上可以实现异构推理后端上的负载均衡。本实施例设计了一个动态感知负载和精度的负载平衡控制器，实现延迟与准确性之间的权衡。适用于云端大规模数据分析、物联网边缘数据实时分析，端设备低功耗数据分析等场景。

附图说明

图1为本发明的流程示意图；

图2为动态精度估计器、后端优先排序器和负载平衡控制器之间逻辑关系示意图；

图3为负载平衡控制器的平衡逻辑示意图。

具体实施方式

下面，通过具体实施例对本发明的技术方案进行详细说明，在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。

为了解决背景技术中的技术问题，本实施例通过协作地利用多个异构推理后端，而不是独立地使用单个后端的方式实现负载平衡。具体来说，需要一个与机制无关的负载平衡控制器来决定每个查询应该分布到哪个后端，它面临以下三个主要挑战：

1）精度感知与领域相关的精度动态变化。由于优化机会在于低延迟后端可以输出高精度结果的查询，因此控制器需要具有精度感知能力。

2）负载感知与随机突发流量。推理服务系统必须响应随机和突发的查询流量。

3）高频控制与指数扩展决策空间。根据理论分析，搜索最优负载平衡决策的复杂性随着推理后端数量的增加呈指数增长。需要高频控制来最大化优化机会和最小化违反的概率。

因而本实施例提出了在异构推理后端上自适应推理查询的方法，如图1至3所示，本发明提出的一种异构推理后端上的可扩展负载均衡方法，包括如下步骤：

根据步骤S1至S3，能够自适应地通过负载平衡控制器来决定每个查询应该分布到哪个后端。利用了动态精度估计器以及考虑系状态和用户需求的后端优先排序器，本发明在大规模高并发的系统上可以实现异构推理后端上的负载均衡。本实施例设计了一个动态感知负载和精度的负载平衡控制器，实现延迟与准确性之间的权衡。适用于云端大规模数据分析、物联网边缘数据实时分析，端设备低功耗数据分析等场景。

以下具体说明：动态精度估计器、后端优先排序器和负载平衡控制器。

（A）动态精度估计器，对应步骤S1。

本实施例设计了基于反馈的精度分析，并采用了一种不影响延迟的反空转精度估计方式。设计了一种基于反馈（或基于输出）的反空转的精度估计方法，该方法基于它们的输出配置推理后端的动态精度。具体来说，计算其他推理后端与黄金标准后端一致的输出的比例作为其他推理后端的精度。注意，本实施例的目标是分析当前时间窗口中即时适应性的精度，而不是总体精度。直观地说，策略旨在尽可能避免后端空闲，同时不影响未来查询的延迟。在扩展负载均衡的方法中，相同查询的推理结果可以用于准确性分析。为此，设计了一种反空转精度估计（AAP）方法。具体来说，当选择黄金标准后端处理查询时，AAP将查询发送到推理后端时，后端需要满足两个条件：（1）后端空闲，（2）后端服务速率高于当前到达速率。第（2）个条件期望这些推理后端在下一个查询请求到达之前完成处理。

其他推理后端的的推理精度估计过程如下：

（a1）将多个推理后端中的其中一个后端作为黄金标准后端；

黄金标准后端的精度和服务速率均为可知的，其他推理后端的精度根据黄金标准后端估计。

（a2）在一个时间窗口内收集进入包含黄金标准后端和其他推理后端的数据对，并记录数据对在黄金标准后端的输出结果；

（a3）以数据对在黄金标准后端的输出结果为标准，计算其他推理后端输出部分重合数据对的输出结果精度，以该输出结果精度估计其他推理后端推理精度。

例如图2所示，进入的推理后端一的数据对为1和2，进入推理后端二的数据对为1和3，进入推理后端的数据对为2和4，若设定推理后端一作为黄金标准后端，则以数据对1和2在黄金标准后端的输出为标准，计算数据对1和2在其他推理后端的输出结果精度，以估计其他推理后端的推力精度。

具体地，数据对1进入推理后端二，推理后端二输出数据对1的结果如果与黄金标准后端一致，则为有效输出，推理后端二输出数据对1的结果如果与黄金标准后端不一致，则为无效输出，将有效输出与无效输出相加，得到总输出，将有效输出与总输出的比值作为推理后端二的输出结果精度，该结果精度作为推理后端二的推理精度。

同理，数据对2进入推理后端，推理后端/>输出数据对2的结果如果与黄金标准后端一致，则为有效输出，推理后端/>输出数据对2的结果如果与黄金标准后端不一致，则为无效输出，将有效输出与无效输出相加，得到总输出，将有效输出与总输出的比值作为推理后端/>的输出结果精度，该结果精度作为推理后端/>的推理精度。

特别说明的是，如果进入推理后端的数据对为3和4，在以推理后端一作为黄金标准后端时，数据对3和4与数据对1和2没有任何重合关系，在此次精度估计中将不对推理后端/>进行精度估计，等下一个时间窗口的数据对是否与设定的黄金标准后端的数据对有一定的重合关系，如果有，则可以根据重合数据对在黄金标准后端的输出作为在推理后端的输出标准，以计算推理后端/>的推理精度，如果无，继续等下一个时间窗口。

（B）后端优先排序器，对应步骤S2。

阈值型算法结构首先需要推理后端的优先级列表。在本实施例实现过程中发现优先级不依赖于队列长度和请求的到达率。但是没有一个简单的封闭表达式，需要迭代DP过程直到收敛。因而本实施例提出一种基于和黄金标准两两配对进行优先级计算的方法。

具体地，在个后端中，对于第/>个推理后端，定义其推理精度为/>（由步骤S1得到），服务速率为/>，通过如下公式计算其优先级，

其中，表示精度和时延权衡能力值，/>表示常数，/>仅依赖于黄金标准后端的服务速率，可以通过一次性的离线拟合DP策略得到。通过归纳法证明了在黄金标准假设下，所提出的优先级计算方法提供了一种最优的优先级度量。

根据由大到小进行排序，得到推理后端的优先级，在（C）中，无论是添加推理后端还是去掉推理后端，均按照这个推理后端的优先级进行添加或去掉操作，例如，计算得到的推理后端的优先级为H1、H2、H3、H4、H5·····，若当前使用的推理后端为H1、H2、H3，当需要添加推理后端时，将H4添加上，当需要去掉推理后端时，将H3去掉。

（C）负载平衡控制器，对应步骤S3。

在确定推理后端优先级之后，下一步是控制阈值。阈值取决于到达率、服务速率和后端准确率，没有封闭形式的表达式。与优先排序相比，控制阈值的控制任务还依赖于两个参数：队列长度和请求的到达率。这种依赖性的根源在于等待时间对目标函数的贡献。有三种情况：（1）如果当前等待时间超过阈值，即，此时再添加一个后端使用；（2）如果，此时少使用一个后端；（3）除了（1）和（2）的情况，将继续使用当前的后端，即/>或者/>。

推理后端的状态转换说明见图3，其中为推理后端的数量，/>是一个计算函数，计算结果表示等待时间，具体公式为：

其中，表示队列长度，/>表示前/>个推理后端的平均服务速率，/>表示查询请求的到达速率，/>表示最大等待时间，一般可以人工地进行经验设定。

本实施例提供的异构推理后端上的可扩展负载均衡方法，其有益效果为：根据实时精度，动态地将查询分配到静态更快的推理后端，以实现自适应的精度-延迟权衡，具有更高的即时精度。通过这种方式，可以在不影响准确性的情况下显著降低响应延迟且具有任务不可知的准确性感知和负载感知。在移动工作负载上，与现有最优方法相比，本发明降低了85.2%的P99延迟（快5.8倍），提高了5.9%的准确性。

作为一实施例

对来自一家全球银行智能客户服务系统的一天问答记录。使用在生产环境中运行的基于Bert的神经网络作为黄金标准后端。基于Bert的模型在人工标记的业务相关培训数据上进行了微调。计算与黄金标准后端一致的输出的比例作为后端精度。训练了一个嵌入层，该嵌入层使用相同的数据集将单词序列映射为128维特征向量。使用训练过的嵌入，部署了一个基于KNN的缓存作为第二个推理后端。当选择黄金标准后端处理查询时，AAP将查询发送到满足两个条件的后端：（1）后端空闲，（2）后端服务速率高于当前到达速率。之后计算出推理后端的优先级列表。获得推理后端的优先级顺序后，通过阈值控制，决定后端的使用状态，实现负载均衡算法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种异构推理后端上的可扩展负载均衡方法，其特征在于，包括如下步骤：

S3：设定控制阈值，计算上一个查询队列和当前查询队列的等待时间，若当前查询队列的等待时间大于控制阈值，则根据步骤S2中的优先级排序添加一个高优先级的推理后端，若上一个查询队列的等待时间小于等于控制阈值，则根据步骤S2中优先级排序去掉一个低优先级的推理后端；

在步骤S1：将多个推理后端中的其中一个后端作为黄金标准后端，基于黄金标准后端估计其他推理后端的推理精度中，具体包括：

将多个推理后端中的其中一个后端作为黄金标准后端；

以数据对在黄金标准后端的输出结果为标准，计算其他推理后端输出部分重合数据对的输出结果精度，以该输出结果精度估计其他推理后端推理精度；

步骤S2的推理后端优先级计算过程如下：

其中，表示精度和时延权衡能力值，/>表示第/>个推理后端，/>表示第/>个推理后端的推理精度，/>表示第/>个推理后端的服务速率，/>表示常数；

在步骤S3的计算上一个查询队列和当前查询队列的等待时间中，其中查询队列的具体公式如下：

2.根据权利要求1所述的异构推理后端上的可扩展负载均衡方法，其特征在于，在步骤S1：将多个推理后端中的其中一个后端作为黄金标准后端，基于黄金标准后端估计其他推理后端的推理精度中，黄金标准后端处理查询请求时，推理后端需满足两个条件：一是推理后端空闲，二是推理后端的服务速率高于当前到达速率。

3.一种异构推理后端上的可扩展负载均衡系统，其特征在于，包括推理精度估计模块、优先级计算模块和负载平衡输出模块；

负载平衡输出模块用于设定控制阈值，计算上一个查询队列和当前查询队列的等待时间，若当前查询队列的等待时间大于控制阈值，则根据优先级计算模块中的优先级排序添加一个高优先级的推理后端，若上一个查询队列的等待时间小于等于控制阈值，则根据优先级计算模块中优先级排序去掉一个低优先级的推理后端；

在推理精度估计模块中，具体包括：

将多个推理后端中的其中一个后端作为黄金标准后端；

优先级计算模块对推理后端优先级的计算过程如下：

在负载平衡输出模块的计算上一个查询队列和当前查询队列的等待时间中，其中查询队列的具体公式如下：