CN116360987B

CN116360987B - 一种自适应负载均衡方法及系统

Info

Publication number: CN116360987B
Application number: CN202310261234.0A
Authority: CN
Inventors: 罗宇哲; 李玲; 陈睿智; 吴逍雨; 程丽敏; 赵琛
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-09-12
Anticipated expiration: 2043-03-17
Also published as: CN116360987A

Abstract

本发明提供一种自适应负载均衡方法及系统，属于负载均衡领域。本发明基于的并行流水线执行模式是使用包含若干流水级的并行执行流执行来自多个客户端的任务，本方法在拥塞延迟变高且在执行流之间不均衡时，依次使用交叉熵方法和强化学习分别进行执行流之间的负载均衡以及客户端和服务器之间的负载均衡。本发明能基于当前拥塞延迟的严重程度在客户端‑服务器计算范式中对使用并行流水线执行模式的服务器进行负载均衡，提供了比传统的负载均衡方法更细粒度的负载均衡，能够降低拥塞延迟和拥塞延迟的波动，提升服务器处理来自多个客户端的任务的性能。

Description

一种自适应负载均衡方法及系统

技术领域

本发明属于负载均衡领域，具体涉及并行流水线执行模型的负载均衡。

背景技术

在服务器处理的各种计算任务中，有不少任务可以被划分为不同的处理阶段，使用流水线的形式执行。例如，在端边协同推理中，深度学习模型被切分为两个模型切片，分别部署在客户端和边缘服务器上，客户端基于本地模型切片推理得到的中间数据通过移动网络或局域网被传输到边缘服务器，边缘服务器使用其上部署的模型切片完成推理后，将推理结果回传至原客户端。由于推理结果一般较小，已有的公开技术资料认为这一过程在分析中可以忽略，因此在服务器端，端云协同推理可以简化为一个包含数据传输和模型推理的两级流水线。服务器还可以通过并行的执行流来执行两级流水线，增加服务器的吞吐率，从而形成并行流水线执行模式。

在使用并行流水线执行模式的服务器上，同一执行流的同一流水级串行地处理到来的任务，若一个任务到来时一个执行流的一个流水级正在执行任务，则发生任务拥塞，产生拥塞延迟。由于任务的到来往往具有随机性，拥塞延迟呈现出随机波动的特点。因此在并行流水线执行模式下，拥塞延迟同时影响任务执行延迟的大小和稳定性。其中，任务的执行延迟指的是从客户端发起任务到任务执行完成整个过程所经历的时间。

已有的技术公开主要涉及服务器之间的负载均衡，没有考虑并行流水线执行模式下服务器的负载均衡。申请号为CN202211636759的中国发明专利公开了车联网拥塞状态的优化方法及装置、系统及存储介质，其基于服务的优先级减少车联网中车联到服务器的专网传输拥塞，但没有考虑在服务器计算任务之间的任务拥塞。申请号为CN202310004993的中国发明专利公开了一种负载均衡方法、装置、电子设备及存储介质，其基于服务器的历史处理流程将来自客户端的任务分配给可能有任务相关缓存的服务器以加入任务的处理，但没有考虑任务数据传输过程中的拥塞。申请号为CN202211518396的中国发明专利公开了负载均衡方法、装置、系统及系统创建方法及设备和介质，其为在服务器集群中进行七层负载均衡，但没有考虑在服务器上使用并行流水线模式。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于为客户端-服务器计算范式提供一种并行流水线模式下的自适应负载均衡方法及系统，在各流水线之间以及客户端和服务器之间进行负载均衡，以减少任务随机到来造成的拥塞延迟对任务执行效率的影响，降低任务的执行延迟。

本发明实现上述目的所采用的技术方案如下：

一种自适应负载均衡方法，包括以下步骤：

1)任务监测步骤：服务器接收来自各客户端的任务，并采用并行流水线模式执行任务，监测服务器在每个负载均衡周期中执行任务时的各个执行流中的拥塞延迟情况，依次执行拥塞协调步骤和负载分配步骤；

2)拥塞协调步骤：使用交叉熵方法来选择使服务器整体期望拥塞延迟最小的执行流分配策略，利用选择的执行流分配策略来将客户端的任务分配给具体的执行流去执行；

3)负载分配步骤：通过强化学习方法选择执行延迟最低的服务器-客户端负载平衡策略，利用选择的服务器-客户端负载平衡策略来给服务器和客户端分别分配执行任务时的负载量。

优选地，监测服务器上各执行流中拥塞延迟的变化情况，若一段时间内有执行流的拥塞延迟高于一设定值且各执行流间拥塞延迟的不平衡，则判断为新的负载均衡周期，再次依次执行拥塞协调步骤和负载分配步骤。

优选地，所述并行流水线模式是指：将服务器上执行的任务划分为若干流水级，以执行流的形式执行。

优选地，多条执行流并行地在服务器上运行，同一执行流的同一流水级串行处理接收到的任务，不同执行流的流水级相同或不同。

优选地，所述整体期望拥塞延迟是指一个任务发送至服务器后所经历的拥塞延迟的期望值。

优选地，是否执行拥塞协调步骤和负载分配步骤的判断步骤包括：

在一负载均衡周期中，计算来自各个客户端的任务在执行流中的各级流水级的平均逗留时间；

计算在该负载均衡周期中每个执行流的期望拥塞延迟；

根据计算得到的每个执行流的期望拥塞延迟，计算在该负载均衡周期中整体期望拥塞延迟；

根据每个执行流的期望拥塞延迟和整体期望拥塞延迟，计算执行流期望拥塞延迟的变异系数；

如果整体期望拥塞延迟大于等于一拥塞延迟阈值，且变异系数大于等于一拥塞延迟波动阈值，则执行拥塞协调步骤和负载分配步骤，分别用于选择执行流分配策略和服务器-客户端负载平衡策略。

优选地，执行流分配策略的选择步骤包括：

按均匀分布初始化采样矩阵，用于生成执行流分配策略矩阵，其中采样矩阵为执行流分配策略矩阵取值为1的概率，表示一客户端在执行任务是将中间结果传递给一执行流；

根据采样矩阵随机生成多个执行流分配策略矩阵，计算该多个执行流分配策略矩阵的整体期望拥塞延迟，并更新采样矩阵；

按照上述步骤重复更新采样矩阵，在最后生成的多个执行流分配策略矩阵中，获取整体期望拥塞延迟最小的执行流分配策略矩阵。

优选地，服务器-客户端负载平衡策略的选择步骤包括：

首先为客户端随机选择一系列服务器-客户端负载平衡策略并执行；

然后根据被选择的服务器-客户端负载平衡策略的执行延迟对各服务器-客户端负载平衡策略使用奖励函数进行评估；

再然后根据状态特征和奖励函数训练一个神经网络决策模型，使得该神经网络决策模型能根据当前状态输出低延迟的服务器-客户端负载平衡策略。

优选地，所述状态特征包括描述任务在客户端本地执行情况的特征、描述并行局域网传输情况的特征和描述服务器资源占用状况的特征。

优选地，使用PPO算法训练神经网络决策模型。

一种自适应负载均衡系统，包括：客户端和服务器，服务器通过并行局域网接收来自客户端的任务；

其中，服务器采用并行流水线模式执行任务，监测服务器在每个负载均衡周期中执行任务时的各个执行流中的拥塞延迟情况，依次执行拥塞协调步骤和负载分配步骤；该拥塞协调步骤包括：使用交叉熵方法来选择使服务器整体期望拥塞延迟最小的执行流分配策略，利用选择的执行流分配策略来将来自客户端的任务分配给具体的执行流去执行；该负载分配步骤包括：通过强化学习方法选择执行延迟最低的服务器-客户端负载平衡策略，利用选择的服务器-客户端负载平衡策略来给服务器和客户端分别分配执行任务时的负载量。

与现有技术相比，本发明的积极效果为：

(1)传统的负载均衡方法只考虑了服务器的数据传输或计算的单流水级情形，可视为本发明中并行流水线执行模式的特殊情形，本发明提供的自适应负载均衡方法适用范围更广；

(2)传统的负载均衡方法根据任务的优先级粗粒度地进行负载均衡，本发明提供的自适应负载均衡方法把任务分为不同的流水级，供并行的执行流执行，并在不同执行流之间以及服务器和客户端之间进行负载均衡，提供了更细粒度的负载均衡方案。

附图说明

图1为本发明实施例的并行流水线执行模式图；

图2为本发明实施例的两级并行流水线执行模式图；

图3为本发明实施例的自适应负载均衡方法工作流程图。

具体实施方式

下面通过实例对本发明作进一步的说明，但不以任何方式限制本发明的范围。

本发明现提供一种自适应负载均衡方法在端边协同推理场景下的实施例，由客户端和服务器构成的一种自适应负载均衡系统实现，在该场景中客户端和服务器(即边缘服务器、本地服务器)分别保存推理模型的一部分，客户端完成本地部分模型的推理后，通过移动网络或局域网将推理得到的中间数据发送给服务器，服务器收到中间数据后将其作为服务器上所保存的部分模型的输入并通过推理得到推理结果，最终推理结果回传至原客户端。

本自适应负载均衡方法为了克服并行流水线执行模式下服务器执行任务出现的拥塞延迟和拥塞延迟波动问题，在每一个负载均衡周期中为每一个客户端选取执行延迟较低(低于一设定值或最低)的负载均衡策略，该负载均衡周期是指来自各客户端的任务的平均到达率保持稳定的一个时期。

如图1所示，所述并行流水线执行模式将服务器上执行的任务划分为若干流水级，以执行流的形式执行，提升了服务器的吞吐量。多条执行流可以并行地在服务器上运行，提升服务器并行处理任务的能力。同一执行流的同一流水级串行处理接收到的任务，不同执行流的流水级既可以相同也可以不同。如果新的任务到达执行流的某一流水级时，该流水级正在执行其他任务，则新到达的任务需要等待正在执行的任务执行完才能继续执行，从而造成拥塞延迟。反之，如果一个执行流的某一流水级在完成执行后没有新的任务到来，则造成空闲周期。某一流水级执行某一任务的时间为该流水级执行该任务的服务时间，该任务等待被该流水级执行的时间和其服务时间之和为该任务在该流水级的逗留时间。

所述负载均衡策略包含执行流分配策略和服务器-客户端负载分配策略；执行流分配策略是指决定客户端将自己的任务分配给哪个执行流去执行的策略，执行流分配策略在执行流之间进行负载均衡；服务器-客户端负载平衡策略是指决定在执行一个任务时客户端承担多少负载和服务器承担多少负载的策略，服务器-客户端分配策略在客户端与服务器之间进行负载均衡。

本自适应负载均衡方法在每个负载均衡周期中通过拥塞协调和负载分配两个依次执行的步骤来分别选择执行流分配策略和服务器-客户端负载分配策略；自适应负载均衡方法监测服务器上各执行流中拥塞延迟的变化情况，若一段时间内有执行流的拥塞延迟变得较高(高于一设定值)且各执行流间拥塞延迟的不平衡，则认为新的负载均衡周期到来，随后依次执行拥塞协调和负载分配两个步骤。

拥塞协调使用交叉熵方法来寻找使服务器整体期望拥塞延迟最小的执行流分配策略；整体期望拥塞延迟是指一个协同推理任务发送至服务器后所经历的拥塞延迟的期望值；由于拥塞延迟的波动大小与拥塞延迟的大小存在正相关关系，降低拥塞延迟同时可以降低拥塞延迟的波动。

负载分配通过强化学习方法选择执行延迟较低的服务器-客户端负载平衡策略。强化学习方法首先为客户端随机选择一系列服务器-客户端负载平衡策略并执行，然后根据被选择的服务器-客户端负载平衡策略的执行延迟对各服务器-客户端负载平衡策略使用奖励函数进行评估，根据状态特征和奖励函数训练一个神经网络决策模型，使得该神经网络决策模型能根据当前状态以较高的概率输出低延迟的服务器-客户端负载平衡策略。状态特征包括描述任务在客户端本地执行情况的特征、描述并行局域网传输情况的特征和描述服务器资源占用状况的特征；其中，在并行局域网能始终为所有客户端提供高速稳定的数据传输的情况下，描述并行局域网传输情况的特征可以省略。

由于推理结果一般较小，已有的公开资料表明该过程一般可以忽略。在本实施例提供的场景中，多个客户端随机地向服务器发起协同推理任务，服务器使用如图2所示的两级并行流水线模式处理来自多个客户端的协同推理任务，其中每个执行流包含数据传输和模型推理两个流水级，在两个流水级均可能发生拥塞延迟。

本自适应负载均衡方法的具体工作流程为：

服务器接收来自各客户端的协同推理任务，各执行流按图2所示的两级并行流水线模式执行接收的协同任务，在执行协同推理任务的过程中，服务器使用图3所示的自适应负载均衡方法在每个负载均衡周期中进行负载均衡，在第z个负载均衡周期中选择负载均衡策略的步骤为：

执行流分配策略选择步骤：

i.将计算在第z个负载均衡周期中，各执行流每一流水级的平均执行延迟，设来自第k(0≤k＜K)个客户端的任务在执行流的第u(0≤u＜U)级流水级的平均逗留时间为T_ukz，其计算公式为：

其中T_ukzn为在第z个负载均衡周期中来自第k个客户端的第n个任务在第u个流水级的逗留时间，N_kz为第z个负载均衡周期中来自第k个客户端的任务数目；

ii.计算在第z个负载均衡周期中每个执行流的期望拥塞延迟E(WT_jz)，其计算公式为：

其中λ_jz为第j个执行流任务的在第z个负载均衡周期中的平均到达率，λ_kz为在第z个负载均衡周期中来自第k个客户端的任务的平均到达率，A_jz为第z个负载均衡周期中新的执行流分配策略生成之前由第j个执行流服务的客户端的集合；

iii.计算在第z个负载均衡周期中整体期望拥塞延迟E(WT_z)，其计算公式为：

其中λ_z为在第z个负载均衡周期中服务器的平均任务到达率；

iv.计算执行流期望拥塞延迟的变异系数CV，其计算公式为：

其中σ(E(WT_jz))为各执行流期望拥塞延迟的标准差。

v.给定拥塞延迟阈值θ和拥塞延迟波动阈值ω，若E(WT)≥θ且CV≥ω，则使用交叉熵方法对各执行流进行拥塞协调，以降低整体拥塞延迟E(WT)和拥塞延迟的随机波动，并执行步骤vi，否则无需协调。给定执行流分配策略生成阈值拥塞协调的步骤为：

a)按均匀分布初始化采样矩阵M[k,j](0≤k＜K,0≤j＜J)，用于生成执行流分配策略矩阵B[k,j](0≤k＜K,0≤j＜J)；其中，M[k,j]为B[k,j]取值为1的概率，且M[k,j]满足：

B[k,j]为1表示第k个客户端在执行协同推理任务时将中间结果传给第j个执行流，即a_kz＝j，且B[k,j]满足：

b)根据采样矩阵M[k,j]随机生成G个执行流分配策略矩阵B_g[k,j]，重复步骤i～iii，计算其整体期望拥塞延迟E(WT_g)；

c)更新采样矩阵M[k,j]，更新公式为：

其中I为指示函数，当括号内的条件满足时返回1，否则返回0；

d)重复步骤b)和步骤c)R轮，在最后一轮生成的G个执行流分配策略矩阵中，按照整体期望拥塞延迟最小的执行流分配策略矩阵B_g*[k,j]重新分配为每个客户端服务的执行

流，其中g^*满足：

服务器-客户端负载平衡策略选择步骤：

vi.在拥塞协调后，使用强化学习为每个客户端选择当前负载均衡周期中的服务器-客户端负载平衡策略，该策略即模型切片选择策略，其中第k个客户端的模型切分比例为s_kz；该强化学习过程训练一个决策神经网络，根据当前状态，为第k个客户端选择模型切分比例s_kz；训练强化学习模型所用的状态特征包括描述模型切片在客户端本地执行情况的特征、描述并行局域网传输情况的特征和描述服务器资源占用状况的特征；其中，在并行局域网能始终为所有客户端提供高速稳定的数据传输的情况下，描述并行局域网传输情况的特征可以省略。强化学习所用的奖励函数如下：

其中，R(p_kt)为第k个客户端在t时刻发送的协同推理任务所选负载均衡策略p_kt的奖励值，L(p_kt)为执行负载均衡策略p_kt的协同推理任务的端到端延迟，L_init(p_kt)为执行负载均衡策略p_kt的协同推理任务所经历的模型初始化时间，为第k个客户端在本地执行整个深度学习模型的推理所经历的延迟，clip(a,b)在a＜b时返回b的值，否则返回a的值，α为放大系数，β为下界系数；一种优选的决策神经网络训练方法为：使用表1所示的状态特征训练决策神经网络，训练方法使用PPO算法；在表1中描述并行局域网传输情况的状态特征在客户端与服务器之间的数据传输始终高效且稳定的情况下可以省略，计算近期平均GPU使用率和近期平均CPU使用率时所考虑的时间跨度由用户决定。

表1实施例中强化学习模型所用的状态特征

需要说明的是，上述实施例虽然是以执行协同推理任务作为示例，但本发明并不限制所执行任务是协同推理任务，本发明提出的技术方案所针对的任务是通用的任务，在具体应用场景中可以是不同类型的任务。

虽然本发明已以实施例公开如上，然其并非用以限定本发明，本领域的普通技术人员对本发明的技术方案进行的适当修改或者等同替换，均应涵盖于本发明的保护范围内，本发明的保护范围以权利要求所限定者为准。

Claims

1.一种自适应负载均衡方法，其特征在于，包括以下步骤：

1）任务监测步骤：服务器接收来自各客户端的任务，并采用并行流水线模式执行任务，监测服务器在每个负载均衡周期中执行任务时的各个执行流中的拥塞延迟情况，若一段时间内有执行流的拥塞延迟高于一设定值且各执行流间拥塞延迟的不平衡，则判断为新的负载均衡周期，再依次执行拥塞协调步骤和负载分配步骤；

2）拥塞协调步骤：使用交叉熵方法来选择使服务器整体期望拥塞延迟最小的执行流分配策略，利用选择的执行流分配策略来将客户端的任务分配给具体的执行流去执行；

3）负载分配步骤：通过强化学习方法选择执行延迟最低的服务器-客户端负载平衡策略，利用选择的服务器-客户端负载平衡策略来给服务器和客户端分别分配执行任务时的负载量。

2.如权利要求1所述的方法，其特征在于，所述并行流水线模式是指：将服务器上执行的任务划分为若干流水级，以执行流的形式执行。

3.如权利要求2所述的方法，其特征在于，多条执行流并行地在服务器上运行，同一执行流的同一流水级串行处理接收到的任务，不同执行流的流水级相同或不同。

4.如权利要求1所述的方法，其特征在于，所述整体期望拥塞延迟是指一个任务发送至服务器后所经历的拥塞延迟的期望值。

5.如权利要求4所述的方法，其特征在于，是否执行拥塞协调步骤和负载分配步骤的判断步骤包括：

在一个负载均衡周期中，计算来自各个客户端的任务在执行流中的各级流水级的平均逗留时间；

计算在该负载均衡周期中每个执行流的期望拥塞延迟；

6.如权利要求1所述的方法，其特征在于，执行流分配策略的选择步骤包括：

7.如权利要求1或6所述的方法，其特征在于，服务器-客户端负载平衡策略的选择步骤包括：

8.如权利要求7所述的方法，其特征在于，所述状态特征包括描述任务在客户端本地执行情况的特征、描述并行局域网传输情况的特征和描述服务器资源占用状况的特征。

9.一种自适应负载均衡系统，其特征在于，包括：客户端和服务器，服务器通过并行局域网接收来自客户端的任务；

其中，服务器采用并行流水线模式执行任务，监测服务器在每个负载均衡周期中执行任务时的各个执行流中的拥塞延迟情况，若一段时间内有执行流的拥塞延迟高于一设定值且各执行流间拥塞延迟的不平衡，则判断为新的负载均衡周期，再依次执行拥塞协调步骤和负载分配步骤；该拥塞协调步骤包括：使用交叉熵方法来选择使服务器整体期望拥塞延迟最小的执行流分配策略，利用选择的执行流分配策略来将来自客户端的任务分配给具体的执行流去执行；该负载分配步骤包括：通过强化学习方法选择执行延迟最低的服务器-客户端负载平衡策略，利用选择的服务器-客户端负载平衡策略来给服务器和客户端分别分配执行任务时的负载量。