CN116401055B

CN116401055B - 面向资源效率优化的服务器无感知计算工作流编排方法

Info

Publication number: CN116401055B
Application number: CN202310369832.XA
Authority: CN
Inventors: 赵来平; 李一鸣; 曲雯毓; 杨亚南; 苏志远
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-10-03
Anticipated expiration: 2043-04-07
Also published as: CN116401055A

Abstract

本发明公开了面向资源效率优化的服务器无感知计算工作流编排方法，包括以下步骤：用户端给定工作流的CPU分配资源总量和整体延迟要求；遍历工作流的每个阶段；采用调度器基于图分割的启发式算法探索包括函数分区和混合进线程执行模式在内的最优编排策略；使用预测器判断所得最优编排策略是否违反给定工作流需求；在产生所有阶段的编排方案且延迟之和满足给定性能需求时，自动生成编排代码，并部署至服务器无感知计算平台上的各个沙箱中。本发明通过将工作流的所有函数分区部署至多个沙箱，且每个沙箱内的函数采用混合进线程的形式运行，在保障用户指定的端到端延迟的同时，实现资源效率的最优，而且不需要用户参与，有效降低了人工成本。

Description

面向资源效率优化的服务器无感知计算工作流编排方法

技术领域

本发明属于云计算领域，特别涉及面向资源效率优化的服务器无感知计算工作流编排方法。

背景技术

近几年来，由于具备对资源和编程的高度抽象、按需使用计费以及动态扩容等优势，服务器无感知计算成为日益流行的云计算开发范式。为实现复杂的实际应用，用户通常以有向无环图的形式将一系列细粒度函数编排成工作流，工作流中定义了函数的顺序以及彼此间的数据依赖。当前主流的服务器无感知计算平台将每个函数部署在单独的沙箱执行环境之中，即一对一的部署模型。当请求到达时，平台需要依次启动各个函数的沙箱，导致严重的级联冷启动开销，甚至远远超出函数本身的执行时间。同时，由于服务器无感知计算的无状态特性和沙箱动态伸缩，IP互不感知的沙箱之间无法建立点对点的直接通信，只能通过第三方的函数编排器或者云存储实现中间数据的传输，进而导致不可忽视的通信开销。此外，一对一的部署模型需要为每个沙箱分配单独的CPU和内存资源，存在较大的资源冗余。因此，如何提高工作流的端到端性能和资源效率，是服务器无感知计算领域的一个重要挑战。

为了优化上述问题，现有技术公开了通过将同一个工作流的所有函数部署在同一个沙箱之中，即多对一部署模型。这种多函数复用同一个沙箱的编排方案可以减少冷启动的频率，同时各个函数之间可以通过沙箱内的编排器实现高效的进程间通信，因此一定程度上提升工作流的端到端性能，使得工作流的冷启动和通信延迟得到极大优化。在资源分配方面，CPU可以在不同次序执行的函数间复用，同时多函数共享编程语言运行时和第三方依赖，降低了沙箱间的内存冗余，大大减少了工作流的资源占用。由于常用的Python、Node.js等编程语言运行时中存在的全局解释器锁不允许多线程同时使用CPU，已有的基于多对一部署模型的编排方法使用多进程执行并行函数。但是，对于当前毫秒级的函数执行延迟，进程的启动开销是不可忽视的，更糟糕的是，进程启动开销随并行度的增加不断变大，甚至超过启动新沙箱的延迟。此外，已有方法为并行的每个函数分配单独的CPU资源，忽略了函数运行时特征，导致了严重的计算资源浪费。

发明内容

针对上述现有技术存在的问题，本发明的目的在于提供了面向资源效率优化的服务器无感知计算工作流编排方法，该方法通过将同一个工作流的所有函数分区部署至多个沙箱中，且每个沙箱内的函数采用混合进线程的形式运行，可在保障用户指定的端到端延迟的同时，实现资源效率的最优分配。

为了实现上述目的，本发明采用了以下技术方案：

面向资源效率优化的服务器无感知计算工作流编排方法，包括以下步骤：

S1、用户端给定工作流的CPU分配资源总量和整体延迟要求；

S2、遍历工作流的每个阶段；

S3、调度器基于Kernighan-Lin图分割算法设计启发式算法，探索包括函数分区和混合进线程执行模式在内的最优编排策略，并使用预测器判断所得最优编排策略是否违反给定性能需求；

S4、自动生成编排代码，并部署至服务器无感知计算平台上的各个沙箱中。

优选地，所述步骤S3中，调度器基于Kernighan-Lin图分割算法设计启发式算法，探索每个阶段的工作流函数分区的最优编排策略，具体步骤为：首先，调度器将并行的多函数平均分配到给定的N个进程中，即将被分配的函数以多线程形式在同一进程中运行；然后，调度器在确保多进程的创建开销不超过网络通信延迟的基础上确定主沙箱中并行进程的最大数量，而其余沙箱中仅包含一个进程，以此作为初始分区情况；之后调度器使用Kernighan-Lin图分割算法不断更新每个进程所包含的函数直至预测延迟最小化，获得工作流函数分区的最优编排策略。

优选地，所述步骤S3中，调度器采用Kernighan-Lin图分割算法探索混合进线程执行模式的最优编排策略，具体步骤为：

所述步骤S3中，调度器基于Kernighan-Lin图分割算法设计启发式算法，探索每个阶段的混合进线程执行模式的最优编排策略，具体步骤为：保持每个进程包含的函数不变，调度器首先生成所有进程的两两组合，使用Kernighan-Lin图分割算法在任意两个进程间不断选择交换后延迟收益最大的函数组合进行交换，直至两个进程不能再产生正收益的函数交换组合，待所有组合遍历完成后，即可获得当前部署方案下的混合进线程执行模式的最优编排策略策略。

优选地，所述步骤S3中，使用预测器判断所得最优编排策略是否违反给定工作流的延迟需求，具体步骤为：预测器先使用白盒方法对工作流的端到端的延迟进行建模和预测，再根据延迟预测结果判断当前CPU分配下的最优编排策略是否违反给定工作流的延迟需求。

优选地，所述预测器先使用白盒方法对工作流的端到端的延迟进行建模和预测，具体步骤为：

由于工作流由多个阶段组成，而每个阶段包含一至多个函数，故工作流的总延迟T_workflow，表示为n个阶段的延迟之和，具体采用下式(1)表示：

每个阶段的多个函数被部署至多个沙箱中，而在实际运行中，编排器所在的沙箱需要通过网络调用其余沙箱，因此，每个阶段的延迟取决于沙箱执行时间和调用延迟之和的最大值，具体采用下式(2)表示：

其中，表示第i个阶段的第k个沙箱内多函数执行的总延迟；T_RPC表示通过网络调用其他沙箱的通信开销，设为常量；由于与多个沙箱进行并行通信时会遭遇软件栈开销，使用常数T_INV建模线性模型，表示并行调用开销；

每个沙箱的延迟可表示最大函数运行时间和进程间通信时间之和，具体采用下式(3)表示：

其中，表示第i个阶段的第k个沙箱内的进程集合；/>表示第i个阶段的第k个沙箱内第j个进程的延迟；T_IPC表示每次主进程与其他进程通信获取执行结果的开销，这里将T_IPC设为常量；

每个进程的延迟包括等待其他进程创建完成的阻塞时间、启动时间以及内部多线程函数执行总时间三部分，具体采用下式(4)表示：

T_Block表示每个进程等待上个进程的时间，为常量；T_Startup表示进程的启动时间；表示多线程的总执行时间；最后根据预测延迟结果判断所得最优编排策略是否违反给定性能需求，在产生所有阶段的编排方案且延迟之和满足给定性能需求时，调度器在不违反延迟约束的前提下为每个沙箱分配最大允许数量的进程，最终形成包含沙箱函数分区和混合进线程在内的完整编排方案。

优选地，所述步骤S4中，自动生成编排代码，并部署至服务器无感知计算平台上的各个沙箱中，具体步骤为：若判断所得最优编排策略不违反给定工作流的延迟需求，则调度器保持每个进程包含的函数不变，按照贪心算法为每个沙箱分配最大允许数量的进程，自动生成编排代码，并部署多函数至服务器无感知计算平台上的各个沙箱中。

本发明具备如下有益效果：

相比于现有技术，本发明提出了多对多的部署模型，即将同一个工作流的所有函数分区部署到多个沙箱中，同一沙箱内的函数使用混合进线程模型执行以平衡延迟和资源效率。本发明基于全局解释器锁的多线程切换原理和工作流结构设计了工作流的端到端延迟预测模型，以此为基础可以探索低延迟的混合进线程运行方案代替性能和资源效率低下的多进程运行方法。针对庞大的编排方案探索空间，本发明设计了基于图分割算法的启发式算法，在给定初始分区方案后，通过不断交换两两进程间的函数最大化性能收益，最终搜索到包括函数分区和混合进线程策略在内最优编排方案。在调度完成后，自动化生成编排代码并部署至服务器无感知计算平台上，不需要用户参与，有效降低了人工成本。在延迟预测精度上，本发明的预测器的预测误差仅为1.4％-14.2％。在资源分配方面，本发明在保持原有性能的基础上，降低了25.1％-43.4％的CPU资源分配以及22％-5倍的内存分配。在用户付费上，本发明相比已有方法实现了44.4％-95.4％的成本优化。在工作流的端到端延迟保障方面，本发明的延迟违反率相比现有方法进一步降低了88％。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的系统整体架构示意图；

图2为全局解释器锁的示例图；

图3为调度算法的示例图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。

为了优化服务器无感知计算工作流的端到端延迟，现有的系统基于多对一部署模型在同一个沙箱中运行工作流的所有函数。这种编排方案减少了函数冷启动的频率，并且使用高效的进程间通信代替网络通信传输中间数据，一定程度上提升工作流的端到端性能。但是随着并行函数数量的增加，为克服并行瓶颈而采用的多进程的创建开销也不断变大，甚至超过冷启动和网络通信开销。同时，已有方案忽略函数运行时特征而为每个并行函数分配单独的CPU资源，导致了不可忽视的资源浪费。

为了弥补现有解决方案的不足，实现高资源效率的目的，本发明提出了针对服务器无感知计算工作流的多对多部署编排方法。该编排方法的基本思想是，在满足工作流的性能需求的基础上，将函数分区并部署至多个沙箱中，并为每个沙箱内的多函数制定相应的混合进线程的执行模式。参照图1，面向资源效率优化的服务器无感知计算工作流编排方法，包括以下步骤：

S1、用户端给定工作流的CPU分配资源总量和整体延迟要求；

S2、遍历工作流的每个阶段；

S3、调度器基于Kernighan-Lin图分割算法设计启发式算法，探索包括函数分区和混合进线程执行模式在内的最优编排策略；并使用预测器判断所得最优编排策略是否违反给定性能需求；

S4、自动生成编排代码，并部署至各个沙箱中。最终，该工作流的请求被调度至相应沙箱进行处理。

本发明基于一对一请求处理模型设计，即每个沙箱同时只能处理一个请求。因此，本发明决策一次编排策略后，所有请求都按照该函数分区和混合进线程策略执行该工作流。每当新请求到来且没有空闲实例时，系统会按照已有策略启动部署对应多个函数的新沙箱进行处理。为应对函数特征的变化，本发明定期对所有函数重新进行离线刻画，继而重新探索新的编排策略。

其中，本发明提供的基于Kernighan-Lin图分割算法设计启发式算法，探索可满足给定工作流端到端延迟需求且资源效率最优的编排方案，包括工作流函数的分区以及每个分区内多函数的混合进线程运行模式。

采用调度器通过遍历分配不同数量CPU时的延迟确定编排方案。这里使用多进程的目的是为了并发使用多核CPU，故本发明可根据并行多进程的数量分配等量的CPU。因此，最理想的编排方案是所有函数都能以多线程的形式运行在一个进程里，而资源效率最低的方案是每个并行函数都运行在单独的进程中。调度器从一个进程开始，不断增加进程的数量直至探索到满足延迟要求的最少数量的进程数量。

具体地，由于计算资源可以在工作流中按次序执行的不同阶段间复用，对于给定的进程数量，调度器为每个阶段的所有函数(包括串行函数和并行函数)探索最低延迟的编排方案，最终加和所有阶段的预测延迟判断是否满足工作流延迟需求。

对于串行函数，使用本领域常规技术线程可以实现。

对于并行函数，调度器先确定每个沙箱内的初始进程数量，在此基础上不断更新每个进程所包含的函数至延迟最低，最后重新将每个进程分配至多个沙箱中。

首先，调度器将并行的多个函数平均分配到给定的N个进程中，即被分配的函数以多线程形式在同一进程中运行；接着，调度器在确保多进程的创建开销不超过网络通信延迟的基础上确定主沙箱中并行进程的最大数量，而其余沙箱中仅包含一个进程，以此作为初始分区情况；然后，调度器使用Kernighan-Lin图分割算法不断更新每个进程所包含的函数直至预测延迟最小化。

这里，采用Kernighan-Lin图分割算法的主要设计思想为：不断交换两个分区的元素直至最优分割。调度器首先生成所有进程的两两组合，对于任意的两个进程，不断选择交换后延迟收益最大的函数组合进行交换，直至两个进程不能再产生正收益的函数交换组合；待所有组合遍历完成后，即获得当前部署方案下最优的混合进线程策略。

对于上述图分割算法产生的混合进线程方案：首先，调度器保持每个进程包含的函数不变，使用贪心算法将进程分配至尽可能少的沙箱中；接着，在确保执行延迟与通信延迟之和不超过上述预测的最优阶段延迟的基础上，调度器会为每个沙箱分配最大数量的进程，最终形成包含沙箱函数分区和混合进线程在内的完整编排方案。因为进程的创建开销随并发度不断增加，因此进程数量越多不一定代表阶段的最终延迟更低，调度器为每个阶段记录最优的编排方案并不断更新。

最后，在产生所有阶段的编排方案且延迟之和满足需求时，依照所得编排方案部署多函数至服务器无感知计算平台上，否则增加进程的数量继续遍历。

本发明中，利用预测器采用白盒方法对工作流的端到端预测的总延迟进行建模和预测。由于工作流由多个阶段组成，而每个阶段包含一至多个函数。故工作流的总延迟T_workflow，可表示为n个阶段的延迟之和，具体采用下式(1)表示：

其中，表示第i个阶段的第k个沙箱内多函数执行的总延迟；T_RPC表示通过网络调用其他沙箱的通信开销，这里将其设为常量；由于与多个沙箱进行并行通信时会遭遇软件栈开销，这里使用常数T_INV建模线性模型，表示并行调用开销；

T_Block表示每个进程等待上个进程的时间，这里T_Block为常量；T_Startup表示进程的启动时间；表示多线程的总执行时间。最后根据预测延迟结果判断所得最优编排策略是否违反给定性能需求，在产生所有阶段的编排方案且延迟之和满足给定性能需求时，调度器在不违反延迟约束的前提下为每个沙箱分配最大允许数量的进程，最终形成包含沙箱函数分区和混合进线程在内的完整编排方案。

本发明基于全局解释器锁的切换原理阐述如何根据每个函数线程的运行时特征进行模拟预测，具体步骤为：

起始时第一个被创建的函数获取全局解释器锁，开始使用CPU执行函数代码。当其他线程被创建并等待一定时间(默认为5msec)后，该线程要求持有全局解释器锁的线程让出，此后由操作系统决定下个持有锁的线程，其余线程重新开始计时等待。本发明根据Lniux操作系统默认的完全公平调度器，每次选择除上次调度线程外总CPU时间最少的线程在接下来的时间持有锁。

全局解释器锁切换后，持有的函数开始执行，如果在超时时间内线程需要执行读写操作，或者函数执行完毕，该线程会主动让出锁。

之后重复该过程直至所有线程执行完毕。因此，根据每个函数的总执行时间以及执行过程中读写操作发生的时间，即可模拟得到多线程的总执行延迟。

考虑到通用性，本发明使用strace系统调用获取每个函数执行过程中涉及的所有系统调用和相应时间，并根据系统调用类型确定读写操作发生的时间。

实施例1

参照图2，本实施例阐述基于全局解释器锁(现有编程语言的范式)的切换原理根据每个函数线程的运行时特征进行模拟预测的一示例：

首先，最先创建的线程1获取全局解释器锁，之后开始使用CPU执行函数代码；延后被创建的线程2在等待一段时间后(5ms)，线程2发出请求要求线程1让出锁。经操作系统调度，锁在下一阶段被线程2所得，线程3开始重新计时。在线程2执行过程中，需要执行IO操作，为避免阻塞过长时间，线程2立即放弃锁的持有权。线程3持有锁后，一直执行到线程1等待超时。虽然是线程1发出的请求，但是锁下阶段由哪个线程持有由操作系统决定。CPU时间最短的线程2获得锁后继续剩下的代码执行，完成后提前释放锁，之后线程3和线程1依次完成作业。根据示例，在获取包括总执行时间、IO操作发生的时间点和时长等在内的函数运行时信息后，再根据全局解释器锁的切换原理模拟计算出给定的多个函数以多线程形式执行的总延迟。

实施例2

参照图3，本实施例以一个最大并行度为100的工作流为例，描述基于Kernighan-Lin图分割的调度算法的执行过程：调度器从1个进程开始，不断增加进程的数量，直至探索到可以满足工作流延迟要求的编排方案才停止遍历。对于给定的进程数量，首先，调度器将函数平均分配到各个进程中形成初始分区；再者，基于Kernighan-Lin图分割算法在任意两个进程间不断交换函数直至多进程总延迟最低。对于将所有函数都运行在1个进程中的编排方案，预测器判断其1578毫秒的延迟将违反200毫秒的端到端延迟要求，所以继续遍历更多数量的进程，直至在17个进程的场景下，在图分割算法最优化每个进程内的函数分配后，调度器按照贪心算法，将多进程依次分配到最少数量的沙箱中并保障延迟约束不被违反。最终，17个进程被分配至4个沙箱中，包含的进程数量分别为6，9，1，1，最大延迟为197毫秒，满足200毫秒的性能约束，所以采纳为最终的编排方案。

调度完成后，本系统将为各个沙箱生成编排代码，除了负责启动多进程并在每个进程内以多线程形式运行各个函数外，沙箱1还需要负责与其他沙箱的通信。部署完成后，工作流的请求将被转发给沙箱1，在工作流的每个阶段，沙箱1除了执行本身的多进程外，也将请求或者中间数据通过网络转发给沙箱2-4并等待结果返回，即沙箱1需要扮演总编排器的角色。

本发明不局限于上述具体的实施方式，本领域的普通技术人员从上述构思出发，不经过创造性的劳动，所做出的种种变换，均落在本发明的保护范围之内。

Claims

1.面向资源效率优化的服务器无感知计算工作流编排方法，其特征在于，包括以下步骤：

S1、用户端给定工作流的CPU分配资源总量和整体延迟要求；

S2、遍历工作流的每个阶段；

S3、调度器基于Kernighan-Lin图分割算法设计启发式算法，探索每个阶段的包括函数分区和混合进线程执行模式在内的最优编排策略，并使用预测器判断所得最优编排策略是否违反给定工作流的延迟需求，若不违反，则算法结束，进入步骤S4；否则增加CPU分配资源总量，从S1重新开始继续遍历；

S4、自动生成编排代码，并部署至服务器无感知计算平台上的各个沙箱中；

所述步骤S3中，调度器基于Kernighan-Lin图分割算法设计启发式算法，探索每个阶段的工作流函数分区的最优编排策略，具体步骤为：

首先，调度器将并行的多函数平均分配到给定的N个进程中，即将被分配的函数以多线程形式在同一进程中运行；然后，调度器在确保多进程的创建开销不超过网络通信延迟的基础上确定主沙箱中并行进程的最大数量，而其余沙箱中仅包含一个进程，以此作为初始分区情况；之后调度器使用 Kernighan-Lin 图分割算法不断更新每个进程所包含的函数直至预测延迟最小化，获得工作流函数分区的最优编排策略；

所述步骤S3中，调度器基于Kernighan-Lin图分割算法设计启发式算法，探索每个阶段的混合进线程执行模式的最优编排策略，具体步骤为：保持每个进程包含的函数不变，调度器首先生成所有进程的两两组合，使用Kernighan-Lin图分割算法在任意两个进程间不断选择交换后延迟收益最大的函数组合进行交换，直至两个进程不能再产生正收益的函数交换组合，待所有组合遍历完成后，获得当前部署方案下的混合进线程执行模式的最优编排策略策略。

2.根据权利要求1所述的面向资源效率优化的服务器无感知计算工作流编排方法，其特征在于，所述步骤S3中，使用预测器判断所得最优编排策略是否违反给定工作流的延迟需求，具体步骤为：预测器先使用白盒方法对工作流的端到端的延迟进行建模和预测，再根据延迟预测结果判断当前CPU分配下的最优编排策略是否违反给定工作流的延迟需求。

3.根据权利要求2所述的面向资源效率优化的服务器无感知计算工作流编排方法，其特征在于，所述预测器先使用白盒方法对工作流的端到端的延迟进行建模和预测，具体步骤为：

由于工作流由多个阶段组成，而每个阶段包含一至多个函数，故工作流的总延迟，表示为n个阶段的延迟之和，具体采用下式（1）表示：

（1）

每个阶段的多个函数被部署至多个沙箱中，而在实际运行中，编排器所在的沙箱需要通过网络调用其余沙箱，因此，每个阶段的延迟取决于沙箱执行时间和调用延迟之和的最大值，具体采用下式（2）表示：

（2）

其中，表示第i个阶段的第k个沙箱内多函数执行的总延迟；/>表示通过网络调用其他沙箱的通信开销，设为常量；由于与多个沙箱进行并行通信时会遭遇软件栈开销，使用常数/>建模线性模型，表示并行调用开销；

每个沙箱的延迟可表示最大函数运行时间和进程间通信时间之和，具体采用下式（3）表示：

（3）

其中，表示第i个阶段的第k个沙箱内的进程集合；/>表示第i个阶段的第k个沙箱内第j个进程的延迟；/>表示每次主进程与其他进程通信获取执行结果的开销，这里将设为常量；

每个进程的延迟包括等待其他进程创建完成的阻塞时间、启动时间以及内部多线程函数执行总时间三部分，具体采用下式（4）表示：

（4）

表示每个进程等待上个进程的时间，为常量；/>表示进程的启动时间；/>表示第i个阶段的第k个沙箱内第j个进程的总执行时间；最后根据预测延迟结果判断所得最优编排策略是否违反给定性能需求，在产生所有阶段的编排方案且延迟之和满足给定性能需求时，调度器在不违反延迟约束的前提下为每个沙箱分配最大允许数量的进程，最终形成包含沙箱函数分区和混合进线程在内的完整编排方案。

4.根据权利要求3所述的面向资源效率优化的服务器无感知计算工作流编排方法，其特征在于，所述步骤S4中，自动生成编排代码，并部署至服务器无感知计算平台上的各个沙箱中，具体步骤为：若判断所得最优编排策略不违反给定工作流的延迟需求，则调度器保持每个进程包含的函数不变，按照贪心算法为每个沙箱分配最大允许数量的进程，自动生成编排代码，并部署多函数至服务器无感知计算平台上的各个沙箱中。