CN111459505B

CN111459505B - 边缘计算环境下多版本推断模型部署方法、装置和系统

Info

Publication number: CN111459505B
Application number: CN202010439585.2A
Authority: CN
Inventors: 金熠波; 钱柱中; 韦磊; 缪巍巍; 张明明; 曾锃; 张明轩
Original assignee: Nanjing University; State Grid Jiangsu Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Nanjing University; State Grid Jiangsu Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2021-06-25
Anticipated expiration: 2040-05-22
Also published as: CN111459505A

Abstract

本发明公开了一种边缘计算环境下多版本推断模型部署方法、装置和系统。所述方法通过不断地根据在线到达的用户推断请求数量、当前各边缘计算节点中待处理推断请求的队列以及当前时隙多版本推断模型实例部署的反馈，来不断调整更新下一时隙各边缘计算节点上的推断模型实例部署策略。本发明的推断类模型部署系统和部署方法能够在无法准确获知未来用户实际推断请求数量时，通过结合每次部署后刻推断类模型部署的效果反馈，为各边缘节点进行周期性地多版本模型实例数目调整，达到在边缘环境中最大化用户推断精度的效果。

Description

边缘计算环境下多版本推断模型部署方法、装置和系统

技术领域

本发明涉及边缘计算领域，具体涉及一种边缘计算环境下多版本推断模型的部署方法、装置和系统。

背景技术

边缘计算旨在缩短用户访问云数据中心的往返时延，将服务部署在靠近用户的边缘计算节点内，继而用户可以就近直接使用部署在边缘计算节点中的各类服务。机器学习推断类服务是一种利用提前已训练好的推断类模型(可能会不断更新修正)对用户的推断请求进行响应，这样的推断类模型包括深度学习模型、决策树模型、各类回归模型以及各类聚类模型。这类推断模型的特点是，在训练的过程中会产生多种不同的模型版本。不同模型版本的区别在于，在同种模型结构下的模型参数不同，如不同版本深度学习模型的层数不同，且各神经元的权值不同。不同的模型版本在进行推断的时候所使用的计算资源不尽相同，其处理用户请求的速度和所产生的推断精度也不同。

为了能够满足边缘用户的推断类请求，需要在资源受限的各边缘计算节点中，为各版本推断类模型部署一定数量的实例。这些模型实例功能一致，且可以并发地处理边缘用户的请求。由于边缘计算节点的资源受限，不同版本推断类模型的实例不宜开启过多，且需要权衡不同版本推断类模型间的实例数量。当用户推断类请求过多时，更倾向于部署资源占用较小的推断模型实例，但是其产生的推断精度也会相应降低；相反，当用户推断类请求不多时，可以充分利用受限边缘计算资源进行高精度推断类模型实例的部署。

但是，由于用户推断类请求的数量随时间推移不断发生变化，而且在提供推断类服务的时候，需要先进行模型实例的部署，包括开启容器、部署基础环境以及准备相应的数据等，无法提前准确获知未来用户实际推断请求数量，并在这些准备工作之后才能够为后续的一段时间进行用户推断类请求的响应。现有的调度策略无法在边缘资源受限约束的情况下在线地、动态地适应用户推断请求的不断变化，为此，需要一种针对边缘计算环境下多版本推断模型的部署新方法来实现灵活调度，以最大化用户的推断服务质量，即推断精度。

发明内容

本发明的目的是提出一种针对边缘计算环境下多版本推断模型的部署方法、装置和系统，解决现有技术中的问题。

为了实现上述发明目的，本发明采用如下的技术方案：

第一方面，提出一种边缘计算节点上推断模型的部署方法，所述方法包括：

在时隙开始时，将最新的多版本推断模型部署决策下发至各边缘计算节点；

获取当前时隙内各边缘计算节点上的推断模型实例部署效果，包括边缘计算节点上到达的用户推断请求数量和待处理推断请求队列长度；

获取当前时隙最新的多版本推断模型信息，包括各版本模型的推断精度、服务用户请求的能力以及推断所需的资源消耗；

根据当前时隙最新的多版本推断模型信息以及推断模型实例部署效果，构建以最小化用户推断损失为目标的优化问题并求解(即最大化用户响应精度)，将求解结果作为下一时隙多版本推断模型的部署决策，所述决策包括各边缘计算节点开启各版本推断类模型实例的数目以及在边缘节点间进行疏散的用户推断请求数目；

在下一时隙开始时，将所得的多版本推断模型部署决策下发至边缘计算节点。

进一步地，所述优化问题如下：

优化目标：

约束条件：

1.1)对于每个边缘计算节点的待处理推断请求队列变化限制：

1.2)每个边缘计算节点的待处理推断请求队列被清空：

1.3)对于每时隙边缘计算节点间的请求疏散迁移限制：

1.4)对于数据传输和请求疏散的带宽限制：

1.5)对于多版本模型实例的开启限制：

1.6)对于边缘计算节点的资源限制：

1.7)对于决策的定义域限制：

式中，

表示时隙总数，x_n,m,t为时隙t内边缘计算节点n上推断模型m的实例数目决策，a_m,t为推断模型m的推断损失；q_n,t为时隙t内边缘计算节点n上的待处理用户推断请求数量，y_n′,n,t为从边缘计算节点n′向边缘计算节点n疏散的用户推断请求数量，p_m为推断模型m在一个时隙内可处理的用户推断请求数量；r_n,t为时隙t内边缘计算节点n上产生的用户推断类请求数量；z_n,m,t为时隙t内边缘计算节点n上是否使用推断模型m实例的决策，s_m为推断模型m的模型大小，τ为单个用户推断请求的大小，b_n,t为时隙t内边缘计算节点n上的可用带宽；d_m为推断模型m进行推断所花费的资源消耗，c_n为边缘计算节点n的计算资源上限。

进一步地，对优化问题的求解包括：

将优化问题(1)分解到每一个时隙，在每一个时隙结束的时候，实际求解如下优化问题：

优化目标：

约束条件：

式中，

是决策变量所构成的向量，且其定义域在对应的实数域

上；

为时隙t的实数域决策，在时隙t的结束需要决策时隙t+1的实数域决策

f_t为当前时隙的优化目标；λ_t+1是不断更新的参数向量，α是预设算法参数；g_t为由各时隙t约束所构成的向量(决策变量要松弛)，包含问题(1)中的约束1.1)到1.5)；h为需要满足的各边缘计算节点上计算资源上限的约束函数(决策变量要松弛)，包含约束1.6)；

采用实数域上的凸优化求解技术对优化问题(2)进行求解，得到实数域结果

用于在t+1时隙被应用部署。

进一步地，所述参数向量的更新方式为：

μ为预设的调整参数。

进一步地，所述实数域结果

在t+1时隙被应用部署时，先采用整形化的方法将实数域结果变为整数域结果。

第二方面，提供一种边缘计算节点上推断模型的部署装置，包括：

部署效果获取模块，被配置为获取当前时隙内各边缘计算节点上的推断模型实例部署效果，包括边缘计算节点上到达的用户推断请求数量和待处理推断请求队列长度；

推断模型获取模块，被配置为获取当前时隙最新的多版本推断模型信息，包括各版本模型的推断精度、服务用户请求的能力以及推断所需的资源消耗；

部署决策计算模块，被配置为根据当前时隙最新的多版本推断模型信息以及推断模型实例部署效果，构建以最小化用户推断损失为目标的优化问题并求解(即最大化用户响应精度)，将求解结果作为下一时隙多版本推断模型的部署决策，所述决策包括各边缘计算节点开启各版本推断类模型实例的数目以及在边缘节点间进行疏散的用户推断请求数目；

部署决策下发模块，被配置为在时隙开始时，将最新的多版本推断模型部署决策下发至边缘计算节点。

进一步地，所述部署决策计算模块构建的优化问题如下：

优化目标：

约束条件：

1.1)对于每个边缘计算节点的待处理推断请求队列变化限制：

1.2)每个边缘计算节点的待处理推断请求队列被清空：

1.3)对于每时隙边缘计算节点间的请求疏散迁移限制：

1.4)对于数据传输和请求疏散的带宽限制：

1.5)对于多版本模型实例的开启限制：

1.6)对于边缘计算节点的资源限制：

1.7)对于决策的定义域限制：

式中，

进一步地，对所述优化问题的求解包括：

优化目标：

约束条件：

式中，

是决策变量所构成的向量，且其定义域在对应的实数域

上；

用于在t+1时隙被应用部署。

第三方面，提供一种边缘计算环境下多版本推断模型部署系统，包括：一控制节点和若干边缘计算节点，所述控制节点与边缘计算节点、以及各边缘计算节点之间经由网络互连，所述控制节点采用如本发明第一方面所述的推断模型部署方法实现对各边缘计算节点的推断模型部署，或者所述控制节点实施为如本发明第二方面所述的推断模型部署装置，所述边缘计算节点根据所述控制节点下发的多版本推断模型决策周期性地调整各自推断模型实例数目。

相比于现有技术，本发明具有以下有益效果：本发明提出了在线化的多版本推断类模型实例部署策略，通过不断地根据在线到达的用户推断请求数量、当前各边缘计算节点中待处理推断请求的队列以及当前时隙多版本推断模型实例部署的反馈，来不断调整更新下一时隙的部署策略。本发明的部署方法和部署系统能够在无法准确获知未来用户实际推断请求数量的情况下，在受限边缘环境中对各边缘计算节点进行周期性的多版本模型实例数目调整，达到在边缘环境中最大化用户推断精度的效果。与现有技术中静态的部署方案相比，本发明自适应式的部署和调度策略可以在线地、动态地适应用户推断请求的不断变化，提高系统处理效率，提高了推断服务质量。

附图说明

图1为根据本发明实施例的边缘计算推断模型部署系统的结构示意图；

图2是应用在线调度方法后实际使用的边缘推断资源变化情况；

图3是不同参数下用户推断损失的累积偏差，即距离其最优损失的累积偏差情况；

图4是应用在线调度方法后约束的累积偏差情况(包含队列变化，但非资源约束)。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步说明。

参照图1，在一个实施例中，在移动网络中应用边缘计算推断模型部署系统，该边缘计算推断模型部署系统包括：边缘计算节点、控制节点以及连接各边缘计算节点的网络，其中的边缘网络由各边缘计算节点连接核心交换机的回程线路组成，边缘网络允许在各边缘计算节点间进行推断类请求的疏散迁移，同时还可以通过骨干网络的配合，从数据中心下载所需的推断模型至目标边缘节点；各边缘计算节点上资源异构且有限，可以在各自资源允许的范围内运行推断类的模型实例；控制节点上运行有在线调度模块，可以获取到当前在数据中心内训练所得的多版本推断类模型信息，包括不同版本模型实例的推断精度、服务用户请求的能力以及推断所需的资源消耗，并结合每次部署后在各边缘节点上反映的推断类模型实例部署效果，包括资源使用情况、用户请求响应情况和响应精度，在线进行各边缘计算节点上多版本推断类模型实例数目的调整；数据中心传输多版本推断模型给各个边缘计算节点，需要经由骨干网络、核心交换机再由回程线路。相比于骨干网络和核心交换机，回程线路的带宽更为稀缺，因此这里以回程线路的带宽作为传输疏散的限制；各边缘计算节点的资源上限可是资源的最小集合的倍数，这里的最小资源集合可以是1CPU加1G内存，同样对于多版本推断模型而言，不同版本推断模型的资源占用消耗也可以是该最小集合的倍数；各边缘计算节点所管辖范围内的用户可以是连接该边缘计算设备的移动设备、笔记本电脑等，且一个用户可以发送多个推断类请求。

该系统中控制节点与各边缘计算节点进行周期性地交互，在无法准确获知未来用户实际推断请求数量时，通过结合每次部署后刻推断类模型部署的效果反馈，指导在线调度模块为各边缘节点进行周期性地多版本模型实例数目调整，达到在边缘环境中最大化用户推断精度的效果。其过程如下：

(S1)在每一时隙(该时隙长度作为系统配置固定)开始，控制节点将最新的多版本推断类模型部署决策(该决策最开始可为任意可行的决策，并在不断周取性的交互中被更新调整)下发至各边缘计算节点，该决策包括各边缘计算节点开启各版本推断类模型实例的数目以及在边缘节点间进行用户推断类请求疏散的请求数目；

(S2)在各边缘计算节点间，按照控制节点决定的边缘计算节点间的疏散请求数量，利用回程线路进行用户推断请求的疏散，被疏散到某一边缘计算节点的用户推断请求将会排至该边缘计算节点待处理用户请求队列的末尾；

(S3)如果任意边缘计算节点需要开启上一时刻未被使用过的某一版本推断模型实例，或者该推断模型在数据中心的训练中有了更新，该边缘计算节点就需要从数据中心经由骨干网络和回程线路进行下载；

(S4)各边缘计算节点初始化该时隙内的推断环境，依照控制节点的多版本推断模型实例数目进行各实例的构建和启动，也就是，在无法准确获知未来用户实际推断请求数量前就进行各版本模型实例的部署；

(S5)在时隙内，用开启的多版本推断类模型实例不断从待处理用户推断请求队列中获取推断类请求，并进行推断响应，不断记录响应各用户请求的精度；

(S6)在时隙内，任何边缘计算节点管辖范围内不断到达的用户推断请求将会不断被加至该边缘计算节点待处理用户推断请求队列的末尾，供该边缘计算节点上多版本推断模型实例获取和响应推断，并不断记录该时隙内到达该边缘计算节点的用户推断请求数量；

(S7)在时隙结束时，将各边缘计算节点上到达用户的推断请求数量和待处理推断请求队列长度发送给控制节点；

(S8)控制节点获取该时刻数据中心中最新的已训练好的多版本推断类模型信息，包括多版本模型的推断精度、服务用户请求的能力以及推断所需的资源消耗；

(S9)控制节点通过构建以最大化用户响应精度为目标的优化问题，以该时隙内多版本推断类模型实例部署的信息反馈，进行多版本推断类模型实例部署的更新和调整，得到新的多版本推断模型实例数目部署。

具体而言，控制节点调度的总体目标是为了在一段时间内(

个时隙)，在受限于边缘计算节点资源和边缘网络带宽下，达到用户推断损失最小化的效果(即推断精度最大化)，建立的优化问题如下：

优化目标：

约束条件：

1.1)对于每个边缘计算节点的待处理请求队列变化：

表示下一时刻队列是上一时刻队列中加进去要处理请求数量，减掉已处理的请求数量。由于是真实队列，如果能够处理的能力超过所有队列中的请求，那么队列就清空了；

1.2)对于每个边缘计算节点，都希望在调整周期内实现其待处理请求队列清空：

1.3)对于每时隙边缘计算节点间的请求疏散迁移：

表示对已到达的所有请求进行迁移决定；

1.4)对于数据传输、请求疏散的带宽限制：

1.5)对于多版本模型实例的开启：

1.6)对于边缘节点资源限制：

1.7)对于决策的定义域限制：

式中，x_n,m,t为时隙t内边缘计算节点n上推断模型m的实例数目决策，a_m,t为该推断类模型的推断损失，该问题是最小化问题，如果是最大化问题则为推断精度，因为其实推断精度+推断损失＝1；q_n,t为时隙t内边缘计算节点n上的待处理用户推断请求数量，y_n′,n,t为从边缘计算节点n′向边缘计算节点n疏散的用户请求数量，p_m为模型m在一个时隙内可处理的用户推断类请求数量；[*]⁺指的是max{*,0}，意为和0比较，取其中大的；r_n,t为时隙t内边缘计算节点n上产生的用户推断类请求数量；z_n,m,t为时隙t内边缘计算节点n上是否使用推断模型m实例的决策，它的获得是求解下面式(2)得到实数值，并圆整成为0或1，具体在下面有说明；s_m为推断模型m的模型大小，τ为单个用户推断请求的大小，b_n,t为时隙t内边缘计算节点n上的可用带宽；d_m为推断模型m的进行推断所花费的资源消耗，c_n为边缘计算节点n的计算资源上限；

表示自然数。

由于在调度时无法准确获知未来用户实际推断请求数量，将上述整体的优化问题(1)分解到每一个时隙，在每一个时隙结束的时候，实际求解如下优化问题：

优化目标：

约束条件：

式中，

是决策遍历所构成的向量，也就是决策变量{x,y,z}所构成的向量，且其定义域在对应的实数域

上，1.7是整数定义域，要松弛之后才是实数定义域

松弛的方式是

变为

{0,1}变为[0,1]，符号上带波浪的为松弛后的变量。

都是决策，

每个变量都是列向量，T表示转置，具体地，

类似，只是

随着时间推移不断调整更新，

为时隙t的实数域决策，在线调度器在时隙t的结束需要决策时隙t+1的实数域决策

f_t即为当刻时隙的优化目标；λ_t+1是在线调度其不断维护的参数向量，α是在线调度器设定的算法参数；g_t为由各时隙t约束所构成的向量(决策变量要松弛)，即包含问题(1)中的约束1.1)到1.5)；h为需要满足的各计算节点上计算资源上限的约束函数(决策变量要松弛)，即问题(1)中的约束1.6)。

该优化问题(2)的求解采用实数域上的凸优化求解技术即可完成。本实施例中借助于工具IPOPT进行求解。

其中维护的参数向量λ_t+1，其更新方式为

其中μ也是在线调度器设定的算法参数，λ的作用是把g各分量上的变化带进式(2)的优化问题，λ的更新通过约束向量的满足程度，将时隙t内多版本推断模型实例的部署作为反馈。

求解所得的实数域结果

在t+1时隙被应用部署的时候需要采用整形化手段，将实数域结果变为整数域结果I_t+1。

整形化的方法具体为：首先将

中各维度的整数部分提取出来，形成

和

两个部分；接着，对

的部分进行随机化提升或者随机化降低，即有

的概率将

中的每一个维度提升

倍，并有

的概率将

中的每一个维度降低

倍，其中k为

中各个维度的和；最后对于随机化提升后的向量

不断对其中任意两个非0或1的元素a,b执行如下操作，取θ₁＝min{1-a,b},θ₂＝min{a,1-b}，使得以

的概率让a成为a+θ₁，让b成为b-θ₁，同时以

的概率让a成为a-θ₂，让b成为b+θ₂。执行这样的操作直到

中的每个向量都是整数为止，整形化完成。

下面以一个边缘计算节点和两个版本推断模型A、B为例进行进一步地说明，在该例中，版本A模型比版本B模型花费多一倍的计算资源且得到的推断精度也高出一倍，但是A处理能力用户请求的能力比B弱一半：

(1)若当前的实数域多版本决策为<1.9,0.1>，经由随机化圆整的手段，得到这两个版本推断类模型的部署实例数目为<2,0>；

(2)为了便于理解，这里的边缘计算节点上无待处理的用户推断请求排队，也没有边缘间的推断请求疏散，而且这两个版本模型均先前已经下载到边缘计算节点上，没有被数据中心更新，因此无需从数据中心下载新的版本；

(3)在边缘计算节点上实际部署2个数目的A版本推断模型和0个B版本推断模型，并让其服务该时隙内到达的用户推断请求，但在部署时并不知晓该时隙内实际到达的用户推断请求数目；

(4)在该时隙内，用户的推断类请求超出2个A版本模型实例的处理能力，且超出其处理能力的一倍；

(5)在该时隙结束的时候，控制节点收集这两个版本模型实例部署的反馈，包括资源利用情况、用户请求数量、边缘队列请求以及已响应用户请求精度；

(6)为了不让用户的请求过多挤压，在线调度方法根据上述建立优化问题并求解的过程调整两个版本模型实例的决策(实数域上的)为<0.1,4.1>，意为更倾向于用更少资源花费的B模型实例替换A模型实例，且能够处理更多的用户推断请求；

(7)到下一时隙，对调度方法给出的决策<0.1,4.1>进行随机圆整出的结果可能为<0,4>；若后续用户请求到达的数目不断下降，那么在线调度方法可能不断调整两个版本模型实例数目为<1,2>,<2,0>,…这种在线调度方法同时将各个边缘计算节点的队列信息、资源使用信息、请求变化等总和考虑，希望能够在兼顾满足用户推断请求响应的情况下，在受限边缘环境中，最大化用户推断精度。

实验的效果如图2至图4所示，图2展示了在不断调整多版本推断模型实例数目过程中的资源消耗变化；图3展示了应用在线方法，用户的推断损失距离其最优之间的累积偏差(实验了不同的算法参数)；图4展示了约束(特别是队列)的偏移累积量。图2曲线中的每一个点表示在该时间戳上的边缘计算节点进行推断的资源花费(按最大值归一化)，这里的资源花费为所有边缘计算节点上各实例使用资源的总和。从图2可以看出，在时间戳50、150、250、350有明显用户请求增加的情况下，总体上的资源花费基本都在0.4以下，表明在边缘推断资源的使用上实现均衡化效果。图3曲线中的每一个点表示在该时间戳上，推断损失的累积偏差(按最大值归一化)，即对于时刻k来说该点表示的是

其中

是使得f_t最小的最优解；为了更清楚地显示效果，对时间戳前60的局部曲线进行放大，即图3中的子图，图中不同的参数指μ和α的取值，如0.5表示α＝μ＝0.5。从图3可以看出，多个参数下都能够使得推断损失的累积偏差平缓增长，意味着调度可以实现用户请求的推断损失偏差其最优损失不太大，也就意味着调度起到了最小化用户推断损失的效果。当参数值较小时，算法修正部署的步伐更为细致，平滑增长更为缓慢。图4曲线中的每一个点表示在该时间戳上，约束的累积偏差(非资源约束，反映的是队列的变化)，即表示

从图4可以看出，队列约束的累积偏差增长缓慢上升(注，这里采用的是[]⁺，意味着即使上一时刻该偏差是100，且当刻队列为空，当刻的偏差仍不减，为100+0＝100)，意味着在最小化用户推断损失的同时，还能够使得队列的增长保持可控。

根据本发明的另一实施例，控制节点实施为一种边缘计算节点上推断模型的部署装置，包括：

部署效果获取模块，被配置为获取当前时隙内各边缘计算节点上的推断模型实例部署效果，包括边缘计算节点上到达的用户推断请求数量、待处理推断请求队列长度以及各已处理推断请求的响应精度；

部署决策计算模块，被配置为根据当前时隙最新的多版本推断模型信息以及推断模型实例部署效果，构建以最大化用户响应精度为目标的优化问题并求解，将求解结果作为下一时隙多版本推断模型的部署决策，所述决策包括各边缘计算节点开启各版本推断类模型实例的数目以及在边缘节点间进行疏散的用户推断请求数目；

应理解，本发明实施例中的装置和系统可以实现上述方法实施例中的全部技术方案，其各个功能模块的功能可以根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述实施例中的相关描述，此处不再赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，本发明中的控制节点与边缘计算节点的交互方式，收集反馈信息内容与在线调度方法在各系统中均适用，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种边缘计算节点上推断模型的部署方法，其特征在于，所述方法包括：

根据当前时隙最新的多版本推断模型信息以及推断模型实例部署效果，构建以最小化用户推断损失为目标的优化问题并求解，将求解结果作为下一时隙多版本推断模型的部署决策，所述决策包括各边缘计算节点开启各版本推断类模型实例的数目以及在边缘节点间进行疏散的用户推断请求数目；

在下一时隙开始时，将所得的多版本推断模型部署决策下发至边缘计算节点；

其中所述优化问题如下：

优化目标：

约束条件：

1.1)对于每个边缘计算节点的待处理推断请求队列变化限制：

1.2)每个边缘计算节点的待处理推断请求队列被清空：

1.3)对于每时隙边缘计算节点间的请求疏散迁移限制：

1.4)对于数据传输和请求疏散的带宽限制：

1.5)对于多版本模型实例的开启限制：

1.6)对于边缘计算节点的资源限制：

1.7)对于决策的定义域限制：

式中，

表示时隙总数，x_n,m,t为时隙t内边缘计算节点n上推断模型m的实例数目决策，a_m,t为推断模型m的推断损失；q_b,r为时隙t内边缘计算节点n上的待处理用户推断请求数量，y_n′,n,t为从边缘计算节点n′向边缘计算节点n疏散的用户推断请求数量，p_m为推断模型m在一个时隙内可处理的用户推断请求数量；r_n,t为时隙t内边缘计算节点n上产生的用户推断类请求数量；z_n,m,t为时隙t内边缘计算节点n上是否使用推断模型m实例的决策，s_m为推断模型m的模型大小，τ为单个用户推断请求的大小，b_n,t为时隙t内边缘计算节点n上的可用带宽；d_m为推断模型m进行推断所花费的资源消耗，c_n为边缘计算节点n的计算资源上限。

2.根据权利要求1所述的推断模型的部署方法，其特征在于，对优化问题的求解包括：

优化目标：

约束条件：

式中，

是决策变量所构成的向量，且其定义域在对应的实数域

上；

f_t为当前时隙的优化目标；λ_t+1是不断更新的参数向量，α是预设算法参数；g_t为由各时隙t约束所构成的向量，包含问题(1)中的约束1.1)到1.5)；h为需要满足的各边缘计算节点上计算资源上限的约束函数，包含约束1.6)；

用于在t+1时隙被应用部署。

3.根据权利要求2所述的推断模型的部署方法，其特征在于，所述参数向量的更新通过约束向量的满足程度，将时隙t内多版本推断模型实例的部署作为反馈，其更新方式为：

其中μ为预设的调整参数。

4.根据权利要求2所述的推断模型的部署方法，其特征在于，所述实数域结果

5.根据权利要求4所述的推断模型的部署方法，其特征在于，所述整形化的方法包括：

将

中各维度的整数部分提取出来，形成

和

两个部分；

对

的部分进行随机化提升或者随机化降低，其中有

的概率将

中的每一个维度提升

倍，并有

的概率将

中的每一个维度降低

倍，其中k为

中各个维度的和；

对于随机化提升后的向量

不断对其中任意两个非0或1的元素a,b执行如下操作:取θ₁＝min{1-a，b}，θ₂＝min{a，1-b}，使得以

的概率让a成为a+θ₁，让b成为b-θ₁，同时以

的概率让a成为a-θ₂，让b成为b+θ₂。

6.一种边缘计算节点上推断模型的部署装置，其特征在于，包括：

部署决策计算模块，被配置为根据当前时隙最新的多版本推断模型信息以及推断模型实例部署效果，构建以最小化用户推断损失为目标的优化问题并求解，将求解结果作为下一时隙多版本推断模型的部署决策，所述决策包括各边缘计算节点开启各版本推断类模型实例的数目以及在边缘节点间进行疏散的用户推断请求数目；

部署决策下发模块，被配置为在时隙开始时，将最新的多版本推断模型部署决策下发至边缘计算节点；

其中所述部署决策计算模块构建的优化问题如下：

优化目标：

约束条件：

1.1)对于每个边缘计算节点的待处理推断请求队列变化限制：

1.2)每个边缘计算节点的待处理推断请求队列被清空：

1.3)对于每时隙边缘计算节点间的请求疏散迁移限制：

1.4)对于数据传输和请求疏散的带宽限制：

1.5)对于多版本模型实例的开启限制：

1.6)对于边缘计算节点的资源限制：

1.7)对于决策的定义域限制：

式中，

7.根据权利要求6所述的边缘计算节点上推断模型的部署装置，其特征在于，所述部署决策计算模块对所述优化问题的求解包括：

优化目标：

约束条件：

式中，

是决策变量所构成的向量，且其定义域在对应的实数域

上；

用于在t+1时隙被应用部署。

8.一种边缘计算环境下多版本推断模型部署系统，其特征在于，包括：一控制节点和若干边缘计算节点，所述控制节点与边缘计算节点、以及各边缘计算节点之间经由网络互连，所述控制节点采用如权利要求1-5中的任一项所述的推断模型部署方法实现对各边缘计算节点的推断模型部署，或者所述控制节点实施为如权利要求6-7中的任一项所述的推断模型部署装置，所述边缘计算节点根据所述控制节点下发的多版本推断模型决策周期性地调整各自推断模型实例数目。