CN111459505B - 边缘计算环境下多版本推断模型部署方法、装置和系统 - Google Patents

边缘计算环境下多版本推断模型部署方法、装置和系统 Download PDF

Info

Publication number
CN111459505B
CN111459505B CN202010439585.2A CN202010439585A CN111459505B CN 111459505 B CN111459505 B CN 111459505B CN 202010439585 A CN202010439585 A CN 202010439585A CN 111459505 B CN111459505 B CN 111459505B
Authority
CN
China
Prior art keywords
inference
time slot
model
edge
deployment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010439585.2A
Other languages
English (en)
Other versions
CN111459505A (zh
Inventor
金熠波
钱柱中
韦磊
缪巍巍
张明明
曾锃
张明轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
State Grid Jiangsu Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Nanjing University
State Grid Jiangsu Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University, State Grid Jiangsu Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd filed Critical Nanjing University
Priority to CN202010439585.2A priority Critical patent/CN111459505B/zh
Publication of CN111459505A publication Critical patent/CN111459505A/zh
Application granted granted Critical
Publication of CN111459505B publication Critical patent/CN111459505B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/65Updates
    • G06F8/656Updates while running
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种边缘计算环境下多版本推断模型部署方法、装置和系统。所述方法通过不断地根据在线到达的用户推断请求数量、当前各边缘计算节点中待处理推断请求的队列以及当前时隙多版本推断模型实例部署的反馈,来不断调整更新下一时隙各边缘计算节点上的推断模型实例部署策略。本发明的推断类模型部署系统和部署方法能够在无法准确获知未来用户实际推断请求数量时,通过结合每次部署后刻推断类模型部署的效果反馈,为各边缘节点进行周期性地多版本模型实例数目调整,达到在边缘环境中最大化用户推断精度的效果。

Description

边缘计算环境下多版本推断模型部署方法、装置和系统
技术领域
本发明涉及边缘计算领域,具体涉及一种边缘计算环境下多版本推断模型的部署方法、装置和系统。
背景技术
边缘计算旨在缩短用户访问云数据中心的往返时延,将服务部署在靠近用户的边缘计算节点内,继而用户可以就近直接使用部署在边缘计算节点中的各类服务。机器学习推断类服务是一种利用提前已训练好的推断类模型(可能会不断更新修正)对用户的推断请求进行响应,这样的推断类模型包括深度学习模型、决策树模型、各类回归模型以及各类聚类模型。这类推断模型的特点是,在训练的过程中会产生多种不同的模型版本。不同模型版本的区别在于,在同种模型结构下的模型参数不同,如不同版本深度学习模型的层数不同,且各神经元的权值不同。不同的模型版本在进行推断的时候所使用的计算资源不尽相同,其处理用户请求的速度和所产生的推断精度也不同。
为了能够满足边缘用户的推断类请求,需要在资源受限的各边缘计算节点中,为各版本推断类模型部署一定数量的实例。这些模型实例功能一致,且可以并发地处理边缘用户的请求。由于边缘计算节点的资源受限,不同版本推断类模型的实例不宜开启过多,且需要权衡不同版本推断类模型间的实例数量。当用户推断类请求过多时,更倾向于部署资源占用较小的推断模型实例,但是其产生的推断精度也会相应降低;相反,当用户推断类请求不多时,可以充分利用受限边缘计算资源进行高精度推断类模型实例的部署。
但是,由于用户推断类请求的数量随时间推移不断发生变化,而且在提供推断类服务的时候,需要先进行模型实例的部署,包括开启容器、部署基础环境以及准备相应的数据等,无法提前准确获知未来用户实际推断请求数量,并在这些准备工作之后才能够为后续的一段时间进行用户推断类请求的响应。现有的调度策略无法在边缘资源受限约束的情况下在线地、动态地适应用户推断请求的不断变化,为此,需要一种针对边缘计算环境下多版本推断模型的部署新方法来实现灵活调度,以最大化用户的推断服务质量,即推断精度。
发明内容
本发明的目的是提出一种针对边缘计算环境下多版本推断模型的部署方法、装置和系统,解决现有技术中的问题。
为了实现上述发明目的,本发明采用如下的技术方案:
第一方面,提出一种边缘计算节点上推断模型的部署方法,所述方法包括:
在时隙开始时,将最新的多版本推断模型部署决策下发至各边缘计算节点;
获取当前时隙内各边缘计算节点上的推断模型实例部署效果,包括边缘计算节点上到达的用户推断请求数量和待处理推断请求队列长度;
获取当前时隙最新的多版本推断模型信息,包括各版本模型的推断精度、服务用户请求的能力以及推断所需的资源消耗;
根据当前时隙最新的多版本推断模型信息以及推断模型实例部署效果,构建以最小化用户推断损失为目标的优化问题并求解(即最大化用户响应精度),将求解结果作为下一时隙多版本推断模型的部署决策,所述决策包括各边缘计算节点开启各版本推断类模型实例的数目以及在边缘节点间进行疏散的用户推断请求数目;
在下一时隙开始时,将所得的多版本推断模型部署决策下发至边缘计算节点。
进一步地,所述优化问题如下:
优化目标:
Figure GDA0003068785900000021
约束条件:
1.1)对于每个边缘计算节点的待处理推断请求队列变化限制:
Figure GDA0003068785900000022
Figure GDA0003068785900000023
1.2)每个边缘计算节点的待处理推断请求队列被清空:
Figure GDA0003068785900000024
1.3)对于每时隙边缘计算节点间的请求疏散迁移限制:
Figure GDA0003068785900000025
1.4)对于数据传输和请求疏散的带宽限制:
Figure GDA0003068785900000026
Figure GDA0003068785900000027
1.5)对于多版本模型实例的开启限制:
Figure GDA0003068785900000028
1.6)对于边缘计算节点的资源限制:
Figure GDA0003068785900000029
1.7)对于决策的定义域限制:
Figure GDA00030687859000000210
式中,
Figure GDA00030687859000000211
表示时隙总数,xn,m,t为时隙t内边缘计算节点n上推断模型m的实例数目决策,am,t为推断模型m的推断损失;qn,t为时隙t内边缘计算节点n上的待处理用户推断请求数量,yn′,n,t为从边缘计算节点n′向边缘计算节点n疏散的用户推断请求数量,pm为推断模型m在一个时隙内可处理的用户推断请求数量;rn,t为时隙t内边缘计算节点n上产生的用户推断类请求数量;zn,m,t为时隙t内边缘计算节点n上是否使用推断模型m实例的决策,sm为推断模型m的模型大小,τ为单个用户推断请求的大小,bn,t为时隙t内边缘计算节点n上的可用带宽;dm为推断模型m进行推断所花费的资源消耗,cn为边缘计算节点n的计算资源上限。
进一步地,对优化问题的求解包括:
将优化问题(1)分解到每一个时隙,在每一个时隙结束的时候,实际求解如下优化问题:
优化目标:
Figure GDA0003068785900000031
约束条件:
Figure GDA0003068785900000032
式中,
Figure GDA0003068785900000033
是决策变量所构成的向量,且其定义域在对应的实数域
Figure GDA0003068785900000034
上;
Figure GDA0003068785900000035
为时隙t的实数域决策,在时隙t的结束需要决策时隙t+1的实数域决策
Figure GDA0003068785900000036
ft为当前时隙的优化目标;λt+1是不断更新的参数向量,α是预设算法参数;gt为由各时隙t约束所构成的向量(决策变量要松弛),包含问题(1)中的约束1.1)到1.5);h为需要满足的各边缘计算节点上计算资源上限的约束函数(决策变量要松弛),包含约束1.6);
采用实数域上的凸优化求解技术对优化问题(2)进行求解,得到实数域结果
Figure GDA0003068785900000037
用于在t+1时隙被应用部署。
进一步地,所述参数向量的更新方式为:
Figure GDA0003068785900000038
μ为预设的调整参数。
进一步地,所述实数域结果
Figure GDA0003068785900000039
在t+1时隙被应用部署时,先采用整形化的方法将实数域结果变为整数域结果。
第二方面,提供一种边缘计算节点上推断模型的部署装置,包括:
部署效果获取模块,被配置为获取当前时隙内各边缘计算节点上的推断模型实例部署效果,包括边缘计算节点上到达的用户推断请求数量和待处理推断请求队列长度;
推断模型获取模块,被配置为获取当前时隙最新的多版本推断模型信息,包括各版本模型的推断精度、服务用户请求的能力以及推断所需的资源消耗;
部署决策计算模块,被配置为根据当前时隙最新的多版本推断模型信息以及推断模型实例部署效果,构建以最小化用户推断损失为目标的优化问题并求解(即最大化用户响应精度),将求解结果作为下一时隙多版本推断模型的部署决策,所述决策包括各边缘计算节点开启各版本推断类模型实例的数目以及在边缘节点间进行疏散的用户推断请求数目;
部署决策下发模块,被配置为在时隙开始时,将最新的多版本推断模型部署决策下发至边缘计算节点。
进一步地,所述部署决策计算模块构建的优化问题如下:
优化目标:
Figure GDA0003068785900000041
约束条件:
1.1)对于每个边缘计算节点的待处理推断请求队列变化限制:
Figure GDA0003068785900000042
Figure GDA0003068785900000043
1.2)每个边缘计算节点的待处理推断请求队列被清空:
Figure GDA0003068785900000044
1.3)对于每时隙边缘计算节点间的请求疏散迁移限制:
Figure GDA0003068785900000045
1.4)对于数据传输和请求疏散的带宽限制:
Figure GDA0003068785900000046
Figure GDA0003068785900000047
1.5)对于多版本模型实例的开启限制:
Figure GDA0003068785900000048
1.6)对于边缘计算节点的资源限制:
Figure GDA0003068785900000049
1.7)对于决策的定义域限制:
Figure GDA00030687859000000410
式中,
Figure GDA00030687859000000411
表示时隙总数,xn,m,t为时隙t内边缘计算节点n上推断模型m的实例数目决策,am,t为推断模型m的推断损失;qn,t为时隙t内边缘计算节点n上的待处理用户推断请求数量,yn′,n,t为从边缘计算节点n′向边缘计算节点n疏散的用户推断请求数量,pm为推断模型m在一个时隙内可处理的用户推断请求数量;rn,t为时隙t内边缘计算节点n上产生的用户推断类请求数量;zn,m,t为时隙t内边缘计算节点n上是否使用推断模型m实例的决策,sm为推断模型m的模型大小,τ为单个用户推断请求的大小,bn,t为时隙t内边缘计算节点n上的可用带宽;dm为推断模型m进行推断所花费的资源消耗,cn为边缘计算节点n的计算资源上限。
进一步地,对所述优化问题的求解包括:
将优化问题(1)分解到每一个时隙,在每一个时隙结束的时候,实际求解如下优化问题:
优化目标:
Figure GDA0003068785900000051
约束条件:
Figure GDA0003068785900000052
式中,
Figure GDA0003068785900000053
是决策变量所构成的向量,且其定义域在对应的实数域
Figure GDA0003068785900000054
上;
Figure GDA0003068785900000055
为时隙t的实数域决策,在时隙t的结束需要决策时隙t+1的实数域决策
Figure GDA0003068785900000056
ft为当前时隙的优化目标;λt+1是不断更新的参数向量,α是预设算法参数;gt为由各时隙t约束所构成的向量(决策变量要松弛),包含问题(1)中的约束1.1)到1.5);h为需要满足的各边缘计算节点上计算资源上限的约束函数(决策变量要松弛),包含约束1.6);
采用实数域上的凸优化求解技术对优化问题(2)进行求解,得到实数域结果
Figure GDA0003068785900000057
用于在t+1时隙被应用部署。
第三方面,提供一种边缘计算环境下多版本推断模型部署系统,包括:一控制节点和若干边缘计算节点,所述控制节点与边缘计算节点、以及各边缘计算节点之间经由网络互连,所述控制节点采用如本发明第一方面所述的推断模型部署方法实现对各边缘计算节点的推断模型部署,或者所述控制节点实施为如本发明第二方面所述的推断模型部署装置,所述边缘计算节点根据所述控制节点下发的多版本推断模型决策周期性地调整各自推断模型实例数目。
相比于现有技术,本发明具有以下有益效果:本发明提出了在线化的多版本推断类模型实例部署策略,通过不断地根据在线到达的用户推断请求数量、当前各边缘计算节点中待处理推断请求的队列以及当前时隙多版本推断模型实例部署的反馈,来不断调整更新下一时隙的部署策略。本发明的部署方法和部署系统能够在无法准确获知未来用户实际推断请求数量的情况下,在受限边缘环境中对各边缘计算节点进行周期性的多版本模型实例数目调整,达到在边缘环境中最大化用户推断精度的效果。与现有技术中静态的部署方案相比,本发明自适应式的部署和调度策略可以在线地、动态地适应用户推断请求的不断变化,提高系统处理效率,提高了推断服务质量。
附图说明
图1为根据本发明实施例的边缘计算推断模型部署系统的结构示意图;
图2是应用在线调度方法后实际使用的边缘推断资源变化情况;
图3是不同参数下用户推断损失的累积偏差,即距离其最优损失的累积偏差情况;
图4是应用在线调度方法后约束的累积偏差情况(包含队列变化,但非资源约束)。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步说明。
参照图1,在一个实施例中,在移动网络中应用边缘计算推断模型部署系统,该边缘计算推断模型部署系统包括:边缘计算节点、控制节点以及连接各边缘计算节点的网络,其中的边缘网络由各边缘计算节点连接核心交换机的回程线路组成,边缘网络允许在各边缘计算节点间进行推断类请求的疏散迁移,同时还可以通过骨干网络的配合,从数据中心下载所需的推断模型至目标边缘节点;各边缘计算节点上资源异构且有限,可以在各自资源允许的范围内运行推断类的模型实例;控制节点上运行有在线调度模块,可以获取到当前在数据中心内训练所得的多版本推断类模型信息,包括不同版本模型实例的推断精度、服务用户请求的能力以及推断所需的资源消耗,并结合每次部署后在各边缘节点上反映的推断类模型实例部署效果,包括资源使用情况、用户请求响应情况和响应精度,在线进行各边缘计算节点上多版本推断类模型实例数目的调整;数据中心传输多版本推断模型给各个边缘计算节点,需要经由骨干网络、核心交换机再由回程线路。相比于骨干网络和核心交换机,回程线路的带宽更为稀缺,因此这里以回程线路的带宽作为传输疏散的限制;各边缘计算节点的资源上限可是资源的最小集合的倍数,这里的最小资源集合可以是1CPU加1G内存,同样对于多版本推断模型而言,不同版本推断模型的资源占用消耗也可以是该最小集合的倍数;各边缘计算节点所管辖范围内的用户可以是连接该边缘计算设备的移动设备、笔记本电脑等,且一个用户可以发送多个推断类请求。
该系统中控制节点与各边缘计算节点进行周期性地交互,在无法准确获知未来用户实际推断请求数量时,通过结合每次部署后刻推断类模型部署的效果反馈,指导在线调度模块为各边缘节点进行周期性地多版本模型实例数目调整,达到在边缘环境中最大化用户推断精度的效果。其过程如下:
(S1)在每一时隙(该时隙长度作为系统配置固定)开始,控制节点将最新的多版本推断类模型部署决策(该决策最开始可为任意可行的决策,并在不断周取性的交互中被更新调整)下发至各边缘计算节点,该决策包括各边缘计算节点开启各版本推断类模型实例的数目以及在边缘节点间进行用户推断类请求疏散的请求数目;
(S2)在各边缘计算节点间,按照控制节点决定的边缘计算节点间的疏散请求数量,利用回程线路进行用户推断请求的疏散,被疏散到某一边缘计算节点的用户推断请求将会排至该边缘计算节点待处理用户请求队列的末尾;
(S3)如果任意边缘计算节点需要开启上一时刻未被使用过的某一版本推断模型实例,或者该推断模型在数据中心的训练中有了更新,该边缘计算节点就需要从数据中心经由骨干网络和回程线路进行下载;
(S4)各边缘计算节点初始化该时隙内的推断环境,依照控制节点的多版本推断模型实例数目进行各实例的构建和启动,也就是,在无法准确获知未来用户实际推断请求数量前就进行各版本模型实例的部署;
(S5)在时隙内,用开启的多版本推断类模型实例不断从待处理用户推断请求队列中获取推断类请求,并进行推断响应,不断记录响应各用户请求的精度;
(S6)在时隙内,任何边缘计算节点管辖范围内不断到达的用户推断请求将会不断被加至该边缘计算节点待处理用户推断请求队列的末尾,供该边缘计算节点上多版本推断模型实例获取和响应推断,并不断记录该时隙内到达该边缘计算节点的用户推断请求数量;
(S7)在时隙结束时,将各边缘计算节点上到达用户的推断请求数量和待处理推断请求队列长度发送给控制节点;
(S8)控制节点获取该时刻数据中心中最新的已训练好的多版本推断类模型信息,包括多版本模型的推断精度、服务用户请求的能力以及推断所需的资源消耗;
(S9)控制节点通过构建以最大化用户响应精度为目标的优化问题,以该时隙内多版本推断类模型实例部署的信息反馈,进行多版本推断类模型实例部署的更新和调整,得到新的多版本推断模型实例数目部署。
具体而言,控制节点调度的总体目标是为了在一段时间内(
Figure GDA0003068785900000081
个时隙),在受限于边缘计算节点资源和边缘网络带宽下,达到用户推断损失最小化的效果(即推断精度最大化),建立的优化问题如下:
优化目标:
Figure GDA0003068785900000082
约束条件:
1.1)对于每个边缘计算节点的待处理请求队列变化:
Figure GDA0003068785900000083
Figure GDA0003068785900000084
表示下一时刻队列是上一时刻队列中加进去要处理请求数量,减掉已处理的请求数量。由于是真实队列,如果能够处理的能力超过所有队列中的请求,那么队列就清空了;
1.2)对于每个边缘计算节点,都希望在调整周期内实现其待处理请求队列清空:
Figure GDA0003068785900000085
1.3)对于每时隙边缘计算节点间的请求疏散迁移:
Figure GDA0003068785900000086
表示对已到达的所有请求进行迁移决定;
1.4)对于数据传输、请求疏散的带宽限制:
Figure GDA0003068785900000087
Figure GDA0003068785900000088
1.5)对于多版本模型实例的开启:
Figure GDA0003068785900000089
1.6)对于边缘节点资源限制:
Figure GDA00030687859000000810
1.7)对于决策的定义域限制:
Figure GDA00030687859000000811
式中,xn,m,t为时隙t内边缘计算节点n上推断模型m的实例数目决策,am,t为该推断类模型的推断损失,该问题是最小化问题,如果是最大化问题则为推断精度,因为其实推断精度+推断损失=1;qn,t为时隙t内边缘计算节点n上的待处理用户推断请求数量,yn′,n,t为从边缘计算节点n′向边缘计算节点n疏散的用户请求数量,pm为模型m在一个时隙内可处理的用户推断类请求数量;[*]+指的是max{*,0},意为和0比较,取其中大的;rn,t为时隙t内边缘计算节点n上产生的用户推断类请求数量;zn,m,t为时隙t内边缘计算节点n上是否使用推断模型m实例的决策,它的获得是求解下面式(2)得到实数值,并圆整成为0或1,具体在下面有说明;sm为推断模型m的模型大小,τ为单个用户推断请求的大小,bn,t为时隙t内边缘计算节点n上的可用带宽;dm为推断模型m的进行推断所花费的资源消耗,cn为边缘计算节点n的计算资源上限;
Figure GDA0003068785900000091
表示自然数。
由于在调度时无法准确获知未来用户实际推断请求数量,将上述整体的优化问题(1)分解到每一个时隙,在每一个时隙结束的时候,实际求解如下优化问题:
优化目标:
Figure GDA0003068785900000092
约束条件:
Figure GDA0003068785900000093
式中,
Figure GDA0003068785900000094
是决策遍历所构成的向量,也就是决策变量{x,y,z}所构成的向量,且其定义域在对应的实数域
Figure GDA0003068785900000095
上,1.7是整数定义域,要松弛之后才是实数定义域
Figure GDA0003068785900000096
松弛的方式是
Figure GDA0003068785900000097
变为
Figure GDA0003068785900000098
{0,1}变为[0,1],符号上带波浪的为松弛后的变量。
Figure GDA0003068785900000099
都是决策,
Figure GDA00030687859000000910
每个变量都是列向量,T表示转置,具体地,
Figure GDA00030687859000000911
Figure GDA00030687859000000912
类似,只是
Figure GDA00030687859000000913
Figure GDA00030687859000000914
随着时间推移不断调整更新,
Figure GDA00030687859000000915
为时隙t的实数域决策,在线调度器在时隙t的结束需要决策时隙t+1的实数域决策
Figure GDA00030687859000000916
ft即为当刻时隙的优化目标;λt+1是在线调度其不断维护的参数向量,α是在线调度器设定的算法参数;gt为由各时隙t约束所构成的向量(决策变量要松弛),即包含问题(1)中的约束1.1)到1.5);h为需要满足的各计算节点上计算资源上限的约束函数(决策变量要松弛),即问题(1)中的约束1.6)。
该优化问题(2)的求解采用实数域上的凸优化求解技术即可完成。本实施例中借助于工具IPOPT进行求解。
其中维护的参数向量λt+1,其更新方式为
Figure GDA00030687859000000917
其中μ也是在线调度器设定的算法参数,λ的作用是把g各分量上的变化带进式(2)的优化问题,λ的更新通过约束向量的满足程度,将时隙t内多版本推断模型实例的部署作为反馈。
求解所得的实数域结果
Figure GDA00030687859000000918
在t+1时隙被应用部署的时候需要采用整形化手段,将实数域结果变为整数域结果It+1
整形化的方法具体为:首先将
Figure GDA0003068785900000101
中各维度的整数部分提取出来,形成
Figure GDA0003068785900000102
Figure GDA0003068785900000103
两个部分;接着,对
Figure GDA0003068785900000104
的部分进行随机化提升或者随机化降低,即有
Figure GDA0003068785900000105
的概率将
Figure GDA0003068785900000106
中的每一个维度提升
Figure GDA0003068785900000107
倍,并有
Figure GDA0003068785900000108
的概率将
Figure GDA0003068785900000109
中的每一个维度降低
Figure GDA00030687859000001010
倍,其中k为
Figure GDA00030687859000001011
中各个维度的和;最后对于随机化提升后的向量
Figure GDA00030687859000001012
不断对其中任意两个非0或1的元素a,b执行如下操作,取θ1=min{1-a,b},θ2=min{a,1-b},使得以
Figure GDA00030687859000001013
的概率让a成为a+θ1,让b成为b-θ1,同时以
Figure GDA00030687859000001014
的概率让a成为a-θ2,让b成为b+θ2。执行这样的操作直到
Figure GDA00030687859000001015
中的每个向量都是整数为止,整形化完成。
下面以一个边缘计算节点和两个版本推断模型A、B为例进行进一步地说明,在该例中,版本A模型比版本B模型花费多一倍的计算资源且得到的推断精度也高出一倍,但是A处理能力用户请求的能力比B弱一半:
(1)若当前的实数域多版本决策为<1.9,0.1>,经由随机化圆整的手段,得到这两个版本推断类模型的部署实例数目为<2,0>;
(2)为了便于理解,这里的边缘计算节点上无待处理的用户推断请求排队,也没有边缘间的推断请求疏散,而且这两个版本模型均先前已经下载到边缘计算节点上,没有被数据中心更新,因此无需从数据中心下载新的版本;
(3)在边缘计算节点上实际部署2个数目的A版本推断模型和0个B版本推断模型,并让其服务该时隙内到达的用户推断请求,但在部署时并不知晓该时隙内实际到达的用户推断请求数目;
(4)在该时隙内,用户的推断类请求超出2个A版本模型实例的处理能力,且超出其处理能力的一倍;
(5)在该时隙结束的时候,控制节点收集这两个版本模型实例部署的反馈,包括资源利用情况、用户请求数量、边缘队列请求以及已响应用户请求精度;
(6)为了不让用户的请求过多挤压,在线调度方法根据上述建立优化问题并求解的过程调整两个版本模型实例的决策(实数域上的)为<0.1,4.1>,意为更倾向于用更少资源花费的B模型实例替换A模型实例,且能够处理更多的用户推断请求;
(7)到下一时隙,对调度方法给出的决策<0.1,4.1>进行随机圆整出的结果可能为<0,4>;若后续用户请求到达的数目不断下降,那么在线调度方法可能不断调整两个版本模型实例数目为<1,2>,<2,0>,…这种在线调度方法同时将各个边缘计算节点的队列信息、资源使用信息、请求变化等总和考虑,希望能够在兼顾满足用户推断请求响应的情况下,在受限边缘环境中,最大化用户推断精度。
实验的效果如图2至图4所示,图2展示了在不断调整多版本推断模型实例数目过程中的资源消耗变化;图3展示了应用在线方法,用户的推断损失距离其最优之间的累积偏差(实验了不同的算法参数);图4展示了约束(特别是队列)的偏移累积量。图2曲线中的每一个点表示在该时间戳上的边缘计算节点进行推断的资源花费(按最大值归一化),这里的资源花费为所有边缘计算节点上各实例使用资源的总和。从图2可以看出,在时间戳50、150、250、350有明显用户请求增加的情况下,总体上的资源花费基本都在0.4以下,表明在边缘推断资源的使用上实现均衡化效果。图3曲线中的每一个点表示在该时间戳上,推断损失的累积偏差(按最大值归一化),即对于时刻k来说该点表示的是
Figure GDA0003068785900000111
其中
Figure GDA0003068785900000112
是使得ft最小的最优解;为了更清楚地显示效果,对时间戳前60的局部曲线进行放大,即图3中的子图,图中不同的参数指μ和α的取值,如0.5表示α=μ=0.5。从图3可以看出,多个参数下都能够使得推断损失的累积偏差平缓增长,意味着调度可以实现用户请求的推断损失偏差其最优损失不太大,也就意味着调度起到了最小化用户推断损失的效果。当参数值较小时,算法修正部署的步伐更为细致,平滑增长更为缓慢。图4曲线中的每一个点表示在该时间戳上,约束的累积偏差(非资源约束,反映的是队列的变化),即表示
Figure GDA0003068785900000113
从图4可以看出,队列约束的累积偏差增长缓慢上升(注,这里采用的是[]+,意味着即使上一时刻该偏差是100,且当刻队列为空,当刻的偏差仍不减,为100+0=100),意味着在最小化用户推断损失的同时,还能够使得队列的增长保持可控。
根据本发明的另一实施例,控制节点实施为一种边缘计算节点上推断模型的部署装置,包括:
部署效果获取模块,被配置为获取当前时隙内各边缘计算节点上的推断模型实例部署效果,包括边缘计算节点上到达的用户推断请求数量、待处理推断请求队列长度以及各已处理推断请求的响应精度;
推断模型获取模块,被配置为获取当前时隙最新的多版本推断模型信息,包括各版本模型的推断精度、服务用户请求的能力以及推断所需的资源消耗;
部署决策计算模块,被配置为根据当前时隙最新的多版本推断模型信息以及推断模型实例部署效果,构建以最大化用户响应精度为目标的优化问题并求解,将求解结果作为下一时隙多版本推断模型的部署决策,所述决策包括各边缘计算节点开启各版本推断类模型实例的数目以及在边缘节点间进行疏散的用户推断请求数目;
部署决策下发模块,被配置为在时隙开始时,将最新的多版本推断模型部署决策下发至边缘计算节点。
应理解,本发明实施例中的装置和系统可以实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实施例中的相关描述,此处不再赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,本发明中的控制节点与边缘计算节点的交互方式,收集反馈信息内容与在线调度方法在各系统中均适用,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (8)

1.一种边缘计算节点上推断模型的部署方法,其特征在于,所述方法包括:
在时隙开始时,将最新的多版本推断模型部署决策下发至各边缘计算节点;
获取当前时隙内各边缘计算节点上的推断模型实例部署效果,包括边缘计算节点上到达的用户推断请求数量和待处理推断请求队列长度;
获取当前时隙最新的多版本推断模型信息,包括各版本模型的推断精度、服务用户请求的能力以及推断所需的资源消耗;
根据当前时隙最新的多版本推断模型信息以及推断模型实例部署效果,构建以最小化用户推断损失为目标的优化问题并求解,将求解结果作为下一时隙多版本推断模型的部署决策,所述决策包括各边缘计算节点开启各版本推断类模型实例的数目以及在边缘节点间进行疏散的用户推断请求数目;
在下一时隙开始时,将所得的多版本推断模型部署决策下发至边缘计算节点;
其中所述优化问题如下:
优化目标:
Figure FDA0003068785890000011
约束条件:
1.1)对于每个边缘计算节点的待处理推断请求队列变化限制:
Figure FDA0003068785890000012
Figure FDA0003068785890000013
1.2)每个边缘计算节点的待处理推断请求队列被清空:
Figure FDA0003068785890000014
1.3)对于每时隙边缘计算节点间的请求疏散迁移限制:
Figure FDA0003068785890000015
1.4)对于数据传输和请求疏散的带宽限制:
Figure FDA0003068785890000016
Figure FDA0003068785890000017
1.5)对于多版本模型实例的开启限制:
Figure FDA0003068785890000018
1.6)对于边缘计算节点的资源限制:
Figure FDA0003068785890000019
1.7)对于决策的定义域限制:
Figure FDA00030687858900000110
式中,
Figure FDA00030687858900000111
表示时隙总数,xn,m,t为时隙t内边缘计算节点n上推断模型m的实例数目决策,am,t为推断模型m的推断损失;qb,r为时隙t内边缘计算节点n上的待处理用户推断请求数量,yn′,n,t为从边缘计算节点n′向边缘计算节点n疏散的用户推断请求数量,pm为推断模型m在一个时隙内可处理的用户推断请求数量;rn,t为时隙t内边缘计算节点n上产生的用户推断类请求数量;zn,m,t为时隙t内边缘计算节点n上是否使用推断模型m实例的决策,sm为推断模型m的模型大小,τ为单个用户推断请求的大小,bn,t为时隙t内边缘计算节点n上的可用带宽;dm为推断模型m进行推断所花费的资源消耗,cn为边缘计算节点n的计算资源上限。
2.根据权利要求1所述的推断模型的部署方法,其特征在于,对优化问题的求解包括:
将优化问题(1)分解到每一个时隙,在每一个时隙结束的时候,实际求解如下优化问题:
优化目标:
Figure FDA0003068785890000021
约束条件:
Figure FDA0003068785890000022
式中,
Figure FDA0003068785890000023
是决策变量所构成的向量,且其定义域在对应的实数域
Figure FDA0003068785890000024
上;
Figure FDA0003068785890000025
为时隙t的实数域决策,在时隙t的结束需要决策时隙t+1的实数域决策
Figure FDA0003068785890000026
ft为当前时隙的优化目标;λt+1是不断更新的参数向量,α是预设算法参数;gt为由各时隙t约束所构成的向量,包含问题(1)中的约束1.1)到1.5);h为需要满足的各边缘计算节点上计算资源上限的约束函数,包含约束1.6);
采用实数域上的凸优化求解技术对优化问题(2)进行求解,得到实数域结果
Figure FDA0003068785890000027
用于在t+1时隙被应用部署。
3.根据权利要求2所述的推断模型的部署方法,其特征在于,所述参数向量的更新通过约束向量的满足程度,将时隙t内多版本推断模型实例的部署作为反馈,其更新方式为:
Figure FDA0003068785890000028
其中μ为预设的调整参数。
4.根据权利要求2所述的推断模型的部署方法,其特征在于,所述实数域结果
Figure FDA0003068785890000029
在t+1时隙被应用部署时,先采用整形化的方法将实数域结果变为整数域结果。
5.根据权利要求4所述的推断模型的部署方法,其特征在于,所述整形化的方法包括:
Figure FDA0003068785890000031
中各维度的整数部分提取出来,形成
Figure FDA0003068785890000032
Figure FDA0003068785890000033
两个部分;
Figure FDA0003068785890000034
的部分进行随机化提升或者随机化降低,其中有
Figure FDA00030687858900000318
的概率将
Figure FDA0003068785890000035
中的每一个维度提升
Figure FDA0003068785890000036
倍,并有
Figure FDA00030687858900000317
的概率将
Figure FDA0003068785890000037
中的每一个维度降低
Figure FDA0003068785890000038
倍,其中k为
Figure FDA0003068785890000039
中各个维度的和;
对于随机化提升后的向量
Figure FDA00030687858900000310
不断对其中任意两个非0或1的元素a,b执行如下操作:取θ1=min{1-a,b},θ2=min{a,1-b},使得以
Figure FDA00030687858900000311
的概率让a成为a+θ1,让b成为b-θ1,同时以
Figure FDA00030687858900000312
的概率让a成为a-θ2,让b成为b+θ2
6.一种边缘计算节点上推断模型的部署装置,其特征在于,包括:
部署效果获取模块,被配置为获取当前时隙内各边缘计算节点上的推断模型实例部署效果,包括边缘计算节点上到达的用户推断请求数量和待处理推断请求队列长度;
推断模型获取模块,被配置为获取当前时隙最新的多版本推断模型信息,包括各版本模型的推断精度、服务用户请求的能力以及推断所需的资源消耗;
部署决策计算模块,被配置为根据当前时隙最新的多版本推断模型信息以及推断模型实例部署效果,构建以最小化用户推断损失为目标的优化问题并求解,将求解结果作为下一时隙多版本推断模型的部署决策,所述决策包括各边缘计算节点开启各版本推断类模型实例的数目以及在边缘节点间进行疏散的用户推断请求数目;
部署决策下发模块,被配置为在时隙开始时,将最新的多版本推断模型部署决策下发至边缘计算节点;
其中所述部署决策计算模块构建的优化问题如下:
优化目标:
Figure FDA00030687858900000313
约束条件:
1.1)对于每个边缘计算节点的待处理推断请求队列变化限制:
Figure FDA00030687858900000314
Figure FDA00030687858900000315
1.2)每个边缘计算节点的待处理推断请求队列被清空:
Figure FDA00030687858900000316
1.3)对于每时隙边缘计算节点间的请求疏散迁移限制:
Figure FDA0003068785890000041
1.4)对于数据传输和请求疏散的带宽限制:
Figure FDA0003068785890000042
Figure FDA0003068785890000043
1.5)对于多版本模型实例的开启限制:
Figure FDA0003068785890000044
1.6)对于边缘计算节点的资源限制:
Figure FDA0003068785890000045
1.7)对于决策的定义域限制:
Figure FDA0003068785890000046
式中,
Figure FDA0003068785890000047
表示时隙总数,xn,m,t为时隙t内边缘计算节点n上推断模型m的实例数目决策,am,t为推断模型m的推断损失;qn,t为时隙t内边缘计算节点n上的待处理用户推断请求数量,yn′,n,t为从边缘计算节点n′向边缘计算节点n疏散的用户推断请求数量,pm为推断模型m在一个时隙内可处理的用户推断请求数量;rn,t为时隙t内边缘计算节点n上产生的用户推断类请求数量;zn,m,t为时隙t内边缘计算节点n上是否使用推断模型m实例的决策,sm为推断模型m的模型大小,τ为单个用户推断请求的大小,bn,t为时隙t内边缘计算节点n上的可用带宽;dm为推断模型m进行推断所花费的资源消耗,cn为边缘计算节点n的计算资源上限。
7.根据权利要求6所述的边缘计算节点上推断模型的部署装置,其特征在于,所述部署决策计算模块对所述优化问题的求解包括:
将优化问题(1)分解到每一个时隙,在每一个时隙结束的时候,实际求解如下优化问题:
优化目标:
Figure FDA0003068785890000048
约束条件:
Figure FDA0003068785890000049
式中,
Figure FDA00030687858900000410
是决策变量所构成的向量,且其定义域在对应的实数域
Figure FDA00030687858900000411
上;
Figure FDA00030687858900000412
为时隙t的实数域决策,在时隙t的结束需要决策时隙t+1的实数域决策
Figure FDA00030687858900000413
ft为当前时隙的优化目标;λt+1是不断更新的参数向量,α是预设算法参数;gt为由各时隙t约束所构成的向量,包含问题(1)中的约束1.1)到1.5);h为需要满足的各边缘计算节点上计算资源上限的约束函数,包含约束1.6);
采用实数域上的凸优化求解技术对优化问题(2)进行求解,得到实数域结果
Figure FDA0003068785890000051
用于在t+1时隙被应用部署。
8.一种边缘计算环境下多版本推断模型部署系统,其特征在于,包括:一控制节点和若干边缘计算节点,所述控制节点与边缘计算节点、以及各边缘计算节点之间经由网络互连,所述控制节点采用如权利要求1-5中的任一项所述的推断模型部署方法实现对各边缘计算节点的推断模型部署,或者所述控制节点实施为如权利要求6-7中的任一项所述的推断模型部署装置,所述边缘计算节点根据所述控制节点下发的多版本推断模型决策周期性地调整各自推断模型实例数目。
CN202010439585.2A 2020-05-22 2020-05-22 边缘计算环境下多版本推断模型部署方法、装置和系统 Active CN111459505B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010439585.2A CN111459505B (zh) 2020-05-22 2020-05-22 边缘计算环境下多版本推断模型部署方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010439585.2A CN111459505B (zh) 2020-05-22 2020-05-22 边缘计算环境下多版本推断模型部署方法、装置和系统

Publications (2)

Publication Number Publication Date
CN111459505A CN111459505A (zh) 2020-07-28
CN111459505B true CN111459505B (zh) 2021-06-25

Family

ID=71685392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010439585.2A Active CN111459505B (zh) 2020-05-22 2020-05-22 边缘计算环境下多版本推断模型部署方法、装置和系统

Country Status (1)

Country Link
CN (1) CN111459505B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114599055B (zh) * 2020-12-04 2023-05-19 中国科学院深圳先进技术研究院 一种边缘计算下神经网络推理的节能方法
CN112995287B (zh) * 2021-02-04 2022-09-13 中国科学院计算技术研究所 一种面向边缘计算的关键词检测任务调度方法
CN112506673B (zh) * 2021-02-04 2021-06-08 国网江苏省电力有限公司信息通信分公司 面向智能边缘计算的协同模型训练任务配置方法
CN113364626B (zh) * 2021-06-08 2022-09-30 国网江苏省电力有限公司 面向边缘环境的视频分析应用的服务放置与带宽分配方法
CN114124732B (zh) * 2021-11-29 2022-11-25 南京大学 一种面向云的带内计算部署方法、装置和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108234603A (zh) * 2017-12-12 2018-06-29 华南理工大学 一种基于定价的边缘计算资源分配方法及系统
CN109905470A (zh) * 2019-02-18 2019-06-18 南京邮电大学 一种基于边缘网关系统的开销优化任务调度方法
CN111132348A (zh) * 2019-12-30 2020-05-08 南方科技大学 移动边缘计算的资源调度方法及移动边缘计算系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10616465B2 (en) * 2015-09-16 2020-04-07 Microsoft Technology Licensing, Llc Bandwidth efficient video surveillance system
CN110113195B (zh) * 2019-04-26 2021-03-30 山西大学 一种移动边缘计算系统中联合卸载判决和资源分配的方法
CN110351760B (zh) * 2019-07-19 2022-06-03 重庆邮电大学 一种移动边缘计算系统动态任务卸载及资源分配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108234603A (zh) * 2017-12-12 2018-06-29 华南理工大学 一种基于定价的边缘计算资源分配方法及系统
CN109905470A (zh) * 2019-02-18 2019-06-18 南京邮电大学 一种基于边缘网关系统的开销优化任务调度方法
CN111132348A (zh) * 2019-12-30 2020-05-08 南方科技大学 移动边缘计算的资源调度方法及移动边缘计算系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Edge Cloud Capacity Allocation for Low Delay Computing on Mobile Devices;Can Wang等;《2017 IEEE International Symposium on Parallel and Distributed Processing with Applications and 2017 IEEE International Conference on Ubiquitous Computing and Communications》;20171215;全文 *
基于移动边缘计算的物联网资源管理策略研究;乔冠华;《中国博士学位论文全文数据库信息科技辑》;20190115;全文 *

Also Published As

Publication number Publication date
CN111459505A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111459505B (zh) 边缘计算环境下多版本推断模型部署方法、装置和系统
CN111756812B (zh) 一种能耗感知的边云协同动态卸载调度方法
CN113573324B (zh) 工业物联网中协作式任务卸载和资源分配的联合优化方法
CN114285853B (zh) 设备密集型工业物联网中基于端边云协同的任务卸载方法
CN111124689A (zh) 一种集群中容器资源动态分配方法
CN113225377A (zh) 物联网边缘任务卸载方法及装置
CN113032904A (zh) 模型构建方法、任务分配方法、装置、设备及介质
CN113568727A (zh) 一种基于深度强化学习的移动边缘计算任务分配方法
CN112287990A (zh) 一种基于在线学习的边云协同支持向量机的模型优化方法
CN112732444A (zh) 一种面向分布式机器学习的数据划分方法
Xiong et al. Index-aware reinforcement learning for adaptive video streaming at the wireless edge
CN113590279A (zh) 一种面向多核边缘计算服务器的任务调度和资源分配方法
CN115408072A (zh) 基于深度强化学习的快速适应模型构建方法及相关装置
CN112817741A (zh) 一种边缘计算的dnn任务控制方法
CN110378464A (zh) 人工智能平台的配置参数的管理方法和装置
CN115115064B (zh) 一种半异步联邦学习方法及系统
CN115345306A (zh) 深度神经网络调度方法及调度器
CN109670579A (zh) 模型生成方法和装置
CN115220818A (zh) 基于深度强化学习的实时依赖型任务卸载方法
CN111309460B (zh) 一种移动边缘计算场景下智能移动设备的任务处理方法
CN112822264A (zh) 一种dnn任务卸载的方法
CN114520772B (zh) 一种5g切片资源调度方法
CN117835327A (zh) 移动边缘计算中基于Actor-Critic深度强化学习的任务调度方法
CN116048820B (zh) 面向边缘云的dnn推断模型部署能耗优化方法和系统
CN117479306B (zh) 一种数字孪生的数据处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant