CN113315669B - 基于云边协同的吞吐量优化的机器学习推断任务部署方法 - Google Patents

基于云边协同的吞吐量优化的机器学习推断任务部署方法 Download PDF

Info

Publication number
CN113315669B
CN113315669B CN202110854407.0A CN202110854407A CN113315669B CN 113315669 B CN113315669 B CN 113315669B CN 202110854407 A CN202110854407 A CN 202110854407A CN 113315669 B CN113315669 B CN 113315669B
Authority
CN
China
Prior art keywords
stage
inference
model
cloud
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110854407.0A
Other languages
English (en)
Other versions
CN113315669A (zh
Inventor
吴鹏
李辉
杨定坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Electric Power Information Technology Co Ltd
Original Assignee
Jiangsu Electric Power Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Electric Power Information Technology Co Ltd filed Critical Jiangsu Electric Power Information Technology Co Ltd
Priority to CN202110854407.0A priority Critical patent/CN113315669B/zh
Publication of CN113315669A publication Critical patent/CN113315669A/zh
Application granted granted Critical
Publication of CN113315669B publication Critical patent/CN113315669B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • H04L41/083Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability for increasing network speed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Neurology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于云边协同的吞吐量优化的机器学习推断任务部署方法,包括:建立云边协同场景下的机器学习推断任务部署模型,当前阶段的计算时延与阶段之间的数据传输时延,进而建立吞吐量最优化的推断任务部署优化问题,基于动态规划思想设计高效的部署策略,以获得最优的部署方案。本发明基于云边协同场景,将推断任务划分为串行阶段,采用流水线并行处理推断任务,以优化推断任务的吞吐量。

Description

基于云边协同的吞吐量优化的机器学习推断任务部署方法
技术领域
本发明涉及分布式计算和任务调度领域,具体涉及一种基于云边协同的吞吐量优化的机器学习推断任务部署方法。
背景技术
随着智能设备的快速发展,智能服务需求激增,越来越多的智能设备接入网络,以处理海量生成的流式传感器数据。然而,当前运行于终端设备的机器学习系统面临以下三个问题:第一,智能设备到云的连接以及移动数据流量激增,据思科预测,到2022年将有超过120亿台智能设备接入网络服务。因此,将原始传感器数据,例如监控摄像头的视频,发送到远程云端可能会使回程网络拥塞,进而导致吞吐量降低和响应时间过长问题,同时存在泄露用户隐私的风险;第二,神经网络结构与参数规模呈现指数增长趋势,这使得单一的计算节点可能无法满足时延敏感的推断任务的计算需求;第三,边缘设备的计算、内存资源受限,通常只能运行轻量级的机器学习模型,如支持向量机、浅层神经网络模型,这会降低系统的准确度,同时影响用户体验。
机器学习推断加速领域主要关注准确度和响应时间的权衡,边缘计算领域的计算卸载研究强调是否将任务卸载到云端,通过降低计算时间来实现更低的响应时间。因此,最优化部署以最大化机器学习推断任务的吞吐量仍然未被研究。
为解决上述提到的问题,提高推断任务的吞吐量,以适应终端数据流式生成的场景。考虑基于云边协同的分布式计算方式,利用深度神经网络的层次化结构构建多层计算单元,以进行位置相关的计算,同时充分利用云边系统中的异构计算资源,在缓解回程网络带宽负载的同时,优化推断任务的吞吐量与响应时间。此外,将深度神经网络划分为多个阶段,每个阶段包含若干连续层,采用流水线并行的方式,在不同计算单元并行计算,有助于在地理位置上扩展机器学习模型。然而,朴素的模型划分方式可能导致两个问题:第一,模型不同阶段之间传输的数据量过大,在级层式移动网络环境中可能导致显著的数据传输时延;第二,云边协同系统中计算设备资源异构,若将计算量较大的阶段部署在计算容量较低的设备上,该阶段漫长的计算时延将成为流水线并行处理的吞吐量瓶颈。
因此,本发明尝试探索与处理时延相关的模型划分与部署方法,找出最优的模型部署方案,以优化推断任务对流式数据处理的吞吐量。在建立推断任务部署模型时,考虑输入数据传输时延、阶段的计算时延、阶段之间的数据传输时延以及不同阶段对应计算节点的计算容量与数据传输带宽,以最小化最大阶段处理时延为目标,建立整数非线性规划问题,通过设计高效的动态规划算法,确定最优的模型部署方案,进而优化推断任务的吞吐量。
发明内容
本发明的目的在于提供一种基于云边协同的吞吐量优化的机器学习推断任务部署方法,充分考虑深度神经网络按层划分的计算需求、云边协同下异构的计算资源与带宽资源,在云边协同场景下,对具有层次结构的深度神经网络进行最优划分,以优化机器学习推断任务的吞吐量。
本发明的目的通过以下技术方案实现:
一种基于云边协同的吞吐量优化的机器学习推断任务部署方法,其特征在于该方法包括:
1)移动终端触发智能服务请求,请求通过广域网或专线发送到基站;
2)通过将推断模型划分为多个阶段,对不同阶段的处理时延建模;
假设深层推理模型包含
Figure 298681DEST_PATH_IMAGE001
个计算层,划分为
Figure 683526DEST_PATH_IMAGE002
个串行阶段,推断模型的第
Figure 607620DEST_PATH_IMAGE003
个计算层的计算量为
Figure 241864DEST_PATH_IMAGE004
,第
Figure 276816DEST_PATH_IMAGE003
个计算层与第
Figure 784676DEST_PATH_IMAGE005
个计算层之间传输的数据量大小为
Figure 879671DEST_PATH_IMAGE006
,第
Figure 735632DEST_PATH_IMAGE007
阶段对应的计算节点的计算容量为
Figure 574275DEST_PATH_IMAGE008
,第
Figure 199291DEST_PATH_IMAGE009
阶段与第
Figure 730767DEST_PATH_IMAGE007
阶段之间的数据传输带宽为
Figure 808444DEST_PATH_IMAGE010
基于所述
Figure 450778DEST_PATH_IMAGE004
Figure 930301DEST_PATH_IMAGE008
以及连续划分约束,计算出阶段
Figure 632678DEST_PATH_IMAGE007
的计算时延
Figure 197651DEST_PATH_IMAGE011
,基于所述阶段划分方式、
Figure 378097DEST_PATH_IMAGE006
Figure 243285DEST_PATH_IMAGE010
计算出阶段
Figure 116563DEST_PATH_IMAGE009
与阶段
Figure 903253DEST_PATH_IMAGE007
的数据传输时延
Figure 887390DEST_PATH_IMAGE012
基于所述阶段
Figure 607084DEST_PATH_IMAGE007
的计算时延
Figure 385684DEST_PATH_IMAGE011
以及阶段
Figure 925250DEST_PATH_IMAGE009
和阶段
Figure 447498DEST_PATH_IMAGE007
的数据传输时延
Figure 21699DEST_PATH_IMAGE012
,计算出阶段
Figure 968271DEST_PATH_IMAGE007
的处理时延
Figure 260712DEST_PATH_IMAGE013
3)确定最优的推断模型部署方案,进而优化流水线并行的吞吐量;
基于所述推断任务的不同划分阶段的处理时延,以最小化最大阶段处理时延为目标,建立推断任务部署模型;
对所述基于云边协同的推断任务部署模型进行求解,得到最优的模型部署方案。
本发明中,所述云边包括移动终端、基站、边缘计算服务器以及云数据中心服务器,所述机器学习推断任务包括具有层次化结构的深层推理模型,如深度卷积神经网络、多层感知机模型,所述移动终端通过无线网络与所述基站相连,所述基站通过广域网或专线与所述云数据中心服务器、边缘服务器相连。
所述推断任务的输入数据传输时延
Figure 321072DEST_PATH_IMAGE014
,二进制变量
Figure 15358DEST_PATH_IMAGE015
表示推断模型第
Figure 135761DEST_PATH_IMAGE003
层是否被划分到第
Figure 384340DEST_PATH_IMAGE007
个阶段,阶段
Figure 513970DEST_PATH_IMAGE007
的计算时延
Figure 797183DEST_PATH_IMAGE016
,阶段
Figure 88488DEST_PATH_IMAGE009
与阶段
Figure 89942DEST_PATH_IMAGE007
的数据传输时延
Figure 757683DEST_PATH_IMAGE017
,其中
Figure 160983DEST_PATH_IMAGE018
等同于
Figure 623188DEST_PATH_IMAGE019
,阶段
Figure 846359DEST_PATH_IMAGE007
的总处理时延
Figure 583371DEST_PATH_IMAGE020
所述推断任务的吞吐量优化问题的形式化描述为:
Figure 575598DEST_PATH_IMAGE021
约束条件包括:
Figure 474284DEST_PATH_IMAGE022
其中二进制变量
Figure 184751DEST_PATH_IMAGE015
表示推断模型的第
Figure 194295DEST_PATH_IMAGE003
层是否被划分到第
Figure 306607DEST_PATH_IMAGE007
个阶段,具体地
Figure 367406DEST_PATH_IMAGE023
表示将推断模型的第
Figure 299589DEST_PATH_IMAGE003
层划分到第
Figure 378404DEST_PATH_IMAGE007
个阶段,
Figure 79644DEST_PATH_IMAGE024
表示推断模型的第
Figure 320132DEST_PATH_IMAGE003
层未被划分到第
Figure 5191DEST_PATH_IMAGE007
个阶段;约束条件
Figure 356538DEST_PATH_IMAGE025
Figure 177864DEST_PATH_IMAGE026
保证划分约束,即每个计算层只能被划分到一个阶段,约束条件
Figure 854833DEST_PATH_IMAGE027
表示连续划分约束,即推断模型前向计算靠前的计算层所归属的阶段一定早于前向计算靠后的计算层所归属的阶段。
Figure 761609DEST_PATH_IMAGE012
中存在非线性项
Figure 916647DEST_PATH_IMAGE028
,且该优化问题为NP难问题;通过高效的动态规划算法,遍历状态空间中的所有可行解,得到最优的模型部署方案;令
Figure 858058DEST_PATH_IMAGE029
表示将计算层
Figure 440349DEST_PATH_IMAGE030
切分为阶段
Figure 834421DEST_PATH_IMAGE031
时,阶段处理时延最大的最小值;具体地,
Figure 793150DEST_PATH_IMAGE029
表示为:
Figure 589068DEST_PATH_IMAGE032
其中
Figure 76681DEST_PATH_IMAGE033
表示计算层
Figure 223628DEST_PATH_IMAGE034
处于第
Figure 720469DEST_PATH_IMAGE007
阶段时的处理时延,具体包括第
Figure 633542DEST_PATH_IMAGE007
阶段的计算时延,以及第
Figure 557636DEST_PATH_IMAGE009
阶段与第
Figure 926301DEST_PATH_IMAGE007
阶段的数据传输时延,
Figure 961253DEST_PATH_IMAGE033
的计算公式为:
Figure 997342DEST_PATH_IMAGE035
由状态空间可知,动态规划算法的时间复杂度为
Figure 92337DEST_PATH_IMAGE036
,其中
Figure 948297DEST_PATH_IMAGE002
为划分的阶段数,
Figure 786940DEST_PATH_IMAGE001
为推断模型的层数。
本发明对推断任务的部署问题进行建模,对推断模型不同阶段的处理时延建模时,本发明考虑阶段的计算需求、计算节点的资源容量、阶段之间的数据传输量以及计算节点之间的数据传输带宽,进而量化阶段的计算时延以及阶段之间的数据传输时延。
本发明的有益效果是:
充分考虑深度神经网络按层划分的计算需求、云边协同下异构的计算资源与带宽资源,基于云边协同场景,对具有层次结构的深度神经网络进行最优划分,将推断任务划分为串行阶段,采用流水线并行处理推断任务,以优化推断任务的吞吐量。
附图说明
图1是本发明实例提供的深度学习推断任务云边部署架构示意图;
图2是本发明实例提供的深度学习推断任务云边部署流程图。
具体实施方式
下面结合附图和实施例对本发明做进一步的详细说明,但应当理解,以下具体实施例的描述仅是为了使本领域技术人员更清楚地理解技术方案,而不是对本发明的限定。
图1示出了实施例提供的云边协同场景下机器学习推断任务的部署架构图,该架构图包括移动终端、基站、边缘服务器和云数据中心服务器。机器学习推断任务部署过程可简化为:移动终端将智能服务请求发送到附近的基站,基站根据模型划分策略确定最优的模型部署方案,采用流水线并行的方式,在不同计算节点串行执行推断模型的不同阶段。
一种基于云边协同的吞吐量优化的机器学习推断任务部署方法,包括:
1)移动终端触发智能服务请求,请求通过广域网或专线发送到基站;
2)通过将推断模型划分为多个阶段,对不同阶段的处理时延建模;
3)确定最优的推断模型部署方案,进而优化流水线并行的吞吐量。
具体地,参照图2,本发明基于云边协同场景,优化机器学习推断任务的吞吐量,确定最优的模型部署方案,具体包括以下步骤:
步骤1:建立云边协同场景下机器学习推断任务部署模型,主要考虑将推断模型划分为多个串行阶段,考虑每个阶段的计算时延与阶段之间的数据传输时延。具体地,假设深层推理模型包含
Figure 411957DEST_PATH_IMAGE001
个计算层,划分为
Figure 943432DEST_PATH_IMAGE002
个串行阶段,推断模型的第
Figure 21110DEST_PATH_IMAGE003
个计算层的计算量为
Figure 397864DEST_PATH_IMAGE004
,第
Figure 142966DEST_PATH_IMAGE003
个计算层与第
Figure 579764DEST_PATH_IMAGE005
个计算层之间传输的数据量大小为
Figure 144738DEST_PATH_IMAGE006
,第
Figure 590762DEST_PATH_IMAGE007
个阶段对应的计算节点的计算容量为
Figure 924792DEST_PATH_IMAGE008
,第
Figure 798070DEST_PATH_IMAGE009
个阶段与第
Figure 850339DEST_PATH_IMAGE007
个阶段之间的数据传输带宽为
Figure 834476DEST_PATH_IMAGE010
基于所述
Figure 291521DEST_PATH_IMAGE004
Figure 70121DEST_PATH_IMAGE008
以及连续划分约束,计算出阶段
Figure 875266DEST_PATH_IMAGE007
的计算时延
Figure 397514DEST_PATH_IMAGE016
,基于所述阶段划分方式、
Figure 971715DEST_PATH_IMAGE006
Figure 921216DEST_PATH_IMAGE010
计算出阶段
Figure 213657DEST_PATH_IMAGE009
与阶段
Figure 274017DEST_PATH_IMAGE007
的数据传输时延
Figure 437145DEST_PATH_IMAGE017
基于所述阶段
Figure 823127DEST_PATH_IMAGE007
的计算时延
Figure 337285DEST_PATH_IMAGE011
以及阶段
Figure 201336DEST_PATH_IMAGE009
和阶段
Figure 484550DEST_PATH_IMAGE007
的数据传输时延
Figure 775854DEST_PATH_IMAGE012
,计算出阶段
Figure 777308DEST_PATH_IMAGE007
的处理时延
Figure 445050DEST_PATH_IMAGE020
步骤2:针对步骤1对机器学习推断任务的形式化描述,以最小化最大阶段处理时延为目标,建立吞吐量最优化的推断任务部署优化问题,采用动态规划策略获得最优的模型部署方案。其特征在于,所述机器学习推断任务部署优化问题可表示为:
Figure 582770DEST_PATH_IMAGE021
约束条件包括:
Figure 310555DEST_PATH_IMAGE022
其中二进制变量
Figure 533726DEST_PATH_IMAGE015
表示推断模型的第
Figure 5158DEST_PATH_IMAGE003
层是否被划分到第
Figure 994455DEST_PATH_IMAGE007
个阶段,具体地
Figure 893141DEST_PATH_IMAGE023
表示将推断模型的第
Figure 869187DEST_PATH_IMAGE003
层划分到第
Figure 613153DEST_PATH_IMAGE007
个阶段,
Figure 991044DEST_PATH_IMAGE024
表示推断模型的第
Figure 795052DEST_PATH_IMAGE003
层未被划分到第
Figure 258395DEST_PATH_IMAGE007
个阶段。约束条件
Figure 806051DEST_PATH_IMAGE025
Figure 772870DEST_PATH_IMAGE026
保证划分约束,即每个卷积层只能被划分到一个阶段,约束条件
Figure 278937DEST_PATH_IMAGE027
表示连续划分约束,即推断模型前向计算靠前的计算层所归属的阶段一定早于前向计算靠后的计算层所归属的阶段。
步骤3:根据步骤2所建立的吞吐量优化问题,所述问题为最大最小整数非线性规划问题,具体地,
Figure 698417DEST_PATH_IMAGE012
中存在非线性项
Figure 49764DEST_PATH_IMAGE028
,且该优化问题为NP难问题。通过高效的动态规划算法,遍历状态空间中的所有可行解,得到最优的模型部署方案。令
Figure 136669DEST_PATH_IMAGE029
表示将计算层
Figure 548059DEST_PATH_IMAGE030
切分为阶段
Figure 720414DEST_PATH_IMAGE031
时,阶段处理时延最大的最小值。具体地,
Figure 609873DEST_PATH_IMAGE029
表示为:
Figure 551284DEST_PATH_IMAGE032
其中
Figure 133575DEST_PATH_IMAGE033
表示计算层
Figure 793226DEST_PATH_IMAGE034
处于第
Figure 501024DEST_PATH_IMAGE007
阶段时的处理时延,具体包括第
Figure 31363DEST_PATH_IMAGE007
阶段的计算时延,以及第
Figure 784555DEST_PATH_IMAGE009
阶段与第
Figure 931503DEST_PATH_IMAGE007
阶段之间的数据传输时延,
Figure 428343DEST_PATH_IMAGE033
的计算公式为:
Figure 344346DEST_PATH_IMAGE035
由状态空间可知,动态规划算法的时间复杂度为
Figure 2861DEST_PATH_IMAGE036
,其中
Figure 371525DEST_PATH_IMAGE002
为划分的阶段数,
Figure 672057DEST_PATH_IMAGE001
为推断模型的层数。
为了对比不同方法的性能,进行了详尽的模拟实验。模拟实验采用具有5种不同级别的层次网络,其中
Figure 442567DEST_PATH_IMAGE038
。实验通过改变平均可用带宽容量来评估任务完成时间、最大阶段计算时间以及计算容量利用率,其中计算容量利用率表示为平均阶段计算时间与最大阶段计算时间的比值。对比的基准算法为只在边缘运行(Only-Edge)、只在云端运行(Only-Cloud)以及本文提出的云边结合最优划分部署算法(Cloud-Edge)。
分别比较了三种不同模型部署方法在不同可用带宽容量下的归一化完成时间、归一化最大阶段计算时间以及计算容量利用率。当可用带宽容量上升时,云边协同与云计算的完成时间与最大阶段计算时间相比于仅使用边缘设备的部署方法均有所降低,但是Only-Cloud的最大阶段处理时间随着带宽容量的上升没有显著降低,这是因为最大阶段处理时间受限于云端单个计算节点的计算资源,而非传输带宽。
此外,当带宽资源变得充足时,Cloud-Edge方法相对比Only-Edge和Only-Cloud能更好地利用资源,这是因为高速带宽传输降低了降低了数据传输时延,同时将更多的计算任务卸载到计算资源更丰富的云端。
本发明基于云边协同场景,针对大型神经网络模型,提出新的最优化模型切分与部署算法,以最大化机器学习系统的吞吐量。首先形式化云边协同场景下的模型切分问题,设计高效的动态规划算法,使用流水线并行的方式,通过最小化最大阶段处理时间来最大化在线并行处理的吞吐量。模拟实验结果表明,本发明提出的模型切分与部署算法优于传统的机器学习部署方法。
本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出以上实施列对本发明不构成限定,本领域相关技术人员在不偏离本发明技术思想的范围内,所进行的多样变化和修改,均落在本发明的保护范围内。

Claims (4)

1.一种基于云边协同的吞吐量优化的机器学习推断任务部署方法,其特征在于该方法包括:
1)移动终端触发智能服务请求,请求通过广域网或专线发送到基站;
2)通过将推断模型划分为多个阶段,对不同阶段的处理时延建模;
假设深层推理模型包含m个计算层,划分为n个串行阶段,推断模型的第j个计算层的计算量为cj,第j个计算层与第j+1个计算层之间传输的数据量大小为bj,第i阶段对应的计算节点的计算容量为Ci,第i-1阶段与第i阶段之间的数据传输带宽为Bi
基于所述cj和Ci以及连续划分约束,计算出阶段i的计算时延
Figure FDA0003247637960000011
基于所述阶段划分方式、bj和Bi计算出阶段i-1与阶段i的数据传输时延
Figure FDA0003247637960000012
基于所述阶段i的计算时延
Figure FDA0003247637960000013
以及阶段i-1和阶段i的数据传输时延
Figure FDA0003247637960000014
计算出阶段i的处理时延ti
3)确定最优的推断模型部署方案,进而优化流水线并行的吞吐量;
基于所述推断任务的不同划分阶段的处理时延,以最小化最大阶段处理时延为目标,建立推断任务部署模型;
对所述基于云边协同的推断任务部署模型进行求解,得到最优的模型部署方案;
所述推断任务的输入数据传输时延t0,二进制变量xi,j表示推断模型第j层是否被划分到第i个阶段,阶段i的计算时延
Figure FDA0003247637960000015
阶段i-1与阶段i的数据传输时延
Figure FDA0003247637960000016
其中[x]+等同于max(x,0),阶段i的总处理时延
Figure FDA0003247637960000017
2.根据权利要求1所述的基于云边协同的吞吐量优化的机器学习推断任务部署方法,其特征在于:所述推断任务的吞吐量优化问题的形式化描述为:
Figure FDA0003247637960000018
约束条件包括:
Figure FDA0003247637960000019
Figure FDA00032476379600000110
Figure 1
其中二进制变量xi,j表示推断模型的第j层是否被划分到第i个阶段,具体地xi,j=1表示将推断模型的第j层划分到第i个阶段,xi,j=0表示推断模型的第j层未被划分到第i个阶段;约束条件C1和C2保证划分约束,即每个计算层只能被划分到一个阶段,约束条件C3表示连续划分约束,即推断模型前向计算靠前的计算层所归属的阶段一定早于前向计算靠后的计算层所归属的阶段。
3.根据权利要求2所述的基于云边协同的吞吐量优化的机器学习推断任务部署方法,其特征在于:
Figure FDA0003247637960000023
中存在非线性项[xi,j+1-xi,j]+,且该优化问题为NP难问题;通过高效的动态规划算法,遍历状态空间中的所有可行解,得到最优的模型部署方案;令T(i,j)表示将计算层1,...,j切分为阶段1,...,i时,阶段处理时延最大的最小值;具体地,T(i,j)表示为:
Figure FDA0003247637960000021
其中D([j1,j2],i)表示计算层j1,...,j2处于第i阶段时的处理时延,具体包括第i阶段的计算时延,以及第i-1阶段与第i阶段的数据传输时延,D([j1,j2],i)的计算公式为:
Figure FDA0003247637960000022
由状态空间可知,动态规划算法的时间复杂度为O(nm2),其中n为划分的阶段数,m为推断模型的层数。
4.根据权利要求1所述的基于云边协同的吞吐量优化的机器学习推断任务部署方法,其特征在于:所述云边包括移动终端、基站、边缘计算服务器以及云数据中心服务器,所述机器学习推断任务包括具有层次化结构的深层推理模型,所述移动终端通过无线网络与所述基站相连,所述基站通过广域网或专线与所述云数据中心服务器、边缘服务器相连。
CN202110854407.0A 2021-07-28 2021-07-28 基于云边协同的吞吐量优化的机器学习推断任务部署方法 Active CN113315669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110854407.0A CN113315669B (zh) 2021-07-28 2021-07-28 基于云边协同的吞吐量优化的机器学习推断任务部署方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110854407.0A CN113315669B (zh) 2021-07-28 2021-07-28 基于云边协同的吞吐量优化的机器学习推断任务部署方法

Publications (2)

Publication Number Publication Date
CN113315669A CN113315669A (zh) 2021-08-27
CN113315669B true CN113315669B (zh) 2021-10-15

Family

ID=77381847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110854407.0A Active CN113315669B (zh) 2021-07-28 2021-07-28 基于云边协同的吞吐量优化的机器学习推断任务部署方法

Country Status (1)

Country Link
CN (1) CN113315669B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064280B (zh) * 2021-11-20 2024-08-02 东南大学 一种多约束下的端边协同推断方法
WO2024045175A1 (en) * 2022-09-02 2024-03-07 Intel Corporation Optimization of executable graph for artificial intelligence model inference
CN116166341A (zh) * 2023-04-25 2023-05-26 中国人民解放军军事科学院系统工程研究院 一种基于深度学习的静态云边协同架构函数计算卸载方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112817732A (zh) * 2021-02-26 2021-05-18 国网电力科学研究院有限公司 一种适应云边协同多数据中心场景下的流数据处理方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111585916B (zh) * 2019-12-26 2023-08-01 国网辽宁省电力有限公司电力科学研究院 基于云边协同的lte电力无线专网任务卸载和资源分配方法
CN111242282B (zh) * 2020-01-09 2023-03-28 中山大学 基于端边云协同的深度学习模型训练加速方法
CN111611062B (zh) * 2020-05-06 2022-10-25 南京邮电大学 云边协同分层计算方法及云边协同分层计算系统
CN112287609B (zh) * 2020-12-28 2021-03-30 之江实验室 一种面向机器人任务划分的端、边、云协同计算装置
CN112822701A (zh) * 2020-12-31 2021-05-18 中山大学 边缘计算场景下多用户深度神经网络模型分割与资源分配优化方法
CN112996056A (zh) * 2021-03-02 2021-06-18 国网江苏省电力有限公司信息通信分公司 一种云边协同下时延最优化的计算任务卸载方法及装置
CN112862083B (zh) * 2021-04-06 2024-04-09 南京大学 一种边缘环境下的深度神经网络推断方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112817732A (zh) * 2021-02-26 2021-05-18 国网电力科学研究院有限公司 一种适应云边协同多数据中心场景下的流数据处理方法及系统

Also Published As

Publication number Publication date
CN113315669A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN113315669B (zh) 基于云边协同的吞吐量优化的机器学习推断任务部署方法
CN112004239B (zh) 一种基于云边协同的计算卸载方法及系统
CN111445111B (zh) 一种基于边缘协同的电力物联网任务分配方法
CN112188442B (zh) 基于移动边缘计算的车联网数据驱动任务卸载系统和方法
Lee et al. An online secretary framework for fog network formation with minimal latency
CN109710374A (zh) 移动边缘计算环境下最小化任务卸载费用的vm迁移策略
CN112600921A (zh) 一种面向异构移动边缘网络的动态任务卸载方法
CN111935677B (zh) 车联网v2i模式任务卸载方法及系统
CN116541106B (zh) 计算任务卸载方法、计算设备及存储介质
WO2024169167A1 (zh) 基于通感算一体化的卸载决策与资源分配方法
CN112162789A (zh) 一种基于软件定义的边缘计算随机卸载决策方法及系统
CN115297171B (zh) 一种蜂窝车联网分级决策的边缘计算卸载方法及系统
CN112988275B (zh) 一种基于任务感知的移动边缘计算多用户计算卸载方法
CN114265631A (zh) 一种基于联邦元学习的移动边缘计算智能卸载方法及装置
CN115022937A (zh) 拓扑特征提取方法和考虑拓扑特征的多边缘协作调度方法
Lin et al. Distributed deep neural network deployment for smart devices from the edge to the cloud
CN115802389A (zh) 一种利用数字孪生辅助模型训练的联邦学习方法
CN117707795B (zh) 基于图的模型划分的边端协同推理方法及系统
CN110167031B (zh) 一种面向集中式基站的资源分配方法、设备及存储介质
CN114785692A (zh) 一种虚拟电厂聚合调控通信网络流量均衡方法及装置
CN113868808B (zh) 一种道路网络临近检测时延优化方法、装置和系统
Aloqaily et al. Blockchain and FL-based network resource management for interactive immersive services
CN113364626B (zh) 面向边缘环境的视频分析应用的服务放置与带宽分配方法
CN116418808A (zh) 一种mec的联合计算卸载和资源分配方法及装置
CN116996941A (zh) 基于配网云边端协同的算力卸载方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant