CN116455768B - 面向全局时延优化的云边端协同cnn推理方法及系统 - Google Patents

面向全局时延优化的云边端协同cnn推理方法及系统 Download PDF

Info

Publication number
CN116455768B
CN116455768B CN202310713616.2A CN202310713616A CN116455768B CN 116455768 B CN116455768 B CN 116455768B CN 202310713616 A CN202310713616 A CN 202310713616A CN 116455768 B CN116455768 B CN 116455768B
Authority
CN
China
Prior art keywords
cnn
block
processed
edge server
time delay
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310713616.2A
Other languages
English (en)
Other versions
CN116455768A (zh
Inventor
郭永安
周金粮
奚城科
王宇翱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202310713616.2A priority Critical patent/CN116455768B/zh
Publication of CN116455768A publication Critical patent/CN116455768A/zh
Application granted granted Critical
Publication of CN116455768B publication Critical patent/CN116455768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0894Policy-based network configuration management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/101Server selection for load balancing based on network conditions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了面向全局时延优化的云边端协同CNN推理方法,通过构建训练分块推理时延预测模型、计算理论数据传输时延、构建并训练时延损耗预测模型、构建全局时延预测模型;利用全局时延预测模型计算各个边缘服务器的理论全局时延,以全局时延最小化为优化目标,决定参与协同推理的边缘服务器的选择和推理任务量的分配。本发明同时提出面向全局时延优化的云边端协同CNN推理系统。相较于传统的协同推理研究工作在时延指标制定方面仅关注当前推理任务的时延优化,本方法将处理当前推理任务对其他并行处理的推理任务可能产生的时延影响也纳入了决策考量范围,同时,本发明还提供一种CNN分割优化方法,能够有效节省协同推理中的决策时延。

Description

面向全局时延优化的云边端协同CNN推理方法及系统
技术领域
本发明属于云边端协同计算领域,具体涉及面向全局时延优化的云边端协同CNN推理方法及系统。
背景技术
CNN(Convolutional Neural Networks,卷积神经网络)的最新进展推动了越来越多的网络边缘侧智能应用,例如智能家居、智能工厂和智能城市。要在资源受限的物理设备上部署计算密集型CNN,传统方法依赖于将推理工作卸载到远程云或在本地端设备上优化计算。然而,云辅助方法受到不可靠和延迟显著的广域网的影响,本地计算方法受限于端设备有限的计算能力。
为了满足低时延和高准确率的CNN推理需求,新兴的云边端协同推理计算范式成为研究重点。然而,目前的协同推理研究工作在时延指标制定方面仅关注当前推理任务的时延优化,未考虑对其他并行处理的推理任务可能产生的时延影响。
发明内容
本发明所要解决的技术问题在于:针对现有的云边端协同推理计算中未考虑对其他并行处理的推理任务可能产生的时延影响问题,提供了面向全局时延优化的云边端协同CNN推理方法及系统,更好地将云服务器和边缘计算范式结合起来,充分挖掘边缘服务器的计算潜力,同时本发明提出的CNN分割优化方法,在CNN块与块之间做协同推理决策,能够有效节省协同推理中的决策时延。
为解决以上技术问题,本发明提供如下技术方案:面向全局时延优化的云边端协同CNN推理方法,包括如下步骤:
S1、基于已训练好的并且已划分为N层CNN模型,对该N层CNN模型划分为n块:CNN1,CNN2,…CNNj,…CNNn,1≤j≤n,n>1;
S2、离线学习阶段:以已知的边缘服务器eJ自身浮点计算能力FSJ、正在处理的CNN块的计算复杂度、待处理的CNN块的平均计算复杂度、待处理的CNN块包含的操作层层数为输入,以对应的边缘服务器eI计算待处理的CNN块产生的实际分块推理时延为输出,构建并训练分块推理时延预测模型;所述操作层包括卷积层、全连接层和池化层;
S3、以已知的缘服务器自身的浮点计算能力、待处理的CNN块的计算复杂度、正在处理的CNN块的平均计算复杂度、正在处理的CNN块包含的操作层层数为输入,以对应的边缘服务器计算待处理的CNN块对正在处理的CNN块产生的实际时延损耗为输出,构建并训练时延损耗预测模型;
S4、基于物理终端将初始图像数据处理为分辨率相同、数据量大小相等的张量数据,并将张量数据发送给与其在同一局域网内的边缘服务器;边缘服务器采集其与局域网内其他边缘服务器之间网络带宽,计算理论数据传输时延;
S5、将实际的边缘服务器自身浮点计算能力、正在处理的CNN块的计算复杂度、待处理的CNN块的平均计算复杂度、待处理的CNN块包含的层数输入至步骤S2得到的分块推理时延预测模型,计算得到边缘服务器计算待处理CNN块产生的理论分块推理时延;
将实际的边缘服务器自身的浮点计算能力、待处理的CNN块的计算复杂度、正在处理的CNN块的平均计算复杂度、正在处理的CNN块包含的操作层层数输入至步骤S3得到的时延损耗预测模型中,计算得到边缘服务器计算待处理的CNN块对正在处理的CNN块产生的理论时延损耗;
S6、以S4得到的理论数据传输时延、步骤S5得到的边缘服务器计算待处理CNN块产生的理论分块推理时延、边缘服务器计算CNN块对正在处理的CNN块产生的理论时延损耗为输入、以边缘服务器理论全局时延为输出,构建全局时延预测模型;
S7、利用全局时延预测模型计算各个边缘服务器的理论全局时延;
S8、判断当前边缘服务器的理论全局时延是否小于等于其他边缘服务器的理论全局时延,是则由当前边缘服务器计算待处理的CNN块,然后执行步骤S9;否则将待处理的CNN块传输至其他边缘服务器计算,由选定的其他边缘服务器完成待处理CNN块的计算,然后执行步骤S9,完成对下一个CNN块的决策;
S9、判断CNN块是否全部计算完成,是则边缘服务器将CNN块的计算结果发送给发出任务请求的物理终端,否则返回执行步骤S7,完成对下一个CNN块的决策。
进一步地,前述的步骤S2中,分块推理时延预测模型如下式:
式中,FSI是缘服务器eI自身的浮点计算能力,
是自身正在处理的CNN块eI_CNNj_pt的计算复杂度,/>是待处理的CNN块CNNj的平均计算复杂度、m是CNNj包含的操作层层数,eI_tmdj_p是边缘服务器eI计算CNNj产生的理论分块推理时延输出。
进一步地,前述的步骤S3中,时延损耗预测模型如下式:
式中,FSI是边缘服务器的浮点计算能力,是待处理的CNN块CNNj的计算复杂度,/>是正在处理的CNN块eI_CNNj_pt的平均计算复杂度,m_pt是正在处理的CNN块包含的操作层层数,eI_tlos_p是边缘服务器eI计算CNNj对正在处理的eI-CNNj-pt产生的理论时延损耗。
进一步地,前述的步骤S4中,按如下公式计算理论数据传输时延:
tIJ=Tdq-1/bwIJ
式中,Tdq-1是张量数据,bwIJ是边缘服务器之间的网络带宽。
进一步地,前述的步骤S6中,所述全局时延预测模型如下式:
其中,是即边缘服务器eJ处理协同推理任务产生的理论全局时延,eJ_tmdj_p是边缘服务器eJ计算CNNj产生的理论分块推理时延输出,eJ_tloss_p是边缘服务器eJ计算待处理的CNN块对正在处理的CNN块产生的理论时延损耗,FSJ是边缘服务器eJ的浮点计算能力,/>是边缘服务器eJ正在处理的CNN块eJ_CNNj_pt的平均计算复杂度,/>边缘服务器eI处理协同推理任务产生的理论全局时延,边缘服务器eI计算完CNN块CNNp后仍由自身处理下一个CNN块CNNq,此时不会产生tIJ
进一步地,前述的步骤S1中,CNNj中含有至少两个连续的张量数据,对于任一含有m个张量数据的CNNj而言,它含有的张量数据和操作层分别为:Tdj-1,Tdj-2,…Tdj-m,Lyj-1,Lyj-2,…Lyj-m,m>1,其中Tdj-1的计算复杂度大于CNNj中其他任意一个张量数据的计算复杂度;对于任意两个相邻的CNN块,即CNNp和CNNq:CNN1,…CNNp,CNNq,…CNNn,1≤p<q≤n,q-p=1,CNNp中的最后一个张量数据和CNNq中的第一个张量数据相同。
进一步地,前述的步骤S4中,基于物理终端将初始图像数据处理为分辨率相同、数据量大小相等的张量数据,并将张量数据发送给与其在同一局域网内的边缘服务器,具体为:初始图像数据被处理为数据量大小相同、分辨率大小相等的图像特征数据,图像特征数据作为张量数据Td1-1输入CNN1,Td1-1经过CNN1中的操作层计算后,生成张量数据Td2-1并传入CNN2,即:在CNNj中,张量数据Tdj-1经过操作层Lyj-1,Lyj-2,…Lyj-m的计算后,生成张量数据Tdj-m并传入下一个CNN块,CNN块CNNn中最后一个张量数据的生成标志着CNN推理的结束。进一步地,前述的面向全局时延优化的云边端协同CNN推理方法,CNN块CNNj中所有操作层的计算复杂度共计为: 记为CNNj的计算复杂度,CNNj的平均计算复杂度记为:/>
计算CNNj包含的所有操作层所产生的分块推理时延为tmdj为任一操作层Lyj的计算复杂度。
进一步地,前述的面向全局时延优化的云边端协同CNN推理方法,CNN各个操作层Lyi的计算复杂度为:
式中,操作层Lyi为卷积层,其计算复杂度为操作层Lyi为全连接层,其计算复杂度为/>H、W、Cin依次代表输入操作层Lyi的张量数据Tdi的高度、宽度、通道数,K代表输入操作层Lyi的卷积核的边长,Cout代表输出操作层Lyi的张量数据Tdi+1的通道数,I、Q分别代表输入操作层Lyi的张量数据Tdi的维数、输出操作层Lyi的张量数据Tdi+1的维数。
本发明另一方面提出面向全局时延优化的云边端协同CNN推理系统,包括:云服务器c,云服务器c的通信范围内至少设有两个边缘服务器,所述边缘服务器部署在WIFI接入点或基站上,各边缘服务器的通信范围内至少设有一个物理终端;针对云服务器c通信范围内的任意一个边缘服务器eI,边缘服务器eI通信范围内与其物理距离小于预设距离x的其他O个边缘服务器记为:e1,e2,…eJ,…eo,1≤J≤o,o>1,且这O个边缘服务器也在云服务器c的通信范围内,此O个边缘服务器同边缘服务器eI一起组成边缘集群;
所述云服务器包括:卷积神经网络、模型训练中心、通信模块;
所述边缘服务器包括:态势感知中心、卷积神经网络、策略生成中心、通信模块;
所述物理终端包括:通信模块;
所述模型训练中心用于训练卷积神经网络、推理时延预测模型和时延损耗预测模型;
所述卷积神经网络用于已经训练完备的、服务于智能应用程序的、被分割为n块CNN块CNNj的n层CNN;
所述通信模块用于云服务器、边缘服务器和物理终端之间数据发送、接收;所述态势感知中心包括工作负载感知模块和网络遥测模块;所述工作负载感知模块用于采集边缘服务器自身的浮点计算能力FSI、自身正在负责推理的CNN块eI_CNNj_pt的计算复杂度和平均计算复杂度/>其他O个边缘服务器eJ的浮点计算能力FSJ、其他o个边缘服务器eJ正在负责推理的CNN块eJ_CNNj_pt的计算复杂度和平均计算复杂度/>
所述网络遥测模块用于采集边缘服务器eI和边缘服务器eJ间的网络带宽bwIJ
所述策略生成中心包括分块推理时延预测模块、传输时延计算模块、全局时延预测模块、离线样本数据存储模块和决策信息生成模块;
所述分块推理时延预测模块用于以已知的边缘服务器eI自身浮点计算能力FSI、正在处理的CNN块的计算复杂度、待处理的CNN块的平均计算复杂度、待处理的CNN块包含的层数为输入,以对应的边缘服务器eI计算待处理的CNN块产生的实际分块推理时延为输出,构建并训练分块推理时延预测模型;
所述传输时延计算模块用于基于物理终端将图像数据处理为分辨率相同、数据量大小相等的张量数据,并将张量数据发送给与其在同一局域网内的边缘服务器;边缘服务器采集其与局域网内其他边缘服务器之间网络带宽,计算理论数据传输时延;
所述全局时延预测模块用于以理论数据传输时延、边缘服务器计算待处理CNN块产生的理论分块推理时延、边缘服务器计算CNN块对正在处理的CNN块产生的理论时延损耗为输入、以边缘服务器理论全局时延为输出,构建全局时延预测模型;
所述离线样本数据存储模块用于采集、存储边缘服务器eI在自身浮点计算能力为FSI、自身正在处理的CNN块eI_CNNj_pt的计算复杂度为时,计算层数为m层且平均计算复杂度为/>的CNN块CNNj产生的实际分块推理时延eI_tmdj;采集、存储边缘服务器eI在自身浮点计算能力为FSI、自身正在处理的操作层层数为m_pt且平均计算复杂度为/>的CNN块eI_CNNj_pt时,处理计算复杂度为/>的CNN块CNNj对正在计算的eI_CNNj_pt产生的实际的延损耗tloss
所述决策信息生成模块用于判断当前边缘服务器的理论全局时延是否小于等于其他边缘服务器的理论全局时延,是则由当前边缘服务器计算待处理的CNN块,然后判断CNN块是否全部计算完成,是则边缘服务器将CNN块的计算结果发送给发出任务请求的物理终端;否则将待处理的CNN块传输至其他边缘服务器计算,直到CNN块全部计算完成。
相较于现有技术,本发明的有益效果如下:区别于以端设备和云计算中心为主导的CNN协同推理系统,本发明通过将云服务器和边缘计算范式结合起来,其中云服务器负责模型的训练,在边缘集群内部完成CNN的协同推理工作,充分挖掘边缘服务器的计算潜力。
本发明通过对CNN协同推理过程中的分块推理时延、数据传输时延和时延损耗进行理论建模,并以全局时延最小化为优化目标,决定参与协同推理的边缘服务器的选择和推理任务量的分配。
相较于传统的协同推理研究工作在时延指标制定方面仅关注当前推理任务的时延优化,本发明将处理当前推理任务对其他并行处理的推理任务可能产生的时延影响也纳入了决策考量范围。同时,本发明还提供一种CNN分割优化方法,在CNN块与块之间做协同推理决策,能够有效节省协同推理中的决策时延。以边缘集群为主导的CNN协同推理工作,将计算工作放在离物理终端更近的边缘侧,可有效保证计算数据的安全性和降低网络带宽的占用率。
附图说明
图1为本发明的CNN分割优化原理图。
图2为本发明的技术原理图。
图3为本发明策略生成中心的模块组成示意图。
图4为本发明的工作流程图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。在本发明中参照附图来描述本发明的各方面,附图中示出了许多说明性实施例。本发明的实施例不局限于附图所述。应当理解,本发明通过上面介绍的多种构思和实施例,以及下面详细描述的构思和实施方式中的任意一种来实现,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。结合图1,CNN为多层节构,对于一个N层CNN而言,它的操作层有N个:Ly1,Ly2,…Lyi,…LyN,1≤i≤N+1,N>1,它的张量数据有N+1个:Td1,Td2,…Tdi,…TdN+1,其中张量数据Tdi经过操作层Lyi计算后产生张量数据Tdi+1。CNN推理产生的时延消耗主要由计算各个操作层Lyi产生的分层计算时延Tmdi组成。操作层Lyi可分为三类:卷积层、全连接层和池化层,其中卷积层的计算复杂度最高,全连接层次之,池化层运算最简单,可以忽略。CNN各个操作层Lyi的计算复杂度用下式来表示:
式中,操作层Lyi为卷积层,其计算复杂度为操作层Lyi为全连接层,其计算复杂度为/>H、W、Cin依次代表输入操作层Lyi的张量数据Tdi的高度、宽度、通道数,K代表输入操作层Lyi的卷积核的边长,Cout代表输出操作层Lyi的张量数据Tdi+1的通道数,I、Q分别代表输入操作层Lyi的张量数据Tdi的维数、输出操作层Lyi的张量数据Tdi+1的维数。
对于一个N层CNN,本发明对其进行分割优化操作并分为n块:
CNN1,CNN2,…CNNj,…CNNn,1≤j≤n,
n>1。任一CNN块CNNj的组成特征如下:
每个CNNj中含有至少两个连续的张量数据;
对于任一含有m个张量数据的CNNj而言,它含有的张量数据和操作层分别为:Tdj-1,Tdj-2,…Tdj-m
Lyj-1,Lyj-2,…Lyj-m,m>1,其中Tdj-1的计算复杂度大于CNNj中其他任意一个张量数量的计算复杂度;
对于任意两个相邻的CNN块:CNNp和CNNq(CNN1,…CNNp,CNNq,…CNNn,1≤p<q≤n,q-p=1),则CNNp中的最后一个张量数据和CNNq中的第一个张量数据是相同的;
在具体的CNN推理过程中,初始图像数据被处理为数据量大小相同、分辨率大小相等的图像特征数据,图像特征数据作为张量数据Td1-1输入CNN1,Td1-1经过CNN1中的一系列操作层计算后,生成张量数据Td2-1并传入CNN2,即:在CNNj中,张量数据Fdj-1经过操作层Lyj-1,Lyj-2,…Lyj-m的计算后,生成张量数据dj-m并传入下一个CNN块,CNN块CNNn中最后一个张量数据的生成标志着CNN推理的结束。CNN块CNNj中所有操作层的计算复杂度共计为 记为CNNj的计算复杂度,CNNj的平均计算复杂度记为:
计算CNNj包含的所有操作层所产生的分块推理时延记为:tmdj为任一操作层Lyj的计算复杂度,m为CNNj包含的操作层层数。
参考图4,本发明提出的1.面向全局时延优化的云边端协同CNN推理方法,包括如下步骤:
S1、基于已训练好的并且已划分为N层CNN模型,对该N层CNN模型划分为n块:CNN1,CNN2,…CNNj,…CNNn,1≤j≤n,n>1;
S2、离线学习阶段:以已知的边缘服务器eI自身浮点计算能力FSI、正在处理的CNN块的计算复杂度、待处理的CNN块的平均计算复杂度、待处理的CNN块包含的操作层层数为输入,以对应的边缘服务器eI计算待处理的CNN块产生的实际分块推理时延为输出,构建并训练分块推理时延预测模型;所述操作层包括卷积层、全连接层和池化层;
所述分块推理时延预测模型如下式:
式中,FSI是缘服务器eI自身的浮点计算能力,是自身正在处理的CNN块eI_CNNj_pt的计算复杂度,/>是待处理的CNN块CNNj的平均计算复杂度、m是CNNj包含的操作层层数,eI_tmdj_p是边缘服务器eI计算CNNj产生的理论分块推理时延输出。
S3、以已知的缘服务器自身的浮点计算能力、待处理的CNN块的计算复杂度、正在处理的CNN块的平均计算复杂度、正在处理的CNN块包含的操作层层数为输入,以对应的边缘服务器计算待处理的CNN块对正在处理的CNN块产生的实际时延损耗为输出,构建并训练时延损耗预测模型;所述时延损耗预测模型如下式:
式中,FSI是边缘服务器的浮点计算能力,是待处理的CNN块CNNj的计算复杂度,/>是正在处理的CNN块eI_CNNj_pt的平均计算复杂度,m_pt是正在处理的CNN块包含的操作层层数,eI_tloss_p是边缘服务器eI计算CNNj对正在处理的eI_CNNj_pt产生的理论时延损耗。
S4、基于物理终端将初始图像数据处理为分辨率相同、数据量大小相等的张量数据,并将张量数据发送给与其在同一局域网内的边缘服务器;边缘服务器采集其与局域网内其他边缘服务器之间网络带宽,按如下公式计算理论数据传输时延:
tIJ=Tdq-1/bwIJ
式中,Tdq-1是张量数据,bwIJ是边缘服务器之间的网络带宽。
S5、将实际的边缘服务器自身浮点计算能力、正在处理的CNN块的计算复杂度、待处理的CNN块的平均计算复杂度、待处理的CNN块包含的层数输入至步骤S2得到的分块推理时延预测模型,计算得到边缘服务器计算待处理CNN块产生的理论分块推理时延;
将实际的边缘服务器自身的浮点计算能力、待处理的CNN块的计算复杂度、正在处理的CNN块的平均计算复杂度、正在处理的CNN块包含的操作层层数输入至步骤S3得到的时延损耗预测模型中,计算得到边缘服务器计算待处理的CNN块对正在处理的CNN块产生的理论时延损耗;
S6、以S4得到的理论数据传输时延、步骤S5得到的边缘服务器计算待处理CNN块产生的理论分块推理时延、边缘服务器计算CNN块对正在处理的CNN块产生的理论时延损耗为输入、以边缘服务器理论全局时延为输出,构建全局时延预测模型;所述全局时延预测模型如下式:
其中,是即边缘服务器eJ处理协同推理任务产生的理论全局时延,eJ_tmdj_p是边缘服务器eJ计算CNNj产生的理论分块推理时延输出,eJ_tloss_p是边缘服务器eJ计算待处理的CNN块对正在处理的CNN块产生的理论时延损耗,FSJ是边缘服务器eJ的浮点计算能力,/>是边缘服务器eJ正在处理的CNN块eJ_CNNj_pt的平均计算复杂度,/>边缘服务器eI处理协同推理任务产生的理论全局时延,边缘服务器eI计算完CNN块CNNp后仍由自身处理下一个CNN块CNNq,此时不会产生tIJ
S7、利用全局时延预测模型计算各个边缘服务器的理论全局时延;
S8、判断当前边缘服务器的理论全局时延是否小于等于其他边缘服务器的理论全局时延,是则由当前边缘服务器计算待处理的CNN块,然后执行步骤S9;否则将待处理的CNN块传输至其他边缘服务器计算,由选定的其他边缘服务器完成待处理CNN块的计算,然后执行步骤S9,完成对下一个CNN块的决策;
S9、判断CNN块是否全部计算完成,是则边缘服务器将CNN块的计算结果发送给发出任务请求的物理终端,否则返回执行步骤S7,完成对下一个CNN块的决策。
本发明另一方面提出面向全局时延优化的云边端协同CNN推理系统,包括:云服务器c,云服务器c的通信范围内至少设有两个边缘服务器,所述边缘服务器部署在WIFI接入点或基站上,各边缘服务器的通信范围内至少设有一个物理终端;针对云服务器c通信范围内的任意一个边缘服务器eI,边缘服务器eI通信范围内与其物理距离小于预设距离x的其他O个边缘服务器记为:e1,e2,…eJ,…eo,1≤J≤o,o>1,且这O个边缘服务器也在云服务器c的通信范围内,此O个边缘服务器同边缘服务器eI一起组成边缘集群;
所述云服务器包括:卷积神经网络、模型训练中心、通信模块;
所述边缘服务器包括:态势感知中心、卷积神经网络、策略生成中心、通信模块;
所述物理终端包括:通信模块;
所述模型训练中心用于训练卷积神经网络、推理时延预测模型和时延损耗预测模型;
所述卷积神经网络用于已经训练完备的、服务于智能应用程序的、被分割为n块CNN块CNNj的N层CNN;
所述通信模块用于云服务器、边缘服务器和物理终端之间数据发送、接收;
所述态势感知中心包括工作负载感知模块和网络遥测模块;所述工作负载感知模块用于采集边缘服务器自身的浮点计算能力FSI、自身正在负责推理的CNN块eI_CNNj_pt的计算复杂度和平均计算复杂度/>其他O个边缘服务器eJ的浮点计算能力FSI、其他O个边缘服务器eJ正在负责推理的CNN块eJ_CNNj_pt的计算复杂度和平均计算复杂度/>所述网络遥测模块用于采集边缘服务器eI和边缘服务器eJ间的网络带宽bwIJ
参考图3,所述策略生成中心包括分块推理时延预测模块、传输时延计算模块、全局时延预测模块、离线样本数据存储模块和决策信息生成模块;
所述分块推理时延预测模块用于以已知的边缘服务器eI自身浮点计算能力FSI、正在处理的CNN块的计算复杂度、待处理的CNN块的平均计算复杂度、待处理的CNN块包含的层数为输入,以对应的边缘服务器eI计算待处理的CNN块产生的实际分块推理时延为输出,构建并训练分块推理时延预测模型;
所述传输时延计算模块用于基于物理终端将图像数据处理为分辨率相同、数据量大小相等的张量数据,并将张量数据发送给与其在同一局域网内的边缘服务器;边缘服务器采集其与局域网内其他边缘服务器之间网络带宽,计算理论数据传输时延;
所述全局时延预测模块用于以理论数据传输时延、边缘服务器计算待处理CNN块产生的理论分块推理时延、边缘服务器计算CNN块对正在处理的CNN块产生的理论时延损耗为输入、以边缘服务器理论全局时延为输出,构建全局时延预测模型;
所述离线样本数据存储模块用于采集、存储边缘服务器eI在自身浮点计算能力为FSI、自身正在处理的CNN块eI_CNNj_pt的计算复杂度为时,计算层数为m层且平均计算复杂度为/>的CNN块CNNj产生的实际分块推理时延eI_tmdj;采集、存储边缘服务器eI在自身浮点计算能力为FSI、自身正在处理的操作层层数为m_pt且平均计算复杂度为/>的CNN块eI_CNNj_pt时,处理计算复杂度为/>的CNN块CNNj对正在计算的eI_CNNj_pt产生的实际时延损耗tloss
所述决策信息生成模块用于判断当前边缘服务器的理论全局时延是否小于等于其他边缘服务器的理论全局时延,是则由当前边缘服务器计算待处理的CNN块,然后判断CNN块是否全部计算完成,是则边缘服务器将CNN块的计算结果发送给发出任务请求的物理终端;否则将待处理的CNN块传输至其他边缘服务器计算,直到CNN块全部计算完成。
虽然本发明已以较佳实施例阐述如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (10)

1.面向全局时延优化的云边端协同CNN推理方法,其特征在于,包括如下步骤:
S1、基于已训练好的并且已划分为N层CNN模型,对该N层CNN模型划分为n块:CNN1,CNN2,…CNNj,…CNNn,1≤j≤n,n>1;
S2、离线学习阶段:以已知的边缘服务器eI自身浮点计算能力FSI、正在处理的CNN块的计算复杂度、待处理的CNN块的平均计算复杂度、待处理的CNN块包含的操作层层数为输入,以对应的边缘服务器eI计算待处理的CNN块产生的实际分块推理时延为输出,构建并训练分块推理时延预测模型;所述操作层包括卷积层、全连接层和池化层;
S3、以已知的边缘服务器自身的浮点计算能力、待处理的CNN块的计算复杂度、正在处理的CNN块的平均计算复杂度、正在处理的CNN块包含的操作层层数为输入,以对应的边缘服务器计算待处理的CNN块对正在处理的CNN块产生的实际时延损耗为输出,构建并训练时延损耗预测模型;
S4、基于物理终端将初始图像数据处理为分辨率相同、数据量大小相等的张量数据,并将张量数据发送给与其在同一局域网内的边缘服务器;边缘服务器采集其与局域网内其他边缘服务器之间网络带宽,计算理论数据传输时延;
S5、将实际的边缘服务器自身浮点计算能力、正在处理的CNN块的计算复杂度、待处理的CNN块的平均计算复杂度、待处理的CNN块包含的层数输入至步骤S2得到的分块推理时延预测模型,计算得到边缘服务器计算待处理CNN块产生的理论分块推理时延;
将实际的边缘服务器自身的浮点计算能力、待处理的CNN块的计算复杂度、正在处理的CNN块的平均计算复杂度、正在处理的CNN块包含的操作层层数输入至步骤S3得到的时延损耗预测模型中,计算得到边缘服务器计算待处理的CNN块对正在处理的CNN块产生的理论时延损耗;
S6、以S4得到的理论数据传输时延、步骤S5得到的边缘服务器计算待处理CNN块产生的理论分块推理时延、边缘服务器计算CNN块对正在处理的CNN块产生的理论时延损耗为输入、以边缘服务器理论全局时延为输出,构建全局时延预测模型;
S7、利用全局时延预测模型计算各个边缘服务器的理论全局时延;
S8、判断当前边缘服务器的理论全局时延是否小于等于其他边缘服务器的理论全局时延,是则由当前边缘服务器计算待处理的CNN块,然后执行步骤S9;否则将待处理的CNN块传输至其他边缘服务器计算,由选定的其他边缘服务器完成待处理CNN块的计算,然后执行步骤S9,完成对下一个CNN块的决策;
S9、判断CNN块是否全部计算完成,是则边缘服务器将CNN块的计算结果发送给发出任务请求的物理终端,否则返回执行步骤S7,完成对下一个CNN块的决策。
2.根据权利要求1所述的面向全局时延优化的云边端协同CNN推理方法,其特征在于,步骤S2中,分块推理时延预测模型如下式:
式中,FSI是缘服务器eI自身的浮点计算能力,是自身正在处理的CNN块eI_CNNj_pt的计算复杂度,/>是待处理的CNN块CNNj的平均计算复杂度、m是CNNj包含的操作层层数,eI_tmdj_p是边缘服务器eI计算CNNj产生的理论分块推理时延输出。
3.根据权利要求2所述的面向全局时延优化的云边端协同CNN推理方法,其特征在于,步骤S3中,时延损耗预测模型如下式:
式中,FSI是边缘服务器的浮点计算能力,是待处理的CNN块CNNj的计算复杂度,是正在处理的CNN块eI-CNNj-pt的平均计算复杂度,m_pt是正在处理的CNN块包含的操作层层数,eI_tloss_p是边缘服务器eI计算CNNj对正在处理的eI_CNNj_pt产生的理论时延损耗。
4.根据权利要求3所述的面向全局时延优化的云边端协同CNN推理方法,其特征在于,步骤S4中,按如下公式计算理论数据传输时延:
tIJ=Tdq-1/bwIJ
式中,Tdq-1是张量数据,bwIJ是边缘服务器之间的网络带宽。
5.根据权利要求4所述的面向全局时延优化的云边端协同CNN推理方法,其特征在于,步骤S6中,所述全局时延预测模型如下式:
其中,是即边缘服务器eJ处理协同推理任务产生的理论全局时延,eJ_tmdj_ p是 边缘服务器e J 计算CNN j 产生的理论分块推理时延输出,e J _tloss_p是边缘服务器eJ计算待处理的CNN块对正在处理的CNN块产生的理论时延损耗,FSJ是边缘服务器eJ的浮点计算能力,是边缘服务器eJ正在处理的CNN块eJ_CNNj_pt的平均计算复杂度,边缘服务器eI处理协同推理任务产生的理论全局时延,边缘服务器eI计算完CNN块CNNp后仍由自身处理下一个CNN块CNNq,此时不会产生tIJ
6.根据权利要求1所述的面向全局时延优化的云边端协同CNN推理方法,其特征在于,步骤S1中,CNNj中含有至少两个连续的张量数据,对于任一含有m个张量数据的CNNj而言,它含有的张量数据和操作层分别为:
Tdj-1,Tdj-2,…Tdj-m,Lyj-1,Lyj-2,…Lyj-m,m>1,其中Tdj-1的计算复杂度大于CNNj中其他任意一个张量数据的计算复杂度;对于任意两个相邻的CNN块,即CNNp和CNNq:CNN1,…CNNp,CNNq,…CNNn,1≤p<q≤n,q-p=1,CNNp中的最后一个张量数据和CNNq中的第一个张量数据相同。
7.根据权利要求6所述的面向全局时延优化的云边端协同CNN推理方法,其特征在于,所述步骤S4中,基于物理终端将初始图像数据处理为分辨率相同、数据量大小相等的张量数据,并将张量数据发送给与其在同一局域网内的边缘服务器,具体为:初始图像数据被处理为数据量大小相同、分辨率大小相等的图像特征数据,图像特征数据作为张量数据Td1-1输入CNN1,Td1-1经过CNN1中的操作层计算后,生成张量数据Td2-1并传入CNN2,即:在CNNj中,张量数据Tdj-1经过操作层Lyj-1,Lyj-2,…Lyj-m的计算后,生成张量数据dj-m并传入下一个CNN块,CNN块CNNn中最后一个张量数据的生成标志着CNN推理的结束。
8.根据权利要求1所述的面向全局时延优化的云边端协同CNN推理方法,其特征在于,CNN块CNNj中所有操作层的计算复杂度共计为:
记为CNNj的计算复杂度,CNNj的平均计算复杂度记为:计算CNNj包含的所有操作层所产生的分块推理时延为tmdj,/>为任一操作层lyj的计算复杂度,m为CNNj包含的操作层层数。
9.根据权利要求8所述的面向全局时延优化的云边端协同CNN推理方法,其特征在于,CNN各个操作层Lyi的计算复杂度为:
式中,操作层Lyi为卷积层,其计算复杂度为操作层Lyi为全连接层,其计算复杂度为/>H、W、Cin依次代表输入操作层Lyi的张量数据Tdi的高度、宽度、通道数,K代表输入操作层Lyi的卷积核的边长,Cout代表输出操作层Lyi的张量数据Tdi+1的通道数,I、Q分别代表输入操作层Lyi的张量数据Tdi的维数、输出操作层Lyi的张量数据Tdi+1的维数。
10.面向全局时延优化的云边端协同CNN推理系统,其特征在于,包括:云服务器c,云服务器c的通信范围内至少设有两个边缘服务器,所述边缘服务器部署在WIFI接入点或基站上,各边缘服务器的通信范围内至少设有一个物理终端;针对云服务器c通信范围内的任意一个边缘服务器eI,边缘服务器eI通信范围内与其物理距离小于预设距离x的其他O个边缘服务器记为:e1,e2,…eJ,…eo,1≤J≤o,o>1,且这O个边缘服务器也在云服务器c的通信范围内,此O个边缘服务器同边缘服务器eI一起组成边缘集群;
所述云服务器包括:卷积神经网络、模型训练中心、通信模块;
所述边缘服务器包括:态势感知中心、卷积神经网络、策略生成中心、通信模块;所述物理终端包括:通信模块;
所述模型训练中心用于训练卷积神经网络、推理时延预测模型和时延损耗预测模型;
所述卷积神经网络用于已经训练完备的、服务于智能应用程序的、被分割为n块CNN块CNNj的n层CNN;
所述通信模块用于云服务器、边缘服务器和物理终端之间数据发送、接收;
所述态势感知中心包括工作负载感知模块和网络遥测模块;所述工作负载感知模块用于采集边缘服务器自身的浮点计算熊力FSI、自身正在负责推理的CNN块eI_CNNj_pt的计算复杂度和平均计算复杂度/>其他O个边缘服务器eJ的浮点计算能力FSJ、其他o个边缘服务器eJ正在负责推理的CNN块eJ_CNNj_pt的计算复杂度和平均计算复杂度/>
所述网络遥测模块用于采集边缘服务器eI和边缘服务器eJ间的网络带宽bwIJ
所述策略生成中心包括分块推理时延预测模块、传输时延计算模块、全局时延预测模块、离线样本数据存储模块和决策信息生成模块;
所述分块推理时延预测模块用于以已知的边缘服务器eI自身浮点计算能力FSI、正在处理的CNN块的计算复杂度、待处理的CNN块的平均计算复杂度、
待处理的CNN块包含的层数为输入,以对应的边缘服务器eI计算待处理的CNN块产生的实际分块推理时延为输出,构建并训练分块推理时延预测模型;
所述传输时延计算模块用于基于物理终端将图像数据处理为分辨率相同、数据量大小相等的张量数据,并将张量数据发送给与其在同一局域网内的边缘服务器;边缘服务器采集其与局域网内其他边缘服务器之间网络带宽,计算理论数据传输时延;
所述全局时延预测模块用于以理论数据传输时延、边缘服务器计算待处理CNN块产生的理论分块推理时延、边缘服务器计算CNN块对正在处理的CNN块产生的理论时延损耗为输入、以边缘服务器理论全局时延为输出,构建全局时延预测模型;
所述离线样本数据存储模块用于采集、存储边缘服务器eI在自身浮点计算能力为FSI、自身正在处理的CNN块eI_CNNj_pt的计算复杂度为时,计算层数为m层且平均计算复杂度为/>的CNN块CNNj产生的实际分块推理时延eI_tmdj;采集、存储边缘服务器eI在自身浮点计算能力为FSI、自身正在处理的操作层层数为m_pt且平均计算复杂度为/>的CNN块eI_CNNj_pt时,处理计算复杂度为/>的CNN块CNNj对正在计算的eI_CNNj_pt产生的实际时延损耗tloss
所述决策信息生成模块用于判断当前边缘服务器的理论全局时延是否小于等于其他边缘服务器的理论全局时延,是则由当前边缘服务器计算待处理的CNN块,然后判断CNN块是否全部计算完成,是则边缘服务器将CNN块的计算结果发送给发出任务请求的物理终端;否则将待处理的CNN块传输至其他边缘服务器计算,直到CNN块全部计算完成。
CN202310713616.2A 2023-06-16 2023-06-16 面向全局时延优化的云边端协同cnn推理方法及系统 Active CN116455768B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310713616.2A CN116455768B (zh) 2023-06-16 2023-06-16 面向全局时延优化的云边端协同cnn推理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310713616.2A CN116455768B (zh) 2023-06-16 2023-06-16 面向全局时延优化的云边端协同cnn推理方法及系统

Publications (2)

Publication Number Publication Date
CN116455768A CN116455768A (zh) 2023-07-18
CN116455768B true CN116455768B (zh) 2023-09-12

Family

ID=87125976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310713616.2A Active CN116455768B (zh) 2023-06-16 2023-06-16 面向全局时延优化的云边端协同cnn推理方法及系统

Country Status (1)

Country Link
CN (1) CN116455768B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117114113B (zh) * 2023-10-24 2023-12-29 南京邮电大学 一种基于排队论的协同推理加速方法
CN117707795B (zh) * 2024-02-05 2024-05-10 南京邮电大学 基于图的模型划分的边端协同推理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109976909A (zh) * 2019-03-18 2019-07-05 中南大学 边缘计算网络中基于学习的低延时任务调度方法
CN115082845A (zh) * 2022-04-26 2022-09-20 北京理工大学 一种基于深度强化学习的监控视频目标检测任务调度方法
WO2022257348A1 (zh) * 2021-06-08 2022-12-15 重庆邮电大学 一种不确定网络环境中的任务卸载和资源分配方法
CN116016538A (zh) * 2023-03-27 2023-04-25 南京邮电大学 面向动态环境的边端协同推理任务卸载优化方法与系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109976909A (zh) * 2019-03-18 2019-07-05 中南大学 边缘计算网络中基于学习的低延时任务调度方法
WO2022257348A1 (zh) * 2021-06-08 2022-12-15 重庆邮电大学 一种不确定网络环境中的任务卸载和资源分配方法
CN115082845A (zh) * 2022-04-26 2022-09-20 北京理工大学 一种基于深度强化学习的监控视频目标检测任务调度方法
CN116016538A (zh) * 2023-03-27 2023-04-25 南京邮电大学 面向动态环境的边端协同推理任务卸载优化方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于边端协同的 CNN 推理加速框架;郭永安;周金粮;王宇翱;《南京邮电大学学报(自然科学版)》(第3期);全文 *

Also Published As

Publication number Publication date
CN116455768A (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN113242568B (zh) 一种不确定网络环境中的任务卸载和资源分配方法
CN116455768B (zh) 面向全局时延优化的云边端协同cnn推理方法及系统
Zhou et al. Edge intelligence: Paving the last mile of artificial intelligence with edge computing
US11410046B2 (en) Learning-based service migration in mobile edge computing
CN114422349B (zh) 基于云边端协同的深度学习模型训练和推理架构部署方法
CN112118312B (zh) 一种面向边缘服务器的网络突发负载疏散方法
CN112540845B (zh) 一种基于移动边缘计算的协作系统及方法
CN115034390B (zh) 一种基于云边端协同的深度学习模型推理加速方法
CN113315669B (zh) 基于云边协同的吞吐量优化的机器学习推断任务部署方法
CN114745383A (zh) 一种移动边缘计算辅助多层联邦学习方法
CN116669111A (zh) 一种基于区块链的移动边缘计算任务卸载方法
CN114626298A (zh) 无人机辅助车联网中高效缓存和任务卸载的状态更新方法
CN112379985A (zh) 一种云边缘计算环境下的计算任务分配方法及装置
CN116016538A (zh) 面向动态环境的边端协同推理任务卸载优化方法与系统
Chunduri et al. Optimizing energy and latency trade-offs in mobile ultra-dense IoT networks within futuristic smart vertical networks
CN114521002A (zh) 一种云边端合作的边缘计算方法
CN116760722A (zh) 一种存储辅助mec任务卸载系统及资源调度方法
Yan et al. Service caching for meteorological emergency decision-making in cloud-edge computing
CN116109058A (zh) 一种基于深度强化学习的变电站巡视管理方法和装置
CN114666339B (zh) 一种基于中智集的边缘卸载方法、系统及存储介质
Cui et al. Resource-Efficient DNN Training and Inference for Heterogeneous Edge Intelligence in 6G
Ke et al. Service caching decision‐making policy for mobile edge computing using deep reinforcement learning
CN113157344A (zh) 移动边缘计算环境下基于drl的能耗感知任务卸载方法
CN112910716A (zh) 一种基于分布式dnn的移动雾计算损耗联合优化系统和方法
Doe et al. DSORL: Data Source Optimization With Reinforcement Learning Scheme for Vehicular Named Data Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant