CN112348172B - 一种基于端边云架构的深度神经网络协同推理方法 - Google Patents

一种基于端边云架构的深度神经网络协同推理方法 Download PDF

Info

Publication number
CN112348172B
CN112348172B CN202011268445.XA CN202011268445A CN112348172B CN 112348172 B CN112348172 B CN 112348172B CN 202011268445 A CN202011268445 A CN 202011268445A CN 112348172 B CN112348172 B CN 112348172B
Authority
CN
China
Prior art keywords
cloud
neural network
reasoning
inference
deep neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011268445.XA
Other languages
English (en)
Other versions
CN112348172A (zh
Inventor
梁松涛
高丰
杨涛
施佩琦
汪明军
郁善金
王晓江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202011268445.XA priority Critical patent/CN112348172B/zh
Publication of CN112348172A publication Critical patent/CN112348172A/zh
Application granted granted Critical
Publication of CN112348172B publication Critical patent/CN112348172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于端边云架构的深度神经网络协同推理方法,该方法通过端、边、云协同的方式加速端侧推理速度,将人工智能中的深度模型,根据神经网络的分层进行分割,将模型推理过程中的计算任务根据网络环境、端边云三方的资源配额及使用情况,发送到对应的端侧,完成推理的整个过程。本发明公开了模型分割的整体框架及分割计算任务所使用的算法组件及原理,通过端边云的协同,可以加速端侧的推理速度,提高业务场景的中的实时性,同时减少资源端的能耗。

Description

一种基于端边云架构的深度神经网络协同推理方法
技术领域
本发明属于深度神经网络模型加速与优化领域,尤其涉及一种基于端边云架构的深度神经网络协同推理方法。
背景技术
深度学习近几年在机器视觉、自然语言处理和大数据分析等应用中取得了巨大的成功。通过深度学习的方法,在图像分类和目标识别方面的表现优于传统的方法。然而,深度学习的高准确性是以深度学习训练和推理对计算和内存的高需求为代价的。有些训练出来的深度神经网络模型有数百万个参数,推理过程中,对输入数据需要经历数百万次的计算。高准确性和高资源消耗是深度学习的特点。在资源受限的边缘场景下,推理的延迟很可能无法满足某些业务场景对推理实时性的要求,比如无人驾驶、无人机等业务场景。
边缘计算是一种缓解云端压力,提高实时性的一种技术,可以有效的解决碎片化的边缘设备给云端带来的沉重负载和接入多样性的问题。边缘计算通过将边缘服务器部署在离应用比较近的地方来降低接入的延迟,通过异构环境下的负载均衡机制和任务调度机制解决业务对计算资源多样性的需求和横向扩展的能力。但一般情况下,边缘服务器的网络环境和资源部署无法与云端的体系相对比。所以,端边云协同的新型网络架构可以解决端业务场景的实时性和资源调度问题,满足对推理实时性的要求。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于端边云架构的深度神经网络协同推理方法。
本发明的目的是通过以下技术方案来实现的:一种基于端边云架构的深度神经网络协同推理方法,包括以下步骤:
1)将用于推理的深度神经网络模型和用于预测评估的数据集,通过下载或者分发的机制,同步到端侧、边侧和云侧;
2)端侧、边侧和云侧分别根据自己的硬件环境及数据集,进行神经网络分层时延和能耗的评估,根据对应的神经网络模型的结构,计算出每一层的数据量;
3)边侧和云侧周期性的将神经网络模型的分层时延、能耗及数据量信息汇聚到端侧,并且缓存到端侧的内存中;
4)边侧根据模型分割算法,将神经网络模型的分层分割为三个部分,即寻找到两个分割点,使得推理时,时延和能耗两个维度中的一个在统计周期内可以达到最优;
5)端侧将分割点的信息发送到边侧,再从边侧发送到云侧,完成边侧和云侧分割点的动态调整;
6)端侧根据第一个分割点,计算深度神经网络第一个分割点前的所有推理子任务,并将推理的中间结果发送到边侧;
7)边侧将从端侧发送的推理中间结果作为输入,根据神经网络分层,计算从第一个分割点到第二个分割点之间的推理子任务,并将输出的中间结果发送到云侧;
8)云侧将从边侧发送的推理中间结果作为输入,根据神经网络的分层,计算从第二个分割点到最后一层之间的推理子任务,得出最终的推理结果;
9)云侧将推理结果反馈给边缘侧;
10)边缘侧将结果反馈给端侧,结束推理。
进一步地,所述深度神经网络模型包括但不限于用于图片识别的AlexNet、VGG、GoogleNet、RestNet和用于目标检测的SSD、YOLO、R-CNN、Fast R-CNN。
进一步地,所述步骤4)中,基于网络、CPU、GPU和深度神经网络模型,采用模型分割算法获得端边云协同的分割点;所述模型分割算法采用以时延和能耗为目标的凸优化算法来实现,或者通过深度强化学习的方法来实现。
进一步地,所述模型分割算法的实现如下:记端侧的计算分层延迟为Td=[td1,td2,…,tdL],各个分层的数据量为Sd=[sd1,sd2,…,sdL];记边缘侧的计算分层延迟为Te=[te1,te2,…,teL],各个分层的数据量为Se=[se1,se2,…,seL];记云侧的计算分层延迟为Tc=[tc1,tc2,…,tcL];记端侧与边缘侧的传输带宽为Wd→e,记边缘侧到云侧的传输带宽为We→c;则协同推理的延迟记为Ttotal,将最优的协同推理延迟等同于下述最优化问题:
Figure BDA0002776848350000021
Figure BDA0002776848350000022
其中,i=1~L表示模型的各层索引;p1为第一个分割点,p2为第二个分割点;sdp1为端侧中p1层的数据量,sep2为边缘侧中p2层的数据量。
进一步地,所述模型分割算法的实现如下:记端侧的计算分层能耗为Ed=[Ed1,Ed2,…,EdL],各个分层的数据量为Sd=[sd1,sd2,…,sdL];记边缘侧的计算分层能耗为Ee=[Ee1,Ee2,…,EeL],各个分层的数据量为Se=[se1,se2,…,seL];记云侧的计算分层能耗为Ec=[Ec1,Ec2,…,EcL];记端侧与边缘侧的传输带宽为Wd→e,记边缘侧到云侧的传输带宽为We→c;则协同推理的能耗记为Etotal,将最优的协同推理能耗等同于下述最优化问题:
Figure BDA0002776848350000031
Figure BDA0002776848350000032
其中,i=1~L表示模型的各层索引;p1为第一个分割点,p2为第二个分割点;sdp1为端侧中p1层的数据量,sep2为边缘侧中p2层的数据量。
进一步地,端侧的设备包括且不限于手机、树莓派、无人机、端侧开发板Jetson系列。
进一步地,所述端侧、边侧、云侧采用相同的推理引擎。
进一步地,端侧除了实时推理流程外,还有一个异步线程做周期性的同步,边缘侧和云侧反馈集群及资源的状态信息给端侧,根据边缘侧和云侧的状况信息来决策是否参与到端侧的协同计算任务中。
进一步地,如果协同过程中出现异常,则将异常数据反馈给端侧,由端侧进行模型分割点的调整。
进一步地,端侧和边缘通过超时机制和重试机制判断异常原因,检测是否执行计算降级的操作;如果是因为网络波动,则进行推理任务重新启动;如果是因为故障,则进行协同计算降级;后继通过异步线程的状态同步机制决策是否进行协同计算升级;计算降级具体为:当边缘侧发生故障时,协同推理任务由端侧独立完成;当云侧发生故障时,云侧的计算任务转移到边缘侧执行。
本发明的有益效果是:本发明是一种端边云新型网络架构下深度学习的推理和边缘计算,通过协同计算的方式,完成深度神经网络模型推理任务的方法;采用了端-边-云协同计算的模式,通过对神经网络结构的评估和建模,将计算任务划分为不同的阶段,充分的利用边缘和云端服务器的强大计算能力;可解决端侧在进行深度神经网络推理过程中的延迟和能耗最优化问题;具有以下特点:
1、利用边缘服务器和云计算中心的强大计算能力,加速了深度神经网络模型推理的计算执行过程,降低了模型推理的时延和能耗。
2、协同推理的应用范围广泛,不止应用在图片分类的场景,也可以用在目标检测、图像分割、人脸识别、手势识别等业务场景。
附图说明
图1是本发明的一种基于端边云协同的神经网络模型推理流程图;
图2是本发明的一种深度神经网络分层的模型分割图。
具体实施方法
下面结合附图和实例进一步说明本发明的技术方法。
本发明一种基于端边云架构的深度神经网络协同推理方法,并将深度神经网络的推理拆分为异步的模型分割点评估阶段和实时的边端云协同推理阶段。模型的分割点评估阶段采用异步的方式,周期性的对端边云体系下的资源和网络情况进行评估分析,通过评估模型及分割算法,确认当前深度神经网络模型的2个神经网络层分割点,根据2个分割点,将神经网络切分为3个部分,标记为P1、P2、P3。P1段的模型计算任务在端侧执行,P2段的模型计算任务放到边缘侧执行,P3段的模型计算任务放到云侧执行。实时的边端云协同推理阶段,根据异步的模型评估结果,通过协同的方式分步计算并传输中间结果,并由云侧或者边缘侧计算出最后的推理结果,并反馈给端侧,完成单次的推理任务。
如图1所示,本发明具体包括以下步骤:
步骤S1:模型同步。基于如下且不局限于深度学习框架Tensorflow、Pytorch,训练得到深度神经网络模型,将同一个深度神经网络模型通过数据同步技术的下载到终端侧、边缘侧和云侧。神经网络模型也可以是预先训练好的,保存在云端的模型仓库中,终端、边缘和对应的云端从相同的位置下载相同版本的模型。所述深度神经网络模型包括但不限于用于图片识别的AlexNet、VGG、GoogleNet、RestNet和用于目标检测的SSD、YOLO、R-CNN、Fast R-CNN。所述端侧的设备包括且不限于手机、树莓派、无人机、端侧开发板Jetson系列。
步骤S2:性能评估。终端、边缘和云各自加载对应的神经网络模型,通过验证数据集进行推理,使用相同的样本数据对模型的时延和能耗进行性能预测。设待推理的神经网络模型一共有L层,通过多次的推理计算,统计每一个神经网络分层的时延和能耗。通过多次推理取平均值的方法确定的每个分层的时延[t1,t2,…,tL]、能耗[E1,E2,…,EL]和需要进行网络传输的分层数据量[s1,s2,…,sL]。
步骤S3:评估汇聚。边缘节点和云端将各自评估的分层时延、能耗和数据量信息通过rpc或者socket通信协议共享到终端,汇聚全局的性能评估数据图。这里采用pull的方式,即终端周期性地从边缘节点和云端拉取评估信息,如果边缘节点和云侧还未评估完毕,则返回unprepared标记。如果超过一定的时延,仍然处于unprepared状态,则默认边缘侧或者云侧无法参与协同推理。
步骤S4:模型分割。如边缘侧和云侧决定参与终端的协同计算任务,则在步骤S3拉取评估信息的周期内,计算模型分割点作为模型协同推理的依据。终端侧通过深度神经网络的模型分割算法,计算出两个神经网络分层的分割点,并且在两个分割点重合的情况下,输出对应的分割层由哪个端来进行推理计算。原因是如果两个分割点重合,则无法区分除去端侧的计算任务外,剩余的计算应该由边缘节点或云端节点哪一个完成。
所述模型分割算法的实现如下:记端侧的计算分层延迟为Td=[td1,td2,…,tdL],各个分层的数据量为Sd=[sd1,sd2,…,sdL];记边缘侧的计算分层延迟为Te=[te1,te2,…,teL],各个分层的数据量为Se=[se1,se2,…,seL];记云侧的计算分层延迟为Tc=[tc1,tc2,…,tcL];记端侧与边缘侧的传输带宽为Wd→e,记边缘侧到云侧的传输带宽为We→c;则协同推理的延迟记为Ttotal
Figure BDA0002776848350000051
其中,i=1~L表示模型的各层索引;p1为第一个分割点,p2为第二个分割点;sdp1为端侧中p1层的数据量,sep2为边缘侧中p2层的数据量。将最优的协同推理延迟等同于下述最优化问题:
Figure BDA0002776848350000052
Figure BDA0002776848350000053
因卷积神经网络的层次L一般不大,所以可以采用暴力求解的办法求出最优值的p1,p2。
所述模型分割算法也可以根据各个分层的能耗来进行计算,实现方式与基于分层时延的计算方式相似:记端侧的计算分层能耗为Ed=[Ed1,Ed2,…,EdL],边缘侧的计算分层能耗为Ee=[Ee1,Ee2,…,EeL],云侧的计算分层能耗为Ec=[Ec1,Ec2,…,EcL],则协同推理的能耗记为Etotal,将最优的协同推理能耗等同于下述最优化问题:
Figure BDA0002776848350000054
Figure BDA0002776848350000055
步骤S5:协同反馈。终端侧将模型分割点的信息及周期时间通过rpc或者socket发送给边缘侧,然后边缘侧将该信息转发给云侧。边缘侧和云侧在内存中记录<mobileID+modelID>->SplitPoints的key-Value信息。其中mobileID是端侧(移动端)的ID,modelID为神经网络模型的ID。SplitPoints即为分割点的信息。
步骤S6:协同推理。根据分割点依次按照终端、边缘、云的流程,同步一次的计算子任务,并且将计算的中间结果发送给下一个协同点;需要注意的是,终端、边缘端和云端需要采用相同的推理引擎,因为不同的推理引擎需要进行模型之间的转换,并且某些端侧的推理引擎对推理计算过程进行了模型的转换和优化,不同的推理引擎会导致计算上的不一致;计算任务产生出的结果可以是图片的分类信息,可以是目标检测的信息,也可以是图片分割的信息;具体为:
步骤S6.1:终端计算第一分割点前的推理任务。
步骤S6.2:终端侧将步骤S6.1计算的中间结果发送到边缘侧,边缘侧将终端侧的中间结果直接导入到对应的第一分割点,并计算从第一分割点到第二分割点间的计算任务,将边缘侧的中间结果发送到云侧。
步骤S6.3:云侧使用相同的推理框架将接收到的步骤S6.2边缘侧中间结果导入到第二个分割点,计算第二分割点之后的计算任务,完成最后的计算任务。
步骤S7:推理反馈。由参与计算的最终方将最终结果反馈给终端结束单次的推理。正常情况下由云端将推理的结果发送给边缘侧,边缘侧再反馈结果给端侧。如果协同过程中出现异常,则将异常数据反馈给终端,由终端进行模型分割点的调整。异常数据一般包括:云侧节点连接超时、边缘侧节点连接超时、边缘侧负载超过阈值及等待推理任务反馈超时等。终端对模型分割点的调整会根据具体的异常执行不同的操作:如开启重试机制、计算降级、推理任务重新启动等。
终端和边缘通过超时机制,检测是否执行计算降级的操作调整模型分割点。
当网络超过一定时间无反馈,则开启重试机制进行重试:
如果是因为网络短时间内连接超时,则进行一定时间的惩罚(停止推理)后,恢复协同推理,即推理任务重新启动。
如果重试一定次数后仍然无法连接,认为是因为故障的原因,则断开连接直接进行协同计算降级,后继通过异步线程的状态同步机制决策是否进行协同计算升级;通过计算降级的操作抵抗边缘侧或者云侧发生故障的情况具体为:当边缘侧发生故障时,端侧的协同推理直接退化到由端侧独立完成;而云侧发生故障时,云侧的计算任务的转移到边缘侧执行。后续只要网络连接正常,边缘侧和云侧负载不超过一定的阈值,就可以进行计算升级。
端侧除了实时推理流程外,还有一个异步线程做周期性的集群状态信息同步,边缘侧和云侧会周期性的反馈集群及资源的状态信息给终端侧。端侧每个固定的周期时间(如5分钟),从边缘侧和云侧获得相应的状态信息,包括且不限于内存占用率、内存大小、cpu及gpu的个数、cpu及gpu的利用率。端侧会根据边缘侧和云侧的状况信息来决策云侧和边缘侧是否参与到协同计算任务中。如果云侧或者边缘侧出现离线、负载过高、服务终端等情况,会触发端侧的任务协同的调整过程;当云侧出现问题由端边云协同切换到端边协同的模式,当边缘侧出现问题由端边云协同切换到端侧独立完成。系统的初始阶段,需要根据端侧数量、网络的延迟等因素设定通信心跳周期时间;如果端侧对时延比较敏感,可以使用较低的反馈周期时间。
实施例:
本发明实施例的核心构思在于,利用终端、边缘和云节点的计算硬件资源的异构性,来解决终端某些应用场景下的高实时、低能耗的需求,如无人驾驶场景下,对道路的反馈需要毫秒级的决策和反应。实施例的具体效果以图2的卷积神经网络为例说明:
经过终端、边缘侧和云侧的数据集推理评估,根据图2的卷积神经网络模型,分层的数据量及网络延迟如下:
Conv1_1的数据量为3.2M,终端、边缘、云侧的计算执行时间分别为4ms,2ms,2ms;
Conv1_2的数据量为3.2M,终端、边缘、云侧的计算执行时间分别为4ms,2ms,2ms;
Pool1的数据量为800K,终端、边缘、云侧的计算执行时间分别为1ms,500us,400us;
Conv2_1的数据量为1.6M,终端、边缘、云侧的计算执行时间分别为5ms,2ms,2ms;
Conv2_2的数据量为1.6M,终端、边缘、云侧的计算执行时间分别为5ms,2ms,2ms;
Pool2的数据量为400K,终端、边缘、云侧的计算执行时间分别为800us,400us,300us;
Conv3_1的数据量为800K,终端、边缘、云侧的计算执行时间分别为6ms,3ms,2ms;
Conv3_2的数据量为800K,终端、边缘、云侧的计算执行时间分别为6ms,3ms,2ms;
Pool3的数据量为200K,终端、边缘、云侧的计算执行时间分别为600us,200us,200us;
Conv4_1的数据量为400K,终端、边缘、云侧的计算执行时间分别为5ms,2ms,2ms;
Conv4_2的数据量为400K,终端、边缘、云侧的计算执行时间分别为5ms,2ms,2ms;
Pool4的数据量为100K,终端、边缘、云侧的计算执行时间分别为700us,300us,300us;
Conv5_1的数据量为100K,终端、边缘、云侧的计算执行时间分别为3ms,1ms,800us;
Conv5_2的数据量为100K,终端、边缘、云侧的计算执行时间分别为3ms,1ms,800us;
Pool5的数据量为25K,终端、边缘、云侧的计算执行时间分别为700us,300us,200us;
FC6的数据量为4K,终端、边缘、云侧的计算执行时间分别为38ms,12ms,10ms;
FC7的数据量为4K,终端、边缘、云侧的计算执行时间分别为12ms,6ms,5ms;
FC8的数据量为1K,终端、边缘、云侧的计算执行时间分别为4ms,2ms,2ms。
经过多次测试,单独端侧的推理时间大约为100ms左右。而采用协同的方式,多次测试后发现,只需要68ms。分割点为p1=p2=15,即从全连接层前面的最后一层卷积开始,由终端将中间结果经过边缘侧转发到云端执行,能够得到最优的推理时延。

Claims (10)

1.一种基于端边云架构的深度神经网络协同推理方法,其特征在于,包括以下步骤:
1)将用于推理的深度神经网络模型和用于预测评估的数据集,通过下载或者分发的机制,同步到端侧、边侧和云侧等;
2)端侧、边侧和云侧分别根据自己的硬件环境及数据集,进行神经网络分层时延和能耗的评估,根据对应的神经网络模型的结构,计算出每一层的数据量;
3)边侧和云侧周期性的将神经网络模型的分层时延、能耗及数据量信息汇聚到端侧,并且缓存到端侧的内存中;
4)边侧根据模型分割算法,将神经网络模型的分层分割为三个部分,即寻找到两个分割点,使得推理时,时延和能耗两个维度中的一个在统计周期内可以达到最优;
5)端侧将分割点的信息发送到边侧,再从边侧发送到云侧,完成边侧和云侧分割点的动态调整;
6)端侧根据第一个分割点,计算深度神经网络第一个分割点前的所有推理子任务,并将推理的中间结果发送到边侧;
7)边侧将从端侧发送的推理中间结果作为输入,根据神经网络分层,计算从第一个分割点到第二个分割点之间的推理子任务,并将输出的中间结果发送到云侧;
8)云侧将从边侧发送的推理中间结果作为输入,根据神经网络的分层,计算从第二个分割点到最后一层之间的推理子任务,得出最终的推理结果;
9)云侧将推理结果反馈给边侧;
10)边侧将结果反馈给端侧,结束推理。
2.根据权利要求1所述基于端边云架构的深度神经网络协同推理方法,其特征在于,所述深度神经网络模型包括但不限于用于图片识别的AlexNet、VGG、GoogleNet、RestNet和用于目标检测的SSD、YOLO、R-CNN、Fast R-CNN。
3.根据权利要求1所述基于端边云架构的深度神经网络协同推理方法,其特征在于,所述步骤4)中,基于网络、CPU、GPU和深度神经网络模型,采用模型分割算法获得端边云协同的分割点;所述模型分割算法采用以时延和能耗为目标的凸优化算法来实现,或者通过深度强化学习的方法来实现。
4.根据权利要求3所述基于端边云架构的深度神经网络协同推理方法,其特征在于,所述模型分割算法的实现如下:记端侧的计算分层延迟为Td=[td1,td2,…,tdL],各个分层的数据量为Sd=[sd1,sd2,…,sdL];记边侧的计算分层延迟为Te=[te1,te2,…,teL],各个分层的数据量为Se=[se1,se2,…,seL];记云侧的计算分层延迟为Tc=[tc1,tc2,…,tcL];记端侧与边侧的传输带宽为Wd→e,记边侧到云侧的传输带宽为We→c;则协同推理的延迟记为Ttotal,将最优的协同推理延迟等同于下述最优化问题:
Figure FDA0002776848340000021
Figure FDA0002776848340000022
其中,i=1~L表示模型的各层索引;p1为第一个分割点,p2为第二个分割点;sdp1为端侧中p1层的数据量,sep2为边侧中p2层的数据量。
5.根据权利要求3所述基于端边云架构的深度神经网络协同推理方法,其特征在于,所述模型分割算法的实现如下:记端侧的计算分层能耗为Ed=[Ed1,Ed2,…,EdL],各个分层的数据量为Sd=[sd1,sd2,…,sdL];记边侧的计算分层能耗为Ee=[Ee1,Ee2,…,EeL],各个分层的数据量为Se=[se1,se2,…,seL];记云侧的计算分层能耗为Ec=[Ec1,Ec2,…,EcL];记端侧与边侧的传输带宽为Wd→e,记边侧到云侧的传输带宽为We→c;则协同推理的能耗记为Etotal,将最优的协同推理能耗等同于下述最优化问题:
Figure FDA0002776848340000023
Figure FDA0002776848340000024
其中,i=1~L表示模型的各层索引;p1为第一个分割点,p2为第二个分割点;sdp1为端侧中p1层的数据量,sep2为边侧中p2层的数据量。
6.根据权利要求1所述基于端边云架构的深度神经网络协同推理方法,其特征在于,端侧的设备包括且不限于手机、树莓派、无人机、端侧开发板Jetson系列。
7.根据权利要求1所述基于端边云架构的深度神经网络协同推理方法,其特征在于,端侧、边侧、云侧采用相同的推理引擎。
8.根据权利要求1所述基于端边云架构的深度神经网络协同推理方法,其特征在于,端侧除了实时推理流程外,还有一个异步线程做周期性的同步,边侧和云侧反馈集群及资源的状态信息给端侧,根据边侧和云侧的状况信息来决策是否参与到端侧的协同计算任务中。
9.根据权利要求1所述基于端边云架构的深度神经网络协同推理方法,其特征在于,如果协同过程中出现异常,则将异常数据反馈给端侧,由端侧进行模型分割点的调整。
10.根据权利要求9所述基于端边云架构的深度神经网络协同推理方法,其特征在于,端侧和边缘通过超时机制和重试机制判断异常原因,检测是否执行计算降级的操作;如果是因为网络波动,则进行推理任务重新启动;如果是因为故障,则进行协同计算降级;后继通过异步线程的状态同步机制决策是否进行协同计算升级;计算降级具体为:当边侧发生故障时,协同推理任务由端侧独立完成;当云侧发生故障时,云侧的计算任务转移到边侧执行。
CN202011268445.XA 2020-11-13 2020-11-13 一种基于端边云架构的深度神经网络协同推理方法 Active CN112348172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011268445.XA CN112348172B (zh) 2020-11-13 2020-11-13 一种基于端边云架构的深度神经网络协同推理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011268445.XA CN112348172B (zh) 2020-11-13 2020-11-13 一种基于端边云架构的深度神经网络协同推理方法

Publications (2)

Publication Number Publication Date
CN112348172A CN112348172A (zh) 2021-02-09
CN112348172B true CN112348172B (zh) 2022-05-06

Family

ID=74363664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011268445.XA Active CN112348172B (zh) 2020-11-13 2020-11-13 一种基于端边云架构的深度神经网络协同推理方法

Country Status (1)

Country Link
CN (1) CN112348172B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113242271A (zh) * 2021-03-17 2021-08-10 北京大学 一种基于数字视网膜的端、边、云协同系统及方法、设备
CN112861809B (zh) * 2021-03-22 2024-03-12 南京大学 基于多目标视频分析的课堂抬头检测系统及其工作方法
CN113221981A (zh) * 2021-04-28 2021-08-06 之江实验室 一种面向边缘深度学习的数据协同处理优化方法
CN113344208B (zh) * 2021-06-25 2023-04-07 中国电信股份有限公司 数据推理方法、装置及系统
CN114064280B (zh) * 2021-11-20 2024-08-02 东南大学 一种多约束下的端边协同推断方法
CN114330722B (zh) * 2021-11-25 2023-07-11 达闼科技(北京)有限公司 推理实现方法、网络、电子设备及存储介质
CN114501131B (zh) * 2021-12-22 2023-08-08 天翼云科技有限公司 一种视频分析方法、装置、存储介质及电子设备
CN117093859A (zh) * 2022-05-10 2023-11-21 中国移动通信有限公司研究院 一种模型训练或推理方法、装置及通信设备
CN116431349B (zh) * 2023-04-13 2023-11-03 山东华科信息技术有限公司 分布式配电网云边端数据协同方法及其系统
CN116594846A (zh) * 2023-07-14 2023-08-15 支付宝(杭州)信息技术有限公司 推理服务监控方法及装置
CN117114113B (zh) * 2023-10-24 2023-12-29 南京邮电大学 一种基于排队论的协同推理加速方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242282A (zh) * 2020-01-09 2020-06-05 中山大学 基于端边云协同的深度学习模型训练加速方法
CN111679905A (zh) * 2020-05-11 2020-09-18 天津大学 算网融合网络模型

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11108849B2 (en) * 2018-12-03 2021-08-31 At&T Intellectual Property I, L.P. Global internet of things (IOT) quality of service (QOS) realization through collaborative edge gateways

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242282A (zh) * 2020-01-09 2020-06-05 中山大学 基于端边云协同的深度学习模型训练加速方法
CN111679905A (zh) * 2020-05-11 2020-09-18 天津大学 算网融合网络模型

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《"端—边—云"协同的智慧物联网》;吴大鹏 等;《物联网学报》;20180930;全文 *
《A Collaborative cloud-edge computing framework in distributed neural network》;Shihao Xu;《Journal on Wireless Communications and Networking》;20201026;全文 *

Also Published As

Publication number Publication date
CN112348172A (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN112348172B (zh) 一种基于端边云架构的深度神经网络协同推理方法
CN111522657B (zh) 一种分散设备协同深度学习推理方法
CN114064211B (zh) 一种基于端-边-云计算架构的视频流分析系统及方法
CN112199154B (zh) 一种基于分布式协同采样中心式优化的强化学习训练系统及方法
CN114610474A (zh) 一种异构超算环境下多策略的作业调度方法及系统
CN108009089B (zh) 一种基于透明计算的增量机器学习方法及系统
US20240303957A1 (en) End-edge-cloud coordination system and method based on digital retina, and device
CN114691372A (zh) 一种多媒体端边云系统的群体智能控制方法
CN116089079A (zh) 一种基于大数据的计算机资源分配管理系统及方法
CN116112525A (zh) 一种车联网任务卸载方法、系统及电子设备
CN114253728B (zh) 基于网页生态的异构多节点协同分布式神经网络部署系统
CN113296953B (zh) 云边端异构边缘计算网络的分布式计算架构、方法与装置
CN114326818A (zh) 一种基于动态事件触发的无人机输出反馈协同控制系统
CN108647174B (zh) 一种基于软件总线的无人机快自愈系统
CN112906745A (zh) 基于边缘协同的诚信智能网络训练方法
CN116805195B (zh) 一种基于模型分割的无人机群协同推理方法和系统
CN114492769B (zh) 数据处理方法、相关设备及系统
CN111491186A (zh) 一种车载网络中的视频控制方法
Qi et al. LIFL: A Lightweight, Event-driven Serverless Platform for Federated Learning
Liu et al. EEAI: An End-edge Architecture for Accelerating Deep Neural Network Inference
Dong et al. WebInf: Accelerating WebGPU-based In-browser DNN Inference via Adaptive Model Partitioning
CN115439566B (zh) 一种基于存算一体架构的压缩感知系统及方法
CN113411765B (zh) 一种基于多传感器协同感知的移动智能终端能耗优化方法
CN118069053B (zh) 一种云数据处理方法、系统及存储介质
Huang et al. Research on the Methods of Data Mining based on the Edge Computing for the IoT

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant