CN110070181A - 一种用于边缘计算设备的深度学习的优化方法 - Google Patents

一种用于边缘计算设备的深度学习的优化方法 Download PDF

Info

Publication number
CN110070181A
CN110070181A CN201910360178.XA CN201910360178A CN110070181A CN 110070181 A CN110070181 A CN 110070181A CN 201910360178 A CN201910360178 A CN 201910360178A CN 110070181 A CN110070181 A CN 110070181A
Authority
CN
China
Prior art keywords
model
edge calculations
calculations equipment
deep learning
optimization method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910360178.XA
Other languages
English (en)
Inventor
杨峰
徐友庆
刘建辉
孟祥峰
杨采艺
其他发明人请求不公开姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Park Sheng Intelligent Technology Co Ltd
Original Assignee
Shenzhen Park Sheng Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Park Sheng Intelligent Technology Co Ltd filed Critical Shenzhen Park Sheng Intelligent Technology Co Ltd
Priority to CN201910360178.XA priority Critical patent/CN110070181A/zh
Publication of CN110070181A publication Critical patent/CN110070181A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于边缘计算设备的深度学习的优化方法,包括:获取边缘计算设备的硬件的计算能力,根据边缘计算设备的硬件的计算能力确定模型量化方案,减少模型计算精度;根据模型结构进行模型轻量化,减少模型参数量和计算量,同时减少模型的访存需求;根据模型结构和参数进行模型减枝和矩阵分解操作;将深度神经网络应用部署于边缘计算设备,并进行深度强化学习,在系统层通过DVFS调频策略进行动态调频。可以将深度学习部署在低功耗的边缘计算设备上,达到基本的可用性,同时优化系统能效。

Description

一种用于边缘计算设备的深度学习的优化方法
技术领域
本发明涉及嵌入式边缘计算技术领域,具体地涉及一种用于通用嵌入式系统的边缘计算设备的深度学习的优化方法。
背景技术
如今,深度学习技术以其显著的效果成为目前的热门话题之一。深度学习是机器学习的一个领域,它使计算机能够通过卷积神经网络(CNN)等体系结构进行训练和学习。它通过处理数据和创建用于决策的模式来模仿人类大脑的工作方式。深度学习的爆发,给计算机带来了全新的认知能力,特别是在计算机视觉感知方面,在一些领域计算机的检测和识别能力已经超过人类。深度学习的良好效果使得其能够在日常生活中很多领域代替人类的工作成为可能,特别是计算机视觉领域,大规模的部署深度学习设计和应用,实现智能化已成为目前趋势。
深度神经网络由输入层、隐藏层和输出层组成。数据由第一层(输入层)流入,通过逐层(隐层)传递和映射,从最后一层(输出层)流出。通过增加隐藏层的数量,各层以接力的方式进行原始数据的特征学习,本质上是在逼近原始数据与其特征之间非线性极强的映射关系。根据神经网络的一致逼近原理(universal approximation theory),对于任意一个非线性映射,一定能找到一个浅层网络和一个深度网络以任意精度逼近它,只要浅层网络的隐层神经元个数足够多或者深度网络足够深。但通常,较浅层网络而言,深度网络只需要少得多的参数就可以达到与之相同的逼近效果。深度神经网络的计算过程主要有训练和预测两部分,但由于其具有计算密集性和数据密集性的特点,当面对大规模数据时,往往存在计算资源需求大、计算时间过长、功耗较大等问题。因此,深度学习主要部署在云计算平台和图形处理单元(GPGPU)平台。
同时,随着智慧城市,智慧商业,智能家庭的发展,越来越多的摄像头产品上线,传统的视频监控存储,人工查看的方式,已经完全无法满足现在对视频分析的需求。如果使用大量服务器进行实时视频分析,那么视频的传输,存储,分析的成本非常高,只能在某些特定领域使用,限制了应用场景和规模。人机交互,环境感知方面,需要实时的理解和响应,即使网络条件差,或者没有网络,也需要能够正常工作,这要求深度学习应用必须部署在性能较低的基于嵌入式系统的边缘计算设备上,在前端有限的计算资源和功耗下运行。
边缘计算是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供最近端服务。其应用程序在边缘侧发起,产生更快的网络服务响应,满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求。边缘计算处于物理实体和工业连接之间,或处于物理实体的顶端。
嵌入式边缘计算系统目前的问题是,与固定式的桌面系统相比,嵌入式系统在处理器,内存和存储容量方面更为有限,因此计算能力较低。然而深度学习算法,计算量非常大,通常需要运行在高性能的服务器上,对于在前端运行提出了非常高的要求。这些正是基于嵌入式系统的边缘计算设备深度学习应用的机遇与挑战。
Nvidia预计,到2020年,全球预计将会有10亿台监控摄像头投入使用。将传统的前端带摄像头的边缘计算设备,升级为具有一定智能的设备,继而在前端本地就能实时的完成特定的任务,比如检测到感兴趣的目标,并进行下一步的追踪或者识别,对环境实时建模,自动导航,极具应用和商业价值,开创一个新的时代。为了解决这些问题,深度学习必须在前端有限的计算资源和功耗下运行。
目前,为了将深度学习应用部署在基于嵌入式系统的边缘计算前端上,部分硬件厂商针对深度学习专门研发了相应的硬件平台,主要有专用集成电路(ASIC)和现场可编程门阵列(FGPA)。
(1)ASIC:相对于云平台和GPGPU,ASIC采用改进硬件架构来对算法进行加速。ASIC作为特定专用的集成电路,对特定的应用和算法具有较高的计算效率。但其专用性也导致其灵活性差,开发成本高;硬件设计的高门槛也使得其设计开发周期长,开发难度大。
(2)FPGA:现场可编程门阵列FPGA内部含有大量可重新配置的逻辑电路,既保证了接近ASIC的加速性能,又通过其可重构特性提供了类似软件实现的灵活性。但他们无一例外都具有开发难度大,成本高的特点,同时也不能充分利用现有嵌入式边缘设备,不能通过简单的手段对现有嵌入式边缘设备进行相应的适配优化。
可以发现,目前将深度学习应用大范围部署到低功耗嵌入式边缘计算设备面临以下问题:
(1)深度神经网络模型需要庞大的计算量来进行实时计算,然而大部分嵌入式设备并不能提供如此庞大的计算量;
(2)使用ASIC和FPGA专用硬件平台开发难度大,成本高;
(3)市场和实际生活中存在大量通用计算设备,如果采用专用硬件,工程量与成本太大,不切实际。
发明内容
为了解决上述技术问题,本发明提出了一种用于边缘计算设备的深度学习的优化方法,将深度学习应用部署到边缘计算设备上,同时优化系统能效,并且尽可能达到基本的可用性。
本发明所采用的技术方案是:
一种用于边缘计算设备的深度学习的优化方法,包括以下步骤:
S01:获取边缘计算设备的硬件的计算能力,根据边缘计算设备的硬件的计算能力确定模型量化方案,减少模型计算精度;
S02:根据模型结构进行模型轻量化,减少模型参数量和计算量,同时减少模型的访存需求;
S03:根据模型结构和参数进行模型减枝和矩阵分解操作;
S04:将深度神经网络应用部署于边缘计算设备,并进行深度强化学习,在系统层通过DVFS调频策略进行动态调频。
优选的技术方案中,所述步骤S01中硬件的计算能力包括计算芯片所能支持的计算精度。
优选的技术方案中,所述模型量化包括根据特定算法库或硬件平台的支持,将权重或激活输出被聚类到一些离散、低精度的数值点上。
优选的技术方案中,所述步骤S02中,通过解析网络模型将网络中无用的输出层消除,对网络结构进行垂直整合,将神经网络的卷积(conv)、批归一化(BN)、线性修正单元(relu)三个层融合为一个层,修改层融合后的参数。
优选的技术方案中,所述步骤S03中模型剪枝包括计算参数贡献度,对参数贡献度进行排序,对贡献度低的神经元进行剪枝,通过模型训练保证性能。
优选的技术方案中,所述步骤S04,在训练过程中,监视器代理采集平台运行信息,传送到深度强化学习引擎进行训练,同时在重放数据库中进行备份和重放训练,在深度强化学习引擎做出DVFS调频策略后,通过操作检查器过滤明显错误决策,通过接口守护下发DVFS调频策略到控制器代理,进行DVFS的调节操作,通过训练,生成控制模型。
与现有技术相比,本发明的有益效果是:
本发明从系统层和应用层两个方面着手,两方面相互支援,相互补充。在系统层通过DVFS进行自适应的CPU和GPU等计算芯片动态调频,在不影响计算性能的前提下,尽量降低系统能耗,提高能耗比;在应用层通过模型轻量化,通过层融合、减枝等手段降低深度神经网络模型计算量,使得模型复杂度契合于嵌入式平台的计算能力,在精度尽可能的保留的前提下,可以将其部署在低功耗的基于嵌入式系统的边缘计算设备上,达到基本的可用性,同时优化系统能效。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1为本发明用于边缘计算设备的深度学习的优化方法的流程图;
图2为本发明实施例的模型的某一层结构图;
图3为本发明实施例的模型层垂直融合示意图;
图4为本发明实施例的模型层水平组合示意图;
图5为本发明实施例的模型减枝流程图;
图6为本发明实施例的模型参数矩阵分解示意图;
图7为本发明实施例的GPU负载与频率示意图;
图8是本发明实施例的DVFS调频策略强化学习训练结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
实施例
本发明实施例中的深度学习优化方法主要是针对基于通用嵌入式系统的边缘计算设备的,其主要是基于CPU和GPU为计算核心的,但本发明并不限于此,其方法对于所有的计算平台部署深度学习应用都具有良好的效果。
一种针对基于通用嵌入式系统的边缘计算设备的深度学习优化方法,从系统层和应用层两个方面着手,在系统层通过DVFS进行自适应的CPU和GPU等计算芯片动态调频,在不影响计算性能的前提下,尽量降低系统能耗,提高能耗比;在应用层通过模型轻量化,层融合,减枝等手段降低深度神经网络模型计算量,使得模型复杂度契合于嵌入式平台的计算能力,在精度尽可能的保留的前提下,将其部署在低功耗嵌入式边缘计算设备上。
图1为本发明实施例的针对基于通用嵌入式系统的边缘计算设备的深度学习优化方法100的流程图。该方法包括:
S110:根据嵌入式边缘计算硬件的计算能力特性确定模型量化方案,减少模型计算精度;
S120:根据模型结构进行模型轻量化,减少模型参数量和计算量,同时减少模型的访存需求;
S130:根据模型结构和参数进行模型减枝和矩阵分解操作,减少模型参数量和计算量;
S140:将深度神经网络应用部署到嵌入式边缘计算设备上,并进行实际运行,使用深度强化学习根据该应用特性与实际运行平台情况进行DVFS调频策略的学习。
步骤S110中硬件的计算能力特性包括计算芯片所能支持的计算精度。模型量化包括将权重或激活输出被聚类到一些离散、低精度的数值点上,通常依赖于特定算法库或硬件平台的支持,对于同样的计算单元,如果计算芯片能够支持降低精度来获得处理速度的提升,比如NVIDIATX2平台所使用的PASCALGPU支持FP16的半精度计算加速,对于仅有CPU的平台,为了充分利用单指令多数据流(Single Instruction Multiple Data,SIMD),可以将计算精度降低到8bits,相对于FP32,能够有4倍的计算单元;
步骤S120中,通过解析网络模型将网络中无用的输出层消除以减小计算,根据网络结构中的不同层的特性,可以考虑将其中的层进行融合,将多步运算通过参数和层的融合整合到一起,直接通过一步运算得到结果,从而减少整个模型的运算量和访存需求;
步骤S03中,在模型量化和层融合之后,再对模型进行减枝,将模型参数中的权重较低的参数进行减枝和矩阵分解,主要降低模型参数量,缩减大小以适合嵌入式平台较小的内存,同时也减少一部分计算量;
步骤S04中,将优化过后的模型部署在对应的嵌入式边缘计算设备之后,为了充分发挥该平台特性,充分适配深度神经网络模型的资源运行需求,还使用深度强化学习对DVFS策略进行学习,达到在满足模型运行的性能的前提下,充分契合模型运行状况,自适应调节系统电压和频率,提高整个平台的能效比。
图2为本发明实施例的模型的某一层结构图,它是常见的Inception网络模型中一个基础的结构,其中每一个卷积单元都包括了“卷积+批归一化+激活”三个相连的计算层,可以看到,整个模型层级结构非常多,对于计算和访存非常不友好,特别是对于GPU这种并行处理器来说,更多的步骤和结构意味着更多的计算和访存,不利于GPU的并行优化和缓存优化。这样的影响在普通平台上可能并不显著,因为通常计算力是足够的,但是对于嵌入式平台,我们需要压榨它的每一分性能,因此就需要对这样的结构进行优化,充分利用计算平台的能力。
图3为本发明实施例的模型层垂直融合示意图,如图所示,对网络结构进行垂直整合,即将神经网络的卷积(conv)、批归一化(BN)、relu激活三个层融合为一个层CBR,直接将三层中的计算整合到一层中进行,减少计算操作同时减少访存操作,其中,对于层融合时的参数修改,其公式如下:
(1)对于假设每一层的输入表示为向量X,卷积层的权重矩阵为W,
偏置向量为b,则卷积层可以写作:
WX+b
(2)BN层执行了归一化和缩放两个操作,输入为向量X,mean为平均值,var为方差,γ,β为缩放因子,则这两个阶段操作分别为:
γ*X+β
(3)将上面三个式子合并,可得:
(4)展开上式,可得:
(5)则融合层操作就化为新的卷积:
WnewX+bnew
图4为本发明实施例的模型层水平组合示意图,对于网络的水平组合,水平组合是指将输入为相同张量和执行相同操作的层融合一起,如图所示,通过将相同的计算进行整合,通过一次计算得出对应的结果,然后将contact层的输入直接送入下面的操作中,不用单独进行concat后在输入计算,相当于减少了模型的传输吞吐。
以上3步即是本方法对于所部署的深度学习网络的优化和重构,从中我们可以看到根据其优化和重构策略,第一和第二步适用于所有的网络架构,但是第三步则对于Inception结构的神经网络加速效果最为明显。
图5本发明实施例的模型减枝流程图,其中减枝操作主要是对全连接层进行的,全连接层集中了模型中的大量参数,对全连接层进行剪枝,这对于减小模型文件的大小非常有效。对参数贡献度的排序指标可以是神经元的权重参数L1/(或者)L2正则化的平均值、激活函数的平均输出值、在验证数据集上不为0的次数或是其他指标。剪枝这些贡献度低的神经元,模型的准确度会有一定的损失(当然我们希望损失得越小越好),因此,剪枝后的模型通常需要更多的训练来使其保证一定的性能。这里要注意的是,如果一次性剪枝的神经元过多,会导致模型“损坏”太严重而性能太差。模型的剪枝需要一个迭代的过程,这通常称为“迭代式剪枝”;迭代的过程就是剪枝和模型训练两者的交替重复。
图6是本发明实施例的流程图模型参数矩阵分解示意图,神经网络参数矩阵往往同时具备低秩与稀疏的性质,低秩部分包含了大量的光滑分量,而稀疏部分含有诸如方向的重要信息。因此,使用基于低秩稀疏分解的压缩算法,将矩阵分解为低秩矩阵和稀疏矩阵,能够减小模型大小,和计算量,对于压缩过程中的精度损失,可以通过图5所示流程进行训练校正。
图7是本发明实施例的GPU负载与频率示意图,GPU频率曲线即反映了GPU默认功耗管理器所采用的调频策略针对深度学习应用负载所进行的频率调节变化。由于深度学习应用存在一个尖脉冲波谷,所以在默认调频策略下GPU的频率不断在350MHz至543MHz之间抖动(均值约为480MHz)。另外,由于频率是根据负载的变化进行调整的,所以调频具有一定的迟滞性。从图中两条曲线的变化可以明显看出,当负载处于较低位置时,频率仍在较高点;当GPU几乎处于满负载的状态下,频率却在480MHz与543MHz间跳变,产生“乒乓效应”。频率调节的迟滞性会造成不必要的功耗开销,而“乒乓效应”不仅带来额外的调频开销还会导致上层应用的性能损失。因此训练一个对深度学习应用功耗特性敏感,具有预测性的功耗感知模型来对其进行预测性的DVFS调节对于整体嵌入式边缘计算设备的性能发挥和能效有着一定的提升空间。
图8是本发明实施例的DVFS调频策略强化学习训练结构示意图,其中控制节点负责系统负载的预测模型的学习与调频策略的下发,应用节点为运行深度学习应用的嵌入式边缘计算设备。在训练过程中,监视器代理采集平台运行信息由接口守护接收,传送到深度强化学习引擎进行训练,同时在重放数据库中进行备份和重放训练,在深度强化学习引擎做出决策后,通过操作检查器过滤明显错误决策,通过接口守护下发决策到控制器代理,进行DVFS的调节操作,通过训练,生成控制模型,用来预测和指导DVFS调节策略来更好激发整体嵌入式边缘计算设备的性能潜力和提升能效比。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (6)

1.一种用于边缘计算设备的深度学习的优化方法,其特征在于,包括以下步骤:
S01:获取边缘计算设备的硬件的计算能力,根据边缘计算设备的硬件的计算能力确定模型量化方案,减少模型计算精度;
S02:根据模型结构进行模型轻量化,减少模型参数量和计算量,同时减少模型的访存需求;
S03:根据模型结构和参数进行模型减枝和矩阵分解操作;
S04:将深度神经网络应用部署于边缘计算设备,并进行深度强化学习,在系统层通过DVFS调频策略进行动态调频。
2.根据权利要求1所述的用于边缘计算设备的深度学习的优化方法,其特征在于,所述步骤S01中硬件的计算能力包括计算芯片所能支持的计算精度。
3.根据权利要求1所述的用于边缘计算设备的深度学习的优化方法,其特征在于,所述模型量化包括根据特定算法库或硬件平台的支持,将权重或激活输出被聚类到一些离散、低精度的数值点上。
4.根据权利要求1所述的用于边缘计算设备的深度学习的优化方法,其特征在于,所述步骤S02中,通过解析网络模型将网络中无用的输出层消除,对网络结构进行垂直整合,将神经网络的卷积(conv)、批归一化(BN)、Relu激活三个层融合为一个层,修改层融合后的参数。
5.根据权利要求1所述的用于边缘计算设备的深度学习的优化方法,其特征在于,所述步骤S03中模型剪枝包括计算参数贡献度,对参数贡献度进行排序,对贡献度低的神经元进行剪枝,通过模型训练保证性能。
6.根据权利要求1所述的用于边缘计算设备的深度学习的优化方法,其特征在于,所述步骤S04,在训练过程中,监视器代理采集平台运行信息,传送到深度强化学习引擎进行训练,同时在重放数据库中进行备份和重放训练,在深度强化学习引擎做出DVFS调频策略后,通过操作检查器过滤明显错误决策,通过接口守护下发DVFS调频策略到控制器代理,进行DVFS的调节操作,通过训练,生成控制模型。
CN201910360178.XA 2019-04-30 2019-04-30 一种用于边缘计算设备的深度学习的优化方法 Pending CN110070181A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910360178.XA CN110070181A (zh) 2019-04-30 2019-04-30 一种用于边缘计算设备的深度学习的优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910360178.XA CN110070181A (zh) 2019-04-30 2019-04-30 一种用于边缘计算设备的深度学习的优化方法

Publications (1)

Publication Number Publication Date
CN110070181A true CN110070181A (zh) 2019-07-30

Family

ID=67369695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910360178.XA Pending CN110070181A (zh) 2019-04-30 2019-04-30 一种用于边缘计算设备的深度学习的优化方法

Country Status (1)

Country Link
CN (1) CN110070181A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414673A (zh) * 2019-07-31 2019-11-05 北京达佳互联信息技术有限公司 多媒体识别方法、装置、设备及存储介质
CN110795235A (zh) * 2019-09-25 2020-02-14 北京邮电大学 一种移动web深度学习协作的方法及系统
CN110989614A (zh) * 2019-12-18 2020-04-10 电子科技大学 一种基于深度强化学习的车辆边缘计算转移调度方法
CN111047225A (zh) * 2020-01-10 2020-04-21 惠州光弘科技股份有限公司 一种基于边缘侧模型处理的smt表面组装组件焊点的质量评定方法
CN111146789A (zh) * 2020-02-21 2020-05-12 中国电力科学研究院有限公司 一种基于边缘计算的机组一次调频能力评估方法及系统
CN111178514A (zh) * 2019-12-31 2020-05-19 翱捷智能科技(上海)有限公司 神经网络的量化方法及系统
CN111343722A (zh) * 2020-03-04 2020-06-26 西安邮电大学 边缘计算中基于认知无线电的能效优化方法
CN111381968A (zh) * 2020-03-11 2020-07-07 中山大学 一种高效运行深度学习任务的卷积运算优化方法及系统
CN111488983A (zh) * 2020-03-24 2020-08-04 哈尔滨工业大学 一种基于fpga的轻量级cnn模型计算加速器
CN111815367A (zh) * 2020-07-22 2020-10-23 北京工业大学 基于边缘缓存的网络利润最优化分配机制构建方法
CN111967572A (zh) * 2020-07-10 2020-11-20 逢亿科技(上海)有限公司 一种基于FPGA的YOLO V3和YOLO V3 Tiny网络切换方法
CN112085195A (zh) * 2020-09-04 2020-12-15 西北工业大学 一种基于x-admm的深度学习模型环境自适应方法
CN112486667A (zh) * 2020-11-03 2021-03-12 深圳市中博科创信息技术有限公司 一种基于边缘计算精准处理数据的方法及装置
CN113272829A (zh) * 2019-01-14 2021-08-17 西门子股份公司 迁移学习的硬件加速器扩展—将训练扩展/完成到边缘
CN113590953A (zh) * 2021-07-30 2021-11-02 郑州轻工业大学 一种基于深度学习的推荐算法库
CN113688992A (zh) * 2021-10-25 2021-11-23 中电云数智科技有限公司 一种模型优化系统和方法
CN113806078A (zh) * 2021-08-27 2021-12-17 南京中科逆熵科技有限公司 一种用于边缘ai推理框架的内存调度方法
CN113837396A (zh) * 2021-09-26 2021-12-24 中国联合网络通信集团有限公司 基于b-m2m的设备模仿学习方法、mec及存储介质
CN114401063A (zh) * 2022-01-10 2022-04-26 中国人民解放军国防科技大学 基于轻量化模型的边缘设备协同频谱智能监测方法和系统
CN114492769A (zh) * 2022-04-11 2022-05-13 飞腾信息技术有限公司 数据处理方法、相关设备及系统
CN114492782A (zh) * 2022-04-19 2022-05-13 之江实验室 基于强化学习的神经网络的片上核心编译映射方法及装置
WO2023038217A1 (ko) * 2021-09-07 2023-03-16 삼성전자 주식회사 신경망 모델을 처리하는 전자 장치와 이의 동작 방법

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170316312A1 (en) * 2016-05-02 2017-11-02 Cavium, Inc. Systems and methods for deep learning processor
CN107612987A (zh) * 2017-09-08 2018-01-19 浙江大学 一种面向边缘计算基于缓存的服务供应优化方法
CN107944555A (zh) * 2017-12-07 2018-04-20 广州华多网络科技有限公司 神经网络压缩和加速的方法、存储设备和终端
CN108197707A (zh) * 2017-12-31 2018-06-22 厦门大学 基于全局误差重建的卷积神经网络的压缩方法
CN108594819A (zh) * 2018-05-03 2018-09-28 济南浪潮高新科技投资发展有限公司 自动驾驶车载计算资源管理系统和方法
CN109271946A (zh) * 2018-09-28 2019-01-25 清华大学深圳研究生院 一种在手机端实现感兴趣物体实时检测的方法
CN109389216A (zh) * 2017-08-03 2019-02-26 珠海全志科技股份有限公司 神经网络的动态裁剪方法、装置及存储介质
CN109657781A (zh) * 2018-12-11 2019-04-19 中国航空工业集团公司西安航空计算技术研究所 面向嵌入式应用的深度神经网络压缩方法、装置及终端

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170316312A1 (en) * 2016-05-02 2017-11-02 Cavium, Inc. Systems and methods for deep learning processor
CN109389216A (zh) * 2017-08-03 2019-02-26 珠海全志科技股份有限公司 神经网络的动态裁剪方法、装置及存储介质
CN107612987A (zh) * 2017-09-08 2018-01-19 浙江大学 一种面向边缘计算基于缓存的服务供应优化方法
CN107944555A (zh) * 2017-12-07 2018-04-20 广州华多网络科技有限公司 神经网络压缩和加速的方法、存储设备和终端
CN108197707A (zh) * 2017-12-31 2018-06-22 厦门大学 基于全局误差重建的卷积神经网络的压缩方法
CN108594819A (zh) * 2018-05-03 2018-09-28 济南浪潮高新科技投资发展有限公司 自动驾驶车载计算资源管理系统和方法
CN109271946A (zh) * 2018-09-28 2019-01-25 清华大学深圳研究生院 一种在手机端实现感兴趣物体实时检测的方法
CN109657781A (zh) * 2018-12-11 2019-04-19 中国航空工业集团公司西安航空计算技术研究所 面向嵌入式应用的深度神经网络压缩方法、装置及终端

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ALLISON GRAY ET AL.: "Production Deep Learning with NVIDIA GPU Inference", 《NVIDIA TECHNICAL BLOG》 *
JURN-GYU PARK ET AL.: "ML-Gov: A Machine Learning EnhancedIntegrated CPU-GPU DVFS Governor", 《15TH IEEE/ACM SYMPOSIUM》 *
TARA N. SAINATH ET AL.: "LOW-RANK MATRIX FACTORIZATION FOR DEEP NEURAL NETWORKTRAINING WITH HIGH-DIMENSIONAL OUTPUT TARGETS" *
蔡瑞初 等: "面向"边缘"应用的卷积神经网络量化与压缩方法", 《计算机应用》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113272829A (zh) * 2019-01-14 2021-08-17 西门子股份公司 迁移学习的硬件加速器扩展—将训练扩展/完成到边缘
CN110414673A (zh) * 2019-07-31 2019-11-05 北京达佳互联信息技术有限公司 多媒体识别方法、装置、设备及存储介质
CN110795235A (zh) * 2019-09-25 2020-02-14 北京邮电大学 一种移动web深度学习协作的方法及系统
CN110989614B (zh) * 2019-12-18 2020-10-30 电子科技大学 一种基于深度强化学习的车辆边缘计算转移调度方法
CN110989614A (zh) * 2019-12-18 2020-04-10 电子科技大学 一种基于深度强化学习的车辆边缘计算转移调度方法
CN111178514A (zh) * 2019-12-31 2020-05-19 翱捷智能科技(上海)有限公司 神经网络的量化方法及系统
CN111047225A (zh) * 2020-01-10 2020-04-21 惠州光弘科技股份有限公司 一种基于边缘侧模型处理的smt表面组装组件焊点的质量评定方法
CN111146789A (zh) * 2020-02-21 2020-05-12 中国电力科学研究院有限公司 一种基于边缘计算的机组一次调频能力评估方法及系统
CN111343722A (zh) * 2020-03-04 2020-06-26 西安邮电大学 边缘计算中基于认知无线电的能效优化方法
CN111343722B (zh) * 2020-03-04 2023-02-14 西安邮电大学 边缘计算中基于认知无线电的能效优化方法
CN111381968A (zh) * 2020-03-11 2020-07-07 中山大学 一种高效运行深度学习任务的卷积运算优化方法及系统
CN111381968B (zh) * 2020-03-11 2023-04-25 中山大学 一种高效运行深度学习任务的卷积运算优化方法及系统
CN111488983A (zh) * 2020-03-24 2020-08-04 哈尔滨工业大学 一种基于fpga的轻量级cnn模型计算加速器
CN111967572A (zh) * 2020-07-10 2020-11-20 逢亿科技(上海)有限公司 一种基于FPGA的YOLO V3和YOLO V3 Tiny网络切换方法
CN111815367A (zh) * 2020-07-22 2020-10-23 北京工业大学 基于边缘缓存的网络利润最优化分配机制构建方法
CN112085195B (zh) * 2020-09-04 2022-09-23 西北工业大学 一种基于x-admm的深度学习模型环境自适应方法
CN112085195A (zh) * 2020-09-04 2020-12-15 西北工业大学 一种基于x-admm的深度学习模型环境自适应方法
CN112486667A (zh) * 2020-11-03 2021-03-12 深圳市中博科创信息技术有限公司 一种基于边缘计算精准处理数据的方法及装置
CN113590953A (zh) * 2021-07-30 2021-11-02 郑州轻工业大学 一种基于深度学习的推荐算法库
CN113590953B (zh) * 2021-07-30 2023-07-18 郑州轻工业大学 一种基于深度学习的推荐算法系统
CN113806078A (zh) * 2021-08-27 2021-12-17 南京中科逆熵科技有限公司 一种用于边缘ai推理框架的内存调度方法
WO2023038217A1 (ko) * 2021-09-07 2023-03-16 삼성전자 주식회사 신경망 모델을 처리하는 전자 장치와 이의 동작 방법
CN113837396A (zh) * 2021-09-26 2021-12-24 中国联合网络通信集团有限公司 基于b-m2m的设备模仿学习方法、mec及存储介质
CN113837396B (zh) * 2021-09-26 2023-08-04 中国联合网络通信集团有限公司 基于b-m2m的设备模仿学习方法、mec及存储介质
CN113688992A (zh) * 2021-10-25 2021-11-23 中电云数智科技有限公司 一种模型优化系统和方法
CN114401063A (zh) * 2022-01-10 2022-04-26 中国人民解放军国防科技大学 基于轻量化模型的边缘设备协同频谱智能监测方法和系统
CN114401063B (zh) * 2022-01-10 2023-10-31 中国人民解放军国防科技大学 基于轻量化模型的边缘设备协同频谱智能监测方法和系统
CN114492769A (zh) * 2022-04-11 2022-05-13 飞腾信息技术有限公司 数据处理方法、相关设备及系统
CN114492769B (zh) * 2022-04-11 2022-08-12 飞腾信息技术有限公司 数据处理方法、相关设备及系统
CN114492782A (zh) * 2022-04-19 2022-05-13 之江实验室 基于强化学习的神经网络的片上核心编译映射方法及装置

Similar Documents

Publication Publication Date Title
CN110070181A (zh) 一种用于边缘计算设备的深度学习的优化方法
Zhang et al. OpenEI: An open framework for edge intelligence
JP7366274B2 (ja) ニューラル・ネットワークのための適応的探索方法および装置
CN110674936A (zh) 一种神经网络处理方法、装置、计算机设备及存储介质
Liu et al. Collaborative edge computing with FPGA-based CNN accelerators for energy-efficient and time-aware face tracking system
CN112631415B (zh) Cpu频率调整方法、装置、电子设备及存储介质
Bateni et al. Predjoule: A timing-predictable energy optimization framework for deep neural networks
Patel et al. A hybrid CNN-LSTM model for predicting server load in cloud computing
CN116415654A (zh) 一种数据处理方法及相关设备
WO2019019926A1 (zh) 系统参数的优化方法、装置及设备、可读介质
Cheong et al. SCARL: Attentive reinforcement learning-based scheduling in a multi-resource heterogeneous cluster
US10732694B2 (en) Power state control of a mobile device
Chen et al. Accurate workload prediction for edge data centers: Savitzky-Golay filter, CNN and BiLSTM with attention mechanism
Yu et al. Workflow performance prediction based on graph structure aware deep attention neural network
Dogani et al. Multivariate workload and resource prediction in cloud computing using CNN and GRU by attention mechanism
Balaji et al. A framework for the analysis of throughput-constraints of SNNs on neuromorphic hardware
CN115314343A (zh) 一种源荷储资源聚合控制网关装置及负荷和出力预测方法
Kim et al. A neural network accelerator for mobile application processors
Zhang et al. Image Color Rendering Based on Hinge-Cross-Entropy GAN in Internet of Medical Things.
US12014202B2 (en) Method and apparatus with accelerator
Lee et al. Energy-efficient control of mobile processors based on long short-term memory
Cheng et al. Self-tuning batching with dvfs for improving performance and energy efficiency in servers
Zhu et al. On-device training: A first overview on existing systems
Alqahtani Leveraging sparse auto-encoding and dynamic learning rate for efficient cloud workloads prediction
Ding et al. A novel self-adaptive extreme learning machine based on affinity propagation for radial basis function neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190730

RJ01 Rejection of invention patent application after publication