CN112925637A - 用于一边缘运算网络的负载平衡装置及方法 - Google Patents

用于一边缘运算网络的负载平衡装置及方法 Download PDF

Info

Publication number
CN112925637A
CN112925637A CN201911249992.0A CN201911249992A CN112925637A CN 112925637 A CN112925637 A CN 112925637A CN 201911249992 A CN201911249992 A CN 201911249992A CN 112925637 A CN112925637 A CN 112925637A
Authority
CN
China
Prior art keywords
edge node
node device
amount
data
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911249992.0A
Other languages
English (en)
Inventor
周志远
何智祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute for Information Industry
Original Assignee
Institute for Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute for Information Industry filed Critical Institute for Information Industry
Publication of CN112925637A publication Critical patent/CN112925637A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • H04L47/125Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload

Abstract

本发明提供一种用于一边缘运算网络的负载平衡装置及方法。该装置执行以下运作:(a)计算各边缘节点装置的运算时间及整体的平均运算时间,(b)从该多个边缘节点装置中决定第一边缘节点装置,其运算时间大于该平均运算时间,(c)从该多个边缘节点装置中决定第二边缘节点装置,其运算时间小于该平均运算时间,且其目前储存资料量低于其最大储存资料量,(d)指示该第一边缘节点装置将其训练数据集的一部分搬移至该第二边缘节点装置,以及(e)更新该第一边缘节点装置及该第二边缘节点装置各自的目前储存资料量。

Description

用于一边缘运算网络的负载平衡装置及方法
技术领域
本发明涉及一种负载平衡装置及方法,特别是涉及一种用于一边缘运算网络的负载平衡装置及方法。
背景技术
随着深度学习技术的快速发展,各种经训练的深度学习模型已被广泛地应用于不同的领域。举例而言,影像处理装置(例如:自动商店摄影机)已采用由深度学习技术所建立的物件检测模型来检测影像或影像序列中的物件,以准确地判断客户所拿取的商品。
不论采用哪一种深度学习模型,皆需要以大量的数据集来训练才能作为实际要使用的模型。目前的深度学习模型,大部分是利用云端系统及集中式的架构来进行训练。然而,利用云端系统及集中式的架构具有以下缺点:(1)由于许多深度学习模型的训练数据集包含商业机密、个人信息等等,因此将训练数据集皆传送至云端会有隐私外泄的疑虑,(2)上传训练数据集至云端系统会有时间延迟,且效能会受到网络传输带宽的影响,(3)由于深度学习模型的训练由云端系统进行,边缘端(例如:具有运算能力的边缘节点)的计算资源被闲置而未能被有效发挥,造成运算资源的浪费,以及(4)由于训练深度学习模型需要大量的资料传输及计算,提升了使用云端系统的成本。
因此,近年来已有一些技术将边缘运算应用于训练深度学习模型。具体而言,边缘运算是一种分散式运算的架构,将数据资料的运算,由网络中心节点移往边缘节点来处理。边缘运算将原本完全由中心节点处理大型服务加以分解,切割成更小与更容易管理的部分,以分散到边缘节点去处理。相较于云端系统,边缘节点更接近于终端装置,因此可以加快资料的处理与传送速度,且可以减少延迟。在这种架构下,训练数据集的分析与知识的产生,更接近于数据资料的来源,因此更适合处理大数据。
然而,利用边缘运算及分散式架构来训练深度学习模型仍有一些问题需要解决。具体而言,边缘运算网络下的各个边缘节点装置的硬件规格不一,使得各个边缘节点装置所具有的运算能力及储存空间不同。因此,由各个边缘节点装置担任「运算者」进行运算时,各个边缘节点装置所需要的运算时间不一致。在数据并行(Data Parallelism)运算的架构下,整体深度学习模型的训练将受制于处理效率较低的边缘节点装置,而导致深度学习模型的整体训练时间的延迟。
有鉴于此,如何提供一种用于一边缘运算网络的负载平衡技术,以减少深度学习模型的训练时间,乃业界亟需努力的目标。
发明内容
本发明的一目的在于提供一种用于一边缘运算网络的负载平衡装置。该边缘运算网络包含多个边缘节点装置,且这些边缘节点装置各自储存一训练数据集。该负载平衡装置包含一储存器及一处理器,且该处理器电性连接至该储存器。该储存器储存一效能信息,其中该效能信息包含各该边缘节点装置的一运算能力、一目前储存资料量及一最大储存资料量。该处理器执行以下运作:(a)计算各该边缘节点装置的一运算时间及这些边缘节点装置的一平均运算时间,(b)从这些边缘节点装置中决定一第一边缘节点装置,其中该第一边缘节点装置的该运算时间大于该平均运算时间,(c)从这些边缘节点装置中决定一第二边缘节点装置,其中该第二边缘节点装置的该运算时间小于该平均运算时间,且该第二边缘节点装置的该目前储存资料量低于该第二边缘节点装置的该最大储存资料量,(d)指示该第一边缘节点装置根据一搬移资料量将该训练数据集的一部分搬移至该第二边缘节点装置,以及(e)更新该效能信息中该第一边缘节点装置的该目前储存资料量及该第二边缘节点装置的该目前储存资料量。
本发明的另一目的在于提供一种用于一边缘运算网络的负载平衡方法,其适用于一电子装置。该边缘运算网络包含多个边缘节点装置,且这些边缘节点装置各自储存一训练数据集。该电子装置储存一效能信息,其中该效能信息包含各该边缘节点装置的一运算能力、一目前储存资料量及一最大储存资料量。该负载平衡方法包含下列步骤:(a)计算各该边缘节点装置的一运算时间及这些边缘节点装置的一平均运算时间,(b)从这些边缘节点装置中决定一第一边缘节点装置,其中该第一边缘节点装置的该运算时间大于该平均运算时间,(c)从这些边缘节点装置中决定一第二边缘节点装置,其中该第二边缘节点装置的该运算时间小于该平均运算时间,且该第二边缘节点装置的该目前储存资料量低于该第二边缘节点装置的该最大储存资料量,(d)指示该第一边缘节点装置根据一搬移资料量将该训练数据集的一部分搬移至该第二边缘节点装置,以及(e)更新该效能信息中该第一边缘节点装置的该目前储存资料量及该第二边缘节点装置的该目前储存资料量。
本发明所提供的用于一边缘运算网络的负载平衡技术(至少包含装置及方法)根据效能信息(即,各该边缘节点装置的一运算能力、一目前储存资料量及一最大储存资料量),计算各该边缘节点装置的运算时间及这些边缘节点装置的平均运算时间,从这些边缘节点装置中决定需搬走部分训练数据集的边缘节点装置(即,第一边缘节点装置)及需接手训练数据集的边缘节点装置(即,第二边缘节点装置),指示该第一边缘节点装置根据搬移资料量将该训练数据集的一部分搬移至该第二边缘节点装置,再更新该效能信息。
本发明所提供的负载平衡技术还可重新计算各该边缘节点装置的该运算时间。当重新计算后的这些运算时间仍未达到某一评估条件时(例如:这些运算时间仍不全小于一预设值时),本发明所提供的负载平衡技术还会重复地执行前述运作。因此,本发明所提供的负载平衡技术有效的在边缘运算网络架构下,降低深度学习模型训练的整体时间,并解决已知技术运算资源浪费的问题。
附图说明
为让本发明的上述目的、特征和优点能更明显易懂,以下结合附图对本发明的具体实施方式作详细说明,其中:
图1是描绘第一实施方式的应用环境的架构示意图;
图2是描绘第一实施方式的负载平衡装置2的架构示意图;
图3A是描绘第一实施方式的效能信息的一具体范例;
图3B是描绘第一实施方式的运算结果的一具体范例;
图4是描绘第二实施方式的负载平衡方法的部分流程图;
图5是描绘某些实施方式所会执行的方法的部分流程图;以及
图6是描绘某些实施方式所会执行的方法的部分流程图。
符号说明
1、3、5、7:边缘节点装置
1A、3A、3B、5A、7A:传感器装置
2:负载平衡装置
21:储存器
23:处理器
S401-S409:步骤
S501-S503:步骤
S601-S603:步骤
具体实施方式
以下将通过实施方式来解释本发明所提供的一种用于一边缘运算网络的负载平衡装置及方法。然而,这些实施方式并非用以限制本发明需在如这些实施方式所述的任何环境、应用或方式方能实施。因此,关于实施方式的说明仅为阐释本发明的目的,而非用以限制本发明的范围。应理解,在以下实施方式及附图中,与本发明非直接相关的元件已省略而未示出,且各元件的尺寸以及元件间的尺寸比例仅为例示而已,而非用以限制本发明的范围。
首先,先简单说明本发明适用的对象及优点。一般而言,在云雾布建的网络架构下,会通过阶层式的运算能力及储存能力将装置分类(即,越接近云端的装置运算能力及储存能力越强,反之越接近雾端的装置的运算能力及储存能力越简单)。本发明主要针对在雾端的边缘运算装置上进行深度学习模型的训练工作,提供负载平衡技术以降低深度学习模型训练的整体时间。因此,本发明能提供如以下优点:(1)训练数据集保留在边缘节点装置,因而保证资料隐私不外泄,(2)利用边缘节点装置的剩余计算资源,减少计算成本,(3)减少将训练数据集搬移至云端系统的成本,(3)利用分散式架构计算,故可减少深度学习模型的训练时间。
请参图1,其是描绘本发明的应用环境的架构示意图。于图1中,边缘运算网络ECN包含4个边缘节点装置1、3、5、7,且边缘节点装置1、3、5、7可彼此连线,但本发明未限制边缘节点装置1、3、5、7彼此连线的方式。边缘节点装置1、3、5、7各自可从对应的传感器装置收集训练数据集。以图1所示的范例为例,边缘节点装置1自传感器装置1A接收训练数据集,边缘节点装置3自传感器装置3A及传感器装置3B接收训练数据集,边缘节点装置5自传感器装置5A接收训练数据集,且边缘节点装置7自传感器装置7A接收训练数据集。于本实施方式中,边缘节点装置1、3、5、7已储存对应的传感器装置1A、3A、3B、5A、7A所传输的训练数据集,并准备进行进一步的深度学习模型的训练工作。
需说明的是,边缘节点装置可为任何具有基本计算能力及储存空间的装置,而传感器装置可为任何可产生训练数据集的物联网(IoT)装置(例如:影像撷取装置)。本发明并未限制边缘运算网络可包含的边缘节点装置数目及各边缘节点装置所能涵盖的传感器装置的数目,其是视边缘运算网络的规模、边缘节点装置的规模及实际需求而定。应理解,深度学习模型的训练尚包含其他运作,惟本发明的重点在于负载平衡的运算及分析,故以下段落将仅详细说明与本发明相关的实施细节。
本发明的第一实施方式为一种用于边缘运算网络的负载平衡装置2,其架构示意图是描绘于图2。需说明的是,负载平衡装置2可由图1中的任一边缘节点装置1、3、5、7担任,亦可由其他在边缘运算网络中更上层的边缘节点装置(例如:未与传感器装置连线的边缘节点装置)担任。负载平衡装置2用以将这些边缘节点装置要用来运算的训练数据集进行负载平衡以降低整体深度学习模型的训练时间。因此,在某些实施方式中,负载平衡装置2可由边缘运算网络中运算能力最强的边缘节点装置担任。于某些实施方式中,负载平衡装置2亦可由一与边缘运算网络连线且具有控制权限的外部装置担任,本发明并未限制其内容。
于本实施方式中,负载平衡装置2包含一储存器21及一处理器23,且二者彼此电性连接。储存器21可为一存储器、一通用串列总线(Universal Serial Bus;USB)碟、一硬盘、一光盘、一随身盘或本领域的技术人员所知且具有相同功能的任何其他储存媒体或电路。处理器23可为各种处理器、中央处理单元、微处理器、数字信号处理器或本领域的技术人员所知的其他计算装置。
先简单说明本发明的运作概念。由于不同的边缘节点装置硬件规格不同,各个边缘节点装置以其所收集到的训练数据集来训练一深度学习模型所需的运算时间不同。然而,在平行处理的架构下,若有边缘节点装置的运算时间明显超过其他边缘节点装置的运算时间,将导致深度学习模型训练的整体训练时间延迟。因此,在平行处理的架构下,负载平衡装置2将分析边缘运算网络下的边缘节点装置,以指示某一(或某些)边缘节点装置搬移其部分的训练数据集,来平衡各个边缘节点装置的运算时间,以达到缩短深度学习模型的整体训练时间。
具体而言,前述缩短深度学习模型的整体训练时间T,可由以下的公式(1)来表示:
MIN(T)=MIN(α×Ttrans+β×Tcomp+γ×Tcomm) (1)
上述公式(1)中,变数α、变数β及变数γ为正整数,参数Ttrans为资料传输时间、参数Tcomp为运算时间、参数Tcomm为负载平衡装置2与边缘节点装置合作所需要的通讯时间。
另外,代表资料传输时间的参数Ttrans的计算方式可由以下公式(2)来表示:
Figure BDA0002308759220000061
上述公式(2)中,M[i,j]为训练数据集由第i个边缘节点装置搬移到第j个边缘节点装置的量,Bij为第i个边缘节点装置至第j个边缘节点装置间的传输带宽。
另外,代表运算时间的参数Tcomp的计算方式可由以下公式(3)来表示:
Figure BDA0002308759220000062
上述公式(3)中,Di为第i个边缘节点装置的目前储存资料量,M[i,j]为训练数据集由第i个边缘节点装置搬移到第j个边缘节点装置的量,M[j,i]为训练数据集由第j个边缘节点装置搬移到第i个边缘节点装置的量,Ci为第i个边缘节点装置的计算能力。
需说明的是,本发明的目的在缩短深度学习模型的整体训练时间,而在一般的情形下,运算时间(即,上述公式中的参数Tcomp)是最为关键的参数。具体而言,因为在深度学习模型的训练过程,相较于资料传输时间(即,上述公式中的参数Ttrans)及通讯时间(即,上述公式中的参数Tcomm,通常为定值),运算时间往往远高于其它二者。因此,若能有效地降低运算时间,将能大幅地改善缩短深度学习模型的整体训练时间。因此,降低运算时间是本发明着重的主要目标,而由于不同的边缘节点装置的运算能力不一致,借由调整运算能力较差的边缘节点装置所负责的训练数据集的量,将能有效地降低平均运算时间。本发明将基于前述的公式,提供一负载平衡机制,以下段落将详细说明与本发明相关的实施细节。
于本实施方式中,负载平衡装置2的储存器21预先储存边缘运算网络中各边缘节点装置的相关资料,并且在每次负载平衡运作完成后即时地进行更新。因此,负载平衡装置2可通过这些相关资料进行分析,以找出在边缘运算网络中造成整体运算延迟(即,使得运算时间提高)的边缘节点装置,再对该边缘节点装置采取负载平衡的运作。具体而言,负载平衡装置2的储存器21储存一效能信息,其中该效能信息包含各该边缘节点装置的一运算能力、一目前储存资料量(即,边缘节点装置所储存的训练数据集的资料量)及一最大储存资料量。
需说明的是,储存器21所储存的效能信息可由负载平衡装置2主动地向各边缘节点装置索取,或是由其他外部装置整合后输入,本发明并未限制其来源。应理解,边缘节点装置的运算能力可为以训练数据集训练深度学习模型的能力。由于训练数据集中的每一笔资料具有类似的格式,负载平衡装置2可通过统一标准来量化各该边缘节点装置的运算能力,例如:每秒处理几笔训练资料。
图3A描绘储存器21所储存的效能信息的一具体范例,但该具体范例并非用以限制本发明的范围。如图3A所例示,边缘节点装置1的运算能力为10(笔/秒)、目前储存资料量为150笔(即,训练数据集中有150笔训练资料)、最大储存资料量为300笔。边缘节点装置3的运算能力为20(笔/秒)、目前储存资料量为200笔、最大储存资料量为400笔。边缘节点装置5的运算能力为50(笔/秒)、目前储存资料量为300笔、最大储存资料量为500笔。边缘节点装置7的运算能力为100(笔/秒)、目前储存资料量为500笔、最大储存资料量为500笔。
于本实施方式中,处理器23先计算各该边缘节点装置的一运算时间及这些边缘节点装置的一平均运算时间。具体而言,处理器23先根据每个边缘节点装置的运算能力及每个边缘节点装置的目前储存资料量,计算每个边缘节点装置的运算时间。接着,处理器23根据这些运算时间,计算这些边缘节点装置的该平均运算时间。举例而言,边缘节点装置1的运算能力为10(笔/秒)、目前储存资料为150笔,因此边缘节点装置1的运算时间即为15秒。
之后,由于处理器23已计算出每个边缘节点装置的运算时间及平均运算时间,处理器23将从这些边缘节点装置中,选择一运算时间较长的边缘节点装置进行训练资料的转移,以降低该边缘节点装置的运算时间,达到缩短深度学习模型的整体训练时间的目的。具体而言,处理器23从这些边缘节点装置中决定一第一边缘节点装置,其中该第一边缘节点装置的该运算时间大于该平均运算时间。于某些实施方式中,处理器23是从这些边缘节点装置中选取具有最大的该运算时间者作为该第一边缘节点装置。
接着,处理器23将从这些边缘节点装置中选择运算时间低于平均运算时间且仍有储存空间可以接收训练资料的边缘节点装置,以进行后续的训练资料的转移。具体而言,处理器23从这些边缘节点装置中决定一第二边缘节点装置,其中该第二边缘节点装置的该运算时间小于该平均运算时间,且该第二边缘节点装置的该目前储存资料量低于该第二边缘节点装置的该最大储存资料量。
于某些实施方式中,为了降低训练资料转移时的资料传输时间(即,上述公式中的参数Ttrans),储存器21储存的效能信息更包含各该边缘节点装置所具有的一传输带宽。在这些实施方式中,在决定该第二边缘节点装置(即,接收训练资料的边缘节点装置)时,处理器23将选取具有最大的该传输带宽者作为该第二边缘节点装置,以使第一边缘节点装置搬移训练资料至第二边缘节点装置时衍生较少的资料传输时间。
于本实施方式中,处理器23已决定需搬走部分的训练数据集的边缘节点装置(即,第一边缘节点装置)及需接收部分的训练数据集的边缘节点装置(即,第二边缘节点装置)。随后,处理器23指示该第一边缘节点装置根据一搬移资料量将该训练数据集的一部分搬移至该第二边缘节点装置。应理解,搬移资料量是由处理器23计算,由处理器23判断第一边缘节点装置需要且合理的搬移资料量,而搬移资料量亦需要在第二边缘节点装置容许的范围内(即,仍有储存空间可以接收)。
举例而言,处理器23可根据该第一边缘节点装置的该运算时间与该平均运算时间的一差值及该第一边缘节点装置的一运算能力,计算一预估搬移资料量。接着,处理器23根据该预估搬移资料量、该第二边缘节点装置的该目前储存资料量及该最大储存资料量,计算该搬移资料量。
需说明的是,由于处理器23计算的搬移资料量需要合理且可实现,除了要判断该第一边缘节点装置需要搬移的训练资料量,亦要判断第二边缘节点装置的空间是否可接受。因此,于某些实施方式中,处理器23可根据该第二边缘节点装置的该目前储存资料量及该最大储存资料量计算该第二边缘节点装置的一剩余储存空间,再选取该剩余储存空间及该预估搬移资料量中较小者作为该搬移资料量。
最后,处理器23更新该效能信息中该第一边缘节点装置的该目前储存资料量及该第二边缘节点装置的该目前储存资料量,以使得效能信息能即时地反应目前这些在边缘节点装置的状况。
兹以一具体范例说明,请同时参考图3A及图3B。首先,处理器23先将边缘节点装置1、3、5、7的目前储存资料量除以运算能力,计算出边缘节点装置1、3、5、7的运算时间分别为15、10、6、5(秒),且边缘节点装置1、3、5、7的平均运算时间为9(秒)。接着,处理器23选择运算时间最大的边缘节点装置1作为欲搬移部分训练数据集的边缘节点装置(即,前述第一边缘节点装置)。随后,处理器23将决定接收部分训练数据集的边缘节点装置(即,前述第二边缘节点装置)。由于处理器23判断运算时间小于平均运算时间9秒的有边缘节点装置5及7,且仅有边缘节点装置5的目前储存资料量低于最大储存资料量(即,剩余储存空间大于0),因此处理器23决定以边缘节点装置5作为接收部分训练数据集的边缘节点装置。
接着,处理器23根据先前的计算结果,计算边缘节点装置1的运算时间与平均运算时间相差6秒(即,边缘节点装置1的运算时间为15秒、平均运算时间9秒)。接着,处理器23计算欲让边缘节点装置1的运算时间接近平均运算时间所需要搬移的训练资料的量。具体而言,处理器23将时间差值6秒与边缘节点装置1的运算能力10(笔/每秒)相乘,计算出边缘节点装置1的预估搬移资料量为60笔训练资料。接着,处理器23知悉边缘节点装置5的剩余空间有200笔,而预估搬移资料量为60笔,因此选择其中较小者(即,预估搬移资料量60笔)作为该搬移资料量。因此,处理器23指示边缘节点装置1将其训练数据集中的60笔训练资料搬移至边缘节点装置5。最后,在负载平衡运作完成后,处理器23将边缘节点装置1的目前储存资料量(即,90笔)及边缘节点装置5的目前储存资料(即,360笔)更新至储存器21储存的效能信息。
于某些实施方式中,处理器23可进行多次的负载平衡运作,直到这些边缘节点装置的运算时间均小于一预设值。具体而言,处理完第一次负载平衡运作后,处理器23将重新计算各该边缘节点装置的该运算时间。接着,若处理器23判断边缘节点装置的这些运算时间不全小于一预设值,处理器23将重复地执行前述的负载平衡运作,直到这些边缘节点装置的运算时间均小于一预设值。于某些实施方式中,处理器23亦可进行多次的负载平衡运作,直到这些边缘节点装置的运算时间彼此间的差值皆小于另一预设值,例如:这些边缘节点装置的运算时间彼此间的差值皆小于5个百分比、一个标准差等等。
由上述说明可知,负载平衡装置2借由分析效能信息(亦即,各该边缘节点装置的一运算能力、一目前储存资料量及一最大储存资料量),计算各该边缘节点装置的运算时间及这些边缘节点装置的平均运算时间,从这些边缘节点装置中决定需搬走部分训练数据集的边缘节点装置(即,第一边缘节点装置)及需接手部分训练数据集的边缘节点装置(即,第二边缘节点装置),指示该第一边缘节点装置根据搬移资料量将其训练资料的一部分搬移至该第二边缘节点装置,再更新该效能信息。负载平衡装置2还可重新计算各该边缘节点装置的该运算时间。若重新计算后的这些运算时间仍未达到某一评估条件时(例如:这些运算时间仍不全小于一预设值时),负载平衡装置2还会重复地执行前述运作。因此,负载平衡装置2有效的在边缘运算网络架构下,降低深度学习模型训练的整体时间,并解决现有技术运算资源浪费的问题。
本发明的第二实施方式为一用于一边缘运算网络的负载平衡方法,其流程图是描绘于图4。负载平衡方法适用于一电子装置,例如:第一实施方式所述的负载平衡装置2。该边缘运算网络包含多个边缘节点装置,且这些边缘节点装置各自储存一训练数据集。该电子装置储存一效能信息,其中该效能信息包含各该边缘节点装置的一运算能力、一目前储存资料量及一最大储存资料量。负载平衡方法通过步骤S401至步骤S409执行负载平衡。
于步骤S401,由该电子装置计算各该边缘节点装置的一运算时间及这些边缘节点装置的一平均运算时间。接着,于步骤S403,由该电子装置从这些边缘节点装置中决定一第一边缘节点装置,其中该第一边缘节点装置的该运算时间大于该平均运算时间。
随后,于步骤S405,由该电子装置从这些边缘节点装置中决定一第二边缘节点装置,其中该第二边缘节点装置的该运算时间小于该平均运算时间,且该第二边缘节点装置的该目前储存资料量低于该第二边缘节点装置的该最大储存资料量。接着,于步骤S407,由该电子装置指示该第一边缘节点装置根据一搬移资料量将该训练数据集的一部分搬移至该第二边缘节点装置。最后,于步骤S409,由该电子装置更新该效能信息中该第一边缘节点装置的该目前储存资料量及该第二边缘节点装置的该目前储存资料量。
于某些实施方式中,其中该步骤S401包含以下步骤:根据各该边缘节点装置的该运算能力及该目前储存资料量,计算各该边缘节点装置的该运算时间;以及根据这些运算时间,计算这些边缘节点装置的该平均运算时间。于某些实施方式中,其中该步骤S403是从这些边缘节点装置中选取具有最大的该运算时间者作为该第一边缘节点装置。
于某些实施方式中,其中该效能信息更包含各该边缘节点装置所具有的一传输带宽。在这些实施方式中,该步骤S405是从这些边缘节点装置中选取具有最大的该传输带宽者作为该第二边缘节点装置。
于某些实施方式中,该步骤S407可包含步骤S501至步骤S503,如图5所示。于该步骤S501,由该电子装置根据该第一边缘节点装置的该运算时间与该平均运算时间的一差值及该第一边缘节点装置的一运算能力,计算一预估搬移资料量。接着,于该步骤S503,由该电子装置根据该预估搬移资料量、该第二边缘节点装置的该目前储存资料量及该最大储存资料量,计算该搬移资料量。于某些实施方式中,该步骤S503可根据该第二边缘节点装置的该目前储存资料量及该最大储存资料量计算该第二边缘节点装置的一剩余储存空间,再选取该剩余储存空间及该预估搬移资料量中较小者作为该搬移资料量。
于某些实施方式中,其中该负载平衡方法更包含步骤S601至步骤S603,其流程图是描绘于图6。于该步骤S601,由该电子装置重新计算各该边缘节点装置的该运算时间。当该电子装置判断当这些运算时间不全小于一预设值时,该负载平衡方法于该步骤S603重复地执行步骤S401、步骤S403、步骤S405、步骤S407、步骤S409及步骤S601。
除了上述步骤,第二实施方式亦能执行第一实施方式所描述的负载平衡装置2的所有运作及步骤,具有同样的功能,且达到同样的技术效果。本领域的技术人员可直接了解第二实施方式如何基于上述第一实施方式以执行此等运作及步骤,具有同样的功能,并达到同样的技术效果,故不赘述。
需说明者,于本发明专利说明书及权利要求书中,某些用语(包括:边缘节点装置)前被冠以「第一」或「第二」,这些「第一」及「第二」仅用来区分不同对象的用语。例如:第一边缘节点装置及第二边缘节点装置中的「第一」及「第二」仅用来表示不同的边缘节点装置。
综上所述,本发明所提供的用于一边缘运算网络的负载平衡技术(至少包含装置及方法)借由分析效能信息,计算各该边缘节点装置的运算时间及这些边缘节点装置的平均运算时间,从这些边缘节点装置中决定需搬走部分训练数据集的边缘节点装置(即,第一边缘节点装置)及接手部分训练数据集的边缘节点装置(即,第二边缘节点装置),指示该第一边缘节点装置根据搬移资料量将该训练数据集的一部分搬移至该第二边缘节点装置,再更新该效能信息。
本发明所提供的负载平衡技术还可重新计算各该边缘节点装置的该运算时间。当重新计算后的这些运算时间仍未达到某一评估条件时(例如:这些运算时间仍不全小于一预设值时),本发明所提供的负载平衡技术还会重复地执行前述运作。因此,本发明所提供的负载平衡技术有效的在边缘运算网络架构下,降低深度学习模型训练的整体时间,并解决已知技术运算资源浪费的问题。
上述实施方式仅用来例举本发明的部分实施形态,以及阐释本发明的技术特征,而非用来限制本发明的保护范畴及范围。任何本领域的技术人员可轻易完成的改变或均等性的安排均属于本发明所主张的范围,而本发明的保护范围当以权利要求书所界定的为准。

Claims (14)

1.一种用于一边缘运算网络的负载平衡装置,其特征在于,该边缘运算网络包含多个边缘节点装置,该多个边缘节点装置各自储存一训练数据集,该负载平衡装置包含:
一储存器,储存一效能信息,其中该效能信息包含各该边缘节点装置的一运算能力、一目前储存资料量及一最大储存资料量;以及
一处理器,电性连接至该储存器,且执行以下运作:
(a)计算各该边缘节点装置的一运算时间及该多个边缘节点装置的一平均运算时间;
(b)从该多个边缘节点装置中决定一第一边缘节点装置,其中该第一边缘节点装置的该运算时间大于该平均运算时间;
(c)从该多个边缘节点装置中决定一第二边缘节点装置,其中该第二边缘节点装置的该运算时间小于该平均运算时间,且该第二边缘节点装置的该目前储存资料量低于该第二边缘节点装置的该最大储存资料量;
(d)指示该第一边缘节点装置根据一搬移资料量将该训练数据集的一部分搬移至该第二边缘节点装置;以及
(e)更新该效能信息中该第一边缘节点装置的该目前储存资料量及该第二边缘节点装置的该目前储存资料量。
2.如权利要求1所述的负载平衡装置,其特征在于,该运作(a)包含以下运作:
根据各该边缘节点装置的该运算能力及该目前储存资料量,计算各该边缘节点装置的该运算时间;以及
根据该多个运算时间,计算该多个边缘节点装置的该平均运算时间。
3.如权利要求1所述的负载平衡装置,其特征在于,该运作(b)是从该多个边缘节点装置中选取具有最大的该运算时间者作为该第一边缘节点装置。
4.如权利要求1所述的负载平衡装置,其特征在于,该效能信息更包含各该边缘节点装置所具有的一传输带宽,该运作(c)是从该多个边缘节点装置中选取具有最大的该传输带宽者作为该第二边缘节点装置。
5.如权利要求1所述的负载平衡装置,其特征在于,该运作(d)中的该搬移资料量是由以下运作决定:
(d1)根据该第一边缘节点装置的该运算时间与该平均运算时间的一差值及该第一边缘节点装置的一运算能力,计算一预估搬移资料量;以及
(d2)根据该预估搬移资料量、该第二边缘节点装置的该目前储存资料量及该最大储存资料量,计算该搬移资料量。
6.如权利要求5所述的负载平衡装置,其特征在于,该运作(d2)还根据该第二边缘节点装置的该目前储存资料量及该最大储存资料量计算该第二边缘节点装置的一剩余储存空间,再选取该剩余储存空间及该预估搬移资料量中较小者作为该搬移资料量。
7.如权利要求1所述的负载平衡装置,其特征在于,该处理器更执行以下运作:
(f)重新计算各该边缘节点装置的该运算时间;以及
(g)当该多个运算时间不全小于一预设值时,重复地执行运作(a)、运作(b)、运作(c)、运作(d)、运作(e)及运作(f)。
8.一种用于一边缘运算网络的负载平衡方法,其特征在于,该负载平衡方法适用于一电子装置,该边缘运算网络包含多个边缘节点装置,该多个边缘节点装置各自储存一训练数据集,该电子装置储存一效能信息,该效能信息包含各该边缘节点装置的一运算能力、一目前储存资料量及一最大储存资料量,该负载平衡方法包含下列步骤:
(a)计算各该边缘节点装置的一运算时间及该多个边缘节点装置的一平均运算时间;
(b)从该多个边缘节点装置中决定一第一边缘节点装置,其中该第一边缘节点装置的该运算时间大于该平均运算时间;
(c)从该多个边缘节点装置中决定一第二边缘节点装置,其中该第二边缘节点装置的该运算时间小于该平均运算时间,且该第二边缘节点装置的该目前储存资料量低于该第二边缘节点装置的该最大储存资料量;
(d)指示该第一边缘节点装置根据一搬移资料量将该训练数据集的一部分搬移至该第二边缘节点装置;以及
(e)更新该效能信息中该第一边缘节点装置的该目前储存资料量及该第二边缘节点装置的该目前储存资料量。
9.如权利要求8所述的负载平衡方法,其特征在于,该步骤(a)包含以下步骤:
根据各该边缘节点装置的该运算能力及该目前储存资料量,计算各该边缘节点装置的该运算时间;以及
根据该多个运算时间,计算该多个边缘节点装置的该平均运算时间。
10.如权利要求8所述的负载平衡方法,其特征在于,该步骤(b)是从该多个边缘节点装置中选取具有最大的该运算时间者作为该第一边缘节点装置。
11.如权利要求8所述的负载平衡方法,其特征在于,该效能信息更包含各该边缘节点装置所具有的一传输带宽,该步骤(c)是从该多个边缘节点装置中选取具有最大的该传输带宽者作为该第二边缘节点装置。
12.如权利要求8所述的负载平衡方法,其特征在于,该步骤(d)中的该搬移资料量是由以下步骤决定:
(d1)根据该第一边缘节点装置的该运算时间与该平均运算时间的一差值及该第一边缘节点装置的一运算能力,计算一预估搬移资料量;以及
(d2)根据该预估搬移资料量、该第二边缘节点装置的该目前储存资料量及该最大储存资料量,计算该搬移资料量。
13.如权利要求12所述的负载平衡方法,其特征在于,该步骤(d2)还根据该第二边缘节点装置的该目前储存资料量及该最大储存资料量计算该第二边缘节点装置的一剩余储存空间,再选取该剩余储存空间及该预估搬移资料量中较小者作为该搬移资料量。
14.如权利要求8所述的负载平衡方法,其特征在于,该负载平衡方法更包含以下步骤:
(f)重新计算各该边缘节点装置的该运算时间;以及
(g)当该多个运算时间不全小于一预设值时,重复地执行步骤(a)、步骤(b)、步骤(c)、步骤(d)、步骤(e)及步骤(f)。
CN201911249992.0A 2019-12-05 2019-12-09 用于一边缘运算网络的负载平衡装置及方法 Pending CN112925637A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW108144534A TWI729606B (zh) 2019-12-05 2019-12-05 用於一邊緣運算網路的負載平衡裝置及方法
TW108144534 2019-12-05

Publications (1)

Publication Number Publication Date
CN112925637A true CN112925637A (zh) 2021-06-08

Family

ID=76162161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911249992.0A Pending CN112925637A (zh) 2019-12-05 2019-12-09 用于一边缘运算网络的负载平衡装置及方法

Country Status (3)

Country Link
US (1) US20210176174A1 (zh)
CN (1) CN112925637A (zh)
TW (1) TWI729606B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11875256B2 (en) 2020-07-09 2024-01-16 International Business Machines Corporation Dynamic computation in decentralized distributed deep learning training
US11886969B2 (en) 2020-07-09 2024-01-30 International Business Machines Corporation Dynamic network bandwidth in distributed deep learning training
US11977986B2 (en) * 2020-07-09 2024-05-07 International Business Machines Corporation Dynamic computation rates for distributed deep learning
CN114500551B (zh) * 2021-12-31 2024-04-05 杭州未名信科科技有限公司 边缘计算传输负载均衡方法、装置、设备及存储介质
TWI821038B (zh) * 2022-11-22 2023-11-01 財團法人工業技術研究院 運算工作分派方法及應用其之終端電子裝置與運算系統
US11916810B1 (en) * 2023-03-23 2024-02-27 Honda Motor Co., Ltd. Resource management
CN117318796A (zh) * 2023-11-10 2023-12-29 速度科技股份有限公司 一种基于卫星通信的边缘数据计算评测系统

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9218196B2 (en) * 2012-05-17 2015-12-22 International Business Machines Corporation Performing pre-stage replication of data associated with virtual machines prior to migration of virtual machines based on resource usage
US20140067758A1 (en) * 2012-08-28 2014-03-06 Nokia Corporation Method and apparatus for providing edge-based interoperability for data and computations
DE112016006786T5 (de) * 2016-07-02 2019-01-17 Intel Corporation Ressourcenorchestrierungsbrokerage für Internet-Der-Dinge-Netzwerke
CN106844051A (zh) * 2017-01-19 2017-06-13 河海大学 一种边缘计算环境中功耗优化的负载任务迁移算法
US11210133B1 (en) * 2017-06-12 2021-12-28 Pure Storage, Inc. Workload mobility between disparate execution environments
TWI689823B (zh) * 2018-01-04 2020-04-01 財團法人工業技術研究院 動態工作移轉方法及伺服器
JP7035606B2 (ja) * 2018-02-21 2022-03-15 日本電気株式会社 エッジコンピューティングシステム、エッジサーバ、システム制御方法、及びプログラム
US11005925B2 (en) * 2018-02-28 2021-05-11 International Business Machines Corporation Load balancing with power of random choices
US11829849B2 (en) * 2019-01-09 2023-11-28 Cisco Technology, Inc. Dynamic orchestration of machine learning functions on a distributed network
WO2020149820A1 (en) * 2019-01-14 2020-07-23 Siemens Aktiengesellschaft Hardware accelerator extension to transfer learning - extending/finishing training to the edge
CN109885397B (zh) * 2019-01-15 2023-04-07 长安大学 一种边缘计算环境中时延优化的负载任务迁移算法
US20200272896A1 (en) * 2019-02-25 2020-08-27 Alibaba Group Holding Limited System for deep learning training using edge devices
US11423254B2 (en) * 2019-03-28 2022-08-23 Intel Corporation Technologies for distributing iterative computations in heterogeneous computing environments
US11132608B2 (en) * 2019-04-04 2021-09-28 Cisco Technology, Inc. Learning-based service migration in mobile edge computing
CN110008015B (zh) * 2019-04-09 2022-09-30 中国科学技术大学 边缘计算系统中有带宽限制的在线任务分派调度方法
CN110046048B (zh) * 2019-04-18 2021-09-28 杭州电子科技大学 一种基于工作量自适应快速重分配的负载均衡方法
CN110351376A (zh) * 2019-07-17 2019-10-18 国网四川省电力公司电力科学研究院 一种基于负反馈机制的边缘计算节点选择方法
US11172035B2 (en) * 2019-07-17 2021-11-09 EMC IP Holding Company LLC Data management for edge computing environment
CN112887345A (zh) * 2019-11-29 2021-06-01 上海交通大学 边缘计算环境的节点负载均衡调度方法

Also Published As

Publication number Publication date
TWI729606B (zh) 2021-06-01
TW202123003A (zh) 2021-06-16
US20210176174A1 (en) 2021-06-10

Similar Documents

Publication Publication Date Title
CN112925637A (zh) 用于一边缘运算网络的负载平衡装置及方法
CN111682954B (zh) 管理微服务的网络的方法、系统和计算机可读介质
CN107545889B (zh) 适用于模式识别的模型的优化方法、装置及终端设备
US20190394132A1 (en) System and Method for Network Slicing for Service-Oriented Networks
CN110058936B (zh) 用于确定专用处理资源的资源量的方法、设备和计算机程序产品
CN109840589A (zh) 一种在fpga上运行卷积神经网络的方法、装置及系统
CN111047563B (zh) 一种应用于医学超声图像的神经网络构建方法
US10834183B2 (en) Managing idle and active servers in cloud data centers
CN104901989A (zh) 一种现场服务提供系统及方法
CN114862656A (zh) 基于多gpu的分布式深度学习模型训练代价的获取方法
CN112506619B (zh) 作业处理方法、装置、电子设备和存储介质
CN112532530A (zh) 一种拥塞通知信息调整的方法及设备
CN113657483A (zh) 模型训练方法、目标检测方法、装置、设备以及存储介质
CN114511042A (zh) 一种模型的训练方法、装置、存储介质及电子装置
JP2022512211A (ja) 画像処理方法、装置、車載演算プラットフォーム、電子機器及びシステム
US11423313B1 (en) Configurable function approximation based on switching mapping table content
CN116762080A (zh) 神经网络生成装置、神经网络运算装置、边缘设备、神经网络控制方法以及软件生成程序
CN113673532B (zh) 基于量化模型的目标检测方法及装置
CN116668351A (zh) 服务质量预测方法、装置、计算机设备及存储介质
CN116915869A (zh) 基于云边协同的时延敏感型智能服务快速响应方法
CN115225543B (zh) 一种流量预测方法、装置、电子设备和存储介质
CN116862549A (zh) 服务成本确定方法、装置、电子设备及非易失性存储介质
JP2019149043A (ja) 見積り装置および見積り方法
CN114035906A (zh) 虚拟机迁移方法、装置、电子设备及存储介质
CN113657468A (zh) 预训练模型的生成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination