CN116193516A - 一种物联网场景下用于高效联邦学习的成本优化方法 - Google Patents

一种物联网场景下用于高效联邦学习的成本优化方法 Download PDF

Info

Publication number
CN116193516A
CN116193516A CN202211474479.3A CN202211474479A CN116193516A CN 116193516 A CN116193516 A CN 116193516A CN 202211474479 A CN202211474479 A CN 202211474479A CN 116193516 A CN116193516 A CN 116193516A
Authority
CN
China
Prior art keywords
training
resource
model
cost
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211474479.3A
Other languages
English (en)
Inventor
唐伦
单贞贞
文明艳
陈前斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202211474479.3A priority Critical patent/CN116193516A/zh
Publication of CN116193516A publication Critical patent/CN116193516A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0917Management thereof based on the energy state of entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5044Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering hardware capabilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5094Allocation of resources, e.g. of the central processing unit [CPU] where the allocation takes into account power or heat criteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0925Management thereof using policies
    • H04W28/095Management thereof using policies based on usage history, e.g. usage history of devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0958Management thereof based on metrics or performance parameters
    • H04W28/0967Quality of Service [QoS] parameters
    • H04W28/0975Quality of Service [QoS] parameters for reducing delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0209Power saving arrangements in terminal devices
    • H04W52/0212Power saving arrangements in terminal devices managed by the network, e.g. network or access point is master and terminal is slave
    • H04W52/0219Power saving arrangements in terminal devices managed by the network, e.g. network or access point is master and terminal is slave where the power saving management affects multiple terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/502Proximity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种物联网场景下用于高效联邦学习的成本优化方法,属于移动通信领域,包括以下步骤:S1:建立半异步联邦学习系统时间成本和能耗成本的成本优化模型;S2:边缘计算服务器基于时域卷积网络算法,实时感知每个IoT设备的剩余资源;S3:设计了一种贪婪搜索的设备选择方法,根据资源感知的结果和模型陈旧度均值的大小,选择出最佳的IoT设备参与全局模型的训练;S4:资源分配方法,采取异步优势演员评论家算法对所选择的设备进行资源分配,同时满足系统成本消耗的最小化。本发明可以减少采用半异步联邦学习架构进行模型训练时的时间和能量的成本消耗,有效降低系统开销。

Description

一种物联网场景下用于高效联邦学习的成本优化方法
技术领域
本发明属于移动通信领域,涉及一种物联网场景下用于高效联邦学习的成本优化方法。
背景技术
目前,许多联邦学习(Federated Learning,FL)方案正被人们广泛地应用于移动边缘计算(Mobile Edge Computing,MEC)网络的场景中,尤其是在物联网(Internet ofThings,IoT)场景中,通过利用联邦学习的架构,使得大量的客户端在边缘计算服务器的协调下协同训练机器学习或深度学习模型,同时也保证了数据的分散性和隐私性。因此,如何实现高效的FL模型训练,降低实际部署中的系统成本的消耗,是当前研究的热点之一。
然而,当边缘设备在其CPU资源、内存资源和电量资源的不充足的情形下参与本地模型的训练时,会出现卡顿或死机的现象,这不仅会增加模型的训练时间和能量消耗,进而使得系统消耗的成本较高,还间接导致了移动设备上传的本地模型具有陈旧度,即设备上传的本地模型版本和当前全局模型的版本差异较大。当模型陈旧度过大时,参数服务器会自动丢弃该设备上传的本地模型,这将导致系统资源的浪费;当模型陈旧度较小时,参数服务器虽会聚合其本地模型,但对全局模型的贡献值大大降低,也会影响全局模型的精度。此外,即使边缘设备的资源充足,但边缘设备的计算能力和通信能力的不同也会影响FL的训练性能和系统成本。综上所述,现有的异构物联网网络中,无法实现高效FL模型训练的同时还能使系统成本降低。
发明内容
有鉴于此,本发明的目的在于提供一种物联网场景下用于高效联邦学习的成本优化方法,减少终端IoT设备在参与模型训练期间的资源消耗和通信消耗,有效降低半异步联邦学习过程中的系统总成本。
为达到上述目的,本发明提供如下技术方案:
一种物联网场景下用于高效联邦学习的成本优化方法,包括以下步骤:
S1:在物联网场景下,建立半异步联邦学习系统时间成本和能耗成本的成本优化模型;
S2:物联网中各个设备上传其资源信息至所属的MEC服务器;
S3:MEC服务器使用时域卷积网络TCN进行资源感知,基于感知结果执行设备选择算法,选择出状态最佳的设备参与本地模型的训练;
S4:MEC服务器将初始全局模型下发至所选择的IoT设备;
S5:根据选择指标,确定是否执行本地训练步骤;
S6:根据S3的设备选择结果,将成本优化问题的约束条件转化为资源分配大小的约束,并采用基于异步优势演员评论家资源分配算法A3C学习最佳的资源分配策略,最终由MEC服务器汇聚梯度,完成其更新任务;
S7:各个设备依据自身的数据集执行本地训练过程;
S8:各个设备异步上传本地更新后的模型;
S9:MEC服务器接收到指定数量的本地模型后,执行全局聚合操作,循环执行步骤S2-S9,直至全局迭代轮数达到其阈值或全局损失函数收敛。
进一步,步骤S1中,在最低资源预算的需求下,使得成本函数最小的优化问题表述如下:
Figure BDA0003957202160000021
s.t.C1:F(wK)-F(w*)≤δ
C2:Tk≤Tmax
Figure BDA0003957202160000022
Figure BDA0003957202160000023
Figure BDA0003957202160000024
Figure BDA0003957202160000025
C7:ai{0,1}
其中,pk={a1,a2,...,ai,...,aN},表示第k轮进行全局设备选择之后的结果集合;c1和c2分别表示能量成本和时延成本的重要性加权指标,且c1c2=1;C1表示SAFL训练K轮之后是收敛的;C2表示第k轮中的每个参与SAFL的边缘设备的训练时间不超过时间阈值;C3表示移动设备所分配的计算容量的范围;C4~C5表示为每个移动设备分配的带宽的大小;C6表示每个设备的各个资源类型的剩余率阈值大于该设备参与联邦训练时预期的资源利用率阈值Uk;C7表示是否选择该设备。
进一步,步骤S3中,采用时域卷积网络TCN对每个移动设备进行资源实时感知,预测每个移动设备未来一段时间的剩余资源状况,所述剩余资源状况包括设备的剩余CPU资源、剩余内存资源和剩余电量资源,取未来一段时间内所预测各设备的剩余资源平均值作为评估标准,计算方式如下:
Figure BDA0003957202160000026
其中,
Figure BDA0003957202160000027
表示设备vi曾经参加全局模型训练的次数。
进一步,步骤S3中所述设备选择算法为基于贪婪搜索的设备选择算法,具体为根据各设备模型陈旧度均值的大小、所拥有数据集的大小对成本的影响进行筛选,若满足两项的阈值,再执行资源感知操作,预测设备的剩余资源,从而选择出状态最佳的移动设备参与本地模型的训练。
进一步,步骤S6中,所述基于异步优势演员评论家资源分配算法A3C的状态空间、动作空间和奖励函数定义如下:
状态:在SAFL的第k轮,每个边缘智能体从其各自的环境中收集状态信息,状态信息表示为:
sk=(k,wk,Fk,Fk,Tk,Ek,Bk)
其中,k表示全局联邦学习训练轮数的索引,且0<t≤K;wk表示第k轮的全局模型参数;Fk表示第k轮所聚合的全局损失函数;ΔFk表示当前损失函数与目标损失值之间的差值,即ΔFk=Fk-δ;Tk表示当前第k轮进行模型训练的完成时间,且
Figure BDA0003957202160000031
Ek表示当前第k轮进行模型训练所消耗的总能量,且/>
Figure BDA0003957202160000032
Bk表示当前第k轮剩余的系统带宽资源;
动作:根据所观察到的各自环境的状态,边缘智能体在每个FL epoch中,对每个所选的边缘设备进行计算资源和带宽资源分配,则动作表示为:
Figure BDA0003957202160000033
其中,
Figure BDA0003957202160000034
表示带宽资源的分配动作,即/>
Figure BDA0003957202160000035
Figure BDA0003957202160000036
表示CPU频率的分配动作,即/>
Figure BDA0003957202160000037
则给定当前环境状态sk时,智能体会基于一个策略选择动作ak,其中,策略表示为π(ak|sk;θπ);
奖励:一旦智能体对环境执行动作ak后,将从环境中获得奖励反馈,用于评估该动作对环境状态变化趋势的影响,环境立即进入下一个状态sk+1,将奖励函数定义为:
Figure BDA0003957202160000038
其中,
Figure BDA0003957202160000039
表示k轮之前每轮训练完成时间的均值;/>
Figure BDA00039572021600000310
表示k轮之前每轮能量消耗的均值;/>
Figure BDA00039572021600000311
表示所分配的带宽资源所占此时剩余带宽资源的比值;K轮之后,训练停止,此时的奖励为:
Figure BDA00039572021600000312
其中
Figure BDA00039572021600000313
为正整数,即当全局模型训练停止时,如果损失函数达到收敛,则奖励为正,智能体将得到越来越多的回报;否则,奖励为负。
进一步,步骤S8中,各个设备异步上传其本地更新后的模型,在MEC服务器端,采用半异步聚合的方式,只要接收到指定数量的本地模型,就执行聚合操作,而不是聚合所有的本地模型,以此来加快全局模型的训练速度。
本发明的有益效果在于:本发明可以在保障物联网海量设备场景下,高精度、高效率地完成分布式机器学习模型训练任务,并且保障了各设备数据的隐私性。此外,本发明设计的基于资源感知的设备选择算法和基于A3C的资源分配算法能有效解决因设备资源不足导致的系统高成本问题,降低了模型训练时所消耗的时间和能耗,同时提升了分布式机器学习模型的质量。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为物联网的中边-端架构的应用场景图;
图2为基于资源感知的设备选择方法示意图;
图3为物联网场景下用于高效联邦学习的成本优化方法的流程示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本发明提供一种物联网场景下用于高效联邦学习的成本优化方法,具体包括以下步骤:
S1:建立半异步联邦学习系统总成本的优化模型,其中的系统总成本包括时延成本和能耗成本。根据边缘设备的剩余资源对系统成本的影响将优化问题拆分为设备选择子问题和资源分配子问题进行求解。
S2:设备选择子问题中,提出一种基于时域卷积网络的资源感知算法,该算法利用每个移动设备的历史资源信息来预测未来时刻的资源信息,并基于资源感知结果,提出了一种基于贪婪搜索的设备选择算法,在满足最低资源的需求下,选择出最佳的物联网设备参与全局模型的训练;
S3:资源分配问题中,提出了一种基于异步优势演员评论家(A3C)的资源分配算法,以在满足低成本和损失函数收敛的需求下获取最佳的资源分配策略。
该方法面向两层的边-端结构下半异步联邦学习通信过程,边缘设备采用异步上传的方式、MEC服务器端采用同步聚合指定数量的本地模型,此种更新方式有利于提升模型训练的速率。并且在MEC服务器端,利用TCN算法完成资源感知、设备选择工作,只有被选择的IoT设备才能参与本地模型的训练工作。同时,各个IoT设备作为智能体,在满足最小化系统总成本消耗前提下,学习到最佳的计算资源和通信资源分配策略。
具体的,请参阅图1,考虑物联网中边-端架构下执行一个CNN模型训练的实例。假设V为某个MEC服务器覆盖下的一组N个IoT设备的集合,且V{v1,v2,...,vi,...,vN}。设联邦学习的总训练过程为K个迭代轮数,其中,第k轮参与全局训练的IoT设备表示为Vk,k表示当前SAFL中全局模型训练的轮数,其中
Figure BDA0003957202160000056
设备vi所拥有的本地数据集表示为Di,其中的数据样本集合表示为/>
Figure BDA0003957202160000051
且/>
Figure BDA0003957202160000052
是Di中第j个样本输入,/>
Figure BDA0003957202160000053
是Di中第j个样本标签。本地数据集大小定义为/>
Figure BDA0003957202160000054
则第k轮参与全局模型更新的数据集大小为/>
Figure BDA0003957202160000055
并假设不同的移动设备所拥有的数据集不同。FL的目标就是最小化全局损失函数,将带有分布式本地数据集的全局损失函数定义为
Figure BDA0003957202160000061
之后,MEC服务器将更新后的全局模型通过设备选择算法,发给指定的移动设备端,直至上式中定义的损失函数收敛或达到期望的模型准确度δ,其中0≤δ≤1。
请参阅图2,MEC服务器初始化全局参数,下发全局模型参数之前,需完成资源感知和设备选择任务,通过各设备上传的资源信息,MEC服务器采用时域卷积网络(TCN)对每个移动设备进行资源实时感知,预测每个移动设备未来一段时间的剩余资源状况。其中资源状况包括设备的剩余CPU资源(RCPU)、剩余内存资源(RMemory)和剩余电量资源(REnergy),考虑到实时性的问题,取未来一段时间内所预测各设备的剩余资源平均值作为评估标准,计算方式如下:
Figure BDA0003957202160000062
其中,
Figure BDA0003957202160000063
表示设备vi曾经参加全局模型训练的次数;同时执行设备选择算法,根据各设备模型陈旧度的大小、所拥有数据集大小对成本的影响,其中,N个设备的数据集大小构成的集合为DN=|D1|,|D2|,|D3|,...,|Di|,...,|DN|。提前根据此两项条件进行筛选,若满足两项的阈值,再执行资源感知操作,预测设备的剩余资源,以决定是否选择该设备参与到全局模型的训练任务中去,避免MEC服务器感知所有设备的剩余资源。
请参阅图3为本发明提供的一种物联网场景下用于高效联邦学习的成本优化方法的流程示意图。该方法中,在MEC服务器下发全局模型之前需要完成设备选择操作,确定哪些设备参与本轮的全局模型的训练;之后,MEC服务器初始化全局模型参数后,下发至各设备节点;各个设备在执行模型训练任务时,根据A3C算法,学习计算和通信资源的分配策略,同时需满足成本最低的要求;各设备端使用本地数据集并采用初始化模型参数对任务进行训练,并使用随机梯度下降算法计算梯度参数完成更新,具体为:
(1)在物联网场景下,考虑半异步联邦学习过程中由于终端设备资源不足带来的训练成本高的问题,建立系统时间成本和能耗成本的成本优化模型;
假设对于设备vi,设c表示vi处理单位比特(bit)数据所需的CPU周期数,由于每个样本的大小相同,则vi执行一次本地迭代所需的CPU周期数为c|Di|,则vi进行本地迭代训练m次后的本地训练时间为
Figure BDA0003957202160000064
其中,m表示本地训练的总迭代次数,fi表示所分配给vi的CPU频率,且fmin≤fi≤fmax(GHz),则vi参与全局训练时,本地训练期间产生的能量消耗为
Figure BDA0003957202160000071
其中,
Figure BDA0003957202160000072
表示移动设备vi的有效电容系数。假设本地模型参数wi的数据量大小为Dw,则移动设备vi将本地模型wi上传给MEC服务器的传输延迟为
Figure BDA0003957202160000073
则本地模型wi上传过程中所消耗的能量为
Figure BDA0003957202160000074
则采用SAFL进行模型训练的过程中,系统消耗的总成本为
Figure BDA0003957202160000075
s.t.C1:F(wK)-F(w*)≤δ
C2:Tk≤Tmax
Figure BDA0003957202160000076
Figure BDA0003957202160000077
Figure BDA0003957202160000078
Figure BDA0003957202160000079
C7:ai∈{0,1}
其中,pk={a1,a2,...,ai,...,aN},表示第k轮进行全局设备选择之后的结果集合;c1和c2分别表示能量成本和时延成本的重要性加权指标,且c1+c2=1。C1表示SAFL训练K轮之后是收敛的;C2表示第k轮中的每个参与SAFL的边缘设备的训练时间不超过时间阈值;C3表示移动设备所分配的计算容量的范围;C4~C5表示为每个移动设备分配的带宽的大小;C6表示每个设备的各个资源类型的剩余率阈值大于该设备参与联邦训练时预期的资源利用率阈值Uk;C7表示是否选择该设备。
(2)各个设备上传其资源信息至所属的MEC服务器;
(3)MEC服务器使用TCN算法进行资源感知,基于资源感知结果执行设备选择算法,选择出状态最佳的设备参与本地模型的训练。详细流程请参阅图2。
(4)MEC服务器将初始全局模型下发至所选择的IoT设备;
(5)根据选择指标,确定是否执行本地训练步骤;
(6)根据(3)中的设备选择结果,将成本优化问题的约束条件转化为资源分配大小的约束,并采用A3C算法学习最佳的资源分配策略,最终由MEC服务器汇聚梯度,完成其更新任务。其中,状态空间、动作空间和奖励函数定义如下:
(a)状态:在SAFL的第k轮,每个边缘智能体从其各自的环境中收集状态信息,状态信息表示为
sk=(k,wk,Fk,Fk,Tk,Ek,Bk)
其中,k表示全局联邦学习训练轮数的索引,且0<t≤K;wk表示第k轮的全局模型参数;Fk表示第k轮所聚合的全局损失函数;Fk表示当前损失函数与目标损失值之间的差值,即ΔFk=Fk-δ;Tk表示当前第k轮进行模型训练的完成时间,且
Figure BDA0003957202160000081
Ek表示当前第k轮进行模型训练所消耗的总能量,且/>
Figure BDA0003957202160000082
Bk表示当前第k轮剩余的系统带宽资源。
(b)动作:根据所观察到的各自环境的状态,边缘智能体在每个FL epoch中,对每个所选的边缘设备进行计算资源和带宽资源分配,则动作表示为
Figure BDA0003957202160000083
其中,
Figure BDA0003957202160000084
表示带宽资源的分配动作,即/>
Figure BDA0003957202160000085
Figure BDA0003957202160000086
表示CPU频率的分配动作,即/>
Figure BDA0003957202160000087
则给定当前环境状态sk时,智能体会基于一个策略选择动作ak,其中,策略表示为(ak|sk;θπ)。
(c)奖励:一旦智能体对环境执行动作ak后,将从环境中获得奖励反馈,用于评估该动作对环境状态变化趋势的影响,环境立即进入下一个状态sk+1。为了保证联邦学习模型训练的收敛特性,同时最小化系统的训练时间和能量消耗,将奖励函数定义为
Figure BDA0003957202160000088
其中,
Figure BDA0003957202160000089
表示k轮之前每轮训练完成时间的均值;/>
Figure BDA00039572021600000810
表示k轮之前每轮能量消耗的均值;/>
Figure BDA00039572021600000811
表示所分配的带宽资源所占此时剩余带宽资源的比值。
actor网络的损失函数表示为
Jππ)=logπ(ak|sk;θπ)(Rk-Vπ(sk;θc))+ηH(π(sk;θπ))
其中,H((sk;θπ)表示策略搜索的熵,用于避免过早地收敛至次优的状态,η为控制熵正则化的超参数。则actor网络的损失函数Jππ)的梯度更新表示为
Figure BDA0003957202160000091
其中θ′π和θ′c表示本地A-C网络中的参数。此外,critic网络的损失函数定义为
Figure BDA0003957202160000092
则critic网络的损失函数J(θc)的梯度更新表示为
Figure BDA0003957202160000093
(7)各设备依据自身的数据集执行本地训练过程;
(8)各设备异步上传本地更新后的模型;
(9)MEC服务器接收到指定数量的本地模型后,执行全局聚合操作,循环步骤(2)-(9),直至全局迭代轮数达到其阈值或全局损失函数收敛,循环结束,否则进行下一轮的迭代训练。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种物联网场景下用于高效联邦学习的成本优化方法,其特征在于:包括以下步骤:
S1:在物联网场景下,建立半异步联邦学习系统时间成本和能耗成本的成本优化模型;
S2:物联网中各个设备上传其资源信息至所属的MEC服务器;
S3:MEC服务器使用时域卷积网络TCN进行资源感知,基于感知结果执行设备选择算法,选择出状态最佳的设备参与本地模型的训练;
S4:MEC服务器将初始全局模型下发至所选择的IoT设备;
S5:根据选择指标,确定是否执行本地训练步骤;
S6:根据S3的设备选择结果,将成本优化问题的约束条件转化为资源分配大小的约束,并采用基于异步优势演员评论家资源分配算法A3C学习最佳的资源分配策略,最终由MEC服务器汇聚梯度,完成其更新任务;
S7:各个设备依据自身的数据集执行本地训练过程;
S8:各个设备异步上传本地更新后的模型;
S9:MEC服务器接收到指定数量的本地模型后,执行全局聚合操作,循环执行步骤S2-S9,直至全局迭代轮数达到其阈值或全局损失函数收敛。
2.根据权利要求1所述的物联网场景下用于高效联邦学习的成本优化方法,其特征在于:步骤S1中,在最低资源预算的需求下,使得成本函数最小的优化问题表述如下:
Figure FDA0003957202150000011
s.t.C1:F(wK)-F(w*)≤δ
C2:Tk≤Tmax
Figure FDA0003957202150000012
Figure FDA0003957202150000013
Figure FDA0003957202150000014
Figure FDA0003957202150000015
C7:ai∈{0,1}
其中,pk={a1,a2,...,ai,...,aN},表示第k轮进行全局设备选择之后的结果集合;c1和c2分别表示能量成本和时延成本的重要性加权指标,且c1+c2=1;C1表示SAFL训练K轮之后是收敛的;C2表示第k轮中的每个参与SAFL的边缘设备的训练时间不超过时间阈值;C3表示移动设备所分配的计算容量的范围;C4~C5表示为每个移动设备分配的带宽的大小;C6表示每个设备的各个资源类型的剩余率阈值大于该设备参与联邦训练时预期的资源利用率阈值Uk;C7表示是否选择该设备。
3.根据权利要求1所述的物联网场景下用于高效联邦学习的成本优化方法,其特征在于:步骤S3中,采用时域卷积网络TCN对每个移动设备进行资源实时感知,预测每个移动设备未来一段时间的剩余资源状况,所述剩余资源状况包括设备的剩余CPU资源、剩余内存资源和剩余电量资源,取未来一段时间内所预测各设备的剩余资源平均值作为评估标准,计算方式如下:
Figure FDA0003957202150000021
/>
其中,
Figure FDA0003957202150000022
表示设备vi曾经参加全局模型训练的次数。
4.根据权利要求3所述的物联网场景下用于高效联邦学习的成本优化方法,其特征在于:步骤S3中所述设备选择算法为基于贪婪搜索的设备选择算法,具体为根据各设备模型陈旧度均值的大小、所拥有数据集的大小对成本的影响进行筛选,若满足两项的阈值,再执行资源感知操作,预测设备的剩余资源,从而选择出状态最佳的移动设备参与本地模型的训练。
5.根据权利要求1所述的物联网场景下用于高效联邦学习的成本优化方法,其特征在于:步骤S6中,所述基于异步优势演员评论家资源分配算法A3C的状态空间、动作空间和奖励函数定义如下:
状态:在SAFL的第k轮,每个边缘智能体从其各自的环境中收集状态信息,状态信息表示为:
sk=(k,wk,Fk,Fk,Tk,Ek,Bk)
其中,k表示全局联邦学习训练轮数的索引,且0<t≤K;wk表示第k轮的全局模型参数;Fk表示第k轮所聚合的全局损失函数;ΔFk表示当前损失函数与目标损失值之间的差值,即ΔFk=Fk-δ;Tk表示当前第k轮进行模型训练的完成时间,且
Figure FDA0003957202150000023
Ek表示当前第k轮进行模型训练所消耗的总能量,且/>
Figure FDA0003957202150000024
Bk表示当前第k轮剩余的系统带宽资源;
动作:根据所观察到的各自环境的状态,边缘智能体在每个FL epoch中,对每个所选的边缘设备进行计算资源和带宽资源分配,则动作表示为:
Figure FDA0003957202150000025
其中,
Figure FDA0003957202150000026
表示带宽资源的分配动作,即/>
Figure FDA0003957202150000027
Figure FDA0003957202150000028
表示CPU频率的分配动作,即/>
Figure FDA0003957202150000029
则给定当前环境状态sk时,智能体会基于一个策略选择动作ak,其中,策略表示为π(ak|sk;θπ);
奖励:一旦智能体对环境执行动作ak后,将从环境中获得奖励反馈,用于评估该动作对环境状态变化趋势的影响,环境立即进入下一个状态sk+1,将奖励函数定义为:
Figure FDA0003957202150000031
其中,
Figure FDA0003957202150000032
表示k轮之前每轮训练完成时间的均值;
Figure FDA0003957202150000033
表示k轮之前每轮能量消耗的均值;
Figure FDA0003957202150000034
表示所分配的带宽资源所占此时剩余带宽资源的比值;K轮之后,训练停止,此时的奖励为:
Figure FDA0003957202150000035
其中
Figure FDA0003957202150000036
为正整数,即当全局模型训练停止时,如果损失函数达到收敛,则奖励为正,智能体将得到越来越多的回报;否则,奖励为负。/>
6.根据权利要求1所述的物联网场景下用于高效联邦学习的成本优化方法,其特征在于:步骤S8中,各个设备异步上传其本地更新后的模型,在MEC服务器端,采用半异步聚合的方式,只要接收到指定数量的本地模型,就执行聚合操作,而不是聚合所有的本地模型,以此来加快全局模型的训练速度。
CN202211474479.3A 2022-11-22 2022-11-22 一种物联网场景下用于高效联邦学习的成本优化方法 Pending CN116193516A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211474479.3A CN116193516A (zh) 2022-11-22 2022-11-22 一种物联网场景下用于高效联邦学习的成本优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211474479.3A CN116193516A (zh) 2022-11-22 2022-11-22 一种物联网场景下用于高效联邦学习的成本优化方法

Publications (1)

Publication Number Publication Date
CN116193516A true CN116193516A (zh) 2023-05-30

Family

ID=86439082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211474479.3A Pending CN116193516A (zh) 2022-11-22 2022-11-22 一种物联网场景下用于高效联邦学习的成本优化方法

Country Status (1)

Country Link
CN (1) CN116193516A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117391359A (zh) * 2023-10-19 2024-01-12 北京嘀嘀无限科技发展有限公司 用于资源调度的方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117391359A (zh) * 2023-10-19 2024-01-12 北京嘀嘀无限科技发展有限公司 用于资源调度的方法、装置、电子设备和存储介质
CN117391359B (zh) * 2023-10-19 2024-04-16 北京嘀嘀无限科技发展有限公司 用于资源调度的方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
Wei et al. Joint optimization of caching, computing, and radio resources for fog-enabled IoT using natural actor–critic deep reinforcement learning
Zhang et al. Deep reinforcement learning based resource management for DNN inference in industrial IoT
CN113543176B (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN112668128B (zh) 联邦学习系统中终端设备节点的选择方法及装置
CN111629380B (zh) 面向高并发多业务工业5g网络的动态资源分配方法
CN112598150B (zh) 一种在智能电厂中基于联邦学习提升火灾检测效果的方法
CN114285853B (zh) 设备密集型工业物联网中基于端边云协同的任务卸载方法
CN112839382B (zh) 一种车联网中视频语义驱动的通信和计算资源联合分配方法
CN113573324A (zh) 工业物联网中协作式任务卸载和资源分配的联合优化方法
CN114554459B (zh) 一种近端策略优化辅助的车联网联邦学习客户端选择方法
CN113469325A (zh) 一种边缘聚合间隔自适应控制的分层联邦学习方法、计算机设备、存储介质
CN115277689A (zh) 一种基于分布式联邦学习的云边网络通信优化方法及系统
CN116193516A (zh) 一种物联网场景下用于高效联邦学习的成本优化方法
Qu et al. Stochastic cumulative DNN inference with RL-aided adaptive IoT device-edge collaboration
Zeng et al. Heterogeneous Training Intensity for federated learning: A Deep reinforcement learning Approach
Tao et al. DRL-Driven Digital Twin Function Virtualization for Adaptive Service Response in 6G Networks
CN113157344B (zh) 移动边缘计算环境下基于drl的能耗感知任务卸载方法
CN117156492A (zh) 一种基于深度强化学习的联合服务缓存、通信与计算的双时间尺度资源分配方法
CN112312299A (zh) 服务卸载方法、装置及系统
CN117252253A (zh) 异步联邦边缘学习中的客户端选择和个性化隐私保护方法
Li et al. An optimal-transport-based reinforcement learning approach for computation offloading
CN114281527A (zh) 一种低复杂度的移动边缘计算资源分配方法
Koursioumpas et al. A Safe Deep Reinforcement Learning Approach for Energy Efficient Federated Learning in Wireless Communication Networks
Huo et al. DRL-based Federated Learning Node Selection Algorithm for Mobile Edge Networks
He et al. Client selection and resource allocation for federated learning in digital-twin-enabled industrial internet of things

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination