CN116193516A

CN116193516A - 一种物联网场景下用于高效联邦学习的成本优化方法

Info

Publication number: CN116193516A
Application number: CN202211474479.3A
Authority: CN
Inventors: 唐伦; 单贞贞; 文明艳; 陈前斌
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-05-30

Abstract

本发明涉及一种物联网场景下用于高效联邦学习的成本优化方法，属于移动通信领域，包括以下步骤：S1：建立半异步联邦学习系统时间成本和能耗成本的成本优化模型；S2：边缘计算服务器基于时域卷积网络算法，实时感知每个IoT设备的剩余资源；S3：设计了一种贪婪搜索的设备选择方法，根据资源感知的结果和模型陈旧度均值的大小，选择出最佳的IoT设备参与全局模型的训练；S4：资源分配方法，采取异步优势演员评论家算法对所选择的设备进行资源分配，同时满足系统成本消耗的最小化。本发明可以减少采用半异步联邦学习架构进行模型训练时的时间和能量的成本消耗，有效降低系统开销。

Description

一种物联网场景下用于高效联邦学习的成本优化方法

技术领域

本发明属于移动通信领域，涉及一种物联网场景下用于高效联邦学习的成本优化方法。

背景技术

目前，许多联邦学习(Federated Learning,FL)方案正被人们广泛地应用于移动边缘计算(Mobile Edge Computing,MEC)网络的场景中，尤其是在物联网(Internet ofThings,IoT)场景中，通过利用联邦学习的架构，使得大量的客户端在边缘计算服务器的协调下协同训练机器学习或深度学习模型，同时也保证了数据的分散性和隐私性。因此，如何实现高效的FL模型训练，降低实际部署中的系统成本的消耗，是当前研究的热点之一。

然而，当边缘设备在其CPU资源、内存资源和电量资源的不充足的情形下参与本地模型的训练时，会出现卡顿或死机的现象，这不仅会增加模型的训练时间和能量消耗，进而使得系统消耗的成本较高，还间接导致了移动设备上传的本地模型具有陈旧度，即设备上传的本地模型版本和当前全局模型的版本差异较大。当模型陈旧度过大时，参数服务器会自动丢弃该设备上传的本地模型，这将导致系统资源的浪费；当模型陈旧度较小时，参数服务器虽会聚合其本地模型，但对全局模型的贡献值大大降低，也会影响全局模型的精度。此外，即使边缘设备的资源充足，但边缘设备的计算能力和通信能力的不同也会影响FL的训练性能和系统成本。综上所述，现有的异构物联网网络中，无法实现高效FL模型训练的同时还能使系统成本降低。

发明内容

有鉴于此，本发明的目的在于提供一种物联网场景下用于高效联邦学习的成本优化方法，减少终端IoT设备在参与模型训练期间的资源消耗和通信消耗，有效降低半异步联邦学习过程中的系统总成本。

为达到上述目的，本发明提供如下技术方案：

一种物联网场景下用于高效联邦学习的成本优化方法，包括以下步骤：

S1：在物联网场景下，建立半异步联邦学习系统时间成本和能耗成本的成本优化模型；

S2：物联网中各个设备上传其资源信息至所属的MEC服务器；

S3：MEC服务器使用时域卷积网络TCN进行资源感知，基于感知结果执行设备选择算法，选择出状态最佳的设备参与本地模型的训练；

S4：MEC服务器将初始全局模型下发至所选择的IoT设备；

S5：根据选择指标，确定是否执行本地训练步骤；

S6：根据S3的设备选择结果，将成本优化问题的约束条件转化为资源分配大小的约束，并采用基于异步优势演员评论家资源分配算法A3C学习最佳的资源分配策略，最终由MEC服务器汇聚梯度，完成其更新任务；

S7：各个设备依据自身的数据集执行本地训练过程；

S8：各个设备异步上传本地更新后的模型；

S9：MEC服务器接收到指定数量的本地模型后，执行全局聚合操作，循环执行步骤S2-S9，直至全局迭代轮数达到其阈值或全局损失函数收敛。

进一步，步骤S1中，在最低资源预算的需求下，使得成本函数最小的优化问题表述如下：

s.t.C1:F(w_K)-F(w^*)≤δ

C2:T_k≤T_max

C7:a_i{0,1}

其中，p_k＝{a₁,a₂,...,a_i,...,a_N}，表示第k轮进行全局设备选择之后的结果集合；c₁和c₂分别表示能量成本和时延成本的重要性加权指标，且c₁c₂＝1；C1表示SAFL训练K轮之后是收敛的；C2表示第k轮中的每个参与SAFL的边缘设备的训练时间不超过时间阈值；C3表示移动设备所分配的计算容量的范围；C4～C5表示为每个移动设备分配的带宽的大小；C6表示每个设备的各个资源类型的剩余率阈值大于该设备参与联邦训练时预期的资源利用率阈值U_k；C7表示是否选择该设备。

进一步，步骤S3中，采用时域卷积网络TCN对每个移动设备进行资源实时感知，预测每个移动设备未来一段时间的剩余资源状况，所述剩余资源状况包括设备的剩余CPU资源、剩余内存资源和剩余电量资源，取未来一段时间内所预测各设备的剩余资源平均值作为评估标准，计算方式如下：

其中，

表示设备v_i曾经参加全局模型训练的次数。

进一步，步骤S3中所述设备选择算法为基于贪婪搜索的设备选择算法，具体为根据各设备模型陈旧度均值的大小、所拥有数据集的大小对成本的影响进行筛选，若满足两项的阈值，再执行资源感知操作，预测设备的剩余资源，从而选择出状态最佳的移动设备参与本地模型的训练。

进一步，步骤S6中，所述基于异步优势演员评论家资源分配算法A3C的状态空间、动作空间和奖励函数定义如下：

状态：在SAFL的第k轮，每个边缘智能体从其各自的环境中收集状态信息，状态信息表示为：

s_k＝(k,w_k,F_k,F_k,T_k,E_k,B_k)

其中，k表示全局联邦学习训练轮数的索引，且0＜t≤K；w_k表示第k轮的全局模型参数；F_k表示第k轮所聚合的全局损失函数；ΔF_k表示当前损失函数与目标损失值之间的差值，即ΔF_k＝F_k-δ；T_k表示当前第k轮进行模型训练的完成时间，且

E_k表示当前第k轮进行模型训练所消耗的总能量，且/>

B_k表示当前第k轮剩余的系统带宽资源；

动作：根据所观察到的各自环境的状态，边缘智能体在每个FL epoch中，对每个所选的边缘设备进行计算资源和带宽资源分配，则动作表示为：

其中，

表示带宽资源的分配动作，即/>

表示CPU频率的分配动作，即/>

则给定当前环境状态s_k时，智能体会基于一个策略选择动作a_k，其中，策略表示为π(a_k|s_k；θ_π)；

奖励：一旦智能体对环境执行动作a_k后，将从环境中获得奖励反馈，用于评估该动作对环境状态变化趋势的影响，环境立即进入下一个状态s_k+1，将奖励函数定义为：

其中，

表示k轮之前每轮训练完成时间的均值；/>

表示k轮之前每轮能量消耗的均值；/>

表示所分配的带宽资源所占此时剩余带宽资源的比值；K轮之后，训练停止，此时的奖励为：

其中

为正整数，即当全局模型训练停止时，如果损失函数达到收敛，则奖励为正，智能体将得到越来越多的回报；否则，奖励为负。

进一步，步骤S8中，各个设备异步上传其本地更新后的模型，在MEC服务器端，采用半异步聚合的方式，只要接收到指定数量的本地模型，就执行聚合操作，而不是聚合所有的本地模型，以此来加快全局模型的训练速度。

本发明的有益效果在于：本发明可以在保障物联网海量设备场景下，高精度、高效率地完成分布式机器学习模型训练任务，并且保障了各设备数据的隐私性。此外，本发明设计的基于资源感知的设备选择算法和基于A3C的资源分配算法能有效解决因设备资源不足导致的系统高成本问题，降低了模型训练时所消耗的时间和能耗，同时提升了分布式机器学习模型的质量。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为物联网的中边-端架构的应用场景图；

图2为基于资源感知的设备选择方法示意图；

图3为物联网场景下用于高效联邦学习的成本优化方法的流程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明提供一种物联网场景下用于高效联邦学习的成本优化方法，具体包括以下步骤：

S1：建立半异步联邦学习系统总成本的优化模型，其中的系统总成本包括时延成本和能耗成本。根据边缘设备的剩余资源对系统成本的影响将优化问题拆分为设备选择子问题和资源分配子问题进行求解。

S2：设备选择子问题中，提出一种基于时域卷积网络的资源感知算法，该算法利用每个移动设备的历史资源信息来预测未来时刻的资源信息，并基于资源感知结果，提出了一种基于贪婪搜索的设备选择算法，在满足最低资源的需求下，选择出最佳的物联网设备参与全局模型的训练；

S3：资源分配问题中，提出了一种基于异步优势演员评论家(A3C)的资源分配算法，以在满足低成本和损失函数收敛的需求下获取最佳的资源分配策略。

该方法面向两层的边-端结构下半异步联邦学习通信过程，边缘设备采用异步上传的方式、MEC服务器端采用同步聚合指定数量的本地模型，此种更新方式有利于提升模型训练的速率。并且在MEC服务器端，利用TCN算法完成资源感知、设备选择工作，只有被选择的IoT设备才能参与本地模型的训练工作。同时，各个IoT设备作为智能体，在满足最小化系统总成本消耗前提下，学习到最佳的计算资源和通信资源分配策略。

具体的，请参阅图1，考虑物联网中边-端架构下执行一个CNN模型训练的实例。假设V为某个MEC服务器覆盖下的一组N个IoT设备的集合，且V{v₁,v₂,...,v_i,...,v_N}。设联邦学习的总训练过程为K个迭代轮数，其中，第k轮参与全局训练的IoT设备表示为V_k，k表示当前SAFL中全局模型训练的轮数，其中

设备v_i所拥有的本地数据集表示为D_i，其中的数据样本集合表示为/>

且/>

是D_i中第j个样本输入，/>

是D_i中第j个样本标签。本地数据集大小定义为/>

则第k轮参与全局模型更新的数据集大小为/>

并假设不同的移动设备所拥有的数据集不同。FL的目标就是最小化全局损失函数，将带有分布式本地数据集的全局损失函数定义为

之后，MEC服务器将更新后的全局模型通过设备选择算法，发给指定的移动设备端，直至上式中定义的损失函数收敛或达到期望的模型准确度δ，其中0≤δ≤1。

请参阅图2，MEC服务器初始化全局参数，下发全局模型参数之前，需完成资源感知和设备选择任务，通过各设备上传的资源信息，MEC服务器采用时域卷积网络(TCN)对每个移动设备进行资源实时感知，预测每个移动设备未来一段时间的剩余资源状况。其中资源状况包括设备的剩余CPU资源(R^CPU)、剩余内存资源(R^Memory)和剩余电量资源(R^Energy)，考虑到实时性的问题，取未来一段时间内所预测各设备的剩余资源平均值作为评估标准，计算方式如下：

其中，

表示设备v_i曾经参加全局模型训练的次数；同时执行设备选择算法，根据各设备模型陈旧度的大小、所拥有数据集大小对成本的影响，其中，N个设备的数据集大小构成的集合为D_N＝|D₁|,|D₂|,|D₃|,...,|D_i|,...,|D_N|。提前根据此两项条件进行筛选，若满足两项的阈值，再执行资源感知操作，预测设备的剩余资源，以决定是否选择该设备参与到全局模型的训练任务中去，避免MEC服务器感知所有设备的剩余资源。

请参阅图3为本发明提供的一种物联网场景下用于高效联邦学习的成本优化方法的流程示意图。该方法中，在MEC服务器下发全局模型之前需要完成设备选择操作，确定哪些设备参与本轮的全局模型的训练；之后，MEC服务器初始化全局模型参数后，下发至各设备节点；各个设备在执行模型训练任务时，根据A3C算法，学习计算和通信资源的分配策略，同时需满足成本最低的要求；各设备端使用本地数据集并采用初始化模型参数对任务进行训练，并使用随机梯度下降算法计算梯度参数完成更新，具体为：

(1)在物联网场景下，考虑半异步联邦学习过程中由于终端设备资源不足带来的训练成本高的问题，建立系统时间成本和能耗成本的成本优化模型；

假设对于设备v_i，设c表示v_i处理单位比特(bit)数据所需的CPU周期数，由于每个样本的大小相同，则v_i执行一次本地迭代所需的CPU周期数为c|D_i|，则v_i进行本地迭代训练m次后的本地训练时间为

其中，m表示本地训练的总迭代次数，f_i表示所分配给v_i的CPU频率，且f_min≤f_i≤f_max(GHz)，则v_i参与全局训练时，本地训练期间产生的能量消耗为

其中，

表示移动设备v_i的有效电容系数。假设本地模型参数w_i的数据量大小为D_w，则移动设备v_i将本地模型w_i上传给MEC服务器的传输延迟为

则本地模型w_i上传过程中所消耗的能量为

则采用SAFL进行模型训练的过程中，系统消耗的总成本为

s.t.C1:F(w_K)-F(w^*)≤δ

C2:T_k≤T_max

C7:a_i∈{0,1}

其中，p_k＝{a₁,a₂,...,a_i,...,a_N}，表示第k轮进行全局设备选择之后的结果集合；c₁和c₂分别表示能量成本和时延成本的重要性加权指标，且c₁+c₂＝1。C1表示SAFL训练K轮之后是收敛的；C2表示第k轮中的每个参与SAFL的边缘设备的训练时间不超过时间阈值；C3表示移动设备所分配的计算容量的范围；C4～C5表示为每个移动设备分配的带宽的大小；C6表示每个设备的各个资源类型的剩余率阈值大于该设备参与联邦训练时预期的资源利用率阈值U_k；C7表示是否选择该设备。

(2)各个设备上传其资源信息至所属的MEC服务器；

(3)MEC服务器使用TCN算法进行资源感知，基于资源感知结果执行设备选择算法，选择出状态最佳的设备参与本地模型的训练。详细流程请参阅图2。

(4)MEC服务器将初始全局模型下发至所选择的IoT设备；

(5)根据选择指标，确定是否执行本地训练步骤；

(6)根据(3)中的设备选择结果，将成本优化问题的约束条件转化为资源分配大小的约束，并采用A3C算法学习最佳的资源分配策略，最终由MEC服务器汇聚梯度，完成其更新任务。其中，状态空间、动作空间和奖励函数定义如下：

(a)状态：在SAFL的第k轮，每个边缘智能体从其各自的环境中收集状态信息，状态信息表示为

s_k＝(k,w_k,F_k,F_k,T_k,E_k,B_k)

其中，k表示全局联邦学习训练轮数的索引，且0＜t≤K；w_k表示第k轮的全局模型参数；F_k表示第k轮所聚合的全局损失函数；F_k表示当前损失函数与目标损失值之间的差值，即ΔF_k＝F_k-δ；T_k表示当前第k轮进行模型训练的完成时间，且

E_k表示当前第k轮进行模型训练所消耗的总能量，且/>

B_k表示当前第k轮剩余的系统带宽资源。

(b)动作：根据所观察到的各自环境的状态，边缘智能体在每个FL epoch中，对每个所选的边缘设备进行计算资源和带宽资源分配，则动作表示为

其中，

表示带宽资源的分配动作，即/>

表示CPU频率的分配动作，即/>

则给定当前环境状态s_k时，智能体会基于一个策略选择动作a_k，其中，策略表示为(a_k|s_k；θ_π)。

(c)奖励：一旦智能体对环境执行动作a_k后，将从环境中获得奖励反馈，用于评估该动作对环境状态变化趋势的影响，环境立即进入下一个状态s_k+1。为了保证联邦学习模型训练的收敛特性，同时最小化系统的训练时间和能量消耗，将奖励函数定义为

其中，

表示k轮之前每轮训练完成时间的均值；/>

表示k轮之前每轮能量消耗的均值；/>

表示所分配的带宽资源所占此时剩余带宽资源的比值。

actor网络的损失函数表示为

J_π(θ_π)＝logπ(a_k|s_k；θ_π)(R_k-V^π(s_k；θ_c))+ηH(π(s_k；θ_π))

其中，H((s_k；θ_π)表示策略搜索的熵，用于避免过早地收敛至次优的状态，η为控制熵正则化的超参数。则actor网络的损失函数J_π(θ_π)的梯度更新表示为

其中θ′_π和θ′_c表示本地A-C网络中的参数。此外，critic网络的损失函数定义为

则critic网络的损失函数J(θ_c)的梯度更新表示为

(7)各设备依据自身的数据集执行本地训练过程；

(8)各设备异步上传本地更新后的模型；

(9)MEC服务器接收到指定数量的本地模型后，执行全局聚合操作，循环步骤(2)-(9)，直至全局迭代轮数达到其阈值或全局损失函数收敛，循环结束，否则进行下一轮的迭代训练。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种物联网场景下用于高效联邦学习的成本优化方法，其特征在于：包括以下步骤：

S2：物联网中各个设备上传其资源信息至所属的MEC服务器；

S4：MEC服务器将初始全局模型下发至所选择的IoT设备；

S5：根据选择指标，确定是否执行本地训练步骤；

S7：各个设备依据自身的数据集执行本地训练过程；

S8：各个设备异步上传本地更新后的模型；

2.根据权利要求1所述的物联网场景下用于高效联邦学习的成本优化方法，其特征在于：步骤S1中，在最低资源预算的需求下，使得成本函数最小的优化问题表述如下：

s.t.C1:F(w_K)-F(w^*)≤δ

C2:T_k≤T_max

C7:a_i∈{0,1}

其中，p_k＝{a₁,a₂,...,a_i,...,a_N}，表示第k轮进行全局设备选择之后的结果集合；c₁和c₂分别表示能量成本和时延成本的重要性加权指标，且c₁+c₂＝1；C1表示SAFL训练K轮之后是收敛的；C2表示第k轮中的每个参与SAFL的边缘设备的训练时间不超过时间阈值；C3表示移动设备所分配的计算容量的范围；C4～C5表示为每个移动设备分配的带宽的大小；C6表示每个设备的各个资源类型的剩余率阈值大于该设备参与联邦训练时预期的资源利用率阈值U_k；C7表示是否选择该设备。

3.根据权利要求1所述的物联网场景下用于高效联邦学习的成本优化方法，其特征在于：步骤S3中，采用时域卷积网络TCN对每个移动设备进行资源实时感知，预测每个移动设备未来一段时间的剩余资源状况，所述剩余资源状况包括设备的剩余CPU资源、剩余内存资源和剩余电量资源，取未来一段时间内所预测各设备的剩余资源平均值作为评估标准，计算方式如下：

/>

其中，

表示设备v_i曾经参加全局模型训练的次数。

4.根据权利要求3所述的物联网场景下用于高效联邦学习的成本优化方法，其特征在于：步骤S3中所述设备选择算法为基于贪婪搜索的设备选择算法，具体为根据各设备模型陈旧度均值的大小、所拥有数据集的大小对成本的影响进行筛选，若满足两项的阈值，再执行资源感知操作，预测设备的剩余资源，从而选择出状态最佳的移动设备参与本地模型的训练。

5.根据权利要求1所述的物联网场景下用于高效联邦学习的成本优化方法，其特征在于：步骤S6中，所述基于异步优势演员评论家资源分配算法A3C的状态空间、动作空间和奖励函数定义如下：

s_k＝(k,w_k,F_k,F_k,T_k,E_k,B_k)