CN113887748A

CN113887748A - 在线联邦学习任务分配方法、装置、联邦学习方法及系统

Info

Publication number: CN113887748A
Application number: CN202111482767.9A
Authority: CN
Inventors: 鲁剑锋; 刘海波; 段佳昂; 戴情; 杨沙沙; 李冰; 张烁
Original assignee: Zhejiang Normal University CJNU
Current assignee: Zhejiang Normal University CJNU
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-01-04
Anticipated expiration: 2041-12-07
Also published as: CN113887748B

Abstract

本发明公开了一种在线联邦学习任务分配方法、装置、联邦学习方法及系统，在给定联邦学习训练框架下，将边缘计算联邦学习训练过程分为节点选择计划确认和节点数据状态更新两个阶段，通过Lyapunov优化理论和深度强化学习的计算，提供使得损失函数最小化的、在不完全信息状态下保证数据集状态稳定不拥塞的任务分配方法，由此解决现有的任务分配机制仅必须知道完全信息的情况下且数据集需要独立同分布的分配阶段，导致不能解决在线联邦学习中数据非独立同分布的技术问题。

Description

在线联邦学习任务分配方法、装置、联邦学习方法及系统

技术领域

本发明属于新型感知计算领域，更具体地，涉及一种在线联邦学习任务分配方法、装置、联邦学习方法及系统。

背景技术

为了分析大量数据并提取有用的信息，基于机器学习方法，已经提出了越来越多的应用程序，例如自动驾驶，人脸识别，语音识别等。这些应用程序之所以成功，主要是因为训练过程机器学习模型使用大量数据集。但是，随着数据量的快速增长，传统的将所有数据上传到云服务器进行集中训练的机器学习方法，不仅给存储空间带来很大的负载压力，而且给用户的隐私保护带来了挑战。联邦学习的分布式学习方法解决了这个问题。联邦学习使边缘节点可以协作地训练全局模型，而无需共享原始数据集。云服务器只需要收集每个边缘节点训练的模型参数，然后聚合模型并更新参数。这种模式的优点如下：首先，用于模型训练的数据集以分布式形式分布在各个边缘节点中，这减轻了服务器存储负载。其次，不需要将所有数据集都上传到服务器，以确保不会泄露用户的隐私。最后，与集中式学习相比，联邦学习还节省了数据通信的开销，因为与原始数据的上传和下载相比，上传和下载模型参数的开销最小。

然而，联邦学习中依然存在诸多问题亟待解决。例如分布式训练流程中依然存在泄露敏感信息的隐私保护难题，网络资源有限而终端设备数量庞大导致的通信费用高问题，由于硬件条件、网络结构差异带来的系统异构性挑战，以及数据结构、分布不同导致的非独立同分布问题等。相比于其它难题，非独立同分布数据制约着联邦学习的性能瓶颈，影响着联邦学习技术在不同领域之间的交叉融合和深入创新。针对联邦学习中非独立同分布数据带来的性能瓶颈挑战，相关研究工作也提出了一些优化改进算法，大部分现有研究工作只考虑静态环境下，在一些数据集如MNIST、CIFAR-10等，如何优化聚合方式来提高联邦学习在数据非独立同分布时的性能，而未涉及到动态环境下边缘节点的差异性以及不同选择策略带来的性能影响。因此，如何在动态环境下兼顾边缘节点的差异性以及非独立同分布数据特征的异构性进行数据建模、分析和评估，是解决联邦学习在不同领域交叉融合和深入创新所必须解决的关键问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种在线联邦学习任务分配方法、装置、联邦学习方法及系统，其目的在于，在给定联邦学习训练框架下，将边缘计算联邦学习训练过程分为节点选择计划确认和节点数据状态更新两个阶段，通过Lyapunov优化理论和深度强化学习的计算，提供使得损失函数最小化的、在不完全信息状态下保证数据集状态稳定不拥塞的任务分配机制，由此解决现有的任务分配机制仅必须知道完全信息的情况下且数据集需要独立同分布的分配阶段，导致不能解决在线联邦学习中数据非独立同分布的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种在线联邦学习任务分配方法，其包括以下步骤：

（1）发布训练任务，并获取当前时间片内由所有有意愿执行任务的边缘节点组成的边缘节点集合及每个边缘节点感知的数据集状态；

（2）采用强化学习模型根据步骤（1）获得的边缘节点的数据集状态选择进行任务训练的边缘节点；

（3）对于步骤（2）中获得的进行任务训练的边缘节点分别基于Lyapunov优化确定当前时间片内各边缘节点准入数据量和消耗数据量；

（4）各边缘节点根据步骤（3）确定的消耗数据量进行所述训练任务的训练，根据步骤（3）确定的准入数据量感知数据，完成数据队列更新并确定该边缘节点下一时间片的数据集状态。

优选地，所述在线联邦学习任务分配方法，其步骤（2）所述强化学习模型采用马尔科夫决策。

优选地，所述在线联邦学习任务分配方法，其步骤（2）所述马尔科夫决策过程的惩罚值由Lyapunov漂移和损失值组成，其中损失值为每个节点的估计网络参数的梯度损失的加权和。

优选地，所述在线联邦学习任务分配方法，其步骤（2）所述马尔科夫决策过程采用无模型增强学习算法分别估计Lyapunov漂移和损失值。

优选地，所述在线联邦学习任务分配方法，其步骤（2）所述无模型增强学习算法为深度Q网络，并采用贝尔曼方程估计Q函数估计的更新差值。

优选地，所述在线联邦学习任务分配方法，其步骤（3）所述Lyapunov优化使得所述时间片内Lyapunov漂移界限和损失函数同时最小化。

按照本发明的另一个方面，提供了一种在线联邦学习任务分配装置，应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统，其包括边缘节点选择模块、以及边缘节点感知控制模块；

所述边缘节点选择模块，用于根据中央服务器发布的训练任务，获取当前时间片内所有有意愿执行任务的边缘节点组成的边缘节点集合及每个边缘节点感知的数据集状态，并采用强化学习模型根据边缘节点的数据集状态选择进行任务训练的边缘节点；

所述边缘节点感知控制模块，用于对所述进行任务训练的边缘节点基于Lyapunov优化确定当前时间片内各边缘节点准入数据量和消耗数据量，控制各边缘节点按照其消耗的数据量进行任务训练并按照其准入数据量进行数据感知。

按照本发明的另一个方面，提供了一种面向非独立同分布数据的在线联邦学习训练方法，应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统，其包括以下步骤：

所述中央服务器向所有边缘节点发布任务；

按照本发明提供的的在线联邦学习任务分配方法选择进行任务训练的边缘节点并为其分配训练任务；

所述进行任务训练的边缘节点执行训练任务并更新数据集状态后，将训练结果提交到中央服务器；

所述中央服务器根据边缘节点权重将训练结果进行加权平均全局聚合获得该任务的训练结果，并判断所述训练结果是否达到训练要求，如达到要求，则将加权平均全局聚合获得的任务的训练结果作为最终训练结果并结束训练，否则重新发布任务。

按照本发明的另一个方面，提供了一种面向非独立同分布数据的在线联邦学习系统，其包括中央服务器、多个边缘节点、以及本发明提供的在线联邦学习任务分配装置；

所述中央服务器，用于面向所有边缘节点发布任务并根据边缘节点权重将训练结果进行加权平均全局聚合获得该任务的训练结果，判断所述训练结果是否达到训练要求，如达到要求，则将加权平均全局聚合获得的任务的训练结果作为最终训练结果并结束训练，否则重新发布任务；

所述边缘节点，用于按照所述在线联邦学习任务分配装置确定的消耗数据量进行任务训练并按照所述在线联邦学习任务分配装置确定的准入数据量进行数据感知。总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明将联邦学习中的面向非独立同分布的任务分配问题设计为基于Lyapunov优化理论和深度强化学习的优化问题，该优化问题分成了两部分。第一部分，针对边缘节点数据的未来信息无法预测问题，基于Lyapunov优化理论仅依靠当前信息来制定独立的在线控制策略。第二阶段，针对边缘节点数据分布不遵循独立同分布原则问题，基于深度强化学习制定在线任务分配策略。

本发明提出了对于数据非独立同分布的有效的算法，将Lyapunov优化与深度强化学习（DRL）相结合，为动态原始数据的变化设计最优控制策略，以探索数据非独立同分布对训练收敛的影响，通过DRL学习过程选择最优的节点集合，降低非独立同分布对收敛速率产生的影响。

从理论方面严格证明了策略可行性，并且，基于MNIST和FashionMNIST两个数据集，将本文提出的策略与Fedavg对比，从数据非独立同分布程度、训练轮次和数量批次、节点数量方面验证了在线任务分配机制的正确性和有效性。本文发现该算法与MNIST数据集上的Fedavg相比可提高35％，与FashionMNIST数据集上的Fedavg相比可提高23％。

附图说明

图1是本发明提供的在线联邦学习任务分配方法训练示意图。

图2是本发明实施例应用本发明提供的在线联邦学习训练方法的边缘计算系统结构示意图。

图3是在MNIST数据集中考察非独立同分布程度对收敛速度的影响；其中图3（a）为γ=0.5表示数据集中50％的数据是随机分布的，其余的属于一个标签；图3（b）为γ=0.8表示80％的数据属于一个标签，其余20％是随机的。图3（c）为γ=1表示每个边缘节点中的所有数据都属于同一标签。

图4是FashionMNIST数据集中考察非独立同分布程度对收敛速度的影响；其中图4（a）为γ=0.5表示数据集中50％的数据是随机分布的，其余的属于一个标签；图4（b）为γ=0.8表示80％的数据属于一个标签，其余20％是随机的。图4（c）为γ=1表示每个边缘节点中的所有数据都属于同一标签。

图5是不同轮次大小对准确率的影响关系图；考虑了轮次对不同水平的数据非独立同分布分布训练100轮比赛的影响，并在不同的偏差程度下探索对数据收敛产生影响。

图6是不同批次大小对准确性的影响关系图；其中图6（a）为γ=0.5表示数据集中50％的数据是随机分布的其余的属于一个标签；图6（b）为

表示80％的数据属于一个标签，其余20％是随机的。

图7是不同节点数量对收敛回合的影响。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

目前存在许多研究提供了诸如Stackelberg博弈、机器学习等方法，以加速联邦学习收敛回合和提高训练效果。然而，目前存在两个阻止这些研究扩展到处理联邦学习中的非独立同分布（非独立同分布）的数据的在线任务分配问题的主要原因：（i）在每个阶段，边缘节点的数据集是在线的，每个阶段都有新感知的数据，也有消耗的数据；（ii）每个边缘节点的数据分布是不遵循独立同分布原则的，边缘节点按照自己的偏好来选择数据进行感知。总之，边缘节点和服务器这些关系之间是在线的，不完全信息的。非独立同分布数据的在线任务分配问题在联邦学习应用程序中是非常常见的，然而，这个问题比较复杂以至于还没有很好地解决方案。目前主要都集中于解决独立同分布或者线下的特殊情况。

以下为实施例：

本发明提供的在线联邦学习任务分配方法，应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统，包括以下步骤：

（1）发布训练任务，并获取当前时间片内由所有有意愿执行任务的边缘节点组成的边缘节点集合及每个边缘节点感知的数据集状态；具体为：

中央服务器发布训练任务，并获取当前时间片

内所有

个有意愿执行任务的边缘节点集合

及每个边缘节点的数据集状态

，获得边缘节点集合

的状态为

。

（2）采用强化学习模型根据边缘节点的数据集状态选择进行任务训练的边缘节点；所述强化学习模型采用马尔科夫决策，具体为：

将步骤（1）中的边缘节点集合

的状态

，作为马尔科夫决策过程

的状态

，即

，采用马尔科夫决策过程决定最优动作策略

；其中

为动作空间，即当前时间片

内对边缘节点集合

采用的动作策略

的所有可能值，所述动作策略

为对边缘节点集合

中每一边缘节点选择或放弃采用该边缘节点执行所述任务训练；

为惩罚函数，

，即

，

为时间片

执行动作

后的单次惩罚；其中

是折扣因子，用来控制学习系统对于长期还是短期学习过程的决策行为。当

时，表示学习系统只考虑当前的行为结果；当

时，表示学习系统考虑未来长期的最优动作策略。

采用的状态转移方程为：

其中，

表示在时间片

时的状态、

表示在时间片

时的动作，

表示从状态

选择动作

会转移到状态

的概率，

，

为对现有数据进行统计获得的当前状态为

时执行动作策略

下一时间片状态为

的概率。

优选采用无模型增强学习算法例如深度Q网络估计惩罚值

，其中采用Q函数估计惩罚值

：

其中，

为学习率，当前时间片的惩罚值

由两部分组成，Lyapunov漂移

和损失值

组成，前时间片的惩罚值

写作：

其中，

为权重，

。

其中损失值

为每个节点的估计网络参数的梯度损失的加权和，写作：

其中选择最优的

个节点来训练任务，即采用梯度下降方法训练参数，

。

优选方案，分别对Lyapunov漂移

和损失值

采用深度Q网络的Q函数进行估计，具体地，采用贝尔曼方程估计Lyapunov漂移

和损失值

的Q函数估计的更新差值，以迭代更新Lyapunov漂移

和损失值

的Q函数估计值，如下：

其中，

为Lyapunov漂移

的Q函数估计的更新差值，

为损失值

的Q函数估计的更新差值，

，

。

所述采用马尔科夫决策过程决定最优动作策略

，即计算采用动作空间

的不同动作策略

的Q值，并选择Q值最小的动作策略作为最优动作策略

。

采用贪婪算法，求解最优动作策略

，如下：

其中，

为在状态

下采取行动

的Lyapunov漂移

采用参数为

的相应Q函数的参数进行估计，得到的Lyapunov漂移

的Q函数值的估计；

为在状态

下采取行动

的损失值

采用参数为

的相应Q函数的参数进行估计，得到的损失值

的Q函数值的估计。

为，

为损失值

的Q函数的参数。

因为状态空间中的状态数量实在太过庞大以至于无法量化的建立一个动作价值函数来准确的反应每一个状态和动作，需要用深度强化学习来生成一个估计器来更新动作效益函数即Q值函数的参数。Lyapunov漂移

的Q函数的参数

和损失值

的Q函数的参数

，按照以下方法更新：

初始的Lyapunov漂移

的Q函数的参数

和损失值

的Q函数的参数

，按照以下方法获取：

观察多组当前状态

和采取行动

后的更新后状态

，并观测获取时间片

到

之间的长期奖励

和损失值

，作为训练样本，采用梯度下降法训练用于估计Lyapunov漂移和损失值Q值的深度强化学习模型，分别获得Lyapunov漂移

的Q函数的参数

和损失值

的Q函数的参数

；其中时间片

到

之间的Lyapunov漂移

和损失值

，表示为：

根据给定最优动作策略

下，根据每个有意愿执行任务节点的数据集状态和最优动作策略

，选择进行任务训练的m个边缘节点；

（3）对于步骤（2）中获得的进行任务训练的边缘节点分别基于Lyapunov优化确定当前时间片内各边缘节点准入数据量和消耗数据量；具体为：

对于进行任务训练的边缘节点，基于Lyapunov优化，确定单位时间片内准入数据量和消耗数据量，从而最优准入控制策略、任务分配策略、队列更新策略；所述最优准入控制策略，即边缘节点集合中每个节点的数据进入量的集合；所述任务分配策略，即边缘节点集合中每个节点的数据输出量的集合；所述队列更新策略，即按照最后准入控制策略和任务分配策略收集数据及消耗数据实现的每个节点的数据队列更新。

Lyapunov优化，即使得单位时间片内Lyapunov漂移界限

和损失函数

同时最小化。对于当前时间片的数据集初始状态

，确定单位时间片内Lyapunov漂移界限

和损失函数

最小化时，二者与边缘节点数据集状态

的关系如下：

所述Lyapunov漂移界限

最小化，即：

其中，

是边缘节点的数据集状态，

是边缘节点的数据量，

是边缘节点

在时间片

内最大数据量感知速率，

是边缘节点的数据量阈值，

是边缘节点

在时间片

内准入数据量，

是边缘节点

在时间片

内消耗数据量；

所述损失函数

最小化，即：

其中，

是边缘节点

中训练数据的分布；

是损失函数，

是训练输出结果，

是实际结果；

是权重；

，

是学习速率，

。

对于边缘节点

，其数据进入量

按照如下方法确定：

其中，

是边缘节点的数据量阈值，

是边缘节点

在时间片

内最大数据量感知速率。

获得每个边缘节点中允许进入到队列中的数据量，即：

对于边缘节点

，其数据输出量

按照如下方法确定：

获得每个边缘节点中训练消耗的数据量，即：

（4）各边缘节点根据步骤（3）确定的消耗数据量进行所述训练任务的训练，根据步骤（3）确定的准入数据量感知数据，完成数据队列更新并确定该边缘节点下一时间片的数据集状态；具体为

根据最优动作策略

，各边缘节点采用消耗数据量的进行该训练任务的训练，并感知准入数据量的数据。

根据准入控制策略、任务分配策略、队列更新策略，更新边缘节点

的数据集状态

，从而更新边缘节点集合

的在下一时间片的数据集初始状态

；

所述更新边缘节点

的数据集状态

具体为：

。

本发明提供的在线联邦学习任务分配装置，应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统，其包括边缘节点选择模块、以及边缘节点感知控制模块；

本发明提供的面向非独立同分布数据的在线联邦学习训练方法，应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统，包括以下步骤：

所述中央服务器向所有边缘节点发布任务；

按照本发明提供的在线联邦学习任务分配方法选择进行任务训练的边缘节点并为其分配训练任务；

本发明提供的面向非独立同分布数据的在线联邦学习系统，其包括中央服务器、多个边缘节点、以及本发明提供的在线联邦学习任务分配装置；

所述边缘节点，用于按照所述在线联邦学习任务分配装置确定的消耗数据量进行任务训练并按照所述在线联邦学习任务分配装置确定的准入数据量进行数据感知。

以下为实施例效果测试：

本实施例采用仿真实验，具体如下：

本发明针对非独立同分布数据对联邦学习的收敛精度问题，提出了一种基于深度强化学习的任务分配策略LDRL-Fed，以提高面向非独立同分布数据的收敛速率精度。通过PyTorch来实现提出的LDRL-Fed，并使用运行实际PyTorch模型的大量设备对其进行验证。本实施例假设K

,γ用来表示数据集的非独立同分布程度。模型和数据集的设置如下：

本文介绍了两个 CNN 模型广泛使用的数据集：

l MNIST。本文将训练集设置为具有两个5×5卷积层的 CNN 模型，第一层有20个输出通道，第二层有50个输出通道。对于每个边缘节点，每个轮次都是5。

l FashionMNIST。本文训练具有两个5×5卷积层的CNN模型。第一层具有16个输出通道，第二层具有32个输出通道。对于每个边缘节点，每个轮次都是5。

基准对比试验：本文使用独立同分布数据分布作为基准对比实验，并使用FedAvg作为比较组来评估LDRL-Fed。实验结果如图3所示，表明，与Fedavg算法相比，LDRL-Fed可以将MNIST上的通信回合减少多达35％，将FashionMNIST减少多达23％。

非独立同分布数据测试：针对于非独立同分布数据分布的不同程度，图4描绘了非独立同分布数据分布的不同程度对通信回合产生的影响。γ=0.5表示数据集中50％的数据是随机分布的，其余的属于一个标签。γ=0.8表示80％的数据属于一个标签，其余20％是随机的。

表示每个边缘节点中的所有数据都属于同一标签。本实施例完成了图3中的MNIST和图4中的FMNIST如结果所示，不同程度的非独立同分布将对通信回合产生一定的影响。非独立同分布程度越高，通信周期越长，收敛速度越慢。LDRL-Fed可有效减少通信回合的次数。

针对于轮次和批次大小，图3显示了不同轮次和批次大小对准确率的影响。本文考虑了轮次对不同水平的数据非独立同分布分布训练100轮比赛的影响。分别考虑从1到5的时间，如图5所示，本文可以看到，当数据分布差异较小时，例如，偏差γ=0和γ=0.5，增加时间不能提高精度的收敛速度，但在100发回合内，增加时间甚至会导致准确性下降。当数据分布完全不同时，γ=0.8。轮次的增加仍然对数据收敛产生影响，其中数据准确率随轮次的增加而增加。然后，本文在图6中验证了批次大小对准确性的影响，发现批次越大，效果越差，因为批次大小设置越大，将消耗数据集中可用数据的速度越快。新到达的数据量不足以支持每轮太多的批量。因此，适当的批次大小是最合适的。

针对于节点数量，图6不同节点数量对收敛回合的影响。在本小节中，本文探讨了节点数与精度收敛回合之间的关系。可选任务的最大数量K设置为10、20、30、40、50。图7显示，增加每轮完成任务的节点数量不会减少通信次数，甚至会增加通信次数。

在本发明中，我们提出基于Lyapunov优化理论和深度强化学习的理论框架，以减少通信回合，来实现良好的收敛效果。首先，边缘计算中的在线联邦学习问题被建模为基于Lyapunov优化理论的动态的队列模型组成的在线联邦学习问题。其次，针对于非独立同分布问题，将Lyapunov优化理论与DRL相结合，为动态原始数据的变化设计最优控制策略，以探索数据非独立同分布对训练收敛的影响，通过DRL学习过程选择最优的节点集合，降低非独立同分布对收敛速率产生的影响。最后，基于MNIST和FashionMNIST两个数据集，将本文提出的策略与FedAvg对比，从数据非独立同分布程度、训练轮次和数量批次、节点数量方面验证了在线任务分配机制的正确性和有效性。最重要的是，我们的方法实现了良好的性能。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种在线联邦学习任务分配方法，其特征在于，包括以下步骤：

2.如权利要求1所述的在线联邦学习任务分配方法，其特征在于，步骤（2）所述强化学习模型采用马尔科夫决策。

3.如权利要求2所述的在线联邦学习任务分配方法，其特征在于，步骤（2）所述马尔科夫决策过程的惩罚值由Lyapunov漂移和损失值组成，其中损失值为边缘节点的估计网络参数的梯度损失的加权和。

4.如权利要求3所述的在线联邦学习任务分配方法，其特征在于，步骤（2）所述马尔科夫决策过程采用无模型增强学习算法分别估计Lyapunov漂移和损失值。

5.如权利要求4所述的在线联邦学习任务分配方法，其特征在于，步骤（2）所述无模型增强学习算法为深度Q网络，并采用贝尔曼方程估计Q函数估计的更新差值。

6.如权利要求3所述的在线联邦学习任务分配方法，其特征在于，步骤（3）所述Lyapunov优化使得所述时间片内Lyapunov漂移界限和损失函数同时最小化。

7.一种在线联邦学习任务分配装置，应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统，其特征在于，包括边缘节点选择模块、以及边缘节点感知控制模块；

8.一种面向非独立同分布数据的在线联邦学习训练方法，应用于具有一个中央服务器和多个边缘节点的在线联邦学习系统，其特征在于，包括以下步骤：

所述中央服务器向所有边缘节点发布任务；

按照如权利要求1至7任意一项所述的在线联邦学习任务分配方法选择进行任务训练的边缘节点并为其分配训练任务；

9.一种面向非独立同分布数据的在线联邦学习系统，其特征在于，包括中央服务器、多个边缘节点、以及如权利要求7所述的在线联邦学习任务分配装置；