CN114385376A

CN114385376A - 一种异构数据下边缘侧联邦学习的客户端选择方法

Info

Publication number: CN114385376A
Application number: CN202111498897.1A
Authority: CN
Inventors: 赵健鑫; 刘驰; 冯雁浩; 常欣煜
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-04-22
Anticipated expiration: 2041-12-09

Abstract

本发明属于人工智能领域，提供了一种异构数据下边缘侧联邦学习的客户端选择方法，所述客户端选择方法包括：训练初始化，构造数据集；计算候选客户端本地权重的变化；FL服务器基于权重变化信息选择参与训练的客户端集；FL服务器计算平均权重；重复前述步骤，直至训练模型收敛性能不变；本发明实现了FL服务器在真实的异构数据环境中确保被选择的数据样本符合科学性和代表性，同时通过增加额外选择的客户端数量参数S和周期参数P进一步提升FL训练模型的准确率，并且减少能耗。

Description

一种异构数据下边缘侧联邦学习的客户端选择方法

技术领域

本发明属于人工智能技术领域，尤其涉及一种异构数据下边缘侧联邦学习的客户端选择方法。

背景技术

随着大量数据越来越多地从智能家居、移动电话、可穿戴设备等移动设备和边缘设备中生成，对于许多应用程序来说，跨多个节点分布式训练机器学习变得至关重要。分布式训练机器学习是通过多个工作节点的协作训练模型，最常采用的方法是随机梯度下降(Stochastic Gradient Descent，SGD)的训练方法，即通过跟踪目标梯度方向，迭代优化目标函数，直到收敛，这种训练方法在每次迭代中，先使用训练数据计算下降梯度，然后再通过训练步骤沿梯度方向进行改变来更新模型参数，因其对训练数据的要求不高，操作相对简便，被广泛应用于无线通信系统、物联网等领域，但是这种模型无法满足多领域结合的技术要求。

为了适应包括分布式训练、机器学习和隐私等多个领域相结合的学习环境，一种名为联邦学习(Federated Learning，FL)的分布式训练成为各种研究和应用领域的新宠。FL的机器学习环境是在中央服务器或服务提供商的协调下，采用多个实体协作解决机器学习问题，过程中每个客户端的原始数据仍存储本地，不参与交换或传输，如图1所示的FL架构能够实现机器学习任务在不需要进行数据集中的情况下展开，因此，这种模型满足了客户端对个人数据保有隐私的需求，尤其适用于边缘计算应用领域；FL于边缘侧的应用能有效利用边缘设备数据，但同时也存在因为边缘环境相对复杂，边缘设备数据需要针对边缘环境做出优化的问题。

边缘设备数据的中心环境满足独立同分布(Independently IdenticallyDistribution，IID)特点，即边缘设备数据符合同一个概率分布，并且互相独立，在测试集使用IID数据训练模型能够表现出更好的效果；而在FL中，由于客户端上的数据是非独立同分布数据(Non-IID)，即异构数据，并且数据通常不会在客户端之间平均分配，这就会导致直接使用客户端数据训练得到的模型可能与中心环境整体模型相差甚远，直接从边缘设备客户端提取的本地数据满足不了从整体分布中提取数据的样本要求，这对模型训练有着巨大的影响，同时在FL中，参与训练的典型客户端都是独立电池供电的移动设备，相比于模型训练对能量储备的要求，能效问题也是一个不容忽视的关键挑战。

应对这种问题的有效手段之一是采用FL中的一种名为联邦平均(FedAvg)的基本算法，FedAvg采用在每轮学习中随机选择一个客户端子集，并在其本地数据上运行全局模型的本地副本，当本地数据通过运行随机梯度下降后得到权重并发送回FL服务器，FL服务器再将客户端的模型权重更新为加权和；这种算法能够用相对少的通信轮次训练高质量模型，同时对克服FL中常见的设备间数据分布不平衡的问题，表现出强大的能力；麦克马汉(McMahan)等人已经证实了FedAvg算法在通信受限异构环境和Non-IID数据分布情况下的有效性，但其证实的FedAvg算法缺乏理论上的收敛性保证。

导致FedAvg算法收敛性缺乏理论保证的原因在于：用于实验分析及理论证明FedAvg算法收敛性的假设是数据在设备间共享或者以IID形式分布，并且所有设备均参与每轮次学习通信；这种假设简化了分析，但FL环境违反了真实的边缘侧，环境建立的场景不真实。针对这种不真实的问题，斯密斯(Smith)等人的实验进行了真实场景的仿真，并且FedAvg算法在本地客户端数据集相对较大、数据Non-IID分布温和时表现良好；但是，当在偏移剧烈的Non-IID数据、客户端的本地数据集比较小时，FedAvg算法的表现下降明显。

导致FedAvg算法的表现下降明显的主要原因是：传统的随机选择客户端参与训练的方法不适用FedAvg算法，由于数据和设备的异构性，通常会导致参与训练的客户端数量远超实际训练需求的客户端数量，这不仅极大的增加能耗，还会导致表现好的模型因客户端或数据的传统随机选择方法而变得性能不佳，测试结果有偏差。因此，提出一种新的客户端选择方法，以保证模型精度的前提下，减少计算成本、降低能耗并提高收敛速度，已成为亟待解决的技术难题。

发明内容

针对存在的上述问题，本发明提供一种异构数据下边缘侧联邦学习的客户端选择方法，简称FedNorm。

本发明所述客户端选择方法包括如下步骤：

步骤1.训练初始化，构造数据集：

步骤1.1.FL服务器从所有可用客户端集合中选择K个客户端作为参与训练的候选客户端集C_k，(k＝1,2,...,K)；

步骤1.2.FL服务器通过第一轮epoch(一代训练)对要训练的模型初始化，并得到模型初始权重W₁；

步骤1.3.将每个候选客户端C_k的本地数据集D_k所对应的样本数N_k，分为若干个Batch(批次，模型训练完成一个batch，参数迭代一次)，每个Batch大小为B_k；

步骤2.计算候选客户端C_k在第t+1，(t＝0,1,2...R)轮epoch中本地权重的变化：

步骤2.1.FL服务器从数据库中读取模型当前的本地权重W_t；

步骤2.2.FL服务器将当前的本地权重W_t发送给候选客户端C_k，候选客户端C_k将权重更新为当前本地权重W_t，此时，对于候选客户端C_k，第t+1轮epoch的初始本地权重

满足下式(1)：

步骤2.3.候选客户端C_k在新的一轮epoch中，采用小批次(mini-batch)梯度下降的方法计算权重，对于候选客户端C_k来说，第t+1轮epoch的最终本地权重

的更新满足下式(2)：

步骤2.4.计算候选客户端C_k第t+1轮epoch的权重变化信息

权重变化信息

表示为当前的最终本地权重和上一轮的最终本地权重之间的欧几里得范数(L2-Norm，简称L2范数)，即权重变化信息

满足下式(3)：

步骤2.5.候选客户端C_k将权重变化信息

与最终本地权重

一起发送回FL服务器；

步骤3.FL服务器基于权重变化信息

选择参与训练的客户端集

步骤3.1.FL服务器将候选客户端C_k的权重变化信息

进行排序；

步骤3.2.FL服务器将权重变化最大的m个客户端作为第t+1(t＝0,1,2…,r,…,R)轮参与训练的客户端集

(k＝1,2,…，m+s)，其中,s是由用户控制的额外选择的客户端数量的参数，r是训练轮次；

步骤4.FL服务器计算平均权重，并满足下式(4)：

上式(4)中，F_k(w)是客户端集

的局部目标函数，并满足下式(5)：

上式(5)中，f(w,d)是模型参数为w、Batch为d的数据的损失函数，|D_k|是由第k个参与方所拥有的数据集；

步骤5.重复步骤2.至步骤4.直至训练模型收敛性能不变。

进一步的，步骤2.4.中所述L2范数能够衡量向量之间的欧氏距离，且对于矢量x＝(x₁,x₂,…,x_n)，x的L2范数表示为

进一步的，所述步骤3.2.中，当多个候选客户端C_k的权重变化信息

的价值相同时，通过随机选择其中一个来打破平局。

进一步的，所述步骤3.2.中，当s＝0时，FL服务器所选的客户端在整个训练阶段保持不变；当s＝k-m时，FL服务器采用经典随机抽样的方法选择客户端。

进一步的，所述步骤3.2.中，每p轮选择一次客户端，其中p是由用户控制的重新计算所有客户端权重变化的L2范数的周期参数，且p为整数属于[1,2,....,R]，通过调节p的数值，模型训练的准确率保持在阈值范围内的同时，能耗处于最低区间。

与现有技术相比，本发明所述客户端选择方法具有如下显著的有益效果：

1.本发明所述客户端选择方法通过计算权重变化信息来衡量客户端更新的重要性，从而减少了部分客户端权重在没有较大变化的情况下，依然被FL服务器选择所造成的浪费，也减少了其他有价值客户端的损失，这样就实现了在真实的异构数据环境中，在确保被选择的数据样本符合科学性和代表性，相比于随机选择客户端的策略，能够确保在数据异构程度较大的情况下既保持准确率，还能加速模型收敛。

2.本发明所述客户端选择方法在选择参与训练的客户端集

{k＝1,2,…,m+s}过程中，通过引入所述参数s,对FedNorm(联邦范数)进行了优化，即在训练的第一轮从客户端中选择权重变化最大的top-max(m+s,K)客户端，而在剩下的回合中，FL服务器只从这个集合中随机选择m个客户端参与训练，这样能够减少每轮都需要计算所有客户端权重的能源消耗。

3.本发明所述客户端选择方法通过引入所述周期参数p,实现了FedNorm只在以p为周期的轮次中重新计算所有客户端的前后权重的L2范数，而在其余轮次中只需要计算从这个客户端集中被FL服务器随机选择的m个客户端的权重，这样能够在大幅减少因重复计算所有被选择客户端前后权重的L2范数，而造成的过量能源消耗的基础上，进一步保证模型的准确率。

附图说明

图1是本发明所述FL架构的模型训练示意图；

图2a是本发明所述IID数据下客户端被选择的频率；

图2b是本发明所述Non-IID数据下客户端被选择的频率；

图3a是本发明所述平均分割数据时IID和Non-IID数据集上客户端选择方法的准确性比较；

图3b是本发明所述数据不平均分割数据时IID和Non-IID数据集上客户端选择方法的准确性比较；

图4a是本发明所述平均分割数据时Non-IID数据下额外样本量参数s在FedNorm中的应用效果图；

图4b是本发明所述不平均分割数据时Non-IID数据下额外样本量参数s在FedNorm中的应用效果图；

图5是本发明所述FedNorm在不同更新周期下的能耗降低的比例；

图6a是本发明所述平均分割数据时IID和Non-IID数据集上周期参数p在FedNorm中的应用效果图；

图6b是本发明所述不平均分割数据时IID和Non-IID数据集上周期参数p在FedNorm中的应用效果图；

具体实施方式

下面,结合说明书附图，对所述客户端选择方法的构造数据集、建立卷积神经网络、搭建联邦学习框架及搭建环境、FedNorm算法的准确率、FedNorm-E(FedNorm算法优化)的测试以及FedNorm-E与FedNorm算法的比较，进一步加以详细介绍：

1，基于FEMNIST数据集构建数据集：

在所述客户端选择方法中，IID数据集的构造方法在原始的FEMNIST(FederatedExtended MNIST，联邦扩展MNIST)数据集中数据样本是全局不平衡的，FEMNIST数据集是先对包含3550个用户手写数据的MNIST数据集扩展数字和字符，再对扩展后的数据进行划分，用于扩展的数字和字符包括10个数字、26个小写字母和26个大写字母，按照扩展数字和字符分类，FEMNIST分为62类，数据以图像样本的形式呈现，每幅图像大小为28×28像素，FEMNIST数据集总共包含805263个图像样本；在原始FEMNIST数据集中，数字图像比小写和大写字符多得多，因此，在全局平衡的数据集中需要移除额外的图像来使每个类的图像都相同,方法是找到数据集中数量最小的图像类，并删除额外图像。如果所有样本被随机打乱，则数据集被视为IID数据集；

Non-IID数据集的构造方法，按类标签对之前的IID数据集中的数据进行排序，将它们分成s个部分，并在将这些部分组合在一起之前随机打乱，这种病态的分割方法使得不同Worker(工作节点，依据服务器分配的任务处理数据)的培训数据尽可能少地重叠，s越大，数据集越接近IID，对于Non-IID数据集FEMNIST-NE和FEMNIST-NU，使用的设置是s＝1024和s＝2048。按照上述方法构建四种数据集，分别是FEMNIST-IE(全局平衡、IID、平均分割)、FEMNIST-IU(全局平衡、IID、不平均分割)、FEMNIST-NE(全局平衡、Non-IID、平均分割)和FEMNIST-NU(全局平衡、Non-IID、不平均分割)；

数据分配给客户端的方式：构造好IID和Non-IID数据集后，需要将数据分配给不同的客户，当在不同客户端之间不平均地分割数据集时，遵循Instagram(一款社交应用)用户的帖子数量，这些帖子是从1000个Instagram用户中随机收集的，随机选择其中的n个(n是测试中的客户端数量)，整个数据集根据帖子数量的比例进行划分。

2，建立卷积神经网络：

在所述客户端选择方法中，使用的卷积神经网络模型有两个卷积层和两个全连接层，两个卷积层分别有32和64个输出通道，两者的3x3内核大小和步幅大小均为1，两层之后是Relu(线性整流函数，一种激活函数)层和Dropout层(一种正则化方法，用以防止模型过拟合)，第一个全连接层有128个由ReLu激活的单元，第二个全连接层的输出大小为62，后面是Softmax输出层，在训练过程中，损失函数是分类交叉熵，模型准确率的度量标准是top-1准确率：

在所述客户端选择方法中，关于训练配置，对于每个客户端上的本地训练，本地batch B为10，每轮本地epoch E为5，客户端C的总数设置为24。使用Adam(自适应矩估计)优化器，学习率为0.001，系数为(0.9，0.999)。

3，搭建联邦学习框架：

在所述客户端选择方法中，代码主要基于了PyTorch的分布式RPC(RemoteProcedure Call，远程过程调用)框架，分布式RPC框架用于远程运行功能，支持引用远程对象而无需复制实际数据，并提供了API(Application Programming Interface，应用程序编程接口)以进行反向传播并跨RPC边界更新参数，它还提供了四种API，包括远程过程调用(RPC)、远程引用(RRef，即Remote Reference，RRef可以作为指向本地或远程对象的分布式共享指针)、分布式autograd(用于前向传播中涉及的所有Worker，并在反向传播中自动与Worker通信以计算梯度)和分布式优化器：

联邦学习的所有过程都使用唯一的服务器实例，Client(客户端)类使用分布式RPC框架提供的API获取对服务器的远程引用，使用之前建立的神经网络构建神经网络训练循环用于计算损失，参数优化也使用了分布式RPC构建分布式优化器，并使用分布式Autograd进行反向传播，代码运行需要设置必要的参数，如参加训练的客户端总数等，最后启动服务器和所有客户端。

4，搭建环境：

在所述客户端选择方法中，作为限定，实施例采用56核服务器，Ubuntu系统，版本为18.04，CPU为Intel Xeon E5-2695 v4处理器，主频2.4GHz，每个Worker分配2个CPU、3G内存，设计24个计算节点，每个节点分配3G内存。代码使用Python编写，基于深度学习开源框架PyTorch，Docker用于快速部署并在容器内运行代码，Python、Docker和PyTorch的版本分别为3.8.3、2.3和1.7。

本发明实施例的测试内容与分析结果如下：

1，FedNorm算法的准确率：

在测试中，将所提出的FedNorm算法的性能与联邦学习中流行的客户端选择策略——随机选择(FedAvg)和基于损失的选择(FedLoss)进行了比较，这三种方法都需要从所有参与的客户端进行采样，实验将采样率设置为25％，此外，还将其与基线方法Full(选择所有客户端)进行了比较，测试进行20轮，并使用之前构造的基于FEMNIST的异构数据集来比较这些方法，Non-IID数据集(如“NE1024”)表示分割数为1024，分割数量更少则Non-IID程度更高，结果如图3所示，当数据集是IID数据集并被平均分割时，所有方法的性能都相似，当异构性增加时，这种差异变得更加明显，并且FedNorm优于其他基线方法，显示出FedNorm能够识别出关键客户端以提高收敛速度和准确率。

2，FedNorm-E的测试：

针对FedNorm-E的测试主要关注额外的样本量s的影响，s不能太大，否则，在每一轮中，客户端选择接近随机选择；s也不能过小，否则客户端选择范围小，难以训练出适合全局的模型，在FedNorm-E中，设置了四种额外的样本量s，1、2、4和8，与FedNorm进行比较以查看其影响，图4显示出FedNorm-E在各种数据场景中的表现接近FedNorm；通过适当调整额外的样本大小参数，能够实现与FedNorm相同的性能水平。

3，能源效率：

FedNorm-E算法中，FL服务器每r轮收集权重变化信息，将此更新频率参数r称为周期，在本测试中，将研究其与模型准确率和能效的关系，在此前构造的六个数据集上将更新周期r设置为1、5、10和20，作为基线，FedNorm算法使用的样本大小为6，FedNorm-E算法也是如此，随着更新频率参数r的增加，更新的数量将会减少，如图5所示，随着增加更新周期(或降低更新频率)，客户端的总能耗下降，因为参与联邦学习过程所需的客户端更少；图6显示了FedNorm-E的性能差距不大(当r＝1时，即每一轮都重新计算权重变化的范数并重新选择客户端，FedNorm-E相当于FedNorm)，而且，在数据分布偏斜不大的情况下，降低FedNorm-E算法中的更新频率不会对训练结果产生显著影响，能够调整其更新周期参数r，以适应不同的数据分布。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明公开的范围内，能够轻易想到的变化或替换，都应涵盖在本发明权利要求的保护范围内。

Claims

1.一种异构数据下边缘侧联邦学习的客户端选择方法，其特征在于，所述客户端选择方法包括如下步骤：

步骤1.训练初始化，构造数据集：

步骤1.3.将每个候选客户端C_k的本地数据集D_k所对应的样本数N_k，分为若干个Batch，每个Batch大小为B_k；

步骤2.1.FL服务器从数据库中读取模型当前的本地权重W_t；

满足下式(1)：

的更新满足下式(2)：

步骤2.4.计算候选客户端C_k第t+1轮epoch的权重变化信息

权重变化信息

表示为当前的最终本地权重和上一轮的最终本地权重之间的欧几里得范数，即权重变化信息

满足下式(3)：

步骤2.5.候选客户端C_k将权重变化信息

与最终本地权重

一起发送回FL服务器；

步骤3.FL服务器基于权重变化信息

选择参与训练的客户端集

步骤3.1.FL服务器将候选客户端C_k的权重变化信息

进行排序；

其中,s是由用户控制的额外选择的客户端数量的参数，r是训练轮次；

步骤4.FL服务器计算平均权重，并满足下式(4)：

上式(4)中，F_k(w)是客户端集

的局部目标函数，并满足下式(5)：

上式(5)中，f(w，d)是模型参数为w、Batch为d的数据的损失函数，是由第k个参与方所拥有的数据集；

步骤5.重复步骤2.至步骤4.直至训练模型收敛性能不变。

2.根据权利要求1所述的一种异构数据下边缘侧联邦学习的客户端选择方法，其特征在于，步骤2.4.中所述L2范数能够衡量向量之间的欧氏距离，且对于矢量x＝(x₁，x₂，…，x_n)，x的L2范数表示为

3.根据权利要求1所述的一种异构数据下边缘侧联邦学习的客户端选择方法，其特征在于，所述步骤3.2.中，当多个候选客户端C_k的权重变化信息的价值相同时，通过随机选择其中一个来打破平局。

4.根据权利要求3所述的一种异构数据下边缘侧联邦学习的客户端选择方法，其特征在于，所述步骤3.2.中，当s＝0时，FL服务器所选的客户端在整个训练阶段保持不变；当s＝k-m时，FL服务器采用经典随机抽样的方法选择客户端。

5.根据权利要求4所述的一种异构数据下边缘侧联邦学习的客户端选择方法，其特征在于，所述步骤3.2.中，每p轮选择一次客户端，其中p是由用户控制的重新计算所有客户端权重变化的L2范数的周期参数，且p为整数属于[1,2,....,R]，通过调节p的数值，模型训练的准确率保持在阈值范围内的同时，能耗处于最低区间。