CN116227632A - 用于客户端异构和数据异构场景的联邦学习方法和装置 - Google Patents

用于客户端异构和数据异构场景的联邦学习方法和装置 Download PDF

Info

Publication number
CN116227632A
CN116227632A CN202211722497.9A CN202211722497A CN116227632A CN 116227632 A CN116227632 A CN 116227632A CN 202211722497 A CN202211722497 A CN 202211722497A CN 116227632 A CN116227632 A CN 116227632A
Authority
CN
China
Prior art keywords
training
target client
local
model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211722497.9A
Other languages
English (en)
Inventor
朱宗卫
左雁茹
周学海
王超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Institute Of Higher Studies University Of Science And Technology Of China
Original Assignee
Suzhou Institute Of Higher Studies University Of Science And Technology Of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Institute Of Higher Studies University Of Science And Technology Of China filed Critical Suzhou Institute Of Higher Studies University Of Science And Technology Of China
Priority to CN202211722497.9A priority Critical patent/CN116227632A/zh
Publication of CN116227632A publication Critical patent/CN116227632A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种用于客户端异构和数据异构场景的联邦学习方法和装置。其中,该方法包括:中央服务器发送当前全局模型给所选的每个目标客户端;计算每个目标客户端的本地训练能力;根据每个目标客户端的训练能力,自动确定每个目标客户端对应的本地训练轮次;根据本地训练轮次,每个目标客户端基于引入优化的损失函数进行本地模型更新,以得到更新后的模型参数;中央服务器进行全局模型的聚合更新并开启下一轮训练。本发明在客户端进行本地训练时,通过不同客户端的训练能力自动选择训练轮次,并通过优化目标函数来以削弱Non‑IID数据带来的数据偏移问题,减轻了联邦学习中的系统异构性和数据异构性,提高了模型的训练效率。

Description

用于客户端异构和数据异构场景的联邦学习方法和装置
技术领域
本发明实施例涉及联邦学习技术领域,尤其涉及一种用于客户端异构和数据异构场景的联邦学习方法和装置。
背景技术
随着信息技术的快速发展,硬件设备和数据的广泛利用为人工智能发展提供了广阔的应用空间和广泛的应用条件。在利用数据进行机器学习建模的环境中,企业和个人具备了过往无法比拟的计算能力和数据应用优势。每个企业都拥有敏感数据:商业秘密、知识产权、关键业务信息、业务合作伙伴信息和客户信息。然而,在大多数行业中,数据是以孤岛的形式存在的,由于行业竞争、隐私安全、行政手续复杂等问题,即使在同一公司的不同部门之间实现数据整合也面临着重重阻力,在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的,或者说所需的成本是巨大的。
另一方面,随着大数据的进一步发展,重视数据隐私和安全已经成为了世界性的趋势,隐私计算已然成为全球新兴的一大产业。如何在满足数据隐私、安全和监管要求的前提下,设计一个机器学习框架,让人工智能系统能够更加高效、准确地共同使用各自的数据,是人工智能发展的一个重要课题。联邦学习(Federated Learning)作为一种隐私保护的重要解决方案之一,近年来也得到了飞速的发展。联邦学习就是在进行机器学习的过程中,各参与方可借助其他方数据进行联合建模。各方无需共享本地数据资源,即数据不出本地的情况下进行数据联合训练,建立共享的机器学习模型。
联邦学习自提出以来获得了广泛的关注,并在一些场景中得以应用。联邦学习解决了数据汇聚的问题,使得一些跨机构、跨部门的机器学习模型、算法的设计和训练成为了可能。特别地,对于移动设备中的机器学习模型应用,联邦学习表现出了良好的性能和鲁棒性。此外,对于一些没有足够的私人数据来开发精确的本地模型的用户(客户机)来说,通过联邦学习能够大大改进机器学习模型和算法的性能。
但是,由于联邦学习侧重于通过分布式学习所有参与客户机(设备)的本地数据来获得高质量的全局模型,因此它无法捕获每个设备的个人信息,从而导致推理或分类的性能下降。此外,传统的联邦学习需要所有参与设备就协作训练的共同模型达成一致,这在实际复杂的物联网应用中是不现实的。联邦学习在实际应用中面临的问题一般分为:
(1)系统异构性:由于硬件(CPU,内存)、网络连接(3G,4G,5G,wifi)和电源(电池电量)的变化,联邦网络中每个设备的存储、计算和通信能力可能不同,不同客户端同步训练可能会对训练结果产生负影响;
(2)数据异质性:各个客户机(设备)本地数据的非独立同分布(Non-Idependentlyand Identically Distributed,Non-IID)所导致的数据异构性问题;Non-IID数据引起的客户漂移对FedAvg有显着的负面影响,如图1所示。在IID设置下,全局最优值w*接近于局部最优值w1 *和w2 *,因此平均模型也接近全局最优值。然而在Non-IID设置下,由于全局最优值w*远离局部最优值w1 *,因此平均模型也远离了全局最优值。
(3)各个客户机根据其应用场景所需要的模型异构性问题。
因此,联邦学习中的系统异构和数据异构成为联邦学习训练中的比较严重的瓶颈。
发明内容
为了解决现有技术中的问题,本发明提供一种用于客户端异构和数据异构场景的联邦学习方法和装置,以减轻联邦学习中的系统异构性和数据异构性,并为每个设备获得高质量的个性化模型。
第一方面,本发明实施例提供了一种用于客户端异构和数据异构场景的联邦学习方法,在每轮的训练回合中,包括:
S1、中央服务器发送当前全局模型给所选的每个目标客户端;
S2、计算每个目标客户端的本地训练能力;
S3、根据所述每个目标客户端的训练能力,自动确定每个目标客户端对应的本地训练轮次;
S4、根据所述本地训练轮次,所述每个目标客户端基于引入ElasticNet优化的损失函数进行本地模型更新,以得到更新后的模型参数;
S5、所述每个目标客户端将更新后模型参数发送至中央服务器,以供中央服务器进行全局模型的聚合更新并开启下一轮训练,直至满足模型收敛条件。
可选的,所述S2包括:
计算每次训练的样本总损失与每个目标客户端对应的当前概率向量标准差的比值;
根据当前轮训练比值和上一轮训练比值的差值来确定每个目标客户端对应的训练能力。
可选的,所述S3包括:
基于选择函数,根据每个目标客户端的训练能力以及所有目标客户端训练能力的均值自动确定每个目标客户端对应的本地训练轮次。
可选的,所述选择函数为e~α*N(ebegin),
本地训练轮次调整的规则为:
Figure BDA0004028753560000031
时,/>
Figure BDA0004028753560000037
其中,MaxMinNormalization函数将
Figure BDA0004028753560000032
映射到[1,5]的区间,init代表每一次调节训练轮次的步长基本单位。
可选的,所述引入ElasticNet优化的损失函数为:
Figure BDA0004028753560000033
其中,l(w,Dk)为原始FedAvg客户端的优化函数,
Figure BDA0004028753560000034
为新添加的近端项,/>
Figure BDA0004028753560000035
是第k个目标客户端在第t个轮次的局部模型,w代表本轮次的全局模型,α代表本轮次/>
Figure BDA0004028753560000036
的权重。
可选的,在所述S1中,所述中央服务器以一定概率从所有客户端中选择进行本轮联邦训练的目标客户端。
可选的,在所述S3中,所述中央服务器进行全局模型的聚合更新,包括:
所述中央处理器对从所述每个目标客户端接收到的更新后的模型参数进行加权平均,得到更新后的全局模型参数。
第二方面,本发明实施例还提供一种用于客户端异构和数据异构场景的联邦学习装置,包括:
全局模型发送模块,用于通过中央服务器发送当前全局模型给所选的每个目标客户端;
本地训练能力确定模块,用于计算每个目标客户端的本地训练能力;
本地训练轮次确定模块,用于根据所述每个目标客户端的训练能力,自动确定每个目标客户端对应的本地训练轮次;
本地模型优化更新模块,用于根据所述本地训练轮次,所述每个目标客户端基于引入ElasticNet优化的损失函数进行本地模型更新,以得到更新后的模型参数;
全局聚合更新模块,用于通过所述每个目标客户端将更新后模型参数发送至中央服务器,以供中央服务器进行全局模型的聚合更新并开启下一轮训练,直至满足模型收敛条件。
本发明提供了一种用于客户端异构和数据异构场景的个性化联邦学习方法(pFedEN),通过根据每个目标客户端的本地训练能力动态的选择训练轮次,在一定程度上减少通信量从而加快整个训练的过程;此外,在客户端进行本地训练时,通过在客户端的优化目标函数中增加一个正则项ElasticNet,以削弱Non-IID数据带来的数据偏移问题,消除训练过程中的不稳定性。
附图说明
图1为现有技术中的Non-IID下的数据漂移示意图;
图2为非独立同分布的数据采用FedAvg算法进行训练的训练效果示意图;
图3为本发明实施例中的一种用于客户端异构和数据异构场景的联邦学习方法的主要模块图;
图4为本发明实施例中的一种用于客户端异构和数据异构场景的联邦学习方法流程图;
图5a为本发明实施例中的CIFAR-10数据集在Partition=1情况下对FedAvg、FedNova、FedProx、pFedEN四种算法进行对比实验的实验结果图;
图5b为本发明实施例中的CIFAR-10数据集在Partition=2情况下对FedAvg、FedNova、FedProx、pFedEN四种算法进行对比实验的实验结果图;
图5c为本发明实施例中的CIFAR-10数据集在Partition=3情况下对FedAvg、FedNova、FedProx、pFedEN四种算法进行对比实验的实验结果示意图;
图6为本发明实施例中的MNIST数据集分别在Patition=1,Partition=2,Partition=3情况下FedAvg、FedNova、FedProx、pFedEN四种算法进行对比实验的实验结果示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
传统联邦学习假设系统数据是均匀独立分布的。然而,当联邦学习真实应用于实际场景中时,大部分节点数据都属于非独立同分布,数据异构成为联邦学习中最严重的瓶颈之一。
在传统联邦学习算法的目标是处理收集数据的多个设备和一个中央服务器以调整全局模型为目标,具体而言,假设一共有N个客户端,那么优化函数为:
Figure BDA0004028753560000041
其中,N为客户端的数量,pk≥0并且∑kpk=1,一般来说,客户端的局部损失函数可以定义为:
Figure BDA0004028753560000051
其中,Dk代表不同分布的数据合集,在设备k上都有nk个样本,因此可以设置
Figure BDA0004028753560000052
n=∑knk代表所有数据的总数。
传统算法的局限显而易见,在用户数据分布不完全相同的异质环境中,通过最小化平均损失得到的全局模型一旦应用于每个用户的本地数据集,可能会表现得比较糟糕。为了应对数据异构型挑战,需要对模型进行个性化处理,pFedEN每个客户端都有自己的模型,客户端在训练的过程中结合局部模型和全局模型进行整体的更新,这样就可以保证在整体数据量不足的情况下,数据倾斜比较严重的客户端可以对新的标签数据具有比较好的适应性。
在经典联邦学习算法FedAvg种,设备k在本地训练时,需要最小化的目标函数是优化所有样本的损失和,这是为了让全局模型在本地数据集上表现得更好,但是如果设备间的数据是非独立同分布的,每个客户端优化之后得到的模型就与初始时服务器分配的全局模型相差过大,本地模型将会偏离初始的全局模型,这将减缓全局模型的收敛。非独立同分布的数据在采用FedAvg算法进行训练时得到的效果参见图2。
通过图2可以看到,在独立同分布(iid)的数据下,FedAvg的收敛速度会大于机器学习的随机梯度下降(Stochastic Gradient Descent,SGD),但是这么做是有代价的,当客户端节点的计算量(以epoch来衡量)相同,那么FedAvg的收敛速度是不如传统SGD的。同时,还可以看出当数据集相同,在相同的训练轮次中,各个节点所拥有的数据异构程度越大,如图2所示,niid后面的数字代表每个客户端所拥有得数据类型,即数字越小,数据的异构程度越大,FedAvg的表现效果就会越差。所以,本实施例的技术方案将从数据异构性入手来改良FedAvg算法。
本发明研究了上述提到的数据异构性和系统异构性之间的相互作用,并且认为系统异构性产生的掉队者问题以及掉队者发往中央服务器的带偏差的参数信息会进一步增加数据异构性,从而加重数据漂移现象,最终影响收敛过程。
为了解决这一问题,本发明实施例提供了一种用于客户端异构和数据异构场景的联邦学习方法(pFedEN)。如图3所示,pFedEN主要由三部分组成:本地训练能力确定模块、本地训练轮次确定模块和本地模型优化更新模块。其中,本地训练能力确定模块用于定义当前客户端节点的训练能力,自动确定本次训练的训练轮次,对方法的运行起到明确的指导作用。本地训练轮次确定模块用于根据不同客户端的本地训练能力自动的调整训练轮次,在确保模型精度的情况下减少通信量。本地模型优化更新模块通过优化本地更新方案,以削弱Non-IID数据带来的数据偏移问题,消除训练过程中的不稳定性。
本发明实施例充分考虑了不同客户端的训练能力,通过上述三个主要模块的通力配合来平衡每个客户端节点的训练特性,并且考虑到了数据异构导致的客户端偏移问题,在提高训练效率的同时又提升了本地训练精度。
具体参见图4,该方法包括:
S1、中央服务器发送当前全局模型给所选的每个目标客户端。
S2、计算每个目标客户端的本地训练能力。
现有技术中通常采用在所有的客户端节点都进行相同轮次训练的方法,然而由于每个客户端节点所拥有的数据量以及计算能力是不同的,单纯的依赖神经网络的概率向量的输出去指导训练方案是不全面的,忽视了每个客户端节点对训练轮次的贡献能力。
因此,本实施例中使用每次训练的样本总损失Globali和每个客户端节点当前概率向量标准差Vpredi作为刻画当前客户端节点训练能力的标准,使用ESI来约束二者的关系,定义如下:
Figure BDA0004028753560000061
在实际应用中,将上一轮的ESI值定义为:
Figure BDA0004028753560000062
通过当前ESI和过去ESI的差值来表示动态调节epoch(训练轮次)的能力:
Figure BDA0004028753560000063
本实施例中的ESI可以从以下两个方面去提高模型的训练效率:
1)可以反应客户端节点在初始训练时的训练轮次(epoch)选择能力。在初始训练的时候,每个客户端收到的是来自于中央服务器下发的初始模型,在本地经过初始epoch迭代之后,得到的ESI指标表示了当前客户端的算力不平衡程度。
2)可以反映客户端节点在训练过程中动态调整epoch的能力。在整个联邦学习训练的过程中,模型会越来越精确,那么整个的Globali将会越来越小,而Vpredi会越来越大(个性化模型预测更加精准),ESI将会不断减小,因此ESI可以作为动态调节epoch的参数标准。
S3、根据所述每个目标客户端的训练能力,自动确定每个目标客户端对应的本地训练轮次。
本实施例中,考虑到
Figure BDA0004028753560000071
对模型训练epoch的指示意义,通过设计一个epoch动态变化的选择函数。
具体的,选择函数e~α*N(ebegin)输入为一个默认的epoch值,动态的调整epoch机制如下:
条件:
Figure BDA0004028753560000072
/>
更新:
Figure BDA0004028753560000073
当满足条件公式时,客户端节点的epoch进行动态调整。在调整过程中,基于选择函数来保证每轮的epoch根据客户端的节点状态进行调整,例如当
Figure BDA0004028753560000074
时,说明当前客户端的训练能力要比其它节点要差,节点会增加本地训练的epoch来减小训练偏差,同时节点会根据MaxMinNormalization函数将/>
Figure BDA0004028753560000079
映射到[1,5]的区间,init代表每一次调节epoch的步长基本单位(默认为5)。
该策略对于联邦学习训练来说,客户端通过增加本地迭代的次数的方式在一定程度上减少通信量从而加快整个训练的过程epochs。
S4、根据所述本地训练轮次,所述每个目标客户端基于引入ElasticNet优化的损失函数进行本地模型更新,以得到更新后的模型参数。
具体的,所述引入ElasticNet优化的损失函数为:
Figure BDA0004028753560000075
其中,l(w,Dk)为原始FedAvg客户端的优化函数,
Figure BDA0004028753560000076
为新添加的近端项,/>
Figure BDA0004028753560000077
是第k个目标客户端在第t个轮次的局部模型,w代表本轮次的全局模型,α代表本轮次/>
Figure BDA0004028753560000078
的权重。
本发明实施例通过在客户端的优化目标函数中增加一个正则项ElasticNet,ElasticNet将Lasso和Ridge组成一个具有两种惩罚因素的单一模型:一个与L1范数成比例,另外一个与L2范数成比例,使用这种方式方法所得到的模型就像纯粹的Lasso回归一样稀疏,但同时具有与岭回归提供的一样的正则化的能力,该方法可以使优化方法更加稳定,最终使得pFedEN在数据异构性下也会收敛得更快。
示例性的,本客户端中的本地数据可以为车辆自动驾驶中涉及的具体数据信息,通过采用本发明实施例中的方法对这些数据进行联邦学习,可以训练得到准确的自动驾驶模型。
S5、所述每个目标客户端将更新后模型参数发送至中央服务器,以供中央服务器进行全局模型的聚合更新并开启下一轮训练,直至满足模型收敛条件。
本实施例中提供的pFedEN在中央服务器的操作和FedAvg相同,均采用加权平局的全局模型更新策略,但是为了解决数据异构性问题,第k个节点不再执行E轮的SGD,而是求解以下带ElasticNet的优化问题:
Figure BDA0004028753560000081
本实施例中提供的pFedEN引入了带ElasticNet的更新主要是综合考虑了L1范数和L2范数的优点并进行结合,加入正则项主要是为了使得每个客户端在本地训练更新的时候可以进行个性化的学习,引入L1范数是为了避免过拟合,但是这会产生稀疏的模型,而同时引入L2范数就可以消除L1范数所带来的稀疏性问题,同时来保证模型的稳定性。因此pFedEN在使用新的优化函数之后同时可进行正则化与变量的选择,使得客户端的本地模型更优。
更为具体的,本实施例中提供的一种用于客户端异构和数据异构场景的联邦学习方法具体包括以下流程:
输入:w0随机初始化参数,N为总设备;
输出:最终的全局模型参数wt+1
(1)FOR全局轮数t=0,1,…,T-1;
(2)中央服务器Server以概率pk随机选取K个设备并指定固定学习率;
(3)中央服务器Server发送当前全局模型w*给所选设备;
(4)每个客户端使用本地数据进行训练,在发送数据到云端之前进行ESIp和ESI的运算,得到
Figure BDA0004028753560000087
用于计算epoch值;
(5)每个设备k=1,2,…,K根据计算出的epoch值并行计算:
Figure BDA0004028753560000082
(6)每个客户端基于新的损失优化函数进行本地模型更新得到
Figure BDA0004028753560000083
Figure BDA0004028753560000084
(7)重复4)-6),结束并行计算,每个设备将计算结果
Figure BDA0004028753560000085
传至中央服务器Server;
(8)模型更新,中央处理器对从K个客户端接收到的
Figure BDA0004028753560000086
进行加权平均更新模型参数得到wt+1
(9)中央服务器Server将更新后的模型参数wt+1发送给客户端;
(10)重复2)-9)t次;
(11)结束。
进一步的,本发明实施例对所提出的pFedEN进行实验验证,具体内容如下:
1、实验设置
测试平台设置:在5个TITAN XP GPU上部署pFedEN,其中一个GPU模拟中心云服务器,其他GPU模拟边缘计算设备。
模型和数据集:为了研究pFedEN在Non-IID数据设置上的有效性,本实施例对3个图像数据集(MNIST,CIFAR-10,SVHN)进行了广泛的实验,数据集的统计数据总结在下表1中。
表1数据集统计数据
数据集 训练实例 测试实例 特征数 类别数
MNIST 60000 10000 784 10
CIFAR-10 60000 10000 784 10
SVHN 73257 26032 1024 10
对于图像数据集,本实施例使用了三个经典的CNN模型来训练图像分类任务:RESNET-20、RESNET-50和VGG16。其中,RESNET-20和RESNET-50是计算密集型网络,VGG16是通信密集型网络。
基准指标:使用测试数据集上的top-1准确度作为衡量所研究算法的指标。将所有研究过的算法运行相同的轮数以进行公平比较。除非指定,否则默认情况下将轮数设置为50。对典型的联邦学习算法进行了对比实验,包括FedAvg算法(baseline)、FedProx算法和FedNova算法。在不同的数据集、不同的模型、不同的数据集异构程度上进行训练,充分验证了pFedEN算法的通用性和优越性。其中Partition=k表示每个客户端只有k个不同的数据样本,k越小代表每个客户端之间的数据异构程度越大。
实验结果:
1)CIFAR-10数据集分别在Partition=1,Partition=2,Partition=3情况下对FedAvg、FedNova、FedProx、pFedEN四种算法进行对比实验。其中每一轮训练轮次为10,实验结果如图5a-c所示。
2)MNIST数据集分别在Patition=1,Partition=2,Partition=3情况下,每一次训练轮次分别为10,20,40,80并应用FedAvg、FedNova、FedProx、pFedEN四种算法进行对比实验实验结果如图6所示,每个训练轮次上的四个柱状图从左到右分别对应FedAvg、pFedEN、FedNova、FedProx四种算法的实验结果。
3)同时记录三种数据集在不同配置下引入动态调整训练轮次策略的整体算法平均准确度,如下表2所示。
表2不同算法不同数据异构程度的算法平均准确度
数据集 数据异构程度 FedAvg FedProx FedNova PFedEN
MNIST Partiton=1 29.8%±7.9% 39.8%±22.2% 39.2%±22.1% 40.9%±23.1%
Partiton=2 95.8%±0.3% 96.4%±0.3% 97.4%±0.5% 97.0%±0.4%
Partiton=3 97.4%±04 97.9%±0.2% 96.1%±0.6% 98.0%±0.5%
IID 98.9%±0.1% 98.9%±0.1% 98.9%±0.1% 98.9%±0.1%
CIFAR-10 Partiton=1 10.0%±0.0% 12.3%±0.2% 10.0%±0.0% 12.0%±0.0%
Partiton=2 48.8%±3.3% 49.8%±2.1% 46.5%±3.5% 51.2%±1.2%
Partiton=3 58.3%±12% 57.6%±1.3% 57.1%±14% 62.5%±2.4%
IID 70.4%±0.5% 70.2%±0.2% 69.5%±1.0% 70.5%±0.3%
SVHN Partiton=1 11.1%±0.0% 18.7%±0.0% 10.6%±0.8% 18.6%±0.0%
Partiton=2 78.4%±0.9% 80.2%±0.7% 754%±4.8% 81.1%±0.4%
Partiton=3 82.0%±0.7% 82.1%±1.0% 80.5%±1.2% 82.2%±0.3%
IID 88.5%±0.8% 88.5%±1.0% 88.4%±0.5% 88.6%±0.3%
2.实验结果分析
1)数据异构程度为1,2,3时,用CIFAR-10数据集分别采用FedAvg、FedNova、FedProx、pFedEN进行训练,可以看出,pFedEN可以取得比先进的或者经典的联邦学习算法更高的训练精度。
2)用VGG16训练MNIST,在数据异构程度分别为1,2,3以及每一次训练轮次数分别为10,20,40,80的环境下,pFedEN与经典的FedAvg、FedNova、FedProx算法相比均提高了训练精度,体现了pFedEN强大的适用性。
3)综合三种数据集,四种不同算法,以及数据独立同分布和数据非独立同分布(Partiton-1,2,3)的环境下,pFedEN相较于FedAvg、FedNova、FedProx大部分情况下展示了更高的训练精度。
实施例1
在食品饮料、日用品、美妆等竞争日益激烈的行业,要如何保持竞争优势、如何让广告有效触达目标群体,并在保护数据安全的同时实现广告价值的高转化,是目前广告主最关注的问题。具备一定技术能力的广告主在人群定向策略的制定过程中,往往会面临数据安全的难题。如果想要实现更加个性化的策略,广告主通常需要上传一方数据到媒体平台的工具上进行洞察和分析,但出于行业特性或数据安全的考虑往往只能止步。
为了能够让流量价值和转化效率最大化,媒体平台近几年陆续推出各自的联邦学习框架,以AI联合建模的方式与广告主共同探索数据价值。联邦学习主要解决数据跨域问题,保证数据不出域,也就是计算资源向数据资源靠拢,保证数据安全隐私和安全合规。在一个典型AI联合建模场景中,数据参与方通常包括媒体平台方、广告主、第三方服务商,由媒体平台侧提供联邦学习的基础框架和数据源特征库,例如消费者在媒体上的各类行为和兴趣特征,客户侧提供客户侧样本特征库,例如零售类企业已经积累的大量基础零售客户群信息以及丰富的产品和内容信息,第三方服务商可能会提供基于其他数据源的样本特征库。而通过引入pFedEN可以使得通过给每个目标群体建立一个个性化模型进行精准广告推送来提高广告收益。
实施例2
车联网技术的发展是5G物联网领域中非常重要的应用之一,尤其是自动驾驶的投入使用,更是加速了车载系统联网入云的进程。据统计数据显示,一辆自动驾驶车每天产生的数据在4TB以上,然而,自动驾驶涉及到用户愿不愿意把自己让行驶数据、驾驶数据等被采集上传到服务器,很多时候大家是不愿意的,如果都不上传数据,自动驾驶就没有办法得到更优的模型。联邦学习有助于打破车路协同的数据孤岛,建立高效局域车联网,降低车载数据等隐私泄露风险。联邦学习可以让所有的用户数据停留在本地,只给予用户一个模型来让用户进行反馈,这样大家就可以进行联合建模,得到更优的自动驾驶模型,同时保护了用户数据隐私。对于未来数据监管越来越严格的情况下,联邦学习是自动驾驶模型训练的解决思路。
而复杂车联网环境中固有的设备、统计和模型的异构性给传统的联邦学习带来了巨大挑战,将pFedEN算法应用到能够从整体上缓解车联网应用中固有的设备异构性、统计异构性和模型异构性问题并且提升模型精度,这实现了数据保护与模型训练的“双赢”。
进一步的,本发明实施例还提供一种用于客户端异构和数据异构场景的联邦学习装置,包括:
全局模型发送模块,用于通过中央服务器发送当前全局模型给所选的每个目标客户端;
本地训练能力确定模块,用于计算每个目标客户端的本地训练能力;
本地训练轮次确定模块,用于根据所述每个目标客户端的训练能力,自动确定每个目标客户端对应的本地训练轮次;
本地模型优化更新模块,用于根据所述本地训练轮次,所述每个目标客户端基于引入ElasticNet优化的损失函数进行本地模型更新,以得到更新后的模型参数;
全局聚合更新模块,用于通过所述每个目标客户端将更新后模型参数发送至中央服务器,以供中央服务器进行全局模型的聚合更新并开启下一轮训练,直至满足模型收敛条件。
其中,本地训练能力确定模块具体用于:
计算每次训练的样本总损失与每个目标客户端对应的当前概率向量标准差的比值;
根据当前轮训练比值和上一轮训练比值的差值来确定每个目标客户端对应的训练能力。
本地训练轮次确定模块,具体用于:基于选择函数,根据每个目标客户端的训练能力以及所有目标客户端训练能力的均值自动确定每个目标客户端对应的本地训练轮次。
其中,所述选择函数为e~α*N(ebegin),
本地训练轮次调整的规则为:
Figure BDA0004028753560000121
时,/>
Figure BDA0004028753560000122
其中,MaxMinNormalization函数将
Figure BDA0004028753560000123
映射到[1,5]的区间,init代表每一次调节训练轮次的步长基本单位。
其中,所述引入ElasticNet优化的损失函数为:
Figure BDA0004028753560000124
其中,l(w,Dk)为原始FedAvg客户端的优化函数,
Figure BDA0004028753560000125
为新添加的近端项,/>
Figure BDA0004028753560000126
是第k个目标客户端在第t个轮次的局部模型,w代表本轮次的全局模型,α代表本轮次/>
Figure BDA0004028753560000127
的权重。
具体的,所述中央服务器以一定概率从所有客户端中选择进行本轮联邦训练的目标客户端。
其中,所述中央服务器进行全局模型的聚合更新,包括:所述中央处理器对从所述每个目标客户端接收到的更新后的模型参数进行加权平均,得到更新后的全局模型参数。
本发明实施例所提供的一种用于客户端异构和数据异构场景的联邦学习装置可执行本发明任意实施例所提供的一种用于客户端异构和数据异构场景的联邦学习方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (6)

1.一种用于客户端异构和数据异构场景的联邦学习方法,其特征在于,在每轮的训练回合中,包括:
S1、中央服务器发送当前全局模型给所选的每个目标客户端;
S2、计算每个目标客户端的本地训练能力;
S3、根据所述每个目标客户端的训练能力,自动确定每个目标客户端对应的本地训练轮次;
S4、根据所述本地训练轮次,所述每个目标客户端基于引入ElasticNet优化的损失函数进行本地模型更新,以得到更新后的模型参数;
S5、所述每个目标客户端将更新后模型参数发送至中央服务器,以供中央服务器进行全局模型的聚合更新并开启下一轮训练,直至满足模型收敛条件。
2.根据权利要求1所述的方法,其特征在于,所述S2包括:
计算每次训练的样本总损失与每个目标客户端对应的当前概率向量标准差的比值ESI;
根据当前轮训练比值和上一轮训练比值的差值来确定每个目标客户端对应的训练能力。
3.根据权利要求1所述的方法,其特征在于,所述S3包括:
基于选择函数,根据每个目标客户端的训练能力以及所有目标客户端训练能力的均值自动确定每个目标客户端对应的本地训练轮次。
4.根据权利要求3所述的方法,其特征在于,所述选择函数为e~α*N(ebegin),
本地训练轮次调整的规则为:
Figure FDA0004028753550000011
时,/>
Figure FDA0004028753550000012
其中,ebegin代表初始设置的训练轮次,α为设置的有效系数,
Figure FDA0004028753550000013
为当前ESI和过去ESI的差值,/>
Figure FDA0004028753550000018
为所有目标客户端ESI的平均值,MaxMinNormalization函数将/>
Figure FDA0004028753550000019
映射到[1,5]的区间,init代表每一次调节训练轮次的步长基本单位。
5.根据权利要求1所述的方法,其特征在于,所述引入ElasticNet优化的损失函数为:
Figure FDA0004028753550000014
其中,l(w,Dk)为原始FedAvg客户端的优化函数,
Figure FDA0004028753550000015
为新添加的近端项,/>
Figure FDA0004028753550000016
是第k个目标客户端在第t个轮次的局部模型,w代表本轮次的全局模型,α代表本轮次/>
Figure FDA0004028753550000017
的权重。
6.一种用于客户端异构和数据异构场景的联邦学习装置,其特征在于,包括:
全局模型发送模块,用于通过中央服务器发送当前全局模型给所选的每个目标客户端;
本地训练能力确定模块,用于计算每个目标客户端的本地训练能力;
本地训练轮次确定模块,用于根据所述每个目标客户端的训练能力,自动确定每个目标客户端对应的本地训练轮次;
本地模型优化更新模块,用于根据所述本地训练轮次,所述每个目标客户端基于引入ElasticNet优化的损失函数进行本地模型更新,以得到更新后的模型参数;
全局聚合更新模块,用于通过所述每个目标客户端将更新后模型参数发送至中央服务器,以供中央服务器进行全局模型的聚合更新并开启下一轮训练,直至满足模型收敛条件。
CN202211722497.9A 2022-12-30 2022-12-30 用于客户端异构和数据异构场景的联邦学习方法和装置 Pending CN116227632A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211722497.9A CN116227632A (zh) 2022-12-30 2022-12-30 用于客户端异构和数据异构场景的联邦学习方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211722497.9A CN116227632A (zh) 2022-12-30 2022-12-30 用于客户端异构和数据异构场景的联邦学习方法和装置

Publications (1)

Publication Number Publication Date
CN116227632A true CN116227632A (zh) 2023-06-06

Family

ID=86577714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211722497.9A Pending CN116227632A (zh) 2022-12-30 2022-12-30 用于客户端异构和数据异构场景的联邦学习方法和装置

Country Status (1)

Country Link
CN (1) CN116227632A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117196014A (zh) * 2023-09-18 2023-12-08 深圳大学 基于联邦学习的模型训练方法、装置、计算机设备及介质
CN117576742A (zh) * 2023-11-21 2024-02-20 南京林业大学 一种基于分块联邦学习的手指静脉识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117196014A (zh) * 2023-09-18 2023-12-08 深圳大学 基于联邦学习的模型训练方法、装置、计算机设备及介质
CN117196014B (zh) * 2023-09-18 2024-05-10 深圳大学 基于联邦学习的模型训练方法、装置、计算机设备及介质
CN117576742A (zh) * 2023-11-21 2024-02-20 南京林业大学 一种基于分块联邦学习的手指静脉识别方法

Similar Documents

Publication Publication Date Title
Liu et al. FedCPF: An efficient-communication federated learning approach for vehicular edge computing in 6G communication networks
Zhu et al. Federated learning on non-IID data: A survey
Kang et al. Communication-efficient and cross-chain empowered federated learning for artificial intelligence of things
CN116227632A (zh) 用于客户端异构和数据异构场景的联邦学习方法和装置
Yuan et al. ITARS: trust-aware recommender system using implicit trust networks
CN112734032A (zh) 一种用于横向联邦学习的优化方法
Schneider et al. Social network analysis via multi-state reliability and conditional influence models
Chen et al. Enhancing network cluster synchronization capability based on artificial immune algorithm
CN113065974A (zh) 一种基于动态网络表示学习的链路预测方法
CN114091667A (zh) 一种面向非独立同分布数据的联邦互学习模型训练方法
Pradhan et al. Principal eigenvector localization and centrality in networks: Revisited
CN113240086A (zh) 一种复杂网络链接预测方法及系统
Li et al. Federated learning-based cross-enterprise recommendation with graph neural networks
Huang et al. Information fusion oriented heterogeneous social network for friend recommendation via community detection
CN115879542A (zh) 一种面向非独立同分布异构数据的联邦学习方法
Kang et al. Weighted distributed differential privacy ERM: Convex and non-convex
Li et al. Secure federated learning with efficient communication in vehicle network
CN113821827B (zh) 保护多方数据隐私的联合建模方法及装置
Kaplan et al. Partial observable update for subjective logic and its application for trust estimation
Liu et al. Pd2s: A privacy-preserving differentiated data sharing scheme based on blockchain and federated learning
Tembine Mean field stochastic games: Convergence, Q/H-learning and optimality
CN113065918A (zh) 基于半监督学习的稀疏信任推荐方法
Saputra et al. Federated learning framework with straggling mitigation and privacy-awareness for AI-based mobile application services
Qi et al. Graph neural bandits
CN114842247B (zh) 基于特征累加的图卷积网络半监督节点分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination