CN116108919A

CN116108919A - 一种基于相似特征协作的个性化联邦学习方法和系统

Info

Publication number: CN116108919A
Application number: CN202310104418.6A
Authority: CN
Inventors: 林博; 王晶; 岳伟; 尹建伟
Original assignee: Binjiang Research Institute Of Zhejiang University
Current assignee: Binjiang Research Institute Of Zhejiang University
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-05-12

Abstract

本发明公开了一种基于相似特征协作的个性化联邦学习方法和系统，应用于客户端和服务器，服务器用于管理至少两个客户端，每一客户端上具有局部模型及局部数据集，方法包括：(1)服务器接收各客户端发送的局部类级特征向量集；(2)服务器根据局部类级特征向量集，基于各客户端的聚合权重生成客户端的个性化类级特征向量集；(3)每个客户端从服务器上下载对应的个性化类级特征向量集，在其局部数据集上进行训练更新其局部模型，获得局部类级特征向量集；(4)重复步骤(2)‑(3)直至所有客户端平均训练损失不再下降。本发明可以改善因数据异构导致的局部模型性能下降，同时兼顾模型异构、通信成本以及可解释的参与者贡献评价等问题。

Description

一种基于相似特征协作的个性化联邦学习方法和系统

技术领域

本发明涉及联邦学习技术领域，尤其涉及一种基于相似特征协作的个性化联邦学习方法和系统。

背景技术

联邦学习(Federated Learning，FL)本质上是一种分布式机器学习框架，其做到了在保障数据隐私安全及合法合规的基础上，实现数据共享、共同建模。它的核心思想是在多个数据源共同参与模型训练时，不需要进行原始数据流转的前提下，仅通过交互模型中间参数进行模型联合训练，原始数据可以不出本地。

由于数据和模型的异质性，传统FL仍然存在一些实际挑战，适用于克服这两个挑战的有效算法尚未得到充分开发或系统研究。已有解决数据异质性问题的方案有：(1)为不同的局部客户端分配并维护多个全局模型，如聚类FL；(2)利用全局和局部信息为每个客户端生成个性化模型，如个性化FL。这些方法大多依赖基于梯度的聚合，导致了较高的通信成本和严重依赖相同结构的局部模型。因为不同客户端的硬件和计算能力不同，因此模型异构是常见的。基于知识蒸馏的FL通过将教师模型的知识转移到具有不同模型结构的学生模型中来解决。然而，这些方法需要一个额外的公共数据集来对齐学生和教师模型的输出，从而增加了计算成本。且该方法的性能会随着公共数据集和客户端数据集之间的分布差异的增加而显著降低。

此外，参与联邦学习的客户端，除了训练有用的FL模型之外，可能还有额外的需求。例如：一家制药公司可能希望建立一个模型，通过FL利用来自多个医院的数据来促进药物研究。为了补偿参与医院，制药公司可能需要提供激励性支付。

因此，现有技术中，如何解决联邦学习在数据异构场景下局部模型性能下降，同时兼顾模型异构、通信成本以及可解释的参与者贡献评价，是一个亟待解决的问题。

发明内容

本发明提供了一种基于相似特征协作的个性化联邦学习方法和系统，用于改善联邦学习中因各客户端之间数据异构导致的局部模型性能下降，同时兼顾考虑模型异构、通信成本以及可解释的参与者贡献评价等问题。

本发明的技术方案如下：

一种基于相似特征协作的个性化联邦学习方法和系统，应用于客户端和服务器，所述的服务器用于管理至少两个客户端，每一客户端上均运行一局部模型及用于训练局部模型的局部数据集，所述方法包括：

(1)服务器初始化并接收各客户端发送的局部类级特征向量集；

(2)服务器根据各客户端发送的局部类级特征向量集，基于各客户端的聚合权重生成每个客户端的个性化类级特征向量集；

(3)每个客户端从服务器上下载对应的个性化类级特征向量集，在其局部数据集上通过最小化局部分类误差与局部类级特征向量集和个性化类级特征向量集之间的距离之和来更新其局部模型；由更新后的局部模型获得其更新后的局部类级特征向量集并发送给服务器；

(4)重复步骤(2)-(3)直至所有客户端平均训练损失不再下降。

在某一客户端上，将其局部数据集输入至其局部模型，将分类网络后端负责决策的某个全连接层的输出(比如倒数第二个全连接层)作为该客户端某个类的特征向量，对属于该类的所有数据样本的特征向量做平均，得到该类的局部类级特征向量。

通常一个分类模型包括特征提取和分类预测两部分，其中特征提取部分通常由卷积层和下采样组成，分类预测部分通常由全连接层组成，最后一个全连接层的输出维度和类别数量相同。本发明将分类网络后端负责决策的某个全连接层的输出(比如倒数第二个全连接层)作为该客户端某个类的特征向量，同一个客户端如果有多个样本属于同个类，则对该类特征向量做平均作为该类的特征向量，将该特征向量定义为局部类级特征向量。其中，一个客户端有多少个类，就有多少个局部类级特征向量。

各客户端用于提取局部类级特征向量所在的全连接层输出尺寸相同。且各客户端用于提取局部类级特征向量所在的全连接层输出尺寸相同的情况下，局部分类模型结构不必完全相同。

在服务器上，基于各客户端的聚合权重对具有同一类样本的所有客户端的局部类级特征向量进行聚合，得到各客户端的个性化类级特征向量。

若多个不同的客户端都具有同个类的样本，假设客户端A、B、C都具有类1，则以客户端A为例，通过规则加权聚合客户端A、B、C的类1局部类级特征向量得到的输出，称为客户端A的类1的个性化类级特征向量。同理，可以得到客户端B、C的类1的个性化类级特征向量。

步骤(2)包括：

(i)针对客户端i，计算其类j的局部类级特征向量

与其他含有类j的客户端上的局部类级特征向量

之间的距离

k∈[1,M^(j)]，得到距离向量

其中：j∈[1,|C_i|]，|C_i|为客户端i上类的数量；M^(j)表示含有类j的客户端数量；

设置为常数，在训练过程中可以是固定的(如1)，也可以是变化的(如初始值是1，后续逐渐变小)，其影响的是客户端i本身的特征所占的比重，其值越小，则比重越大；

(ii)针对距离向量

取距离

的反比并进行归一化，得到权重向量

其中：

表示客户端k对客户端i的类j的聚合权重，且有

(iii)计算得到客户端i上的类j的个性化类级特征向量

计算公式为：

步骤(i)中，所述的距离

为欧式距离、曼哈顿距离、夹角余弦距离。

欧式距离的计算公式为：

其中k∈[1,M^(j)]；

曼哈顿距离的计算公式为：

其中k∈[1,M^(j)]；

夹角余弦距离的计算公式为：

其中k∈[1,M^(j)]。

步骤(3)中，客户端i的局部训练损失L_i为：

其中：w_i为客户端i的局部模型的参数；x_i为输入数据；y_i为x_i对应的标签；F_i是x_i输入局部模型后得到的分类预测；|D_i|为客户端i的局部数据数量；|D_i,j|为局部数据中含有类j的数据数量；N是所有客户端上的样本总数；N_j是所有客户端上属于类j的样本总数；

和

分别为客户端i上的类j的局部类级特征向量和个性化类级特征向量；|C_i|为客户端i上类的数量；λ为正则化常数。

所有客户端进行联邦学习的优化目标为：

其中，N是所有客户端上的样本总数量；N_j是所有客户端上属于类j的样本总数量；M为客户端总数量。

本发明还提供了一种基于相似特征协作的个性化联邦学习系统，应用于客户端和服务器，所述的服务器用于管理至少两个客户端，每一客户端上均运行一局部模型及用于训练局部模型的局部数据集，所述系统包括训练模块、交互模块、聚合模块、可视化模块；

所述的训练模块应用于客户端，在各客户端的局部数据集上通过最小化局部分类误差与局部类级特征向量集和个性化类级特征向量集之间的距离之和来更新其局部模型；由更新后的局部模型获得其更新后的局部类级特征向量集；

所述的交互模块应用于由各客户端向服务器传输局部类级特征向量集，由服务器向各客户端传输对应的个性化局部类级特征向量集；

所述的聚合模块应用于服务器，通过计算各客户端的局部类级特征向量之间的距离，获得各客户端的聚合权重，并基于各客户端的聚合权重生成各客户端的个性化类级特征向量集；

所述的可视化模块对训练过程中的聚合权重进行可视化，用于动态显示和定量评估各客户端之间的贡献程度以及贡献程度的变化情况。

与现有技术相比，本发明的有益效果为：

1、通过计算不同客户端相同类别的局部类级特征向量之间的距离，根据距离进一步计算得到聚合权重，然后基于聚合权重最终得到每个客户端的个性化局部类级特征向量。并在客户端局部训练过程中，通过拉近局部类级特征向量和个性化类级特征向量之间的距离，促进了具有类级相似特征分布的客户端之间的协作，提高了数据异构场景下各客户端局部模型的分类性能，提高了局部模型的适用性；

2、各客户端与服务器之间通过固定长度的特征向量进行交互，相比传统FL使用局部模型的所有参数进行交互，降低了依赖相同结构的局部模型的要求，节省了通信成本，提高了通信效率；

3、通过设置可视化模块，将训练过程中各客户端的聚合权重可视化，可以动态显示和定量评估各客户端数据的贡献程度以及贡献程度的变化情况，提供了一种类级的、可解释的FL参与者贡献定量评价参考，为联邦学习激励性支付提供了一种思路。

附图说明

图1为本发明一种基于相似特征协作的个性化联邦学习方法和系统的总体框架结构示意图。

图2为局部模型的结构示意图。

图3为聚合权重可视化图示。

具体实施方式

本发明提出了一种基于相似特征协作的个性化联邦学习方法和系统，关键是如何生成个性化类级聚合权重，示例方案如下：

概念解释：

通常一个分类模型包括特征提取和分类预测，其中特征提取部分通常由卷积层和下采样组成，分类预测部分通常由全连接层组成，如图2所示，最后一个全连接层(图2中的FC2)的输出维度和类别数量相同，可取倒数第二个全连接层(图2中的FC1)的输出作为该客户端某个类的特征向量。关于特征向量的选取其实也可以扩展，这里暂时以此为例进行介绍。同一个客户端如果有多个样本属于同个类，则对特征向量做平均作为该类的特征向量，将该特征向量定义为局部类级特征向量。其中，一个客户端有多少个类，就有多少个局部类级特征向量。

若多个不同的客户端都具有同个类的样本，假设客户端A、B、C都具有类1，则以客户端A为例，通过某种规则加权聚合客户端A、B、C的类1局部类级特征向量得到的输出，称为客户端A的类1的个性化类级特征向量。同理，可以得到客户端B、C的类1的个性化类级特征向量。

总体流程如图1所示，主要包括如下2个关键迭代步骤：

(1)客户端局部更新：每个客户端从服务器端下载对应的个性化类级特征向量集，并在其局部数据集上通过最小化局部训练损失L_i(包括分类误差L_S、局部类级特征向量与个性化类级特征向量之间的距离L_R)来更新它们的局部模型w_i。然后，每个客户端将它们的局部类级特征向量集C_i发送给中央服务器；

客户端i的局部训练损失L_i的定义如下：

其中，w_i为客户端i的局部模型参数，x_i为输入数据，y_i为对应标签，F_i是x_i输入w_i后得到的分类预测，|D_i|为客户端i的局部数据数量，|D_i,j|为|D_i|中含有类j的数据数量，N是所有客户端上的样本总数，N_j是所有客户端上属于类j的样本总数。

和

分别为客户端i上的类j的局部特征向量和个性化特征向量，|C_i|为客户端i上类的数量，λ为正则化常数。

所有客户端进行联邦学习的优化目标定义如下：

其中，N是所有客户端上的样本总数，N_j是所有客户端上属于类j的样本总数，M为客户端数量，其余参数解释同上。

(2)服务器类级特征聚合：中央服务器基于聚合权重生成每个客户端的个性化类级特征向量，并将它们返回给对应的客户端，以促进相似客户端之间的协作。

以客户端i上的类j为例，给出一种聚合权重的计算方法，首先计算

与其他含有类j的客户端上的局部类级特征向量

之间的距离(采用向量距离的计算方法，如欧式距离、曼哈顿距离、夹角余弦距离等)，即：

欧式距离：

其中k∈[1,M^(j)]式(6)

曼哈顿距离：

其中k∈[1,M^(j)]

夹角余弦距离：

其中k∈[1,M^(j)]

其中，i,k表示客户端编号，M^(j)表示含有类j的客户端数量，则进一步有距离向量：

其中j∈[1,|C_i|]式(7)

其中，

设置为常数。考虑到距离越小，则代表特征越接近，则聚合权重越大，因此通过取距离的反比且经过归一化得到权重向量，即：

其中j∈[1,|C_i|]式(8)

其中，

表示客户端k对客户端i的类j的聚合权重，且有

则客户端i上的类j的个性化特征向量为：

聚合权重可作为训练过程中客户端之间贡献评价的一个参考，如图3所示，其中横坐标表示客户端编号，纵坐标表示聚合权重，图3中的(a)和(b)分别表示客户端1(client_0)上的类别1(label_0)在第1轮和第101轮通信(round_0和round_100)后的各客户端对于客户端1上类别1的个性化特征向量的聚合权重分布情况，由图3可知第1轮后客户端1本身占比0.40，客户端19(client_18)占比0.06；第101轮后客户端1本身占比0.16，客户端19占比0.11。随着通信轮次的增加，客户端本身的权重逐渐减少、其他客户端的权重逐渐增加，并且其他客户端的权重差异不大，说明该类别在这些客户端上的特征向量比较接近，通过协作彼此形成了共赢。另外也可以通过监测其他客户端对当前客户端的权重增量，可以及时了解是否还有必要进一步通信协作。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。