CN112506753A

CN112506753A - 一种联邦学习场景中高效的贡献评估方法

Info

Publication number: CN112506753A
Application number: CN202011465470.7A
Authority: CN
Inventors: 张兰; 李向阳; 王俊豪
Original assignee: Deqing Alpha Innovation Research Institute
Current assignee: Deqing Alpha Innovation Research Institute
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-03-16
Anticipated expiration: 2040-12-14
Also published as: CN112506753B

Abstract

一种联邦学习场景中高效的贡献评估方法，它根据训练日志计算权重：服务器使用联邦学习的训练日志来计算各个用户在模型聚合时的权重。普通联邦学习中，第t+1个epoch中，服务器聚合模型的形式化为:

又可以写为：

其中θ_t+1表示第t+1轮的全局模型，θ_t为第t个epoch的全局模型，本发明通过用户在模型聚合时的权重来计算贡献，极大降低了计算开销，将指数级开销降低为线性开销，并且能够加快模型收敛，提高性能；2)所使用的训练日志是联邦学习所固有的信息，没有额外的隐私保护成本。

Description

一种联邦学习场景中高效的贡献评估方法

技术领域

本发明涉及的联邦学习场景中高效的贡献评估，属于机器学习和数据分析领域。

背景技术

联邦学习(Federated Learning)是一种新兴的人工智能基础技术，在2016年由谷歌最先提出，原本用于解决安卓手机终端用户在本地更新模型的问题，其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习。

联邦学习的一大特点就是它较好地解决了数据孤岛问题，并且在训练过程后，每个用户对模型的贡献能够记录在永久数据记录机制，实际效果会在实际应用中表现出来。随着人工智能和移动计算的飞速发展，很多数据都是众包得到，每个用户提供数据的质量和数量大不相同，如果根据用户对训练模型的贡献对各个用户进行反馈和激励，则能够激励用户提供更多的数据和更多的用户参与到联邦学习中，促人工智能的发展。

针对机器学习的和联邦学习的贡献评估已有一系列工作，但他们都不适用于现实联邦学习系统，相关的技术包括博弈论和机器学习可解释性研究等，他们旨在通过分析数据样本对模型训练效果的影响来确定其贡献。现有工作通常使用沙普利值来计算各个训练样本对模型训练的贡献，但这不能直接用于联邦系统中，主要原因是计算沙普利值需要指数级的计算和通信开销，这在现实的联邦学习系统中通常不可能实现。

发明内容

本发明的目的在于克服现有技术的不足，高效的评估联邦学习系统中每个用户对联邦学习系统的贡献，并并且能够加快模型训练的收敛，提升模型的性能，本发明的主要步骤为：主要步骤如下：

1)根据训练日志计算权重：服务器使用联邦学习的训练日志(用户的模型更新参数

t∈[T],n∈[N],t表示训练轮数，n表示用户数)来计算各个用户在模型聚合时的权重。普通联邦学习中，第t+1个epoch中，服务器聚合模型的形式化为:

又可以写为：

其中θ_t+1表示第t+1轮的全局模型，θ_t为第t个epoch的全局模型，

η为学习率。由于服务器不能访问到各个用户的训练数据，并且数据很多都是众包得到，各个用户的数据质量和分布情况大不相同，所以服务器只能使用自己拥有的数据作为测试数据集测试全局模型性能，这里假设服务器拥有的测试数据集是高质量的数据集(没有噪音且分布均匀)。在联邦学习训练的过程中，服务器倾向于降低全局模型在测试数据集的损失函数，即：argmin loss^v(θ)，其中，loss^v(θ)表示模型θ在测试数据集(validation set)的损失函数。要求解最优的权重

最直观的方法是使用梯度下降，即：

其中，

在求得

后，使用

作为用户在模型聚合时的权重。

2)根据权重计算贡献：在上一步中，已经求得各个用户在模型聚合时的权重。使用权重作为沙普利值的效用函数，即可在线性时间内计算得到沙普利值，避免指数级的开销。计算用户i的沙普利值：

即：

本发明设计了一个面向联邦学习的高效的贡献评估，并可以修正联邦学习的训练方向，加快模型的收敛，提升联邦学习系统的性能。本发明提出的方法优势体现在1)通过用户在模型聚合时的权重来计算贡献，极大降低了计算开销，将指数级开销降低为线性开销，并且能够加快模型收敛，提高性能；2)所使用的训练日志是联邦学习所固有的信息，没有额外的隐私保护成本。

具体实施方式

下面将结合对本发明作详细的介绍：

在横向联邦学习中，参与用户各自从服务器下载最新的全局模型，然后利用本地数据训练得到局部模型，上传给服务器；服务器聚合各个用户上传的局部模型更新全局模型。联邦学习系统中，为了保护数据隐私，服务器不能直接访问用户的训练数据，故服务器利用训练日志(用户上传的局部模型)，评估各个用户的在梯度聚合时的权重，然后根据权重计算各个用户对模型的贡献。在该模块中，主要步骤如下：

又可以写为：

最直观的方法是使用梯度下降，即：

其中，

在求得

后，使用

作为用户在模型聚合时的权重。

即：