CN113469373B

CN113469373B - 基于联邦学习的模型训练方法、系统、设备及存储介质

Info

Publication number: CN113469373B
Application number: CN202110945152.9A
Authority: CN
Inventors: 杨雷; 李亚玲; 梁原; 李丽平
Original assignee: Beijing Sino Bridge Technology Co ltd
Current assignee: Beijing Sino Bridge Technology Co ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2023-06-30
Anticipated expiration: 2041-08-17
Also published as: CN113469373A

Abstract

本公开实施例公开了一种基于联邦学习的模型训练方法、系统、设备及存储介质，所述方法包括：集群内各节点设备基于参数服务器下发的初始参数和本地数据集进行模型训练，并将各自的模型参数利用差分隐私算法添加噪声后发送至集群内指定节点设备；各集群内指定节点设备利用软聚类压缩算法处理接收到的模型参数，生成聚类后的簇心值，并将所述簇心值发送至所述参数服务器，以使所述参数服务器利用同样的所述软聚类算法聚合得到更新后的簇心值。上述技术方案减少了与参数服务器通信的设备数量，另一方面，上传的模型参数是经过软聚类压缩算法生成的簇心值，大大降低了上传的模型参数数量，从而极大地降低了联邦学习系统中通信流量的消耗，节省了资源。

Description

基于联邦学习的模型训练方法、系统、设备及存储介质

技术领域

本公开涉及人工智能技术领域，具体涉及一种基于联邦学习的模型训练方法、系统、设备及存储介质。

背景技术

联邦学习致力于解决多用户在不公开各自数据集的情形下，协同完成模型训练的问题。例如在金融大数据建模场景中，各家银行机构拥有不同的用户样本数据。由于各家银行机构拥有的数据量有限，如果仅仅基于自身的数据来训练模型，受样本规模的限制，模型效果难以达到预期。如果能将各家数据聚合来训练，则可以大幅提升模型精度。然而出于金融监管以及对用户数据隐私保护的要求，银行机构不可能将自身的用户数据向任何第三方发布，直接将各家数据聚合到一起建模是行不通的。因此，联邦学习技术应运而生，给银行机构在不泄露自身原始数据的情形下，共同训练机器学习模型提供了可能。

联邦学习工作模式的主要过程是参数服务器与各个节点设备通过网络进行多轮通信以进行模型参数或者模型梯度的聚合与交换，然而，由于通信次数过多和通信流量过大，通信延迟过大已经成为影响联邦学习训练效率的主要瓶颈。以拥有1M个参数的神经网络模型为例，参数服务器首先需要每个终端学习设备通过本地数据样本来更新模型参数，然后参数服务器再将更新参数汇总下发。如果每个参数占据4个字节的流量并且学习系统中存在1000个用户，则每轮通信的上传与下载流量均达到4GB，如果要进行100轮通信，则总通信量为800GB，如此高的通信流量将极大的消耗通信时间，并可能严重迟滞联邦学习的训练进度。如果考虑规模更大的神经网络模型或者包含更多的学习用户，则通信瓶颈对联邦学习的限制将更为显著。

发明内容

为了解决相关技术中的问题，本公开实施例提供一种基于联邦学习的模型训练方法、系统、设备及存储介质。

第一方面，本公开实施例中提供了一种基于联邦学习的模型训练方法。

具体地，所述基于联邦学习的模型训练方法，包括：

将参与联邦学习的节点设备预先划分为若干集群；

集群内各节点设备基于参数服务器下发的初始参数和本地数据集进行模型训练，并将各自的模型参数利用差分隐私算法添加噪声后发送至集群内指定节点设备；

各集群内指定节点设备利用软聚类压缩算法处理接收到的模型参数，生成聚类后的簇心值，并将所述簇心值发送至所述参数服务器，以使所述参数服务器利用同样的所述软聚类算法聚合得到更新后的簇心值；

参与联邦学习的节点设备接收所述参数服务器下发的所述更新后的簇心值，并更新各自的模型参数进行下一轮模型训练，直到满足训练停止条件。

结合第一方面，本公开在第一方面的第一种实现方式中，所述集群的划分条件至少包括以下一种或多种：

节点设备的地理位置、节点设备的隶属关系、节点设备的网络环境、节点设备的运算性能。

结合第一方面，本公开在第一方面的第二种实现方式中，所述各集群内指定节点设备利用软聚类压缩算法处理接收到的模型参数，生成聚类后的簇心值之前，还包括：

指定节点设备配置预设时间段，并将所述预设时间段内接收到的模型参数参与本次迭代。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式，本公开在第一方面的第三种实现方式中，所述各集群内指定节点设备利用软聚类压缩算法处理接收到的模型参数，生成聚类后的簇心值，包括：

利用EM算法基于如下公式更新得到簇心值：

定义：Φ(R_m)＝z，其中，C_z≤R_m，且C_z+1＞R_m；

其中，R为接收到的模型参数的向量表示，R_m为R中第m个元素，C_z为R中最大的簇心值，J为压缩前后向量R的方差，α为学习率，L为满足Φ(R_m)＝z的元素集。

结合第一方面，本公开在第一方面的第四种实现方式中，所述差分隐私算法采用基于教师模型全体的隐私聚合算法或者基于差分隐私树模型的算法。

结合第一方面，本公开在第一方面的第五种实现方式中，所述方法训练得到的全局模型应用于金融风险识别、信贷分析、医疗诊断、图像图像。

第二方面，本公开实施例中提供了一种基于联邦学习的模型训练系统。

具体地，所述基于联邦学习的模型训练系统，包括：参数服务器和N个节点设备；其中，N为大于1的整数；N个节点设备预先划分为若干集群；

第三方面，本公开实施例提供了一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如第一方面任一项所述的方法。

第四方面，本公开实施例中提供了一种可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如第一方面任一项所述的方法。

根据本公开实施例提供的技术方案，将参与联邦学习的节点设备预先划分为若干集群；集群内各节点设备基于参数服务器下发的初始参数和本地数据集进行模型训练，并将各自的模型参数利用差分隐私算法添加噪声后发送至集群内指定节点设备；各集群内指定节点设备利用软聚类压缩算法处理接收到的模型参数，生成聚类后的簇心值，并将所述簇心值发送至所述参数服务器，以使所述参数服务器利用同样的所述软聚类算法聚合得到更新后的簇心值；参与联邦学习的节点设备接收所述参数服务器下发的所述更新后的簇心值，并更新各自的模型参数进行下一轮模型训练，直到满足训练停止条件。上述技术方案通过将参与联邦学习的节点设备划分集群，然后指定集群内的指定节点设备，集群内其他节点设备通过差分隐私添加噪声的方式向指定节点设备发送训练后的模型参数，保证了节点设备的数据隐私，指定节点设备代替参与联邦学习的节点设备上传模型参数，减少了与参数服务器通信的设备数量，另一方面，上传的模型参数是经过软聚类压缩算法生成的簇心值，大大降低了上传的模型参数数量，从而极大地降低了联邦学习系统中通信流量的消耗，节省了资源。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开实施例的基于联邦学习的模型训练方法的流程图；

图2示出根据本公开实施例的基于联邦学习的模型训练系统的结构框图；

图3示出根据本公开的实施例的电子设备的结构框图；

图4示出适于用来实现根据本公开实施例的基于联邦学习的模型训练方法的计算机系统的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施例，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施例无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

在本公开中，对用户信息或用户数据的获取均为经用户授权、确认，或由用户主动选择的操作。

联邦学习工作模式的主要过程是参数服务器与各个节点设备通过网络进行多轮通信以进行模型参数或者模型梯度的聚合与交换，然而，由于通信次数过多和通信流量过大，通信延迟过大已经成为影响联邦学习训练效率的主要瓶颈。

考虑到上述问题，本公开实施例提供的技术方案，将参与联邦学习的节点设备预先划分为若干集群；集群内各节点设备基于参数服务器下发的初始参数和本地数据集进行模型训练，并将各自的模型参数利用差分隐私算法添加噪声后发送至集群内指定节点设备；各集群内指定节点设备利用软聚类压缩算法处理接收到的模型参数，生成聚类后的簇心值，并将所述簇心值发送至所述参数服务器，以使所述参数服务器利用同样的所述软聚类算法聚合得到更新后的簇心值；参与联邦学习的节点设备接收所述参数服务器下发的所述更新后的簇心值，并更新各自的模型参数进行下一轮模型训练，直到满足训练停止条件。上述技术方案通过将参与联邦学习的节点设备划分集群，然后指定集群内的指定节点设备，集群内其他节点设备通过差分隐私添加噪声的方式向指定节点设备发送训练后的模型参数，保证了节点设备的数据隐私，指定节点设备代替参与联邦学习的节点设备上传模型参数，减少了与参数服务器通信的设备数量，另一方面，上传的模型参数是经过软聚类压缩算法生成的簇心值，大大降低了上传的模型参数数量，从而极大地降低了联邦学习系统中通信流量的消耗，节省了资源。

图1示出根据本公开实施例的基于联邦学习的模型训练方法的流程图。如图1所示，所述基于联邦学习的模型训练方法包括步骤S101-S104。

在步骤S101中，将参与联邦学习的节点设备预先划分为若干集群；

在步骤S102中，集群内各节点设备基于参数服务器下发的初始参数和本地数据集进行模型训练，并将各自的模型参数利用差分隐私算法添加噪声后发送至集群内指定节点设备；

在步骤S103中，各集群内指定节点设备利用软聚类压缩算法处理接收到的模型参数，生成聚类后的簇心值，并将所述簇心值发送至所述参数服务器，以使所述参数服务器利用同样的所述软聚类算法聚合得到更新后的簇心值；

在步骤S104中，参与联邦学习的节点设备接收所述参数服务器下发的所述更新后的簇心值，并更新各自的模型参数进行下一轮模型训练，直到满足训练停止条件。

本公开实施例提供的基于联邦学习的模型训练方法，适用于跨设备联邦学习的应用场景。所谓跨设备联邦学习具有如下特点：客户端是大量的移动或物联网设备；数据分布范围通常是大规模并行，最多可以有10¹⁰客户端参与训练；客户状态高度不可靠，通常有5％或更多客户端参与一轮迭代后会因电池、网络或者闲置而导致设备不可用而退出迭代过程。本公开实施例，通过划分集群并指定集群内指定节点设备上传经过软聚类压缩后的模型参数，一方面降低了通信流量的消耗，另一方面集群可以指定可靠的指定节点设备来与参数服务器进行通信发送模型参数，从而大大减少了跨设备联邦学习中因节点设备不可靠导致的训练效率降低的情况出现。

在本公开一实施方式中，步骤S101中集群的划分条件至少包括以下一种或多种：

在该实施方式中，可以将满足地理位置相近、具有隶属关系、计算能力相近、网络速度相近中一种或多种条件的节点设备划分进入同一集群，一些情况下，例如在集群内节点设备的数量超过一阈值的情况下，也可以将满足上述一种或多种条件的节点设备划分为两个或多个集群，以避免某一集群成为影响联邦学习整体的模型训练效率的障碍，具体的集群划分方式根据需要可以灵活进行调整，本公开对此不做限制。

在本公开一实施方式中，差分隐私机制是假设给定两个数据集D和D'，两个数据集D和D'，有且仅有一条数据是不一样的，这两个数据集可以称为相邻数据集。对于一个随机算法A，其分别作用于这两个相邻数据集得到两个输出，例如，分别训练得到两个机器学习模型，在难以区分是从哪个数据集获得的输出的情况下，随机算法A就被认为满足差分隐私的要求。也就是说，通过任意一个相邻数据集训练得到的机器学习模型的概率是相似的。因此，通过观察机器学习模型参数无法察觉训练数据集的微小变化，并且通过观察机器学习模型参数也就无法反推出具体的训练数据集中的某一个训练数据。通过这种方式可以达到保护数据隐私的目的。

在该实施方式中，集群内各节点设备分为两类，一类是指定节点设备，另一类是其他节点设备。其他节点设备通过差分隐私算法将其训练得到的模型参数添加噪声后发送至指定节点设备，从而保障自身的数据隐私不会被指定节点设备反推出来。其中，指定节点设备可以根据集群内各节点设备的计算能力、网络环境等因素来确定，在某一指定节点设备存在故障时，例如网络故障，集群可以更换另一节点设备作为指定节点设备。一些情况下，指定节点设备的数量也可以是两个或多个，本公开对此不做限制。

在本公开一实施方式中，所述差分隐私算法采用基于教师模型全体的隐私聚合算法或者基于差分隐私树模型的算法，或者其他现有技术中的差分隐私算法，本公开对此不做限制。

在本公开一实施方式中，步骤103各集群内指定节点设备利用软聚类压缩算法处理接收到的模型参数，生成聚类后的簇心值之前，还包括：

在该实施方式中，为了缩短迭代周期，可以配置预设时间段例如接收到参数服务器下发的初始参数后的1-2天，该预设时间段内参与联邦学习的节点设备通常可以完成模型训练，指定节点设备接收预设时间段内其他节点设备发送的模型参数，若超出该预设时间段，则可以拒绝接收。对于拒绝接收模型参数的节点设备可以在接收到参数服务器发送的更新后的模型参数后，继续迭代其基于本地数据集训练得到的模型参数，并且仍可以在下一预设时间段内向指定服务器发送迭代后的模型参数，从而实现平衡参数服务器训练全局模型的效率与提高全局模型准确性的有益效果。

在本公开一实施方式中，步骤103中各集群内指定节点设备利用软聚类压缩算法处理接收到的模型参数，生成聚类后的簇心值，包括：

利用EM算法基于如下公式更新得到簇心值：

定义：Φ(R_m)＝z，其中，C_z≤R_m，且C_z+1＞R_m；

在该实施方式中，定义待压缩的模型参数由维数为b的向量R表示，由于z是一个比b小得多个数，则可以将上传的h*b字节的数据降低为h*z字节，从而降低了通信流量的消耗。其中，h为单个维度数据的字节表示。

在本公开一实施方式中，步骤104中训练停止条件可以是：当超过预设数量的节点设备的模型收敛。其中，预设数量可以根据需要设定，例如可以是总的节点设备数量的70％至80％

在本公开一实施方式中，所述方法训练得到的全局模型应用于金融风险识别、信贷分析、医疗诊断、图像图像。

本公开实施例提供的基于联邦学习的模型训练方法，通过将参与联邦学习的节点设备划分集群，然后指定集群内的指定节点设备，集群内其他节点设备通过差分隐私添加噪声的方式向指定节点设备发送训练后的模型参数，保证了节点设备的数据隐私，指定节点设备代替参与联邦学习的节点设备上传模型参数，减少了与参数服务器通信的设备数量，另一方面，上传的模型参数是经过软聚类压缩算法生成的簇心值，大大降低了上传的模型参数数量，从而极大地降低了联邦学习系统中通信流量的消耗，节省了资源。

图2示出根据本公开的实施例的基于联邦学习的模型训练系统的结构框图。如图2所示，所述基于联邦学习的模型训练系统包括参数服务器20和N个节点设备201、202、203、204、205；其中，N为大于1的整数；N个节点设备预先划分为若干集群21、22；

集群21、22内各节点设备201、202、203、204、205基于参数服务器20下发的初始参数和本地数据集进行模型训练，并将各自的模型参数利用差分隐私算法添加噪声后发送至集群内指定节点设备，例如201、204；

各集群21、22内指定节点设备利用软聚类压缩算法处理接收到的模型参数，生成聚类后的簇心值，并将所述簇心值发送至所述参数服务器20，以使所述参数服务器20利用同样的所述软聚类算法聚合得到更新后的簇心值；

参与联邦学习的节点设备201、202、203、204、205接收所述参数服务器20下发的所述更新后的簇心值，并更新各自的模型参数进行下一轮模型训练，直到满足训练停止条件。

本公开实施例提供的基于联邦学习的模型训练系统，通过划分集群并指定集群内指定节点设备上传经过软聚类压缩后的模型参数，一方面降低了通信流量的消耗，另一方面集群可以指定可靠的指定节点设备来与参数服务器进行通信发送模型参数，从而大大减少了跨设备联邦学习中因节点设备不可靠导致的训练效率降低的情况出现。

在本公开一实施方式中，所述集群的划分条件至少包括以下一种或多种：

在本公开一实施方式中，还包括：

在本公开一实施方式中，所述各集群内指定节点设备利用软聚类压缩算法处理接收到的模型参数，生成聚类后的簇心值，包括：

利用EM算法基于如下公式更新得到簇心值：

定义：Φ(R_m)＝z，其中，C_z≤R_m，且C_z+1＞R_m；

在本公开一实施方式中，所述差分隐私算法采用基于教师模型全体的隐私聚合算法或者基于差分隐私树模型的算法。

在本公开一实施方式中，所述系统训练得到的全局模型应用于金融风险识别、信贷分析、医疗诊断、图像图像。

本公开还公开了一种电子设备，图3示出根据本公开的实施例的电子设备的结构框图。

如图3所示，所述电子设备300包括存储器301和处理器302；其中，

所述存储器301用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器302执行以实现根据本公开的实施例的方法。

将参与联邦学习的节点设备预先划分为若干集群；

在本公开一实施方式中，所述各集群内指定节点设备利用软聚类压缩算法处理接收到的模型参数，生成聚类后的簇心值之前，还包括：

利用EM算法基于如下公式更新得到簇心值：

定义：Φ(R_m)＝z，其中，C_z≤R_m，且C_z+1＞R_m；

如图4所示，计算机系统400包括处理单元(CPU)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行上述实施例中的各种处理。在RAM403中，还存储有系统400操作所需的各种程序和数据。CPU401、ROM402以及RAM403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。其中，所述处理单元401可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本公开的实施例，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括计算机指令，该计算机指令被处理器执行时实现上文所述的方法步骤。在这样的实施例中，该计算机程序产品可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于联邦学习的模型训练方法，包括：

将参与联邦学习的节点设备预先划分为若干集群；

2.根据权利要求1所述的方法，所述集群的划分条件至少包括以下一种或多种：

3.根据权利要求1所述的方法，所述各集群内指定节点设备利用软聚类压缩算法处理接收到的模型参数，生成聚类后的簇心值之前，还包括：

4.根据权利要求1-3任一项所述的方法，所述各集群内指定节点设备利用软聚类压缩算法处理接收到的模型参数，生成聚类后的簇心值，包括：

利用EM算法基于如下公式更新得到簇心值：

定义：Φ(R_m)＝z，其中，C_z≤R_m，且C_z+1＞R_m；

5.根据权利要求1所述的方法，所述差分隐私算法采用基于教师模型全体的隐私聚合算法或者基于差分隐私树模型的算法。

6.根据权利要求1所述的方法，所述方法训练得到的全局模型应用于金融风险识别、信贷分析、医疗诊断。

7.一种基于联邦学习的模型训练系统，包括：参数服务器和N个节点设备；其中，N为大于1的整数；N个节点设备预先划分为若干集群；

8.根据权利要求7所述的系统，所述集群的划分条件至少包括以下一种或多种：

9.一种电子设备，其特征在于，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1-6任一项所述的方法步骤。

10.一种可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1-6任一项所述的方法步骤。