CN112308157B

CN112308157B - 一种面向决策树的横向联邦学习方法

Info

Publication number: CN112308157B
Application number: CN202011222998.1A
Authority: CN
Inventors: 田志华; 张睿; 侯潇扬; 刘健; 任奎
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2022-07-22
Anticipated expiration: 2040-11-05
Also published as: CN112308157A

Abstract

本发明公开了一种面向决策树的横向联邦学习方法，该方法包括：所有参与者基于二分法查找数据特征集合中每个特征的分位数草图；参与者根据分位数草图，利用本地持有数据特征，为每个特征构建局部直方图；在所有局部直方图添加满足差分隐私的噪声，并通过安全聚合方法处理后发送给协调者；所述协调者将每个特征的局部直方图合并为一个全局的直方图，并根据所述直方图训练第一棵决策树的根节点；所述协调者将所述节点信息发送给其余参与者；所有参与者更新局部直方图并重复以上过程进行训练，得到训练好的决策树。本发明的横向联邦学习方法具有使用简便、训练高效等优点，可以保护数据隐私，为数据保护水平提供量化支持。

Description

一种面向决策树的横向联邦学习方法

技术领域

本发明涉及联邦学习技术领域，尤其涉及一种面向决策树的横向联邦学习方法。

背景技术

联邦学习又称为集成学习，是一种在多个分散的设备或存储有数据的服务器上共同训练模型的机器学习技术。与传统的中心化学习不同，该方式不需要将数据合并在一起，因此数据之间是独立存在的。

联邦学习的概念首先于2017年由Google所提出，现如今已经得到了巨大的发展，应用场景也越来越广泛。根据数据划分方式的不同，其主要分为横向联邦学习和纵向联邦学习。在横向联邦学习中，研究人员将神经网络的训练过程分布在多个参与者上，迭代地将本地的训练模型聚合为一个联合的全局模型。在这个过程中，主要存在两种角色：中心服务器以及多个参与者。在训练开始阶段，中心服务器将模型初始化并将其发送给所有参与者。在每次迭代过程中，每个参与者利用本地数据训练接收到的模型，并将训练梯度发送给中心服务器。中心服务器聚合接收到的梯度来更新全局模型。得益于这种传输中间结果而不是原始数据的方式，联邦学习具有以下优势：(1)保护隐私：训练过程中，数据仍保存在本地设备上；(2)低延迟：更新的模型可用于用户在设备上预测；(3)减轻计算负担：训练过程分布在多个设备上而不用一个设备承担。

有关联邦学习的研究目前已有较大发展，但其研究对象主要是神经网络，从而忽视了其他机器学习模型的研究。即使目前神经网络在学术界是研究最广泛的机器学习模型之一，但仍因可解释性差而受人诟病，限制了他们在金融，医学图像等领域的利用。与此相反的是，决策树被视为准确性和可解释性的黄金标准。尤其是梯度提升树，已经赢得了多次机器学习竞赛冠军。但是，决策树在联邦学习领域尚未引起足够的重视。

发明内容

本发明的目的在于提供了一种面向决策树的横向联邦学习方法，解决了横向联邦学习过程中效率低，运行时间长的问题。在精度损失极小的条件下，本发明能够更加高效、快速的完成训练。

本发明的目的是通过以下技术方案来实现的：一种面向决策树的横向联邦学习方法，其中，所述决策树为Gradient Boosting Decision Trees，包括以下步骤：

(1)所有参与者通过二分法查找数据特征集合中每个数据特征的所有数据的分位数草图，并将所述分位数草图公布给所有参与者；

(2)所有参与者根据步骤(1)查找的分位数草图，分别构建所述数据特征集合中每个特征的局部直方图，根据差分隐私原理，在局部直方图上添加噪声；

(3)随后除去协调者的参与者通过安全聚合将添加噪声的局部直方图发送给协调者，其中所述协调者为所有参与者中一员；

(4)所述协调者将每个数据特征的局部直方图合并为一个全局直方图，并根据所述全局直方图训练第一棵决策树的根节点；

(5)所述协调者将节点信息发送给其余参与者；所述节点信息包括：被选中的数据特征以及所述数据特征对应全局直方图的分隔方法；

(6)所有参与者根据节点信息更新局部直方图；

(7)根据更新的局部直方图，重复步骤(2)-(6)，直至完成第一棵决策树上剩余子节点的训练；

(8)重复步骤(7)，直至完成所有决策树的训练，得到最终的Gradient BoostingDecision Trees模型。

进一步地，所述数据特征集合为个人隐私信息。

进一步地，步骤(1)中的二分法具体为：

(a)协调者通过安全聚合方法获取所有参与者持有的数据特征集合的样本总量；

(b)协调者设定每一个数据特征的特征值的极大值和极小值，并将每一个特征值的极大值和极小值的均值作为一个分位数待选值；

(c)分别统计所有参与者持有数据特征中小于所述分位数待选值的样本量，并通过安全聚合方法将该样本量发送给协调者；

(d)协调者根据所述样本总量以及步骤(c)统计的样本量，计算分位数待选值所占数据百分比，若小于目标分位数所占数据百分比，则将分位数待选值作为极小值，若大于目标分位数所占数据百分比，则将分位数待选值作为极大值，重新计算其均值作为分位数待选值，并重复过程(c)-(d)，直至分位数所占数据百分比等于或近似有目标分位数所占数据百分比；

(e)重复过程(b)-(d)查找剩余分位数；其中，所有分位数构成分位数草图。

进一步地，所述局部直方图分别由所有样本的一阶导数和二阶导数构成的。

进一步地，根据所述全局直方图训练第一棵决策树的根节点的方法具体为：协调者遍历数据特征集合中的每个特征，同时遍历所述特征的全局直方图的分隔方法，根据计算，得到最优的分隔方法，并根据所述分隔方法将所述全局直方图纵向分割为两部分。

进一步地，步骤(6)包括如下子步骤：

(6.1)所有参与者根据协调者返回的节点信息，参照分位数草图，选取对应分位数作为所述节点的值；

(6.2)所有参与者根据所述节点的值，将其拥有的样本分到所述节点的左右子节点，将步骤(5)所选特征的特征值小于所述节点值的样本分到左子节点，所述特征值大于所述节点值的样本分到右子节点，更新局部直方图。

与现有技术相比，本发明的的有益效果如下：本发明将决策树运用当联邦学习中，为联邦学习提供了新的思路；将差分隐私、安全聚合应用到本发明的方法中，大大提高了数据的传输效率，同时保证了数据的安全性，减少了运行所需时间，使得横向联邦学习真正地可以在工业场景中实现。本发明的横向联邦学习方法具有使用简便、训练高效等优点，可以保护数据隐私，为数据保护水平提供量化支持。

附图说明

图1为本发明面向决策树的横向联邦学习方法的流程图。

具体实施方式

为训练一个准确率更高，泛化能力更强的模型，更加多样的数据是必不可少的。互联网的发展虽然为数据收集提供了便利，但数据的安全问题也逐渐暴露出来。受制于国家政策的影响，企业利益的考量，以及个人对隐私的保护越来越重视，传统的将数据合并在一起的训练模式越来越不可行。

本发明就是针对这样的场景，即数据仍保存在本地的前提下，利用多方的数据来共同训练一个模型，在控制精度损失的前提下，保护各方的数据安全。

如图1为本发明一种面向决策树的横向联邦学习方法的流程图，其中，所述决策树为Gradient Boosting Decision Trees，本发明中所采用的数据特征集合为个人隐私信息，具体包括以下步骤：

(1)所有参与者通过二分法查找数据特征集合中每个数据特征的所有数据的分位数草图，并将所述分位数草图公布给所有参与者，通过此方法可以在不泄露参与者信息的情况下，获取特征集合中每个特征所有数据的分位数草图；通过二分法查找数据特征集合中每个数据特征的所有数据的分位数草图的方法具体为：

(a)协调者通过安全聚合方法获取所有参与者持有的数据的样本总量，通过安全聚合，可以在不泄露单个参与者持有数据样本量的情况下，获取所有参与者持有数据的样本总量；

(b)协调者设定每一个数据特征的特征值的极大值和极小值，并将每一个特征值的极大值和极小值的均值作为一个分位数待选值，极大值和极小值可以根据经验来设定，而不要求精确；

(c)分别统计所有参与者持有数据特征中小于所述分位数待选值的样本量，并通过安全聚合方法将该样本量发送给协调者，通过安全聚合可以不泄露单个参与者所持有样本量的情况下，获取所有参与者持有样本量的总和；

(2)所有参与者根据步骤(1)查找的分位数草图，分别构建所述数据特征集合中每个特征的局部直方图，根据差分隐私原理，在局部直方图上添加噪声；所述局部直方图分别由所有样本的一阶导数和二阶导数构成的。通过在本地计算所有样本的一阶导数和二阶导数，并利用分位数草图构建直方图，可以避免数据特征的泄露。

(4)所述协调者将每个数据特征的局部直方图合并为一个全局直方图，由于分位数草图是利用每个特征所有特征值构建的，因此在将局部直方图聚合为全局直方图时，各参与者的直方图可以对齐。所述协调者根据所述全局直方图训练第一棵决策树的根节点，具体为：协调者遍历数据特征集合中的每个特征，同时遍历所述特征的全局直方图的分隔方法，根据计算，得到最优的分隔方法，并根据所述分隔方法将所述全局直方图纵向分割为两部分。

(6)所有参与者根据节点信息更新局部直方图；包括如下子步骤：

(6.1)所有参与者根据协调者返回的节点信息，参照分位数草图，选取对应分位数作为所述节点的值，由于分位数草图已公布给所有参与者，因此选取分位数作为所述节点的值可以令所有参与者构建的模型相统一，且选取分位数作为所述节点的值不影响最终的训练模型；

(8)重复步骤(7)，直至完成所有决策树的训练，得到最终的Gradient BoostingDecision Trees模型。此步骤主要更新样本的一阶导数以及二阶导数，直方图仍按照分位数草图来构建。

为使本申请的目的、技术方案和优点更加清楚，下面将结合实施例对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例

用A、B、C、D四个医院的数据通过本发明的联邦学习方法共同训练一个模型，用于计算病人患某种疾病的概率。由于单个医院的病人数量有限，训练数据有限，因此利用多个医院的数据来同时训练模型是可行的。四个医院分别持有数据(X_A，y_A)，(X_B，y_B)，(X_C，y_C)，(X_D，y_D)，其中

为训练数据，

为其对应的标签，

四家医院的训练数据中包含不同的样本，但却有着相同的特征。出于病人隐私的考量或者其他原因，各医院并不能将数据共享给其他任何医院，因此数据都是保存在本地的。为了解决这种情况，四家医院可以使用下面展示的面向决策树的横向联邦学习方法来共同训练一个模型：

步骤S101，基于所有参与者所持有的数据，查找数据特征集合中每个特征的分位数草图，并根据分位数草图将所有的数据分到不同的桶中；

具体地，假设四家医院中医院A为协调者，其余三家医院B，C，D为参与者。计算每个特征的q分位数草图Q₁，Q₂，...，Q_q-1，其所占数据百分比分别为q₁，q₂，...，q_q-1。根据q分位数草图，可以将样本分入不同的桶中。即，如果该样本的此特征的特征值Q_i＜x^j＜Q_i+1，则该样本被分入第i+1个桶中。由于共有m个特征，因此有m种划分情况。计算每个样本的一阶导数g和二阶导数h，则根据样本的划分情况，将划分在同一个桶里的样本的g和h加和，根据每个特征的划分情况都进行此操作，则可得到每个特征的关于g和h的直方图

步骤S1011，医院A，B，C，D通过二分法查找数据特征集合中每个数据特征的所有数据的分位数草图，并将所述分位数草图公布给医院A，B，C，D，可以在快速高效构建分位数草图的同时保护用户数据隐私；

具体地，首先，利用安全聚合，计算四家医院数据集的样本量总和N。针对每一个特征，设此特征的特征值中的极大值和极小值分别为Q_max和Q_min，则第一个分位数可设为Q＝(Q_max+Q_min)/2，分别统计数据集X_A，X_B，X_C，X_D，中特征值小于Q的样本量个数n_A，n_B，n_C，n_D，利用安全聚合，医院B，C，D将n_B，n_C，n_D发送给医院A，并与n_A合并得到n＝n_A+n_b+n_C+n_D。如果

则令Q_min＝Q；反之，如果

则令Q_max＝Q，循环此过程，直至

则可以计算出第i个分位数的大小。重复以上过程，则可以计算出所有分位数的大小。在此过程中，各医院并不会暴露数据集中样本的值，也不会暴露数据集的大小，达到保护数据隐私的目的。

步骤S1012，医院A，B，C，D根据查找的分位数草图，分别构建所述数据特征集合中每个特征的局部直方图，根据差分隐私原理，在局部直方图上添加噪声；随后医院B、C、D通过安全聚合将添加噪声的局部直方图发送给医院A，医院A将每个数据特征的局部直方图合并为一个全局直方图。

具体地，利用标签y，每一个样本均可以计算出一阶导数

和二阶导数

针对每一个特征，根据样本的划分情况，将划分在同一个桶中的g和h分别加和，得到局部的直方图

利用安全聚合，医院B，C，D将其局部直方图发送给医院A，则可得到全局直方图{G₁...，G_q}，{Q₁，...，Q_q}

步骤S102，根据全局直方图，医院A来训练第一棵树的第一个节点，并将节点信息发送给医院B，C，D。

具体地，医院A根据全局直方图

根据梯度提升树的原理，寻找最佳特征的最佳划分点，即根据某一特征的划分情况，如果在第i和第i+1个桶之间找到最优划分，则将第1到第i个桶中的样本分到左子节点，将第i+1到第q个桶中的样本分到右子节点。医院A将哪两个桶之间划分这一信息公布给其他医院。同时，分位数可以直接作为该节点的划分值。

步骤S103，根据划分信息，医院A，B，C，D重新更新局部直方图，并将局部直方图合并为全局直方图；

具体地，根据桶的划分信息，医院A，B，C，D可以将样本划分为两部分，分别对应左右子节点的样本划分情况。针对左右子节点的样本，医院A，B，C，D需要分别构建局部直方图，并同样利用安全聚合，医院B，C，D将局部直方图传输给医院A，以将其合并为全局直方图；

步骤S1031，根据不同特征桶的划分情况，以及桶的划分信息，更新局部直方图。具体地，由于不同特征之间的差异，针对不同特征的桶的划分情况是不同的。在得到上个节点的桶的划分信息后，此特征的桶被分为左右两部分分别对应左右子节点的样本，也就是左右子节点的部分桶中没有样本。而其他特征的桶却仍可能保留一部分样本。因此我们需要根据初始构建的桶重新为左右子节点划分桶，并构建局部直方图。这种方法的优势是通过只构建一次分位数草图，即降低了各医院之间的通信复杂度，又尽可能保护了样本之间的排序信息。

步骤S104，重复以上过程，直至完成所有决策树的训练；

具体地，基于各节点的全局直方图，重复步骤S102，得到子节点的划分值，重复此过程，即可训练一棵多层的树。每棵树训练完成后，更新每个样本的预测结果。在下一棵数的训练过程中，更新一阶导数g和二阶导数h。

本发明的基于决策树的横向联邦学习方法，可以在不暴露参与者本地数据的情况下，利用各参与者持有的数据共同训练决策树模型，其隐私保护水平满足差分隐私，模型训练结果接近中心化学习。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向决策树的横向联邦学习方法，其中，所述决策树为Gradient BoostingDecision Trees，其特征在于，包括以下步骤：

(1)所有参与者通过二分法查找数据特征集合中每个特征的所有数据的分位数草图，并将所述分位数草图公布给所有参与者；

(6)所有参与者根据节点信息更新局部直方图；

2.根据权利要求1所述面向决策树的横向联邦学习方法，其特征在于，所述数据特征集合为个人隐私信息。

3.根据权利要求1所述面向决策树的横向联邦学习方法，其特征在于：步骤(1)中的二分法具体为：

(d)协调者根据所述样本总量以及步骤(c)统计的样本量，计算分位数待选值所占数据百分比，若小于目标分位数所占数据百分比，则将分位数待选值作为极小值，若大于目标分位数所占数据百分比，则将分位数待选值作为极大值，重新计算其均值作为分位数待选值，并重复过程(c)-(d)，直至分位数所占数据百分比等于目标分位数所占数据百分比；

4.根据权利要求1所述面向决策树的横向联邦学习方法，其特征在于：所述局部直方图分别由所有样本的一阶导数和二阶导数构成的。

5.根据权利要求1所述面向决策树的横向联邦学习方法，其特征在于，根据所述全局直方图训练第一棵决策树的根节点的方法具体为：协调者遍历数据特征集合中的每个特征，同时遍历所述特征的全局直方图的分隔方法，根据计算，得到最优的分隔方法，并根据所述分隔方法将所述全局直方图纵向分割为两部分。

6.根据权利要求1所述面向决策树的横向联邦学习方法，其特征在于，步骤(6)包括如下子步骤：