CN112364908B

CN112364908B - 一种面向决策树的纵向联邦学习方法

Info

Publication number: CN112364908B
Application number: CN202011224742.4A
Authority: CN
Inventors: 张睿; 田志华; 侯潇扬; 刘健; 任奎
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2022-11-11
Anticipated expiration: 2040-11-05
Also published as: CN112364908A

Abstract

本发明公开了一种面向决策树的纵向联邦学习方法，该方法主要包括如下步骤：1)所有参与者对于本地的每一个特征，将本地数据进行排序，随后将排序后的数据按序等分为不同的块，将每一块称为一个桶。2)对于每一个特征所对应的一组数据，每一个数据在该特征下的桶号有一定概率变为其它桶号，选取适当的概率使得这种加密方式满足差分隐私的定义。3)每个参与者将不同数据在不同特征下分到的桶的序号，发送给持有标签的参与者。将这个参与者称为协调者。4)协调者根据这些数据训练决策树模型，训练过程不再需要其他参与者。本发明首次提出在决策树的联邦学习中传递排序的方法，在维持联邦学习安全性的同时，极大的提升了训练速度。

Description

一种面向决策树的纵向联邦学习方法

技术领域

本发明涉及联邦学习领域，尤其设计一种面向决策树的纵向联邦学习方法。

背景技术

联邦学习又称为集成学习，是一种在多个分散的设备或存储有数据的服务器上共同训练模型的机器学习技术。与传统的中心化学习不同，该方式不需要将数据合并在一起，因此数据之间是独立存在的。

联邦学习的概念首先于2017年由Google所提出(Brendan McMahan,Eider Moore,Daniel Ramage,SethHampson,and Blaise Aguera y Arcas.Communication-efficientlearning of deep networks from decentralizeddata.In Aarti Singh and JerryZhu,editors,Proceedingsof the 20th International Conference on ArtificialIntelli-gence and Statistics,volume 54,pages 1273–1282,FortLauderdale,FL,USA,20–22Apr 2017.PMLR.)，现如今已经得到了巨大的发展，应用场景也越来越广泛。根据数据划分方式的不同，其主要分为纵向联邦学习和横向联邦学习。在纵向联邦学习中，研究人员将神经网络的训练过程分布在多个参与者上，迭代地将本地的训练模型聚合为一个联合的全局模型。在这个过程中，主要存在两种角色：中心服务器以及多个参与者。在训练开始阶段，中心服务器将模型初始化并将其发送给所有参与者。在每次迭代过程中，每个参与者利用本地数据训练接收到的模型，并将训练梯度发送给中心服务器。中心服务器聚合接收到的梯度来更新全局模型。得益于这种传输中间结果而不是原始数据的方式，联邦学习具有以下优势：(1)保护隐私：训练过程中，数据仍保存在本地设备上；(2)低延迟：更新的模型可用于用户在设备上预测；(3)减轻计算负担：训练过程分布在多个设备上而不用一个设备承担。

发明内容

本发明的目的是提供一种面向决策树的纵向联邦学习方法，该方法利用参与者传递本地数据排序的方式，代替了联邦学习中不断传递模型参数的方式，从而极大的减少了联邦学习本身加密所消耗的大量资源，使得联邦学习的效率得到提升。

本发明的目的是通过以下技术方案来实现的：

一种面向决策树的纵向联邦学习方法，包括如下步骤：

(1)每个参与者分别根据其本地包含的样本的每一个特征，对本地的样本进行排序，随后将排序后的样本按顺序等分为不同的块，将每一块称为一个桶并按顺序编号，每个桶中含有数量相同的样本；

(2)对于每一个特征所对应的一组样本，每一个样本在该特征下的桶号有一定概率被替换为其它桶号，重新调整样本对应的桶号进行加密。其中，选取的概率使得这种加密方式满足差分隐私的定义；

(3)每个参与者将本地的所有样本在不同特征下分到的桶的序号，发送给协调者，所述协调者为持有标签的参与者；

(4)协调者根据本地的标签信息计算每个样本的梯度，并汇总每个特征对应下的每个桶的梯度。对于每一个特征所对应的一组样本，按桶分割数据并计算信息增益，最后记录最大信息增益对应的分割位置和当前特征，返还给对应具有该特征数据的参与者。

(5)对每一个节点重复(4),训练第一棵树；

(6)更新参数，重复(4),(5)，训练整个模型。

进一步地，所述步骤(1)包括如下子步骤：

(1.1)对每一个参与者，该参与者本地的样本对该参与者具有的特征，依次根据对应特征的数值进行升序或降序排列，共需排序次数与特征数量相同；

(1.2)排序完成后，对每一个特征对应的排好序的样本均匀分割，将每一份分割后的样本称为一个桶，每一个特征均有相同数量的桶，保留分割后的桶的顺序，将该顺序记为桶号。

进一步地，所述步骤(2)包括如下子步骤：

(2.1)对每一个参与者，每一个样本在每一个特征下的桶号，有一定概率变为其它的桶号，该概率与桶的数量有非线性关系。

(2.2)根据不同的桶的数量，根据差分隐私原理，计算(2.1)中的概率，重新调整样本对应的桶号进行加密。

作为优选方案，先删除原桶号，获得可能桶号序列{0,1,2,…j,…,J-1}，J为桶号数目；生成一个0到1的随机数，若该随机数大于等于

且小于

那么该用户的桶号变为更新后的可能桶号中的第j个桶号；若该随机数大于等于

则该样本的桶号不变。其中：

Pr[bucketize(x₁∈I)]表示用户x₁的桶号更新后分到桶I的概率，Pr[bucketize(x₂∈I)]表示用户x₂的桶号更新后分到桶I的概率，ε用来衡量差分隐私的保密性，ε≥1.5。

进一步地，所述步骤(3)包括如下子步骤：

(3.1)所有参与者将步骤(2)中得到的样本对应的桶号按照样本序顺序发送给协调者；

(3.2)协调者接收所有数据后，根据样本的唯一标识，将同一样本的所有特征组合起来，建立新的数据表，存储为DataFrame数据格式。

进一步地，所述步骤(4)包括如下子步骤：

(4.1)协调者根据建立的数据表，使用标签计算每个样本的梯度，通过接收到的以及本地的桶号，对每一个特征，汇总处于同一桶里的样本梯度；

(4.2)协调者遍历所有可能的分割，其中，协调者将每个桶作为一个单元参与遍历，找到最大增益所对应的分割，记录当前的特征与分割处的桶号并返还给对应具有该特征数据的参与者。

进一步地，所述步骤(5)包括如下子步骤：

(5.1)根据步骤(4)获得的最大增益所对应的分割，协调者将每个特征对应的样本数据分为了两部分，分别记为左节点与右节点，左右节点分别持有不同的样本以及样本对应的数据，对任意一个节点，对该节点内的数据进行如下处理：对每一个特征，汇总处于同一桶里的样本梯度；

(5.2)协调者分别在左右节点进行步骤(5.1)后，在左右节点分别遍历所有可能的分割，找到最大增益所对应的分割，记录当前的特征与分割处的桶号并返还给对应具有该特征数据的参与者。重复分割遍历，直到决策树深度达到设定的最大数量。

进一步地，所述步骤(6)包括如下子步骤：

(6.1)协调者根据前一棵树的结果，计算残差，更新所有样本的梯度；

(6.2)协调者根据更新后的梯度，重复步骤(4)与步骤(5)构建新的树，直到决策树数量达到设定的最大数量。

本发明的技术方案概括为：

1.在训练开始前，参与者将本地数据排序分桶后发送给协调者；

2.协调者接收其他参与者发送的数据，结合本地标签，训练整个决策树模型。

根据以上技术方案，本发明的的有益效果如下：

1.本发明的方法使得决策树的训练避免了消耗大量时间的加密过程以及大量的参数通信过程，使得训练速度大量提升；

2.通过传递排序，保护了本地数据，再采取差分隐私方法，使得本方法中不同参与者的隐私得到保证。

附图说明

图1为本方法的流程框图；

图2是使用本方法在取不同桶数时最终测得的精度与XGBoost方法在三个不同的公开数据集上运行结果的对比；

图3为本方法假设网络延迟为100ms情况下的训练时间与参与者数量关系的图像。

具体实施方式

本发明的核心技术是在纵向分割的联邦学习情况下，通过传递不同参与者的数据顺序，共同训练整个决策树模型，其中决策树模型为XGBoost模型(Tianqi Chen andCarlos Guestrin.Xgboost:A scal-able tree boosting system.InProceedings of the22ndACM SIGKDD International Conference on KnowledgeDiscovery and DataMining,KDD’16,page 785–794,New York,NY,USA,2016.Association forComputingMachinery.)，为使本方法得到更清楚，完整的描述，下面结合具体实例对本方法进行阐述，图1为本方法的流程框图，具体包括以下步骤：

实例中有A,B,C三家银行，三家银行共享相同的十个用户，十个用户唯一标识分别为1,2,3,…,10。三家银行分别持有全体用户的特征A，特征B，特征C所对应的数据。此外，银行A还持有全体用户的标签。现需要根据这三家银行所持有的特征数据预测标签。

(1)A，B，C三家银行分别根据特征A，特征B，特征C，对用户唯一标识进行排序。假设对这个实例采用5个桶作为初始参数，根据排序得到的标识顺序，A银行将十个用户标识在特征A下的排序分成5个部分，每个部分有两个用户标识。接下来，将第i个部分中的用户在特征A下的桶号记为i，其中，i为0到4的整数取值。类似的，银行B，银行C也得到了十个用户在特征B，特征C下的对应桶号。

(2)对银行A中的用户及其在特征A下对应的桶号数据，每一个用户有

的概率将自己的桶号变为除真实桶号外的任意一个桶号，即对用户1，该用户在特征A下的桶号为0，那么用户1的桶号0有

的概率被替换为i,i≠0,i∈{0,1,2,3,4}。具体来说，对A中特征A的每一个用户，在该用户的可能桶号(0,1,2,3,4)中，删去该用户当前的桶号，假设为0，那么现在该用户的可能桶号变为(1,2,3,4)，同时生成一个0到1的随机数，如果这个随机数大于等于

且小于

那么该用户的桶号变为更新后的可能桶号中的第j个桶号，j∈{0,1,2，3}，不然，若该随机数大于等于

则该用户的桶号不变。类似的银行B中的用户在特征B下对应的桶号数据与银行C中用户在特征C下对应的桶号数据也有相同的变化。

称上述变化桶号的过程为bucketize，那么这个过程使得对用户x₁，x₂以及一个桶I，满足ε-LDP定义(Shaowei Wang,Liusheng Huang,Pengzhan Wang,HouDeng,Hongli Xu,and Wei Yang.Private weightedhistogram aggregation in crowdsourcing.In QingYang,Wei Yu,and Yacine Challal,editors,Wireless Algorithms,Systems,andApplications,pages 250–261,Cham,2016.Springer International Publishing.)：

其中，Pr[bucketize(x₁∈I)]表示用户x₁的桶号更新后分到桶I的概率，Pr[bucketize(x₂∈I)]表示用户x₂的桶号更新后分到桶I的概率，ε用来衡量差分隐私的保密性，ε越小，该用户的桶号变化的概率越大，保密性越好；反之，ε越大，该用户桶号不变的概率越大，保密性越差。在本方法中，ε取值大于等于1.5时，在3个数据集上均取得与不加差分隐私方法基本相同的精度。

(3)将(2)中更新得到的银行B，银行C的用户及其对应的桶号数据发送给银行A，银行A整合数据，即将用户x的在特征A，特征B，特征C下的桶号汇总，x＝1,2,3,…,10。

(4)接下来则是使用与决策树模型XGBoost相同的方法训练整个模型：

银行A根据本地的标签计算出每个用户的一阶和二阶梯度，对特征A中的每个桶，将该桶中用户的梯度做加法运算，结果记为该桶的一阶和二阶梯度。类似的，得到特征B，特征C中每个桶的梯度。接下来，对特征A，假设分割点在第一个桶之前，计算当前分割的信息增益；再假设分割点在第一个桶与第二个桶之间，计算信息增益···，以此类推，遍历特征A的所有分割情况，记录所有情况的信息增益，随后遍历特征B，特征C的所有分割情况，记录对应的信息增益，找到最大信息增益以及其对应的特征编号与分割点位置，将这两个数据返还给具有该特征的银行。

根据特征与分割点位置，以及用户的桶号，将全部用户分为两部分：在分割点左边的桶中的用户，在分割点右边的桶中的用户，以供接下来的算法使用。

(5)对银行A中的两部分用户及其在特征A，特征B，特征C下对应的桶号，重复(4)中寻找最大信息增益的过程，将这两部分用户分别分割，最终得到四部分用户。在决策树算法树深度为3时，第一棵树已经训练结束。

(6)银行A重新根据目标函以及前一棵树结果计算每个用户的一阶梯度和二阶梯度，重复(4)与(5)中的分割用户过程，构建第二棵树。

(7)银行A重复(6)的过程，使用前面树的结果计算新的一阶二阶梯度，构建新的树，不断重复直至树的数量达到设定的最大值。

训练过程结束后，在预测过程包括以下几步：

银行A，银行B，银行C有了一个新的用户，其标识为11，已经有了用户11在特征A，特征B，特征C下的数据，需要得到用户11的标签。

(1)银行B，银行C分别得到银行A在训练过程中发送的特征B，特征C在树结构的不同位置的分割位置，银行B，银行C根据得到的分割位置，从分割点的左右两个桶中，找到对应特征在左桶的最大值与右桶的最小值，将分割值设为左桶最大值与右桶最小值之间的任意实数。

(2)根据银行A的训练结果，将用户11的数据分别带入所有决策树，按照树的结构依次根据银行A返还给银行B，银行C的特征B，特征C的分割位置，比较用户11的数据与该分割位置对应分割值的大小关系，将用户11放在左节点或右节点，重复上述过程，找到用户11最终分到的叶子节点。将用户11在所有树上的运行结果加起来，即得到了最终的预测结果。

图2是分不同的桶数时，该面向决策树的纵向联邦学习方法(verticalFederBoost)与作为基线方法的XGBoost方法的AUC衡量标准下的运行结果比较。其中，Credit1为一个信用评估数据集，它被用来预测用户将会遭遇经济危机的概率，从而判断是否应该给予贷款。它包含150000个样本以及10个特征。Credit2是另一个信用评估数据集，用来预测用户是否会按时付款。它包含了30000个实例和23个特征。BC-TCGA-Tumor为一个用于癌症诊断的基因表达数据集，它包含61个正常样本与529个乳腺癌样本。每个样本有17814个特征。该结果说明了该联邦学习方法的准确率达到了与当前流行的非联邦学习的决策树算法相同的水平，具有实用价值。

图3是在假设网络延迟100ms时，训练时间与参与者数量的关系图片，这说明了本方法所需消耗的时间比较少，相比于其它考虑隐私的联邦学习方法在训练中每一次迭代都需要在不同参与者之间传送数据，本方法耗时少，且消耗时间与参与者数量无关，性能具有极大提升。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法把所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围。

Claims

1.一种面向决策树的纵向联邦学习方法，其特征在于，该方法包括以下步骤：

(1)每个参与者分别根据其本地包含的样本的每一个特征，对本地的样本进行排序，随后将排序后的样本按顺序等分为不同的块，将每一块称为一个桶并按顺序编号，每个桶中含有数量相同的样本；包括如下子步骤：

(1.1)对每一个参与者，该参与者对其本地包含的样本的每一个特征，依次根据对应特征的数值进行升序或降序排列，共需排序次数与特征数量相同；

(1.2)排序完成后，对每一个特征对应的排好序的样本均匀分割，将每一份分割后的样本称为一个桶，每一个特征均有相同数量的桶，保留分割后的桶的顺序，将该顺序记为桶号；

(2)对于每一个特征所对应的一组样本，每一个样本在该特征下的桶号有一定概率被替换为其它桶号，重新调整样本对应的桶号进行加密；其中，选取的概率使得这种加密方式满足差分隐私的定义；

(4)协调者根据本地的标签信息计算每个样本的梯度，并汇总每个特征对应的每个桶的梯度；对于每一个特征所对应的一组样本，按桶分割数据并计算信息增益，最后记录最大信息增益对应的分割位置和当前特征，返还给对应具有该特征数据的参与者；

(5)对每一个节点重复(4),训练第一棵树；

(6)更新参数，重复(4),(5)，训练整个模型。

2.根据权利要求1所述的面向决策树的纵向联邦学习方法，其特征在于，所述步骤(2)包括如下子步骤：

(2.1)对每一个参与者，每一个样本在每一个特征下的桶号，有一定概率变为其它的桶号，该概率与桶的数量有非线性关系；

3.根据权利要求2所述的面向决策树的纵向联邦学习方法，其特征在于，所述步骤(3)包括如下子步骤:

4.根据权利要求3所述的面向决策树的纵向联邦学习方法，其特征在于，所述步骤(4)包括如下子步骤：

5.根据权利要求4所述的面向决策树的纵向联邦学习方法，其特征在于，所述步骤(5)包括如下子步骤：

(5.1)根据步骤(4)获得的最大增益所对应的分割位置，协调者将每个特征对应的样本数据分为两部分，分别记为左节点与右节点，左右节点分别持有不同的样本以及样本对应的数据，对任意一个节点，对该节点内的数据进行如下处理：对每一个特征，汇总处于同一桶里的样本梯度；

(5.2)协调者分别在左右节点进行步骤(5.1)后，在左右节点分别遍历所有可能的分割，找到最大增益所对应的分割，记录当前的特征与分割处的桶号并返还给对应具有该特征数据的参与者；重复分割遍历，直到决策树深度达到设定的最大值。

6.根据权利要求5所述的面向决策树的纵向联邦学习方法，其特征在于，所述步骤(6)包括如下子步骤：