CN116861991A

CN116861991A - 一种基于随机抽样和多层拆分的联邦决策树训练方法

Info

Publication number: CN116861991A
Application number: CN202310591411.1A
Authority: CN
Inventors: 盖珂珂; 王孜隽; 祝烈煌
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-10-10

Abstract

本发明涉及一种基于随机抽样和多层拆分的联邦决策树训练方法，属于联邦学习技术领域。所述方法包括下列步骤：建立纵向联邦学习概念，建立决策树模型，设定损失函数，设定残差计算，设定bagging策略，组织基于k层拆分的决策树；初始化；联邦决策树训练；以及模型预测。本发明方法基于哈希映射原理，将经过相同哈希的ID作为样本唯一标识附加传输，实现主动方和被动方之间的数据安全分批传输；基于bagging策略对数据特征进行降维，实现在小数据子集上进行单轮迭代过程，减少训练过程中的计算量；基于“部分随机”的思想，将多轮的相互通信减少为单轮，同时进行多个内部节点的拆分，提高决策树模型的构建和训练效率。

Description

一种基于随机抽样和多层拆分的联邦决策树训练方法

技术领域

本发明涉及一种基于随机抽样和多层拆分的联邦决策树训练方法，属于联邦学习系统训练效率提高技术领域。

背景技术

数据分散化存储并由数据所有者单独保存，直接共享带来隐私和安全风险。在理想情况下，如果不同数据所有者能够相互协作使用联合数据训练模型，那么各个参与方都能从中获益。但是由于对数据隐私的关注及相关法律法规的确立，各个数据所有者都不愿意共享他们的原始数据记录。

联邦学习通过收集用户的本地更新或模型参数而不是原始数据来训练中心模型，从而保护了用户本地敏感数据，解决了多方模型训练的隐私和安全问题。近年来，决策树模型被广泛应用于分类和回归问题，与传统基于线性模型或神经网络模型的联邦学习训练相比，联邦决策树具有更好的可解释性和准确性，在纵向联邦学习中，不用预先对各个参与方本地模型结构进行规定，并且能够在表格数据、图像分类等领域表现出更好的性能。

但是，在现有的以决策树作为底层训练模型的协议下，模型训练效率较低，原因一是拥有数据标签的一方(即主动方)计算样本的一阶梯度和二阶梯度，并经过同态加密后发送给其他参与方(即被动方)，由于数据加密和同态加法所需的时间较长，相互等待的串行机制导致了巨大的时间和空间资源浪费；二是在构建每一棵决策树，主动方需要计算特征经过分桶后的所有拆分点的拆分分数，并选择分数最高的进行中间节点的拆分，当特征维数较高时，带来的巨大的计算开销，并且，主动方和被动方之间的多轮数据交互带来了巨大的通信开销，造成了网络流量拥塞、训练效率低等问题。

针对这种情况，一般可通过如下几个方案实现联邦决策树的高效训练：

方案一，一种基于训练资源重分配的解决方案。考虑在不同组件中合理安排时间和资源，更多的分配给重要的部分，而给对最终结果影响不大的部分分配较少的数据。树结构在全局计算中会产生很高的通信成本，因此选择特定的少量参与者来确定，而叶权重不需要这样的通信成本，但是与影响精度的联邦决策树模型的输出直接相关，因此权重的计算接受全局信息的训练。这种重分配的增强机制可以弥补树内局部计算造成的性能较低的问题。

但是，该方案存在如下技术缺点：

扩展性差：此方案基于对训练资源进行调整，在独立同分布数据集上训练可以在一定程度上提高预测性能，但在非独立同分布数据集上进行训练对模型的准确性有很大的影响。

隐私保护开销大：此方案中树的结构由少数参与者确定，然后在各方之间进行共享，为了避免数据泄露，需要更高的隐私保护方案确保模型和数据传输中的安全性问题。

方案二，一种基于概率设备选择的解决方案。在每轮训练迭代过程中，通过合理的算法优化，使能够显著提高收敛速度和减少训练损失的设备具有更高的概率被选择用于机器学习模型传输，由此减少设备间模型参数的交换量，加快了单轮迭代中模型训练的效率。

但是，该方案存在如下技术缺点：

迭代轮数多：本方案由于直接对联邦中的参与方进行选择，则在一次迭代过程中会失去很多特征信息，由此需要建立更多的树来达到可以接收的准确率。

方案三：一种基于回滚策略的解决方案。在纵向联邦学习过程中，更多的计算需要拥有数据标签的一方完成，而拥有数据的参与方需要花费大量时间来构建梯度直方图，相互导致了大量的时间和空间浪费，因此考虑先使用主动方自己的特征进行内部节点的拆分，而不需要等待被动方构建的特征直方图。如果计算得到更高的拆分策略，则进行回滚，重新对内部节点进行划分，并重做之后的操作。

但是，该方案存在如下技术缺点：

维护费用高：当更多参与方加入联邦学习网络中时，多进程机制对于设备的硬件要求较高，基础设施的使用和维护会产生较大开销。

计算开销大：尽管在工程上进行了优化，但是如果内部节点被正确划分，回滚重做会带来更多的计算开销。

发明内容

针对以决策树模型作为纵向联邦学习底层的现有技术存在训练效率低、通信开销大等不足，本发明提出了一种基于随机抽样和多层拆分的联邦决策树训练方法，以客服现有技术的不足。

本发明采取如下技术方案。

首先，对相关定义进行说明。

定义1：纵向联邦学习

是指按照特征进行划分的联邦学习，即参与方的训练数据有重叠的数据样本，但是在数据特征上有所不同；允许各个参与方在不泄露参与方本地数据的前提下，完成全局模型的训练；所述参与方分为主动方和被动方，其中，参与方是指同时拥有数据矩阵和类标签的数据提供者，被动方是指只有数据矩阵的数据提供者；

定义2：决策树模型

指以树形结构对数据属性进行判断，并逐层输出判断结果，最终叶子节点代表一种分类或预测结果的一种常用的机器学习算法，每个输入根据判断条件分类到不同叶节点中，用叶节点的权重值进行预测，然后将所有树的预测结果相加得到最终结果；

定义3：损失函数

用来度量模型的预测值和真实值的差异程度，通常是一个非负实值函数；联邦学习的目标是降低真实值和预测值之间的损失，使得模型生成的预测值向真实值方向靠拢；

定义4：残差

指预测值与真实值之间的误差；在梯度提升决策树训练的过程中，每棵决策树去拟合误差函数对预测值的残差；

定义5：bagging策略

是指在构建决策森林时，不是基于整个数据集和特征集，而是基于有放回地抽样生成的子集；训练样本由bagging策略生成，整个数据集中有的样本可能会被多次选择，有的甚至一次都不会；训练阶段使用的特征也是从整个特征及中随机选择的；

定义6：基于k层拆分的决策树构建

是指本项目中所使用的一种决策树构建方式；采用“部分随机”的思想，不用每次选择分数最高的拆分点进行划分，在一次迭代过程进行多个内部节点的划分；同时向多个参与方请求根据某个阈值划后的样本位置。

一种基于随机抽样和多层拆分的联邦决策树训练方法，包括以下步骤：

步骤1.初始化

参与方共同确定并对齐用于训练的样本空间，同时，预设定一些超参数，如直方图条柱的数量以及树的最大深度等，然后，可信第三方通过Paillier加密方案生成公钥和私钥，并分别分发给不同类型的参与方。

步骤2.联邦决策树训练

在主动方和被动方之间实现并行数据传输，主动方通过随机抽样选择本轮迭代过程中所需的特征，并解密计算拆分分数，选择多个分割来同时构建当前决策树；在整个训练过程中，不同参与方之间都不能获得他人的隐私数据信息，具体地，包括以下子步骤：

步骤2.1：在完成样本对齐后，受信任的第三方向每个参与方分发相同的哈希函数，主动方和被动方使用相同的哈希函数对样本ID进行哈希；

步骤2.2：主动方根据标签计算一个发送窗口内样本的梯度和Hessian值；

步骤2.3：在梯度和Hessian值进行传输的过程中，主动方将哈希ID附加到加密后的梯度值上进行传输，由于ID和梯度值的唯一对应关系，主动方就不用一次计算和加密所有样本的梯度值，而是分小批进行计算和传输；

步骤2.4：根据特征值对样本进行排序后分桶，在获取小批量数据后，被动方就可以开始构建直方图，而不需要等待接收所有的梯度信息；

步骤2.5：重复步骤2.2-2.4，直到被动方为每一个特征单独构建一个直方图，并返回给主动方；

步骤2.6：主动方根据bagging特性，在单轮迭代中使用从整个特征集中随机选择的特征子集进行训练；

步骤2.7：主动方根据公式计算特征子集中不同特征拆分点的拆分分数；

步骤2.8：通过“部分随机”的思想，在一次计算拆分分数后，选择分数高的前k个拆分点，并将对应的拆分点编号返回给对应的被动方；

步骤2.9：被动方根据特征及拆分点进行本地划分，将左右叶子结点中的样本ID返回给主动方；

步骤2.10：主动方根据求交集的原则构建当前的决策树；

步骤2.11：主动方根据标签值计算叶节点的权重及残差，之后重复上述步骤直到模型收敛。

步骤3.模型预测

主动方可以根据记录表一次向多个参与方发送样本位置的请求信息，并获得样本划分位置信息，通过本地推导获得最终的预测值。具体地，包括以下子步骤：

步骤3.1：主动方拿到预测样本后，根据对应特征及本地的记录表向被动方发送划分请求；

步骤3.2：被动方根据本地存储的阈值信息，判断样本所在的左右子树位置，将结果返回给主动方；

步骤3.3：主动方通过求交集的方式获得样本所在的叶子节点信息，从而获得预测值；

步骤3.4：重复步骤3.1-3.4，直到遍历所有决策树得到最终预测结果。

有益效果

本发明与现有技术相比，具有如下有益效果：

1.本发明方法具有良好的安全性，这是因为：纵向联邦学习能够在不泄露参与方本地敏感数据的前提下进行全局模型的训练；使用哈希映射及同态加密对梯度信息进行保护，防止恶意参与方及中间攻击者篡改信息，保证传输过程中数据的安全性；

2.本发明方法具有良好的可扩展性，与前述方案一相比：本方法基于bagging和部分随机的拆分思想，能够满足更多参与方及更复杂的业务需求，并且在偏斜数据集上具有良好的适用性；

3.本发明方法具有良好的收敛速度，与前述方案二相比：本方案选择的是特征而不是参与方，能够避免一些重要特征信息的丢失，虽然相比于直接计算需要更多的轮数，但是能够在可接受的迭代次数下实现较好的准确性；

4.所述方法的模型训练效率较高，与前述方案三相比：本方法通过并行机制减少不同参与方之间相互等待的时间，缩短树模型构建时间，效率更高。

附图说明

图1为本发明流程示意图；

图2为基于哈希映射的并行数据传输流程；

图3为决策树2层拆分样本划分示例。

具体实施方式

下面将结合说明书附图，通过实施例对本发明技术方案进行清楚、完整地描述。应该说明而且可以理解的是，本发明实施例只是用来阐述本发明，不用来限制本发明。实施例中数学符号参见表1中的字符说明。

实施例1

请参阅说明书附图1、2、3，本实施例是本发明用于金融业务场景的实施例，由于样本数量较大且与相关的特征维度较高，银行甲和电子商务平台乙、借贷公司丙通过本发明利用各自单独拥有的资产信息、购买行为信息和贷款信息等数据进行协作训练，从而得到能够更好地体现用户信用水平的全局模型，其中，银行甲为拥有用户信用标签的一方，即纵向联邦学习中的主动方，乙和丙为训练过程中的被动方；三方均拥有的客户信息为对齐后的样本信息，各方数据存储在本地不能被直接共享。

具体包括下列步骤：

步骤1：甲、乙、丙三方构建纵向联邦学习网络，协商合作训练用户信用评价模型，进行样本对齐，并完成一些超参数的设定，具体包括：

步骤1.1：三方根据目标模型及本地拥有的特征，共同构建纵向联邦学习网络；可信第三方对各参与方身份进行认证，并分发用于Paillier同态加密的公钥pk_he和私钥sk_he；

步骤1.2：三方金融机构完成样本对齐操作；

步骤1.3：甲、乙、丙三方规定训练过程中的超参数，如直方图条柱的数量s、样本分批传输的数量b、以及树的最大深度p，等等。

步骤2：银行甲计算根据标签计算样本梯度值，并加密传输给电子商务平台乙和借贷公司丙，使得被动方能够建立本地特征直方图，具体步骤包括：

步骤2.1：甲、乙、丙三方使用分配的相同哈希函数对样本ID进行映射；

步骤2.2：在甲的进程中，甲能够根据标签计算样本的一阶梯度和二阶梯度(Hessian值)，并使用公钥pk_he进行加密；

这里，考虑到之后的操作中能够实现梯度和样本的加密对应关系，并进行传输，因此，甲不需要一次完成所有样本的梯度计算和加密过程，只需要一次完成对一下批次样本的操作。

步骤2.3：甲将当前批次加密后的梯度和Hessian值附带哈希后的ID传输给乙和丙后，重复步骤2.1-2.2进行下一批次样本的处理；

步骤2.4：在乙和丙的进程中，由于相同哈希函数的映射关系，被动方不需要等待接受全部的样本梯度信息，当收到小批量的数据后，就可以根据特征排序，对于批次内的样本进行分桶累加，这里，x是表示收到数据的编号，b为梯度并行传输过程中单批次所包含的样本最大数量；直方图各条柱中梯度的累加实际上是同态加法过程；

步骤2.5：重复步骤2.4，直到乙和丙接收到全部的样本信息；

步骤2.6：电子商务平台乙和借贷公司丙为本地每一个特征建立梯度和Hessian直方图，并将发送给银行甲，其中k是参与方标识，f是相应的特征标识。

步骤3：银行甲根据收到来自乙和丙不同特征的梯度直方图，对特征进行有放回的随机抽样，生成特征子集，从而达到降维的目标，具体步骤包括：

步骤3.1：电子商务平台乙拥有用户购买商品信息、消费偏好、消费额度等特征，借贷公司拥有用户贷款额度、还款周期、是否按时还款等特征；乙和丙对于每个特征建立直方图，并以步骤2.6中给出的形式发送给甲；

步骤3.2：甲根据收到的特征标识集合*f₁,f₂,f₃...+，按照有放回抽样的方式进行特征选择，生成特征子集；

特征3.3：由于在抽样的过程中会产生重复的特征，但是甲在后期构建树模型的过程是基于没有重复特征的假设，因此当抽取到相同特征时需要进行去重的操作。

步骤4：甲根据特征子集在一轮迭代中进行多个每个内部节点的拆分，完成决策树的多层构建，具体步骤包括：

步骤4.1：甲计算特征子集中所包含特征的所有分桶点的分数，选择得分最高的前k拆分点进行记录，具体地，甲使用私钥sk_he对聚合的梯度和Hessian值进行解密，本方案中拆分分数的计算公式为：

以图3为例，特征子集中包含乙的特征x₁(消费额度)、丙的特征x₂(还款周期)、x₃(贷款额度)，甲根据公式计算得到本轮迭代拆分分数最高的是x₁的②号分割点，第二高的是x₃的③号分割点，并将对应记录存储在本地；

步骤4.2：甲同时分别向乙和丙发送根据拆分点的样本划分请求；

步骤4.3：这里，甲会收到乙和丙根据两个阈值的样本划分，先使用得分最高的特征x₁进行根节点的划分，再根据“部分随机”的思想使用特征x₃进行下一层内部节点的划分；

具体地，当一层节点完成划分后，下一层左/右子节点中的样本就是当前节点中的样本与根据下一个特征左/右的样本取交集的结果；当树达到约定的最大高度或者节点中的样本全部处于一个分桶时，停止划分；

步骤4.4：甲计算落在该叶子节点中样本的预测结果

步骤5：甲计算预测值和真实值之间的残差，重复步骤2到步骤5，直到模型达到可接受的准确性。

上述各字符含义如表1所示：

表1本实施例中算法的字符说明

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于随机抽样和多层拆分的联邦决策树训练方法，其特征在于：所述方法包括下列步骤：S1，建立纵向联邦学习概念，建立决策树模型，设定损失函数，设定残差，设定bagging策略，组织基于k层拆分的决策树；S2，初始化；S3，联邦决策树训练；以及S4，模型预测。

2.根据权利要求1所述一种基于随机抽样和多层拆分的联邦决策树训练方法，其特征在于：所述建立纵向联邦学习概念是指按照特征进行划分的联邦学习，即参与方的训练数据有重叠的数据样本，但是在数据特征上有所不同，允许各个参与方在不泄露参与方本地数据的前提下，完成全局模型的训练，所述参与方分为主动方和被动方，所述主动方是指同时拥有数据矩阵和类标签的数据提供者，所述被动方是指只有数据矩阵的数据提供者；所述建立决策树模型是指每个输入根据判断条件分类到不同叶节点中，用叶节点的权重值进行预测，然后将所有树的预测结果相加得到最终结果；所述设定bagging策略是指是指在构建决策森林时，基于有放回地抽样生成的子集，训练阶段使用的特征从整个特征及中随机选择的；所述组织基于k层拆分的决策树是指在一次迭代过程进行多个内部节点的划分，同时向多个参与方请求根据某个阈值划后的样本位置。

3.根据权利要求1所述一种基于随机抽样和多层拆分的联邦决策树训练方法，其特征在于：所述步骤S2包括参与方共同确定并对齐用于训练的样本空间，同时预设定一些超参数，然后可信第三方通过Paillier加密方案生成公钥和私钥，并分别分发给不同类型的参与方，并完成样本对齐。

4.根据权利要求3所述一种基于随机抽样和多层拆分的联邦决策树训练方法，其特征在于：所述步骤S3包括：

S3.1：在完成样本对齐后，受信任的第三方向每个参与方分发相同的哈希函数，主动方和被动方使用相同的哈希函数对样本ID进行哈希；

S3.2：所述主动方根据标签计算一个发送窗口内样本的梯度和Hessian值；

S3.3：根据ID和梯度值的唯一对应关系，所述主动方将哈希ID附加到加密后的梯度值上分小批进行传输；

S3.4：所述被动方在获取小批量数据后，开始构建直方图；

S3.5：重复步骤3.2-3.4，直到被所述动方为每一个特征单独构建一个直方图，并返回给主动方；

S3.6：所述主动方根据bagging特性，使用从整个特征集中随机选择的特征子集，在单轮迭代中进行训练；

S3.7：所述主动方根据公式计算特征子集中不同特征拆分点的拆分分数；

S3.8：在一次计算拆分分数后，选择分数高的前k个拆分点，并将对应的拆分点编号返回给对应的被动方；

S3.9：所述被动方根据特征及拆分点进行本地划分，将左右叶子结点中样本ID返回给主动方；

S3.10：所述主动方根据求交集的原则构建当前的决策树；

S3.11：所述主动方根据标签值计算叶节点的权重及残差，之后重复上述步骤直到模型收敛。

5.根据权利要求4所述一种基于随机抽样和多层拆分的联邦决策树训练方法，其特征在于：所述步骤S4包括：

S4.1：所述主动方拿到预测样本后，根据对应特征及本地的记录表向被动方发送划分请求；

S4.2：所述被动方根据本地存储的阈值信息，判断样本所在的左右子树位置，将结果返回给所述主动方；

S4.3：所述主动方通过求交集的方式获得样本所在的叶子节点信息，从而获得预测值；

S4.4：重复步骤4.1-4.4，直到遍历所有决策树得到最终预测结果。

6.根据权利要求3所述一种基于随机抽样和多层拆分的联邦决策树训练方法，其特征在于：所述超参数包括直方图条柱的数量以及树的最大深度。