CN114611713A

CN114611713A - 一种基于纵向联邦学习的树模型的构建方法及系统

Info

Publication number: CN114611713A
Application number: CN202210506489.4A
Authority: CN
Inventors: 陈立峰; 蔡晓娟; 张翔; 杨云波; 卞阳; 邢旭
Original assignee: Fucun Technology Shanghai Co ltd
Current assignee: Fucun Technology Shanghai Co ltd
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2022-06-10

Abstract

本申请提供一种基于纵向联邦学习的树模型的构建方法及系统，基于联邦学习的树模型的构建过程中，每次在暂存列表中选择一个带切分节点来进行分裂，不再对分裂增益较低、没必要进行搜索和分裂的节点进行分裂，减少了分裂生成的子节点，从而减少了子节点的分裂特征信息的计算，降低了计算量，提高了树模型的构建效率。并且每次从暂存列表中找到最适合分裂的节点进行分裂，可以降低更多的误差，得到更好的精度。

Description

一种基于纵向联邦学习的树模型的构建方法及系统

技术领域

本申请涉及联邦学习技术领域，具体而言，涉及一种基于纵向联邦学习的树模型的构建方法及系统。

背景技术

大数据时代产生的海量信息推动了人工智能的不断进步和发展，保护企业、个人、政府等其他机构的业务平台的数据的安全是合法利用大数据推动社会进步的前提。一些机构的业务平台需要在不共享数据的同时，能够联合其他机构的业务平台具有的数据来进行跨机构联合建模，因此，为了保护数据安全和隐私性的前提下实现联合建模，需要用到联邦学习。

在联邦学习领域，是通过多个参与方共同训练一个模型，然后各参与方基于各自的模型来进行相应的预测，且各个参与方将预测的结果发送给含有模型预测值的那方，最后含有模型预测值的那方给出样本最终的预测结果。但是，现有技术的基于联邦学习的树模型的构建方法，通常对每次切分样本得到所有的子节点都进行了生长，导致树模型的生长速度较慢。

发明内容

本申请实施例的目的在于提供一种基于纵向联邦学习的树模型的构建方法及系统，用以解决现有技术的基于联邦学习的树模型的构建方法，通常对每次切分样本得到所有的子节点都进行了生长，导致树模型的生长速度较慢的问题。

本申请实施例提供的一种基于纵向联邦学习的树模型的构建方法，纵向联邦学习具有n个参与方，n大于或等于2，第一参与方为含有样本标签值一方，方法包括：

由每一参与方初始化一个根节点和一个暂存列表，并将根节点存放至暂存列表；

对根节点切分子节点；

判断子节点是否为叶子节点，若存在子节点非叶子节点，则将非叶子节点的子节点存放至暂存列表，并将根节点从暂存列表中删除；将最优分裂特征、最优分裂点及最优分裂特征所属参与方编号同步至其他参与方，每个参与方进行切分同步；

每一参与方分别计算暂存列表中每一节点对应的特征分裂直方图；

对暂存列表中每一节点，根据所有特征分裂直方图，得到最优分裂信息；最优分裂信息包括最优分裂值、最优分裂点、最优分裂特征和最优分裂特征所属参与方编号；

根据暂存列表中所有节点的最优分裂值，选择待切分节点；

由最优分裂特征所属参与方，利用待切分节点的最优分裂特征和最优分裂点，对待切分节点切分子节点；将非叶子节点的子节点存放至暂存列表，并将待切分节点从暂存列表中删除；

将最优分裂特征、最优分裂点及最优分裂特征所属参与方编号同步至其他参与方，每个参与方进行切分同步；以及

确定暂存列表中存在节点，重复上述步骤，直到暂存列表为空，则每个参与方存储己方的树模型。

上述技术方案中，基于联邦学习的树模型的构建过程中，每次在暂存列表中选择一个带切分节点来进行分裂，不再对分裂增益较低、没必要进行搜索和分裂的节点进行分裂，减少了分裂生成的子节点，从而减少了子节点的分裂特征信息的计算，降低了计算量，提高了树模型的构建效率。并且每次从暂存列表中找到最适合分裂的节点进行分裂，可以降低更多的误差，得到更好的精度。

在一些可选的实施方式中，若根节点的所有子节点均为叶子节点，则停止当前树模型的构建；

每个参与方存储己方的树模型。

在一些可选的实施方式中，节点的信息包括样本索引、最优分裂信息、节点深度和子节点；

其中，样本索引的获取方法包括：

由每一参与方对己方数据进行特征降维处理；

由第一参与方对特征降维处理后的数据进行样本采样，得到第一数据和样本索引；

第i参与方同步样本索引，得到第i数据，（i=2，…，n）。

上述技术方案中，每一参与方对己方数据进行特征降维处理，使得连续数据离散化，数据归一化。

在一些可选的实施方式中，特征降维处理包括随机特征选择和EFB降维处理。

其中，EFB（Exclusive Feature Bundling，互斥稀疏特征绑定）降维处理是通过特征捆绑的方式减少特征维度的方式，来提升计算效率。通常被捆绑的特征都是互斥的（一个特征值为零,一个特征值不为零），这样两个特征捆绑起来才不会丢失信息。如果两个特征并不是完全互斥（部分情况下两个特征都是非零值），可以用一个指标对特征不互斥程度进行衡量，称之为冲突比率，当这个值较小时，可以选择把不完全互斥的两个特征捆绑，而不影响最后的精度。

在一些可选的实施方式中，样本采样包括随机采样和goss采样。

其中，goss (Gradient-based One-Side Sampling，基于梯度的one-side采样)采样是一种在减少数据量和保证精度上平衡的算法。goss是通过区分不同梯度的实例，保留较大梯度实例同时对较小梯度随机采样的方式减少计算量，从而达到提升效率的目的。

本申请实施例采用特征分裂直方图来获取分裂信息的方式，其占用的内存更低，数据分隔的复杂度更低，其思想是将连续的浮点特征离散成k个离散值，并构造宽度为k的直方图。然后遍历训练数据，统计每个离散值在直方图中的累计统计量。在进行特征选择时，只需要根据直方图的离散值，遍历寻找最优的分割点。其中，特征分裂直方图的获取包括但不限于以下获取方式：

在一些可选的实施方式中，每一参与方分别计算根节点的特征分裂直方图，包括：

由第一参与方根据样本标签与第一数据，计算根节点的特征分裂直方图；第i参与方根据由第一参与方加密的样本标签与第i数据，计算根节点的特征分裂直方图。

由第一参与方根据残差值与第一数据，计算根节点的特征分裂直方图；第i参与方根据由第一参与方加密的残差值与第i数据，计算根节点的特征分裂直方图。

由第一参与方根据梯度和权重的内积与第一数据，计算根节点的特征分裂直方图；第i参与方根据由第一参与方加密的内积与第i数据，计算根节点的特征分裂直方图。

上述技术方案中，计算特征分裂直方图所需的残差值、梯度和权重的内积或样本标签，也可以是其他计算特征分裂直方图的安全数据，这里的安全数据指的是联邦学习的多个参与方相互之间加密通信的数据。

在一些可选的实施方式中，判断子节点是否为叶子节点的方法，包括：若子节点达到预设停止分裂条件，则子节点为叶节点；其中，预设停止分裂条件包括：所有样本标签为同一类；或，样本数个数小于预设阈值；或，当前节点所在树的层数达到预设树的深度；或，当前节点的最优分裂值大于预设阈值。

需明确的是，预设停止分裂条件也可以是根据实际对叶节点的要求进行设置的其他条件。

在一些可选的实施方式中，根据暂存列表中所有节点的最优分裂值，选择待切分节点，包括：

通过计算所有最优分裂值中的最小基尼、最大信息增益或最大信息增益比，将对应的节点作为待切分节点。

在一些可选的实施方式中，每个参与方存储己方的树模型之后，还包括：

由每一参与方，判断己方的树模型的数量是否达到预设值或判断损失值是否达到预设值，若达到，则每一参与方保存己方树模型；若未达到，则进行下一棵树模型的构建。

上述技术方案中，在当前树模型存储之后，并且己方的树模型的数量还未达到预设值，则用当前树模型对样本进行预测得到新的预测值，用新的预测值更新初始预测值，以构建下一棵树模型。

本申请实施例提供的一种基于纵向联邦学习的树模型的构建系统，包括：

初始化模块，用于由每一参与方初始化一个根节点和一个暂存列表，并将根节点存放至暂存列表；

根节点切分模块，用于对根节点切分子节点；

第一判断模块，用于判断子节点是否为叶子节点，若存在子节点非叶子节点，则：将非叶子节点的子节点存放至暂存列表，并将根节点从暂存列表中删除；将最优分裂特征、最优分裂点及最优分裂特征所属参与方编号同步至其他参与方，每个参与方进行切分同步；

直方图计算模块，用于每一参与方分别计算暂存列表中每一节点对应的特征分裂直方图；

分裂信息计算模块，用于对暂存列表中每一节点，根据所有特征分裂直方图，得到最优分裂信息；所述最优分裂信息包括最优分裂值、最优分裂点、最优分裂特征和最优分裂特征所属参与方编号；

子节点切分模块，用于根据暂存列表中所有节点的最优分裂值，选择待切分节点；由最优分裂特征所属参与方，利用待切分节点的最优分裂特征和最优分裂点，对待切分节点切分子节点；将非叶子节点的子节点存放至暂存列表，并将待切分节点从暂存列表中删除；将最优分裂特征、最优分裂点及最优分裂特征所属参与方编号同步至其他参与方，每个参与方进行切分同步；以及

第二判断模块，用于确定暂存列表中存在节点，重复上述步骤，直到暂存列表为空，则每个参与方存储己方的树模型。

上述技术方案中，基于联邦学习的树模型的构建，每次在暂存列表中选择一个带切分节点来进行分裂，不再对分裂增益较低、没必要进行搜索和分裂的节点进行分裂，减少了分裂生成的子节点，从而减少了子节点的分裂特征信息的计算，降低了计算量，提高了树模型的构建效率。并且每次从暂存列表中找到最适合分裂的节点进行分裂，可以降低更多的误差，得到更好的精度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种基于纵向联邦学习的树模型的构建方法步骤流程图；

图2为本申请实施例提供的一种基于纵向联邦学习的树模型的构建系统的功能模块示意图。

图标：1-初始化模块，2-根节点切分模块，3-第一判断模块，4-直方图计算模块，5-分裂信息计算模块，6-子节点切分模块，7-第二判断模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

本申请的一个或多个实施例，可以适用于包括但不限于以下场景：根据银行端提供的用户数据与移动端提供的用户数据结合，共同构建模型，用于后期银行判断是否应该对用户进行贷款。银行有用户的姓名、身份证号码、存款额度、是否贷款等信息，移动端有用户姓名、用户身份证号码、与其他用户的通话时长等信息。每一个用户为一个样本，将是否贷款作为样本标签，每一个信息作为样本的特征，根据银行端提供的样本数据与移动端提供的样本数据相结合在保证数据安全的情况下共同构建树模型，可以用于银行判断新用户是否能够对其进行放贷。

请参照图1，图1为本申请实施例提供的一种基于纵向联邦学习的树模型的构建方法步骤流程图，该树模型用于银行判断新用户是否能够对其进行放贷。纵向联邦学习具有n个参与方，n大于或等于2，第一参与方为含有样本标签值一方，第一参与方可以使用样本的第一方数据，且第一方数据含有样本标签，第i参与方可以使用样本的第i方数据，其中，第一参与方即为银行端，其他参与方即为移动端。本实施例的树模型的构建方法包括：

步骤101、由每一参与方初始化一个根节点和一个暂存列表，并将根节点存放至暂存列表；

步骤102、对根节点切分子节点；

其中，对根节点切分子节点的方式包括但不限于以下方式：每一参与方计算其根节点的特征分裂直方图，根据所有特征分裂直方图，得到根节点的最优分裂信息，其中，最优分裂信息包括最优分裂特征及最优分裂特征所属参与方编号；由最优分裂特征所属参与方，利用最优分裂特征对根节点切分子节点。

步骤103、判断子节点是否为叶子节点，若存在子节点非叶子节点，则将非叶子节点的子节点存放至暂存列表，并将根节点从暂存列表中删除；将最优分裂特征、最优分裂点及最优分裂特征所属参与方编号同步至其他参与方，每个参与方进行切分同步；

步骤104、每一参与方分别计算暂存列表中每一节点对应的特征分裂直方图；

步骤105、对暂存列表中每一节点，根据所有特征分裂直方图，得到最优分裂信息；最优分裂信息包括最优分裂值、最优分裂点、最优分裂特征和最优分裂特征所属参与方编号；

步骤106、根据暂存列表中所有节点的最优分裂值，选择待切分节点；由最优分裂特征所属参与方，利用待切分节点的最优分裂特征和最优分裂点，对待切分节点切分子节点；将非叶子节点的子节点存放至暂存列表，并将待切分节点从暂存列表中删除；将最优分裂特征、最优分裂点及最优分裂特征所属参与方编号同步至其他参与方，每个参与方进行切分同步；

其中，最优分裂特征所属参与方记录在对应待切分节点上的直方图信息为真实值，其他参与方则记录最优分裂特征和待切分节点的编码信息，以提高同步过程中的数据安全性。

步骤107、确定暂存列表中存在节点，重复上述步骤，直到暂存列表为空，则每个参与方存储己方的树模型。

本申请实施例中，基于联邦学习的树模型的构建过程中，每次在暂存列表中选择一个带切分节点来进行分裂，不再对分裂增益较低、没必要进行搜索和分裂的节点进行分裂，减少了分裂生成的子节点，从而减少了子节点的分裂特征信息的计算，降低了计算量，提高了树模型的构建效率。并且每次从暂存列表中找到最适合分裂的节点进行分裂，可以降低更多的误差，得到更好的精度。

在一些可选的实施方式中，若根节点的所有子节点均为叶子节点，则停止当前树模型的构建；将最优分裂特征、最优分裂点及最优分裂特征所属参与方编号同步至其他参与方，每个参与方进行切分同步；以及每个参与方存储己方的树模型。

在一些可选的实施方式中，节点的信息包括样本索引、最优分裂信息、节点深度和子节点；其中，样本索引的获取方法包括：由每一参与方对己方数据进行特征降维处理；由第一参与方对特征降维处理后的数据进行样本采样，得到第一数据和样本索引；第i参与方同步样本索引，得到第i数据，（i=2，…，n）。

本申请实施例中，每一参与方对己方数据进行特征降维处理，使得连续数据离散化，数据归一化。

在一些可选的实施方式中，特征降维处理包括随机特征选择和EFB降维处理。其中，EFB（Exclusive Feature Bundling，互斥稀疏特征绑定）降维处理是通过特征捆绑的方式减少特征维度的方式，来提升计算效率。通常被捆绑的特征都是互斥的（一个特征值为零,一个特征值不为零），这样两个特征捆绑起来才不会丢失信息。如果两个特征并不是完全互斥（部分情况下两个特征都是非零值），可以用一个指标对特征不互斥程度进行衡量，称之为冲突比率，当这个值较小时，可以选择把不完全互斥的两个特征捆绑，而不影响最后的精度。

在一些可选的实施方式中，样本采样包括随机采样和goss采样。其中，goss(Gradient-based One-Side Sampling，基于梯度的one-side采样)采样是一种在减少数据量和保证精度上平衡的算法。goss是通过区分不同梯度的实例，保留较大梯度实例同时对较小梯度随机采样的方式减少计算量，从而达到提升效率的目的。

第一种计算根节点的特征分裂直方图的方式，包括：由第一参与方根据样本标签与第一数据，计算根节点的特征分裂直方图；第i参与方根据由第一参与方加密的样本标签与第i数据，计算根节点的特征分裂直方图。

第二种计算根节点的特征分裂直方图的方式，包括：由第一参与方根据残差值与第一数据，计算根节点的特征分裂直方图；第i参与方根据由第一参与方加密的残差值与第i数据，计算根节点的特征分裂直方图。

第三种计算根节点的特征分裂直方图的方式，包括：由第一参与方根据梯度和权重的内积与第一数据，计算根节点的特征分裂直方图；第i参与方根据由第一参与方加密的内积与第i数据，计算根节点的特征分裂直方图。

需明确的是，计算特征分裂直方图所需的残差值、梯度和权重的内积或样本标签，也可以是其他计算特征分裂直方图的安全数据，这里的安全数据指的是联邦学习的多个参与方相互之间加密通信的数据。例如：第一参与方计算出残差值，并对残差值进行同态加密或半同态加密后发送至其他参与方；其他参与方对加密状态下的残差值计算加密的特征分裂直方图，并将加密的特征分裂直方图发送至第一参与方；第一参与方再对加密的特征分裂直方图进行解密，得到其他参与方的特征分裂直方图。

在一些可选的实施方式中，根据暂存列表中所有节点的最优分裂值，选择待切分节点，包括：通过计算所有最优分裂值中的最小基尼、最大信息增益或最大信息增益比，将对应的节点作为待切分节点。

在一些可选的实施方式中，每个参与方存储己方的树模型之后，还包括：由每一参与方，判断己方的树模型的数量是否达到预设值或判断损失值是否达到预设值，若达到，则每一参与方保存己方树模型；若未达到，则进行下一棵树模型的构建。

本申请实施例中，在当前树模型存储之后，并且己方的树模型的数量还未达到预设值，则用当前树模型对样本进行预测得到新的预测值，用新的预测值更新初始预测值，以构建下一棵树模型。

请参照图2，图2为本申请实施例提供的一种基于纵向联邦学习的树模型的构建系统的功能模块示意图，包括初始化模块1、根节点切分模块2、第一判断模块3、直方图计算模块4、分裂信息计算模块5、子节点切分模块6和第二判断模块7。

其中，初始化模块1，用于由每一参与方初始化一个根节点和一个暂存列表，并将根节点存放至暂存列表。根节点切分模块2，用于对根节点切分子节点。第一判断模块3，用于判断子节点是否为叶子节点，若存在子节点非叶子节点，则：将非叶子节点的子节点存放至暂存列表，并将根节点从暂存列表中删除；将最优分裂特征、最优分裂点及最优分裂特征所属参与方编号同步至其他参与方，每个参与方进行切分同步。直方图计算模块4，用于每一参与方分别计算暂存列表中每一节点对应的特征分裂直方图。分裂信息计算模块5，用于对暂存列表中每一节点，根据所有特征分裂直方图，得到最优分裂信息；所述最优分裂信息包括最优分裂值、最优分裂点、最优分裂特征和最优分裂特征所属参与方编号。子节点切分模块6，用于根据暂存列表中所有节点的最优分裂值，选择待切分节点；由最优分裂特征所属参与方，利用待切分节点的最优分裂特征和最优分裂点，对待切分节点切分子节点；将非叶子节点的子节点存放至暂存列表，并将待切分节点从暂存列表中删除；将最优分裂特征、最优分裂点及最优分裂特征所属参与方编号同步至其他参与方，每个参与方进行切分同步。第二判断模块7，用于确定暂存列表中存在节点，重复上述步骤，直到暂存列表为空，则每个参与方存储己方的树模型。

本申请实施例中，基于联邦学习的树模型的构建，每次在暂存列表中选择一个带切分节点来进行分裂，不再对分裂增益较低、没必要进行搜索和分裂的节点进行分裂，减少了分裂生成的子节点，从而减少了子节点的分裂特征信息的计算，降低了计算量，提高了树模型的构建效率。并且每次从暂存列表中找到最适合分裂的节点进行分裂，可以降低更多的误差，得到更好的精度。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于纵向联邦学习的树模型的构建方法，其特征在于，纵向联邦学习具有n个参与方，n大于或等于2，第一参与方为含有样本标签值一方，所述方法包括：

对根节点切分子节点；

对暂存列表中每一节点，根据所有特征分裂直方图，得到最优分裂信息；所述最优分裂信息包括最优分裂值、最优分裂点、最优分裂特征和最优分裂特征所属参与方编号；

根据暂存列表中所有节点的最优分裂值，选择待切分节点；

由最优分裂特征所属参与方，利用待切分节点的最优分裂特征和最优分裂点，对待切分节点切分子节点；将非叶子节点的子节点存放至暂存列表，并将待切分节点从暂存列表中删除；将最优分裂特征、最优分裂点及最优分裂特征所属参与方编号同步至其他参与方，每个参与方进行切分同步；以及

2.如权利要求1所述的方法，其特征在于，若根节点的所有子节点均为叶子节点，则停止当前树模型的构建；

每个参与方存储己方的树模型。

3.如权利要求1所述的方法，其特征在于，节点的信息包括样本索引、最优分裂信息、节点深度和子节点；

其中，样本索引的获取方法包括：

由每一参与方对己方数据进行特征降维处理；

第i参与方同步样本索引，得到第i数据，（i=2，…，n）。

4.如权利要求3所述的方法，其特征在于，所述特征降维处理包括随机特征选择和EFB降维处理。

5.如权利要求3所述的方法，其特征在于，所述每一参与方分别计算根节点的特征分裂直方图，包括：

6.如权利要求3所述的方法，其特征在于，所述每一参与方分别计算根节点的特征分裂直方图，包括：

7.如权利要求1所述的方法，其特征在于，所述判断子节点是否为叶子节点的方法，包括：若子节点达到预设停止分裂条件，则子节点为叶节点；其中，预设停止分裂条件包括：

所有样本标签为同一类；或，样本数个数小于预设阈值；或，当前节点所在树的层数达到预设树的深度；或，当前节点的最优分裂值大于预设阈值。

8.如权利要求1所述的方法，其特征在于，所述根据暂存列表中所有节点的最优分裂值，选择待切分节点，包括：

9.如权利要求1所述的方法，其特征在于，所述每个参与方存储己方的树模型之后，还包括：

10.一种基于纵向联邦学习的树模型的构建系统，其特征在于，包括：

根节点切分模块，用于对根节点切分子节点；