CN114091624B

CN114091624B - 一种无第三方的联邦梯度提升决策树模型训练方法

Info

Publication number: CN114091624B
Application number: CN202210052120.0A
Authority: CN
Inventors: 郭梁; 徐时峰; 刘洋; 裴阳; 毛仁歆; 宋鎏屹
Original assignee: Lanxiang Zhilian Hangzhou Technology Co ltd
Current assignee: Lanxiang Zhilian Hangzhou Technology Co ltd
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-04-26
Anticipated expiration: 2042-01-18
Also published as: CN114091624A

Abstract

本发明公开了一种无第三方的联邦梯度提升决策树模型训练方法。它包括以下步骤：训练发起方、训练参与方同步初始化；训练发起方、训练参与方同步采样d个样本数据集；训练发起方、训练参与方对各自样本数据集中的每个特征数据进行分箱、记录分箱信息并进行比特切片存储；训练发起方计算出自身每个样本数据集的每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和，训练发起方、训练参与方根据安全乘法协议计算出训练参与方的样本数据集中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和；训练发起方搜索最优分裂点，将结果同步给训练参与方；重复上述步骤，直到达到终止条件。本发明保护了数据安全，降低存储空间，大幅压缩通信量。

Description

一种无第三方的联邦梯度提升决策树模型训练方法

技术领域

本发明涉及梯度提升决策树模型训练技术领域，尤其涉及一种无第三方的联邦梯度提升决策树模型训练方法。

背景技术

联邦梯度提升决策树模型既可以解决分类问题又可以处理回归问题，还具备较好的可解释能力，因而在联邦学习领域特别是银行风控领域得到广泛应用。联邦梯度提升决策树模型是一类实用性很强的树模型，在联邦梯度提升决策树模型中，各个参与方基于本地数据计算决策树的一阶导数和二阶导数，根据切分增益决定最佳特征和切分点，这一过程中需要对不同参与方的一阶导数和二阶导数做加法，可以使用加性同态加密保护各个参与方的数据隐私在树模型构建过程中不泄露给其他参与方。

目前联邦梯度提升决策树模型是银行和运营商之间联合风控建模的主要方法之一，联邦梯度提升决策树模型建模具有精度高，可解释性强的特点，但是这种方式目前有以下几个缺点：

1、目前工业界联邦梯度提升决策树模型以半同态加密为主，计算开销极大。工信部直属信通院隐私计算第一批性能评测数据表明，工业界900个特征40万样本的联邦树建模平均耗时为2小时23分47秒，难以满足工业界需求；

2、有第三方辅助参与训练，进行模型参数分发同步，而实际商业落地较难找到可信的第三方，存在数据泄露风险；

3、现有的特征值存储效率低下，900个特征40万样本的数据集需占用3.9G空间。如果联邦梯度提升决策树模型训练的中间结果保存在本地磁盘，一次联邦梯度提升决策树模型训练就需耗费10G以上的空间。

发明内容

本发明为了解决上述技术问题，提供了一种无第三方的联邦梯度提升决策树模型训练方法，其在训练发起方、训练参与方相互数据不出库的情况下完成训练，整个过程无需第三方参与，保护了数据安全，使用比特切片方法存储特征数据对应的分箱信息以及样本数据集x对应的一阶梯度、二阶梯度，降低存储空间，压缩搜索最优分裂点的时间，在保证训练精度的同时大幅压缩通信量。

为了解决上述问题，本发明采用以下技术方案予以实现：

本发明的一种无第三方的联邦梯度提升决策树模型训练方法，用于银行和运营商之间联合风控建模，包括以下步骤：

S1：训练发起方、训练参与方同步初始化各自联邦梯度提升决策树模型的模型参数；

S2：训练发起方从自身数据库中采样d个样本数据集x，每个样本数据集X具有唯一对应的ID，所述样本数据集x包含n个特征数据，训练参与方从自身数据库中同步采样与训练发起方采样的d个样本数据集x具有同样ID的d个样本数据集y，每个样本数据集y具有唯一对应的ID，所述样本数据集y包含m个特征数据；

S3：训练发起方对每个样本数据集x中的每个特征数据进行分箱并记录对应的分箱信息，训练参与方对每个样本数据集y中的每个特征数据进行分箱并记录对应的分箱信息，每个特征数据的分箱数量都为N；

S4：训练发起方对样本数据集x的每个特征数据对应的所有分箱信息进行比特切片存储，训练参与方对样本数据集y的每个特征数据对应的所有分箱信息进行比特切片存储；

S5：训练发起方计算出每个样本数据集x对应的一阶梯度、二阶梯度，将计算出的所有一阶梯度进行比特切片存储，将计算出的所有二阶梯度进行比特切片存储；

S6：训练发起方计算样本数据集x中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和，训练发起方、训练参与方根据安全乘法协议计算出样本数据集y中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和；

S7：训练发起方根据计算出的样本数据集x中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和以及样本数据集y中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和，搜索最优分裂点；

S8：训练发起方将分裂信息、树分裂终止信号发送给训练参与方；

S9：重复执行步骤S2至步骤S8，直到达到初始化的建树棵树或损失函数的变化值小于终止阈值。

在本方案中，训练发起方、训练参与方都先初始化自身的联邦梯度提升决策树模型。接着，训练发起方、训练参与方各自从自身数据库同步采样d个样本数据集，训练发起方采样的d个样本数据集与训练参与方采样的d个样本数据集具有一样的ID，例如：训练发起方采样了3个样本数据集x，其ID分别为001、002、003，训练参与方采样了3个样本数据集y，其ID也分别为001、002、003。

之后，训练发起方、训练参与方各自将采样的样本数据集中的每个特征数据进行分箱并记录对应的分箱信息，对每个特征数据对应的所有分箱信息进行比特切片存储，训练发起方将计算出的所有一阶梯度、二阶梯度进行比特切片存储，这样可以降低存储空间、压缩搜索最优分裂点的时间、压缩通信量，在900个特征40万样本的联邦梯度提升决策树建模时可以降低50%存储空间占用，压缩三分之二以上的通信量。

然后，训练发起方采用现有明文联邦梯度提升决策树模型计算方法计算出样本数据集x中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和，训练发起方、训练参与方根据安全乘法协议计算出样本数据集y中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和。

最后，训练发起方采用现有明文联邦梯度提升决策树模型计算方法利用样本数据集x中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和以及样本数据集y中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和搜索最优分裂点，搜索完成后，训练发起方将分裂信息、树分裂终止信号发送给训练参与方，训练参与方更新自身的联邦梯度提升决策树模型，重复执行步骤S2至步骤S8，直到达到初始化的建树棵树或损失函数的变化值小于终止阈值，此时，训练发起方、训练参与方完成联邦梯度提升决策树模型的训练。

作为优选，所述步骤S2包括以下步骤：

训练发起方从自身数据库中采样d个样本数据集x，每个样本数据集x具有唯一对应的ID，将d个样本数据集x依次编号为1，2……d，所述样本数据集x包含n个特征数据，这n个特征数据依次标记为x₁、x₂……x_n，则编号为i的样本数据集x(i)的结构为x(i)=｛x₁(i)、x₂(i)、……x_n(i)｝，1≤i≤d，训练发起方将d个样本数据集x对应的ID及编号发送给训练参与方；

训练参与方从自身数据库中采样接收到的d个ID对应的样本数据集y，每个样本数据集y具有唯一对应的ID，每个样本数据集y对应的编号与同样ID的样本数据集x对应的编号一样，所述样本数据集y包含m个特征数据，这m个特征数据依次标记为y₁、y₂……y_m，则编号为i的样本数据集y(i)的结构为y(i)=｛y₁(i)、y₂(i)、……y_m(i)｝。

作为优选，所述步骤S3包括以下步骤：

训练发起方对每个样本数据集x中的每个特征数据进行分箱并记录对应的分箱信息，训练参与方对每个样本数据集y中的每个特征数据进行分箱并记录对应的分箱信息，每个特征数据的分箱数量都为N；

对编号为i的样本数据集x(i)中的第p个特征数据x_p(i)进行分箱并记录分箱信息的方法包括以下步骤，1≤p≤n：

根据d个样本数据集x的第p个特征数据中的最大值A_p、最小值B_p以及分箱数量N计算出每个分箱的区间边界，N个分箱依次编号为1，2……N，设定特征数据x_p(i)对应的分箱信息X_p(i)为N位的二进制数，

，

表示X_p(i)的第r位， 1≤r≤N，如果特征数据x_p(i)属于第r个分箱，则X_p(i)的第r位为1，其余位都为0；

对编号为i的样本数据集y(i)中的第q个特征数据y_q(i)进行分箱并记录分箱信息的方法包括以下步骤，1≤q≤m：

根据d个样本数据集y的第q个特征数据中的最大值A_q、最小值B_q以及分箱数量N计算出每个分箱的区间边界，N个分箱依次编号为1，2……N，设定特征数据y_q(i)对应的分箱信息Y_q(i)为N位的二进制数，

，

表示Y_q(i)的第r位，如果特征数据y_q(i)属于第r个分箱，则Y_q(i)的第r位为1，其余位都为0。

根据d个样本数据集x的第p个特征数据中的最大值A_p、最小值B_p以及分箱数量N计算出每个分箱的区间边界的方法包括以下步骤：

每个分箱的区间的长度为 W=(A_p−B_p)/N，则第1个分箱的区间边界为（B_p、B_p+W），第2个分箱的区间边界为（B_p+W+1、B_p +2W）……，第N-1个分箱的区间边界为（B_p+(N-2)W+1、B_p+(N-1)W），第N个分箱的区间边界为（B_p +(N-1)W+1、A_p）。

作为优选，所述步骤S4包括以下步骤：

训练发起方对样本数据集x的每个特征数据对应的所有分箱信息进行比特切片存储，训练参与方对样本数据集y的每个特征数据对应的所有分箱信息进行比特切片存储；

训练发起方对样本数据集x的第p个特征数据对应的所有分箱信息进行比特切片存储的方法包括以下步骤：

将每个样本数据集x的第p个特征数据对应的分箱信息拼接成矩阵D_p1：

，

将矩阵D_p1转置得到矩阵D_p2：

，

矩阵D_p2的每一行组成一个比特切片数据，得到N个分箱信息比特切片数据D_p(1)、 D_p(2)…D_p(N)，并进行存储，矩阵D_p2的第r行组成的第r个分箱的分箱信息比特切片数据

，1≤r≤N；

训练参与方对样本数据集y的第q个特征数据对应的所有分箱信息进行比特切片存储的方法包括以下步骤：

将每个样本数据集y的第q个特征数据对应的分箱信息拼接成矩阵E_q1：

，

将矩阵E_q1转置得到矩阵E_q2：

，

矩阵E_q2的每一行组成一个比特切片数据，得到N个分箱信息比特切片数据E_q (1)、 E_q(2)…E_q(N)，并进行存储，矩阵E_q2的第r行组成的第r个分箱的分箱信息比特切片数据

。

作为优选，所述步骤S5包括以下步骤：

训练发起方计算出每个样本数据集x对应的一阶梯度、二阶梯度，计算编号为i的样本数据集x(i)对应的一阶梯度g_x(i)、二阶梯度h_x(i)的公式如下：

，

，

其中，

表示样本数据集x(i)对应的真实值，

表示样本数据集x(i)对应的预测值；

训练发起方将计算出的所有一阶梯度进行比特切片存储，将计算出的所有二阶梯度进行比特切片存储，包括以下步骤：

一阶梯度g_x(i)的二进制表示为

，

二阶梯度h_x(i)的二进制表示为

，

其中，

表示一阶梯度g_x(i)的第j位，

表示二阶梯度h_x(i)的第j位，M为设定的常数，1≤j≤M；

将每个样本数据集x对应的一阶梯度拼接成矩阵C1：

，

将矩阵C1转置得到矩阵：

，

矩阵C2的每一行组成一个比特切片数据，得到M个一阶梯度比特切片数据C(1)、C (2)…C(M)，并进行存储，矩阵C2的第j行组成的第j个一阶梯度比特切片数据

；

将每个样本数据集x对应的二阶梯度拼接成矩阵F1：

，

将矩阵F1转置得到矩阵F2：

，

矩阵F2的每一行组成一个比特切片数据，得到M个二阶梯度比特切片数据F (1)、F (2)…F(M)，并进行存储，矩阵F2的第j行组成的第j个二阶梯度比特切片数据

。

作为优选，所述步骤S6中训练发起方、训练参与方根据安全乘法协议计算出样本数据集y中第q个特征数据的第r个分箱对应的一阶梯度和

的方法包括以下步骤，1≤r ≤N：

将M个一阶梯度比特切片数据C(1)、C(2)…C(M)分别与第r个分箱的分箱信息比特切片数据E_q(r)按照安全协议计算得到对应的二进制值

，

训练发起方计算一阶梯度和

，

，

其中，

表示第j个一阶梯度比特切片数据C(j) 与第r个分箱的分箱信息比特切片数据E_q(r)按照安全协议计算得到对应的二进制值，1≤j≤M，

表示统计二进制数

中1的个数；

将一阶梯度比特切片数据C(j) 与第r个分箱的分箱信息比特切片数据E_q(r)按照安全协议计算得到对应的二进制值

的方法包括以下步骤：

训练发起方将比特切片数据C(j)分享为两个分片，

，

将

发送给训练参与方，其中，

表示C(j)的第0个分片的二进制表示，

表示C(j)的第1个分片的二进制表示，

训练参与方将分箱信息比特切片数据E_q(r) 分享为两个分片，

，

其中，

表示 E_q(r)的第0个分片的二进制表示，

表示E_q(r)的第1 个分片的二进制表示，

训练参与方计算出

，将K(r)、

发送给训练发起方，

训练发起方计算出

。

由于训练发起方将比特切片数据C(j)分享为两个分片，只将

发送给训练参与方，所以训练参与方无法获得训练发起方的数据，训练参与方只将

发送给训练发起方，将

与

的异或操作在本地计算后再发送给训练参与方，这样训练参与方也无法获得训练发起方的数据，保护了双方的数据安全，整个过程无第三方参与。

作为优选，所述步骤S6中训练发起方、训练参与方根据安全乘法协议计算出样本数据集y中第q个特征数据的第r个分箱对应的二阶梯度和

的方法包括以下步骤，1≤r ≤N：

将M个二阶梯度比特切片数据F(1)、F(2)…F(M)分别与第r个分箱的分箱信息比特切片数据E_q(r)按照安全协议计算得到对应的二进制值

，

训练发起方计算二阶梯度和

，

，

其中，

表示第j个二阶梯度比特切片数据F(j) 与第r个分箱的分箱信息比特切片数据E_q(r)按照安全协议计算得到对应的二进制值，1≤j≤M，

表示统计二进制数

中1的个数；

将二阶梯度比特切片数据F(j) 与第r个分箱的分箱信息比特切片数据E_q(r)按照安全协议计算得到对应的二进制值

的方法包括以下步骤：

训练发起方将比特切片数据F(j)分享为两个分片，

，

将

发送给训练参与方，其中，

表示F(j)的第0个分片的二进制表示，

表示F(j)的第1个分片的二进制表示，

训练参与方将比特切片数据E_q(r) 分享为两个分片，

，

其中，

表示 E_q(r)的第0个分片的二进制表示，

表示E_q(r)的第1 个分片的二进制表示，

训练参与方计算出

，将W(r)、

发送给训练发起方，

训练发起方计算出

。

作为优选，所述模型参数包括联邦梯度提升决策树的深度、联邦梯度提升决策树的棵数、大梯度样本采样率、小梯度样本采样率、树列采样率、树行采样率、学习率、最大叶子数量、分裂后最少节点样本数量、分裂的最小收益、分箱数量、L2正则、L1正则、终止阈值、建模方式。

本发明的有益效果是：在训练发起方、训练参与方相互数据不出库的情况下完成训练，整个过程无需第三方参与，保护了数据安全，使用比特切片方法存储特征数据对应的分箱信息以及样本数据集x对应的一阶梯度、二阶梯度，降低存储空间，压缩搜索最优分裂点的时间，在保证训练精度的同时大幅压缩通信量。

附图说明

图1是实施例的流程图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：本实施例的一种无第三方的联邦梯度提升决策树模型训练方法，用于银行和运营商之间联合风控建模，如图1所示，包括以下步骤：

S1：训练发起方、训练参与方同步初始化各自联邦梯度提升决策树模型的模型参数；模型参数包括联邦梯度提升决策树的深度、联邦梯度提升决策树的棵数、大梯度样本采样率、小梯度样本采样率、树列采样率、树行采样率、学习率、最大叶子数量、分裂后最少节点样本数量、分裂的最小收益、分箱数量、L2正则、L1正则、终止阈值、建模方式；

S2：训练发起方从自身数据库中采样d个样本数据集x，每个样本数据集x具有唯一对应的ID，将d个样本数据集x依次编号为1，2……d，所述样本数据集x包含n个特征数据，这n个特征数据依次标记为x₁、x₂……x_n，则编号为i的样本数据集x(i)的结构为x(i)=｛x₁(i)、x₂(i)、……x_n(i)｝，1≤i≤d，训练发起方将d个样本数据集x对应的ID及编号发送给训练参与方；

训练参与方从自身数据库中采样接收到的d个ID对应的样本数据集y，每个样本数据集y具有唯一对应的ID，每个样本数据集y对应的编号与同样ID的样本数据集x对应的编号一样，所述样本数据集y包含m个特征数据，这m个特征数据依次标记为y₁、y₂……y_m，则编号为i的样本数据集y(i)的结构为y(i)=｛y₁(i)、y₂(i)、……y_m(i)｝；

，

，

表示Y_q(i)的第r位，如果特征数据y_q(i)属于第r个分箱，则Y_q(i)的第r位为1，其余位都为0；

，

将矩阵D_p1转置得到矩阵D_p2：

，

，1≤r≤N；

，

将矩阵E_q1转置得到矩阵E_q2：

，

；

S5：训练发起方计算出每个样本数据集x对应的一阶梯度、二阶梯度，计算编号为i的样本数据集x(i)对应的一阶梯度g_x(i)、二阶梯度h_x(i)的公式如下：

，

，

其中，

表示样本数据集x(i)对应的真实值，

表示样本数据集x(i)对应的预测值；

一阶梯度g_x(i)的二进制表示为

，

二阶梯度h_x(i)的二进制表示为

，

其中，

表示一阶梯度g_x(i)的第j位，

表示二阶梯度h_x(i)的第j位，M为设定的常数，1≤j≤M；

将每个样本数据集x对应的一阶梯度拼接成矩阵C1：

，

将矩阵C1转置得到矩阵：

，

；

将每个样本数据集x对应的二阶梯度拼接成矩阵F1：

，

将矩阵F1转置得到矩阵F2：

，

；

训练发起方、训练参与方根据安全乘法协议计算出样本数据集y中第q个特征数据的第r个分箱对应的一阶梯度和

的方法包括以下步骤，1≤r≤N：

，

训练发起方计算一阶梯度和

，

，

其中，

表示统计二进制数

中1的个数；

的方法包括以下步骤：

训练发起方将比特切片数据C(j)分享为两个分片，

，

将

发送给训练参与方，其中，

表示C(j)的第0个分片的二进制表示，

表示C(j)的第1个分片的二进制表示，

训练参与方将分箱信息比特切片数据E_q(r) 分享为两个分片，

，

其中，

表示 E_q(r)的第0个分片的二进制表示，

表示E_q(r)的第1 个分片的二进制表示，

训练参与方计算出

，将K(r)、

发送给训练发起方，

训练发起方计算出

；

训练发起方、训练参与方根据安全乘法协议计算出样本数据集y中第q个特征数据的第r个分箱对应的二阶梯度和

的方法包括以下步骤，1≤r≤N：

，

训练发起方计算二阶梯度和

，

，

其中，

表示统计二进制数

中1的个数；

的方法包括以下步骤：

训练发起方将比特切片数据F(j)分享为两个分片，

，

将

发送给训练参与方，其中，

表示F(j)的第0个分片的二进制表示，

表示F(j)的第1个分片的二进制表示，

训练参与方将比特切片数据E_q(r) 分享为两个分片，

，

其中，

表示 E_q(r)的第0个分片的二进制表示，

表示E_q(r)的第1 个分片的二进制表示，

训练参与方计算出

，将W(r)、

发送给训练发起方，

训练发起方计算出

。

S8：训练发起方将分裂信息、树分裂终止信号发送给训练参与方，训练发起方重新计算每个样本数据集x对应的预测值；

在本方案中，训练发起方、训练参与方都先初始化自身的联邦梯度提升决策树模型。接着，训练发起方从自身数据库中采样d个样本数据集x，每个样本数据集x具有唯一对应的ID，将d个样本数据集x依次编号为1，2……d，训练发起方将d个样本数据集x对应的ID及编号发送给训练参与方，训练参与方根据接收到的d个ID从自身数据库中找到对应的样本数据集y，每个样本数据集y对应的编号与同样ID的样本数据集x对应的编号一样，例如：训练发起方采样了3个样本数据集x，其ID分别为001、002、003，ID为001的样本数据集x对应的编号为1，ID为002的样本数据集x对应的编号为2，ID为003的样本数据集x对应的编号为3，训练参与方采样了3个样本数据集y，其ID也分别为001、002、003，ID为001的样本数据集y对应的编号为1，ID为002的样本数据集y对应的编号为2，ID为003的样本数据集y对应的编号为3。

然后，训练发起方采用现有明文联邦梯度提升决策树模型计算方法计算出样本数据集x中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和，训练发起方、训练参与方根据安全乘法协议计算出样本数据集y中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和，训练发起方、训练参与方无法获得对方的数据，保护了双方的数据安全，整个过程无第三方参与。

步骤S6中将比特切片数据C(j) 与比特切片数据E_q(r)按照安全协议计算得到对应的值

的过程中，

由于训练发起方将比特切片数据C(j)分享为两个分片，只将

发送给训练发起方，将

与

步骤S3中根据d个样本数据集x的第p个特征数据中的最大值A_p、最小值B_p以及分箱数量N计算出每个分箱的区间边界的方法包括以下步骤：

每个分箱的区间的长度为 W=(A_p−B_p)/N，则第1个分箱的区间边界为（B_p、B_p+W），第2个分箱的区间边界为（B_p+W+1、B_p +2W）……，第N-1个分箱的区间边界为（B_p+(N-2)W+1、B_p+(N-1)W），第N个分箱的区间边界为（B_p +(N-1)W+1、A_p）。N为常数。

步骤S7中训练发起方按照明文xgboost计算gain的公式依据样本数据集x中每个特征数据对应的一阶梯度和、二阶梯度和计算对应分箱的score，依据样本数据集y中每个特征数据对应的一阶梯度和、二阶梯度和计算对应分箱的score，并计算相应叶子节点权重，搜索最优分裂点方法同现有明文联邦梯度提升决策树模型计算方法一致，第一个节点就是根节点，不用分裂，从第二个节点开始选取最大的score进行分裂。

举例说明：

训练发起方采样的3个样本数据集x，如下：

ID为1001的样本数据集x，编号为1，特征数据x1分箱信息为01；

ID为1002的样本数据集x，编号为2，特征数据x1分箱信息为01；

ID为1003的样本数据集x，编号为3，特征数据x1分箱信息为10；

训练参与方采样3个样本数据集y，如下：

ID为1001的样本数据集y，编号为1，特征数据y1分箱信息为10；

ID为1002的样本数据集y，编号为2，特征数据y1分箱信息为10；

ID为1003的样本数据集y，编号为3，特征数据y1分箱信息为01；

算出ID为1001的样本数据集x对应的真实值为11110100001001000000、预测值为00000000000000000000，则对应的梯度为11110100001001000000；

ID为1002的样本数据集x对应的真实值为00000000000000000000、预测值为00000000000000000000，则对应的梯度为00000000000000000000；

ID为1002的样本数据集x对应的真实值为00000000000000000000、预测值为00000000000000000000，则对应的梯度为00000000000000000000。

训练发起方对样本数据集x的特征数据x₁的所有分箱信息进行比特切片存储，先算出矩阵D_p2：

，得到特征数据x₁的第1个分箱信息比特切片数据110、第2个分箱信息比特切片数据001。

训练参与方对样本数据集y的特征数据y₁的所有分箱信息进行比特切片存储，先算出矩阵E_q2：

，得到特征数据y₁的第1个分箱信息比特切片数据001、第2个分箱信息比特切片数据110。

训练发起方将计算出的所有一阶梯度进行比特切片存储，先算出矩阵C2：

，

矩阵C2每一行组成一个比特切片数据。

将矩阵C2每一行组成的比特切片数据与特征数据y₁的第1个分箱信息比特切片数据001按照安全乘法协议计算得到特征数据y₁的第1个分箱对应的一阶梯度和为0，将矩阵C2每一行组成的比特切片数据与特征数据y₁的第2个分箱信息比特切片数据110按照安全乘法协议计算得到特征数据y₁的第2个分箱对应的一阶梯度和为2¹⁹+2¹⁸+2¹⁷+2¹⁶+2¹⁴+2⁹+2⁶。同理，可算出特征数据y₁的第1个分箱对应的二阶梯度和、第2个分箱对应的二阶梯度和。

矩阵C2第7行组成的第7个一阶梯度比特切片数据100与第2个分箱信息比特切片数据110按照安全乘法协议计算得到对应的二进制值，然后统计1的个数的方法如下：

训练发起方的比特切片数据100可以分片为100 = 011 XOR 111，训练发起方把分片111发给训练参与方，训练参与方的分箱信息比特切片数据110可以分片为110 = 001XOR 111，训练参与方将分片001发给训练发起方，训练参与方计算001 XOR 111 = 110，将110发给训练发起方，训练发起方计算011 XOR 001 XOR 110 = 100，之后统计100中1的个数得到1。

本例训练发起方、训练参与方只采样了3个样本，一般实际操作中，训练发起方、训练参与方需要采样几千甚至几万的样本，此时会大大降低存储空间，压缩搜索最优分裂点的时间，在保证训练精度的同时大幅压缩通信量。

Claims

1.一种无第三方的联邦梯度提升决策树模型训练方法，用于银行和运营商之间联合风控建模，其特征在于，包括以下步骤：

S9：重复执行步骤S2至步骤S8，直到达到初始化的建树棵数或损失函数的变化值小于终止阈值；

所述步骤S2包括以下步骤：

所述步骤S3包括以下步骤：

根据d个样本数据集x的第p个特征数据中的最大值A_p、最小值B_p以及分箱数量N计算出每个分箱的区间边界，N个分箱依次编号为1，2……N，设定特征数据x_p(i)对应的分箱信息X_p (i)为N位的二进制数，

，

表示X_p(i)的第r 位，1≤r≤N，如果特征数据x_p(i)属于第r个分箱，则X_p(i)的第r位为1，其余位都为0；

根据d个样本数据集y的第q个特征数据中的最大值A_q、最小值B_q以及分箱数量N计算出每个分箱的区间边界，N个分箱依次编号为1，2……N，设定特征数据y_q(i)对应的分箱信息Y_q (i)为N位的二进制数，

，

所述步骤S4包括以下步骤：

，

将矩阵D_p1转置得到矩阵D_p2：

，

矩阵D_p2的每一行组成一个比特切片数据，得到N个分箱信息比特切片数据D_p(1)、D_p(2)…D_p(N)，并进行存储，矩阵D_p2的第r行组成的第r个分箱的分箱信息比特切片数据

，1≤r≤N；

，

将矩阵E_q1转置得到矩阵E_q2：

，

矩阵E_q2的每一行组成一个比特切片数据，得到N个分箱信息比特切片数据E_q (1)、E_q(2)…E_q(N)，并进行存储，矩阵E_q2的第r行组成的第r个分箱的分箱信息比特切片数据

。

2.根据权利要求1所述的一种无第三方的联邦梯度提升决策树模型训练方法，其特征在于，所述步骤S5包括以下步骤：

，

，

其中，

表示样本数据集x(i)对应的真实值，

表示样本数据集x(i)对应的预测值；

一阶梯度g_x(i)的二进制表示为

，

二阶梯度h_x(i)的二进制表示为

，

其中，

表示一阶梯度g_x(i)的第j位，

表示二阶梯度h_x(i)的第j位，M为设定的常数，1≤j≤M；

将每个样本数据集x对应的一阶梯度拼接成矩阵C1：

，

将矩阵C1转置得到矩阵：

，

矩阵C2的每一行组成一个比特切片数据，得到M个一阶梯度比特切片数据C(1)、C(2)…C(M)，并进行存储，矩阵C2的第j行组成的第j个一阶梯度比特切片数据

；

将每个样本数据集x对应的二阶梯度拼接成矩阵F1：

，

将矩阵F1转置得到矩阵F2：

，

矩阵F2的每一行组成一个比特切片数据，得到M个二阶梯度比特切片数据F (1)、F(2)…F(M)，并进行存储，矩阵F2的第j行组成的第j个二阶梯度比特切片数据

。

3.根据权利要求2所述的一种无第三方的联邦梯度提升决策树模型训练方法，其特征在于，所述步骤S6中训练发起方、训练参与方根据安全乘法协议计算出样本数据集y中第q个特征数据的第r个分箱对应的一阶梯度和

的方法包括以下步骤，1≤r≤N：

，

训练发起方计算一阶梯度和

，

，

其中，

表示统计二进制数

中1的个数；

的方法包括以下步骤：

训练发起方将比特切片数据C(j)分享为两个分片，

，

将

发送给训练参与方，其中，

表示C(j)的第0个分片的二进制表示，

表示C(j)的第1个分片的二进制表示，

训练参与方将分箱信息比特切片数据E_q(r) 分享为两个分片，

，

其中，

表示 E_q(r)的第0个分片的二进制表示，

表示E_q(r)的第1个分片的二进制表示，

训练参与方计算出

，将K(r)、

发送给训练发起方，

训练发起方计算出

。

4.根据权利要求2所述的一种无第三方的联邦梯度提升决策树模型训练方法，其特征在于，所述步骤S6中训练发起方、训练参与方根据安全乘法协议计算出样本数据集y中第q个特征数据的第r个分箱对应的二阶梯度和

的方法包括以下步骤，1≤r≤N：

，

训练发起方计算二阶梯度和

，

，

其中，

表示统计二进制数

中1的个数；

的方法包括以下步骤：

训练发起方将比特切片数据F(j)分享为两个分片，

，

将

发送给训练参与方，其中，

表示F(j)的第0个分片的二进制表示，

表示F(j)的第1个分片的二进制表示，

训练参与方将比特切片数据E_q(r) 分享为两个分片，

，

其中，

表示 E_q(r)的第0个分片的二进制表示，

表示E_q(r)的第1个分片的二进制表示，

训练参与方计算出

，将W(r)、

发送给训练发起方，

训练发起方计算出

。

5.根据权利要求1或2或3或4所述的一种无第三方的联邦梯度提升决策树模型训练方法，其特征在于，所述模型参数包括联邦梯度提升决策树的深度、联邦梯度提升决策树的棵数、大梯度样本采样率、小梯度样本采样率、树列采样率、树行采样率、学习率、最大叶子数量、分裂后最少节点样本数量、分裂的最小收益、分箱数量、L2正则、L1正则、终止阈值、建模方式。