CN114091624A - 一种无第三方的联邦梯度提升决策树模型训练方法 - Google Patents

一种无第三方的联邦梯度提升决策树模型训练方法 Download PDF

Info

Publication number
CN114091624A
CN114091624A CN202210052120.0A CN202210052120A CN114091624A CN 114091624 A CN114091624 A CN 114091624A CN 202210052120 A CN202210052120 A CN 202210052120A CN 114091624 A CN114091624 A CN 114091624A
Authority
CN
China
Prior art keywords
training
sample data
data set
data
initiator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210052120.0A
Other languages
English (en)
Other versions
CN114091624B (zh
Inventor
郭梁
徐时峰
刘洋
裴阳
毛仁歆
宋鎏屹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lanxiang Zhilian Hangzhou Technology Co ltd
Original Assignee
Lanxiang Zhilian Hangzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lanxiang Zhilian Hangzhou Technology Co ltd filed Critical Lanxiang Zhilian Hangzhou Technology Co ltd
Priority to CN202210052120.0A priority Critical patent/CN114091624B/zh
Publication of CN114091624A publication Critical patent/CN114091624A/zh
Application granted granted Critical
Publication of CN114091624B publication Critical patent/CN114091624B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种无第三方的联邦梯度提升决策树模型训练方法。它包括以下步骤:训练发起方、训练参与方同步初始化;训练发起方、训练参与方同步采样d个样本数据集;训练发起方、训练参与方对各自样本数据集中的每个特征数据进行分箱、记录分箱信息并进行比特切片存储;训练发起方计算出自身每个样本数据集的每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和,训练发起方、训练参与方根据安全乘法协议计算出训练参与方的样本数据集中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和;训练发起方搜索最优分裂点,将结果同步给训练参与方;重复上述步骤,直到达到终止条件。本发明保护了数据安全,降低存储空间,大幅压缩通信量。

Description

一种无第三方的联邦梯度提升决策树模型训练方法
技术领域
本发明涉及梯度提升决策树模型训练技术领域,尤其涉及一种无第三方的联邦梯度提升决策树模型训练方法。
背景技术
联邦梯度提升决策树模型既可以解决分类问题又可以处理回归问题,还具备较好的可解释能力,因而在联邦学习领域特别是银行风控领域得到广泛应用。联邦梯度提升决策树模型是一类实用性很强的树模型,在联邦梯度提升决策树模型中,各个参与方基于本地数据计算决策树的一阶导数和二阶导数,根据切分增益决定最佳特征和切分点,这一过程中需要对不同参与方的一阶导数和二阶导数做加法,可以使用加性同态加密保护各个参与方的数据隐私在树模型构建过程中不泄露给其他参与方。
目前联邦梯度提升决策树模型是银行和运营商之间联合风控建模的主要方法之一,联邦梯度提升决策树模型建模具有精度高,可解释性强的特点,但是这种方式目前有以下几个缺点:
1、目前工业界联邦梯度提升决策树模型以半同态加密为主,计算开销极大。工信部直属信通院隐私计算第一批性能评测数据表明,工业界900个特征40万样本的联邦树建模平均耗时为2小时23分47秒,难以满足工业界需求;
2、有第三方辅助参与训练,进行模型参数分发同步,而实际商业落地较难找到可信的第三方,存在数据泄露风险;
3、现有的特征值存储效率低下,900个特征40万样本的数据集需占用3.9G空间。如果联邦梯度提升决策树模型训练的中间结果保存在本地磁盘,一次联邦梯度提升决策树模型训练就需耗费10G以上的空间。
发明内容
本发明为了解决上述技术问题,提供了一种无第三方的联邦梯度提升决策树模型训练方法,其在训练发起方、训练参与方相互数据不出库的情况下完成训练,整个过程无需第三方参与,保护了数据安全,使用比特切片方法存储特征数据对应的分箱信息以及样本数据集x对应的一阶梯度、二阶梯度,降低存储空间,压缩搜索最优分裂点的时间,在保证训练精度的同时大幅压缩通信量。
为了解决上述问题,本发明采用以下技术方案予以实现:
本发明的一种无第三方的联邦梯度提升决策树模型训练方法,用于银行和运营商之间联合风控建模,包括以下步骤:
S1:训练发起方、训练参与方同步初始化各自联邦梯度提升决策树模型的模型参数;
S2:训练发起方从自身数据库中采样d个样本数据集x,每个样本数据集X具有唯一对应的ID,所述样本数据集x包含n个特征数据,训练参与方从自身数据库中同步采样与训练发起方采样的d个样本数据集x具有同样ID的d个样本数据集y,每个样本数据集y具有唯一对应的ID,所述样本数据集y包含m个特征数据;
S3:训练发起方对每个样本数据集x中的每个特征数据进行分箱并记录对应的分箱信息,训练参与方对每个样本数据集y中的每个特征数据进行分箱并记录对应的分箱信息,每个特征数据的分箱数量都为N;
S4:训练发起方对样本数据集x的每个特征数据对应的所有分箱信息进行比特切片存储,训练参与方对样本数据集y的每个特征数据对应的所有分箱信息进行比特切片存储;
S5:训练发起方计算出每个样本数据集x对应的一阶梯度、二阶梯度,将计算出的所有一阶梯度进行比特切片存储,将计算出的所有二阶梯度进行比特切片存储;
S6:训练发起方计算样本数据集x中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和,训练发起方、训练参与方根据安全乘法协议计算出样本数据集y中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和;
S7:训练发起方根据计算出的样本数据集x中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和以及样本数据集y中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和,搜索最优分裂点;
S8:训练发起方将分裂信息、树分裂终止信号发送给训练参与方;
S9:重复执行步骤S2至步骤S8,直到达到初始化的建树棵树或损失函数的变化值小于终止阈值。
在本方案中,训练发起方、训练参与方都先初始化自身的联邦梯度提升决策树模型。接着,训练发起方、训练参与方各自从自身数据库同步采样d个样本数据集,训练发起方采样的d个样本数据集与训练参与方采样的d个样本数据集具有一样的ID,例如:训练发起方采样了3个样本数据集x,其ID分别为001、002、003,训练参与方采样了3个样本数据集y,其ID也分别为001、002、003。
之后,训练发起方、训练参与方各自将采样的样本数据集中的每个特征数据进行分箱并记录对应的分箱信息,对每个特征数据对应的所有分箱信息进行比特切片存储,训练发起方将计算出的所有一阶梯度、二阶梯度进行比特切片存储,这样可以降低存储空间、压缩搜索最优分裂点的时间、压缩通信量,在900个特征40万样本的联邦梯度提升决策树建模时可以降低50%存储空间占用,压缩三分之二以上的通信量。
然后,训练发起方采用现有明文联邦梯度提升决策树模型计算方法计算出样本数据集x中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和,训练发起方、训练参与方根据安全乘法协议计算出样本数据集y中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和。
最后,训练发起方采用现有明文联邦梯度提升决策树模型计算方法利用样本数据集x中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和以及样本数据集y中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和搜索最优分裂点,搜索完成后,训练发起方将分裂信息、树分裂终止信号发送给训练参与方,训练参与方更新自身的联邦梯度提升决策树模型,重复执行步骤S2至步骤S8,直到达到初始化的建树棵树或损失函数的变化值小于终止阈值,此时,训练发起方、训练参与方完成联邦梯度提升决策树模型的训练。
作为优选,所述步骤S2包括以下步骤:
训练发起方从自身数据库中采样d个样本数据集x,每个样本数据集x具有唯一对应的ID,将d个样本数据集x依次编号为1,2……d,所述样本数据集x包含n个特征数据,这n个特征数据依次标记为x1、x2……xn,则编号为i的样本数据集x(i)的结构为x(i)={x1(i)、x2(i)、……xn(i)},1≤i≤d,训练发起方将d个样本数据集x对应的ID及编号发送给训练参与方;
训练参与方从自身数据库中采样接收到的d个ID对应的样本数据集y,每个样本数据集y具有唯一对应的ID,每个样本数据集y对应的编号与同样ID的样本数据集x对应的编号一样,所述样本数据集y包含m个特征数据,这m个特征数据依次标记为y1、y2……ym,则编号为i的样本数据集y(i)的结构为y(i)={y1(i)、y2(i)、……ym(i)}。
作为优选,所述步骤S3包括以下步骤:
训练发起方对每个样本数据集x中的每个特征数据进行分箱并记录对应的分箱信息,训练参与方对每个样本数据集y中的每个特征数据进行分箱并记录对应的分箱信息,每个特征数据的分箱数量都为N;
对编号为i的样本数据集x(i)中的第p个特征数据xp(i)进行分箱并记录分箱信息的方法包括以下步骤,1≤p≤n:
根据d个样本数据集x的第p个特征数据中的最大值Ap、最小值Bp以及分箱数量N计 算出每个分箱的区间边界,N个分箱依次编号为1,2……N,设定特征数据xp(i)对应的分箱 信息Xp(i)为N位的二进制数,
Figure 731259DEST_PATH_IMAGE001
Figure 179557DEST_PATH_IMAGE002
表示Xp(i)的第r位,1≤r≤ N,如果特征数据xp(i)属于第r个分箱,则Xp(i)的第r位为1,其余位都为0;
对编号为i的样本数据集y(i)中的第q个特征数据yq(i)进行分箱并记录分箱信息的方法包括以下步骤,1≤q≤m:
根据d个样本数据集y的第q个特征数据中的最大值Aq、最小值Bq以及分箱数量N计 算出每个分箱的区间边界,N个分箱依次编号为1,2……N,设定特征数据yq(i)对应的分箱 信息Yq(i)为N位的二进制数,
Figure 618017DEST_PATH_IMAGE003
Figure 544384DEST_PATH_IMAGE004
表示Yq(i)的第r位,如果特 征数据yq(i)属于第r个分箱,则Yq(i)的第r位为1,其余位都为0。
根据d个样本数据集x的第p个特征数据中的最大值Ap、最小值Bp以及分箱数量N计算出每个分箱的区间边界的方法包括以下步骤:
每个分箱的区间的长度为 W=(Ap−Bp)/N,则第1个分箱的区间边界为(Bp、Bp+W),第2个分箱的区间边界为(Bp+W+1、Bp +2W)……,第N-1个分箱的区间边界为(Bp+(N-2)W+1、Bp+(N-1)W),第N个分箱的区间边界为(Bp +(N-1)W+1、Ap)。
作为优选,所述步骤S4包括以下步骤:
训练发起方对样本数据集x的每个特征数据对应的所有分箱信息进行比特切片存储,训练参与方对样本数据集y的每个特征数据对应的所有分箱信息进行比特切片存储;
训练发起方对样本数据集x的第p个特征数据对应的所有分箱信息进行比特切片存储的方法包括以下步骤:
将每个样本数据集x的第p个特征数据对应的分箱信息拼接成矩阵Dp1:
Figure 499702DEST_PATH_IMAGE005
将矩阵Dp1转置得到矩阵Dp2:
Figure 853323DEST_PATH_IMAGE006
矩阵Dp2的每一行组成一个比特切片数据,得到N个分箱信息比特切片数据Dp(1)、 Dp(2)…Dp(N),并进行存储,矩阵Dp2的第r行组成的第r个分箱的分箱信息比特切片数据
Figure 41728DEST_PATH_IMAGE007
,1≤r≤N;
训练参与方对样本数据集y的第q个特征数据对应的所有分箱信息进行比特切片存储的方法包括以下步骤:
将每个样本数据集y的第q个特征数据对应的分箱信息拼接成矩阵Eq1:
Figure 771786DEST_PATH_IMAGE008
将矩阵Eq1转置得到矩阵Eq2:
Figure 581610DEST_PATH_IMAGE009
矩阵Eq2的每一行组成一个比特切片数据,得到N个分箱信息比特切片数据Eq (1)、 Eq(2)…Eq(N),并进行存储,矩阵Eq2的第r行组成的第r个分箱的分箱信息比特切片数据
Figure 106133DEST_PATH_IMAGE010
作为优选,所述步骤S5包括以下步骤:
训练发起方计算出每个样本数据集x对应的一阶梯度、二阶梯度,计算编号为i的样本数据集x(i)对应的一阶梯度gx(i)、二阶梯度hx(i)的公式如下:
Figure 516254DEST_PATH_IMAGE011
Figure 784425DEST_PATH_IMAGE012
其中,
Figure 979914DEST_PATH_IMAGE013
表示样本数据集x(i)对应的真实值,
Figure 675337DEST_PATH_IMAGE014
表示样本数据集x(i)对应 的预测值;
训练发起方将计算出的所有一阶梯度进行比特切片存储,将计算出的所有二阶梯度进行比特切片存储,包括以下步骤:
一阶梯度gx(i)的二进制表示为
Figure 838334DEST_PATH_IMAGE015
二阶梯度hx(i)的二进制表示为
Figure 644616DEST_PATH_IMAGE016
其中,
Figure 694612DEST_PATH_IMAGE017
表示一阶梯度gx(i)的第j位,
Figure 560937DEST_PATH_IMAGE018
表示二阶梯度hx(i)的第j位,M为设定 的常数,1≤j≤M;
将每个样本数据集x对应的一阶梯度拼接成矩阵C1:
Figure 942721DEST_PATH_IMAGE019
将矩阵C1转置得到矩阵:
Figure 552694DEST_PATH_IMAGE020
矩阵C2的每一行组成一个比特切片数据,得到M个一阶梯度比特切片数据C(1)、C (2)…C(M),并进行存储,矩阵C2的第j行组成的第j个一阶梯度比特切片数据
Figure 457196DEST_PATH_IMAGE021
将每个样本数据集x对应的二阶梯度拼接成矩阵F1:
Figure 760001DEST_PATH_IMAGE022
将矩阵F1转置得到矩阵F2:
Figure 366432DEST_PATH_IMAGE023
矩阵F2的每一行组成一个比特切片数据,得到M个二阶梯度比特切片数据F (1)、F (2)…F(M),并进行存储,矩阵F2的第j行组成的第j个二阶梯度比特切片数据
Figure 780096DEST_PATH_IMAGE024
作为优选,所述步骤S6中训练发起方、训练参与方根据安全乘法协议计算出样本 数据集y中第q个特征数据的第r个分箱对应的一阶梯度和
Figure 539104DEST_PATH_IMAGE025
的方法包括以下步骤,1≤r≤ N:
将M个一阶梯度比特切片数据C(1)、C(2)…C(M)分别与第r个分箱的分箱信息比特 切片数据Eq(r)按照安全协议计算得到对应的二进制值
Figure 12811DEST_PATH_IMAGE026
训练发起方计算一阶梯度和
Figure 106538DEST_PATH_IMAGE025
Figure 58313DEST_PATH_IMAGE027
其中,
Figure 937407DEST_PATH_IMAGE028
表示第j个一阶梯度比特切片数据C(j) 与第r个分箱的分箱信息比特 切片数据Eq(r)按照安全协议计算得到对应的二进制值,1≤j≤M,
Figure 582015DEST_PATH_IMAGE029
表 示统计二进制数
Figure 163038DEST_PATH_IMAGE030
中1的个数;
将一阶梯度比特切片数据C(j) 与第r个分箱的分箱信息比特切片数据Eq(r)按照 安全协议计算得到对应的二进制值
Figure 918505DEST_PATH_IMAGE031
的方法包括以下步骤:
训练发起方将比特切片数据C(j)分享为两个分片,
Figure 386526DEST_PATH_IMAGE032
Figure 202036DEST_PATH_IMAGE033
发送给训练参与方,其中,
Figure 273284DEST_PATH_IMAGE034
表示C(j)的第0个分片的二进制表示,
Figure 832442DEST_PATH_IMAGE035
表示C(j)的第1个分片的二进制表示,
训练参与方将分箱信息比特切片数据Eq(r) 分享为两个分片,
Figure 420549DEST_PATH_IMAGE036
其中,
Figure 141380DEST_PATH_IMAGE037
表示 Eq(r)的第0个分片的二进制表示,
Figure 696995DEST_PATH_IMAGE038
表示Eq(r)的第1个 分片的二进制表示,
训练参与方计算出
Figure 794264DEST_PATH_IMAGE039
,将K(r)、
Figure 502457DEST_PATH_IMAGE040
发送给训练发起方,
训练发起方计算出
Figure 394190DEST_PATH_IMAGE041
由于训练发起方将比特切片数据C(j)分享为两个分片,只将
Figure 437101DEST_PATH_IMAGE033
发送给训练参 与方,所以训练参与方无法获得训练发起方的数据,训练参与方只将
Figure 338061DEST_PATH_IMAGE040
发送给训练发 起方,将
Figure 635181DEST_PATH_IMAGE038
Figure 963395DEST_PATH_IMAGE035
的异或操作在本地计算后再发送给训练参与方,这样训练参与方 也无法获得训练发起方的数据,保护了双方的数据安全,整个过程无第三方参与。
作为优选,所述步骤S6中训练发起方、训练参与方根据安全乘法协议计算出样本 数据集y中第q个特征数据的第r个分箱对应的二阶梯度和
Figure 228023DEST_PATH_IMAGE042
的方法包括以下步骤,1≤r≤ N:
将M个二阶梯度比特切片数据F(1)、F(2)…F(M)分别与第r个分箱的分箱信息比特 切片数据Eq(r)按照安全协议计算得到对应的二进制值
Figure 932673DEST_PATH_IMAGE043
训练发起方计算二阶梯度和
Figure 349879DEST_PATH_IMAGE042
Figure 848994DEST_PATH_IMAGE044
其中,
Figure 597988DEST_PATH_IMAGE045
表示第j个二阶梯度比特切片数据F(j) 与第r个分箱的分箱信息比特 切片数据Eq(r)按照安全协议计算得到对应的二进制值,1≤j≤M,
Figure 840751DEST_PATH_IMAGE046
表 示统计二进制数
Figure 112463DEST_PATH_IMAGE047
中1的个数;
将二阶梯度比特切片数据F(j) 与第r个分箱的分箱信息比特切片数据Eq(r)按照 安全协议计算得到对应的二进制值
Figure 782479DEST_PATH_IMAGE048
的方法包括以下步骤:
训练发起方将比特切片数据F(j)分享为两个分片,
Figure 21699DEST_PATH_IMAGE049
Figure 802574DEST_PATH_IMAGE050
发送给训练参与方,其中,
Figure 194372DEST_PATH_IMAGE051
表示F(j)的第0个分片的二进制表示,
Figure 35289DEST_PATH_IMAGE050
表示F(j)的第1个分片的二进制表示,
训练参与方将比特切片数据Eq(r) 分享为两个分片,
Figure 761805DEST_PATH_IMAGE036
其中,
Figure 346370DEST_PATH_IMAGE037
表示 Eq(r)的第0个分片的二进制表示,
Figure 592675DEST_PATH_IMAGE052
表示Eq(r)的第1个 分片的二进制表示,
训练参与方计算出
Figure 604493DEST_PATH_IMAGE053
,将W(r)、
Figure 552727DEST_PATH_IMAGE040
发送给训练发起 方,
训练发起方计算出
Figure 940983DEST_PATH_IMAGE054
作为优选,所述模型参数包括联邦梯度提升决策树的深度、联邦梯度提升决策树的棵数、大梯度样本采样率、小梯度样本采样率、树列采样率、树行采样率、学习率、最大叶子数量、分裂后最少节点样本数量、分裂的最小收益、分箱数量、L2正则、L1正则、终止阈值、建模方式。
本发明的有益效果是:在训练发起方、训练参与方相互数据不出库的情况下完成训练,整个过程无需第三方参与,保护了数据安全,使用比特切片方法存储特征数据对应的分箱信息以及样本数据集x对应的一阶梯度、二阶梯度,降低存储空间,压缩搜索最优分裂点的时间,在保证训练精度的同时大幅压缩通信量。
附图说明
图1是实施例的流程图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:本实施例的一种无第三方的联邦梯度提升决策树模型训练方法,用于银行和运营商之间联合风控建模,如图1所示,包括以下步骤:
S1:训练发起方、训练参与方同步初始化各自联邦梯度提升决策树模型的模型参数;模型参数包括联邦梯度提升决策树的深度、联邦梯度提升决策树的棵数、大梯度样本采样率、小梯度样本采样率、树列采样率、树行采样率、学习率、最大叶子数量、分裂后最少节点样本数量、分裂的最小收益、分箱数量、L2正则、L1正则、终止阈值、建模方式;
S2:训练发起方从自身数据库中采样d个样本数据集x,每个样本数据集x具有唯一对应的ID,将d个样本数据集x依次编号为1,2……d,所述样本数据集x包含n个特征数据,这n个特征数据依次标记为x1、x2……xn,则编号为i的样本数据集x(i)的结构为x(i)={x1(i)、x2(i)、……xn(i)},1≤i≤d,训练发起方将d个样本数据集x对应的ID及编号发送给训练参与方;
训练参与方从自身数据库中采样接收到的d个ID对应的样本数据集y,每个样本数据集y具有唯一对应的ID,每个样本数据集y对应的编号与同样ID的样本数据集x对应的编号一样,所述样本数据集y包含m个特征数据,这m个特征数据依次标记为y1、y2……ym,则编号为i的样本数据集y(i)的结构为y(i)={y1(i)、y2(i)、……ym(i)};
S3:训练发起方对每个样本数据集x中的每个特征数据进行分箱并记录对应的分箱信息,训练参与方对每个样本数据集y中的每个特征数据进行分箱并记录对应的分箱信息,每个特征数据的分箱数量都为N;
对编号为i的样本数据集x(i)中的第p个特征数据xp(i)进行分箱并记录分箱信息的方法包括以下步骤,1≤p≤n:
根据d个样本数据集x的第p个特征数据中的最大值Ap、最小值Bp以及分箱数量N计 算出每个分箱的区间边界,N个分箱依次编号为1,2……N,设定特征数据xp(i)对应的分箱 信息Xp(i)为N位的二进制数,
Figure 41794DEST_PATH_IMAGE001
Figure 427776DEST_PATH_IMAGE002
表示Xp(i)的第r位,1≤r≤ N,如果特征数据xp(i)属于第r个分箱,则Xp(i)的第r位为1,其余位都为0;
对编号为i的样本数据集y(i)中的第q个特征数据yq(i)进行分箱并记录分箱信息的方法包括以下步骤,1≤q≤m:
根据d个样本数据集y的第q个特征数据中的最大值Aq、最小值Bq以及分箱数量N计 算出每个分箱的区间边界,N个分箱依次编号为1,2……N,设定特征数据yq(i)对应的分箱 信息Yq(i)为N位的二进制数,
Figure 4251DEST_PATH_IMAGE055
Figure 854920DEST_PATH_IMAGE004
表示Yq(i)的第r位,如果特 征数据yq(i)属于第r个分箱,则Yq(i)的第r位为1,其余位都为0;
S4:训练发起方对样本数据集x的每个特征数据对应的所有分箱信息进行比特切片存储,训练参与方对样本数据集y的每个特征数据对应的所有分箱信息进行比特切片存储;
训练发起方对样本数据集x的第p个特征数据对应的所有分箱信息进行比特切片存储的方法包括以下步骤:
将每个样本数据集x的第p个特征数据对应的分箱信息拼接成矩阵Dp1:
Figure 138133DEST_PATH_IMAGE005
将矩阵Dp1转置得到矩阵Dp2:
Figure 632700DEST_PATH_IMAGE056
矩阵Dp2的每一行组成一个比特切片数据,得到N个分箱信息比特切片数据Dp(1)、 Dp(2)…Dp(N),并进行存储,矩阵Dp2的第r行组成的第r个分箱的分箱信息比特切片数据
Figure 430892DEST_PATH_IMAGE007
,1≤r≤N;
训练参与方对样本数据集y的第q个特征数据对应的所有分箱信息进行比特切片存储的方法包括以下步骤:
将每个样本数据集y的第q个特征数据对应的分箱信息拼接成矩阵Eq1:
Figure 285584DEST_PATH_IMAGE057
将矩阵Eq1转置得到矩阵Eq2:
Figure 220042DEST_PATH_IMAGE009
矩阵Eq2的每一行组成一个比特切片数据,得到N个分箱信息比特切片数据Eq (1)、 Eq(2)…Eq(N),并进行存储,矩阵Eq2的第r行组成的第r个分箱的分箱信息比特切片数据
Figure 885510DEST_PATH_IMAGE010
S5:训练发起方计算出每个样本数据集x对应的一阶梯度、二阶梯度,计算编号为i的样本数据集x(i)对应的一阶梯度gx(i)、二阶梯度hx(i)的公式如下:
Figure 170997DEST_PATH_IMAGE011
Figure 563802DEST_PATH_IMAGE012
其中,
Figure 883924DEST_PATH_IMAGE013
表示样本数据集x(i)对应的真实值,
Figure 720293DEST_PATH_IMAGE014
表示样本数据集x(i)对应 的预测值;
训练发起方将计算出的所有一阶梯度进行比特切片存储,将计算出的所有二阶梯度进行比特切片存储,包括以下步骤:
一阶梯度gx(i)的二进制表示为
Figure 227498DEST_PATH_IMAGE015
二阶梯度hx(i)的二进制表示为
Figure 423993DEST_PATH_IMAGE016
其中,
Figure 598623DEST_PATH_IMAGE017
表示一阶梯度gx(i)的第j位,
Figure 340314DEST_PATH_IMAGE018
表示二阶梯度hx(i)的第j位,M为设定 的常数,1≤j≤M;
将每个样本数据集x对应的一阶梯度拼接成矩阵C1:
Figure 334814DEST_PATH_IMAGE019
将矩阵C1转置得到矩阵:
Figure 89929DEST_PATH_IMAGE020
矩阵C2的每一行组成一个比特切片数据,得到M个一阶梯度比特切片数据C(1)、C (2)…C(M),并进行存储,矩阵C2的第j行组成的第j个一阶梯度比特切片数据
Figure 119065DEST_PATH_IMAGE021
将每个样本数据集x对应的二阶梯度拼接成矩阵F1:
Figure 31657DEST_PATH_IMAGE022
将矩阵F1转置得到矩阵F2:
Figure 779033DEST_PATH_IMAGE023
矩阵F2的每一行组成一个比特切片数据,得到M个二阶梯度比特切片数据F (1)、F (2)…F(M),并进行存储,矩阵F2的第j行组成的第j个二阶梯度比特切片数据
Figure 317331DEST_PATH_IMAGE024
S6:训练发起方计算样本数据集x中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和,训练发起方、训练参与方根据安全乘法协议计算出样本数据集y中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和;
训练发起方、训练参与方根据安全乘法协议计算出样本数据集y中第q个特征数据 的第r个分箱对应的一阶梯度和
Figure 200973DEST_PATH_IMAGE025
的方法包括以下步骤,1≤r≤N:
将M个一阶梯度比特切片数据C(1)、C(2)…C(M)分别与第r个分箱的分箱信息比特 切片数据Eq(r)按照安全协议计算得到对应的二进制值
Figure 550046DEST_PATH_IMAGE026
训练发起方计算一阶梯度和
Figure 519139DEST_PATH_IMAGE025
Figure 595548DEST_PATH_IMAGE058
其中,
Figure 599276DEST_PATH_IMAGE028
表示第j个一阶梯度比特切片数据C(j) 与第r个分箱的分箱信息比特 切片数据Eq(r)按照安全协议计算得到对应的二进制值,1≤j≤M,
Figure 853671DEST_PATH_IMAGE029
表 示统计二进制数
Figure 310061DEST_PATH_IMAGE030
中1的个数;
将一阶梯度比特切片数据C(j) 与第r个分箱的分箱信息比特切片数据Eq(r)按照 安全协议计算得到对应的二进制值
Figure 455740DEST_PATH_IMAGE059
的方法包括以下步骤:
训练发起方将比特切片数据C(j)分享为两个分片,
Figure 313975DEST_PATH_IMAGE060
Figure 4850DEST_PATH_IMAGE033
发送给训练参与方,其中,
Figure 948535DEST_PATH_IMAGE034
表示C(j)的第0个分片的二进制表示,
Figure 369677DEST_PATH_IMAGE035
表示C(j)的第1个分片的二进制表示,
训练参与方将分箱信息比特切片数据Eq(r) 分享为两个分片,
Figure 82418DEST_PATH_IMAGE036
其中,
Figure 944195DEST_PATH_IMAGE037
表示 Eq(r)的第0个分片的二进制表示,
Figure 375176DEST_PATH_IMAGE038
表示Eq(r)的第1个 分片的二进制表示,
训练参与方计算出
Figure 597079DEST_PATH_IMAGE039
,将K(r)、
Figure 164326DEST_PATH_IMAGE040
发送给训练发起方,
训练发起方计算出
Figure 931425DEST_PATH_IMAGE041
训练发起方、训练参与方根据安全乘法协议计算出样本数据集y中第q个特征数据 的第r个分箱对应的二阶梯度和
Figure 849703DEST_PATH_IMAGE042
的方法包括以下步骤,1≤r≤N:
将M个二阶梯度比特切片数据F(1)、F(2)…F(M)分别与第r个分箱的分箱信息比特 切片数据Eq(r)按照安全协议计算得到对应的二进制值
Figure 609717DEST_PATH_IMAGE043
训练发起方计算二阶梯度和
Figure 562630DEST_PATH_IMAGE042
Figure 766209DEST_PATH_IMAGE044
其中,
Figure 906203DEST_PATH_IMAGE045
表示第j个二阶梯度比特切片数据F(j) 与第r个分箱的分箱信息比特 切片数据Eq(r)按照安全协议计算得到对应的二进制值,1≤j≤M,
Figure 735488DEST_PATH_IMAGE046
表 示统计二进制数
Figure 277328DEST_PATH_IMAGE047
中1的个数;
将二阶梯度比特切片数据F(j) 与第r个分箱的分箱信息比特切片数据Eq(r)按照 安全协议计算得到对应的二进制值
Figure 979704DEST_PATH_IMAGE048
的方法包括以下步骤:
训练发起方将比特切片数据F(j)分享为两个分片,
Figure 482361DEST_PATH_IMAGE049
Figure 459544DEST_PATH_IMAGE050
发送给训练参与方,其中,
Figure 243174DEST_PATH_IMAGE051
表示F(j)的第0个分片的二进制表示,
Figure 913190DEST_PATH_IMAGE050
表示F(j)的第1个分片的二进制表示,
训练参与方将比特切片数据Eq(r) 分享为两个分片,
Figure 903143DEST_PATH_IMAGE061
其中,
Figure 684017DEST_PATH_IMAGE037
表示 Eq(r)的第0个分片的二进制表示,
Figure 325082DEST_PATH_IMAGE038
表示Eq(r)的第1个 分片的二进制表示,
训练参与方计算出
Figure 166000DEST_PATH_IMAGE053
,将W(r)、
Figure 643248DEST_PATH_IMAGE040
发送给训练发起 方,
训练发起方计算出
Figure 227813DEST_PATH_IMAGE054
S7:训练发起方根据计算出的样本数据集x中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和以及样本数据集y中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和,搜索最优分裂点;
S8:训练发起方将分裂信息、树分裂终止信号发送给训练参与方,训练发起方重新计算每个样本数据集x对应的预测值;
S9:重复执行步骤S2至步骤S8,直到达到初始化的建树棵树或损失函数的变化值小于终止阈值。
在本方案中,训练发起方、训练参与方都先初始化自身的联邦梯度提升决策树模型。接着,训练发起方从自身数据库中采样d个样本数据集x,每个样本数据集x具有唯一对应的ID,将d个样本数据集x依次编号为1,2……d,训练发起方将d个样本数据集x对应的ID及编号发送给训练参与方,训练参与方根据接收到的d个ID从自身数据库中找到对应的样本数据集y,每个样本数据集y对应的编号与同样ID的样本数据集x对应的编号一样,例如:训练发起方采样了3个样本数据集x,其ID分别为001、002、003,ID为001的样本数据集x对应的编号为1,ID为002的样本数据集x对应的编号为2,ID为003的样本数据集x对应的编号为3,训练参与方采样了3个样本数据集y,其ID也分别为001、002、003,ID为001的样本数据集y对应的编号为1,ID为002的样本数据集y对应的编号为2,ID为003的样本数据集y对应的编号为3。
之后,训练发起方、训练参与方各自将采样的样本数据集中的每个特征数据进行分箱并记录对应的分箱信息,对每个特征数据对应的所有分箱信息进行比特切片存储,训练发起方将计算出的所有一阶梯度、二阶梯度进行比特切片存储,这样可以降低存储空间、压缩搜索最优分裂点的时间、压缩通信量,在900个特征40万样本的联邦梯度提升决策树建模时可以降低50%存储空间占用,压缩三分之二以上的通信量。
然后,训练发起方采用现有明文联邦梯度提升决策树模型计算方法计算出样本数据集x中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和,训练发起方、训练参与方根据安全乘法协议计算出样本数据集y中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和,训练发起方、训练参与方无法获得对方的数据,保护了双方的数据安全,整个过程无第三方参与。
步骤S6中将比特切片数据C(j) 与比特切片数据Eq(r)按照安全协议计算得到对 应的值
Figure 723386DEST_PATH_IMAGE062
的过程中,
由于训练发起方将比特切片数据C(j)分享为两个分片,只将
Figure 735204DEST_PATH_IMAGE033
发送给训练参 与方,所以训练参与方无法获得训练发起方的数据,训练参与方只将
Figure 434170DEST_PATH_IMAGE040
发送给训练发 起方,将
Figure 822426DEST_PATH_IMAGE038
Figure 172505DEST_PATH_IMAGE035
的异或操作在本地计算后再发送给训练参与方,这样训练参与方 也无法获得训练发起方的数据,保护了双方的数据安全,整个过程无第三方参与。
最后,训练发起方采用现有明文联邦梯度提升决策树模型计算方法利用样本数据集x中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和以及样本数据集y中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和搜索最优分裂点,搜索完成后,训练发起方将分裂信息、树分裂终止信号发送给训练参与方,训练参与方更新自身的联邦梯度提升决策树模型,重复执行步骤S2至步骤S8,直到达到初始化的建树棵树或损失函数的变化值小于终止阈值,此时,训练发起方、训练参与方完成联邦梯度提升决策树模型的训练。
步骤S3中根据d个样本数据集x的第p个特征数据中的最大值Ap、最小值Bp以及分箱数量N计算出每个分箱的区间边界的方法包括以下步骤:
每个分箱的区间的长度为 W=(Ap−Bp)/N,则第1个分箱的区间边界为(Bp、Bp+W),第2个分箱的区间边界为(Bp+W+1、Bp +2W)……,第N-1个分箱的区间边界为(Bp+(N-2)W+1、Bp+(N-1)W),第N个分箱的区间边界为(Bp +(N-1)W+1、Ap)。N为常数。
步骤S7中训练发起方按照明文xgboost计算gain的公式依据样本数据集x中每个特征数据对应的一阶梯度和、二阶梯度和计算对应分箱的score,依据样本数据集y中每个特征数据对应的一阶梯度和、二阶梯度和计算对应分箱的score,并计算相应叶子节点权重,搜索最优分裂点方法同现有明文联邦梯度提升决策树模型计算方法一致,第一个节点就是根节点,不用分裂,从第二个节点开始选取最大的score进行分裂。
举例说明:
训练发起方采样的3个样本数据集x,如下:
ID为1001的样本数据集x,编号为1,特征数据x1分箱信息为01;
ID为1002的样本数据集x,编号为2,特征数据x1分箱信息为01;
ID为1003的样本数据集x,编号为3,特征数据x1分箱信息为10;
训练参与方采样3个样本数据集y,如下:
ID为1001的样本数据集y,编号为1,特征数据y1分箱信息为10;
ID为1002的样本数据集y,编号为2,特征数据y1分箱信息为10;
ID为1003的样本数据集y,编号为3,特征数据y1分箱信息为01;
算出ID为1001的样本数据集x对应的真实值为11110100001001000000、预测值为00000000000000000000,则对应的梯度为11110100001001000000;
ID为1002的样本数据集x对应的真实值为00000000000000000000、预测值为00000000000000000000,则对应的梯度为00000000000000000000;
ID为1002的样本数据集x对应的真实值为00000000000000000000、预测值为00000000000000000000,则对应的梯度为00000000000000000000。
训练发起方对样本数据集x的特征数据x1的所有分箱信息进行比特切片存储,先算出矩阵Dp2:
Figure 355224DEST_PATH_IMAGE063
,得到特征数据x1的第1个分箱信息比特切片数据110、第2个分箱信息 比特切片数据001。
训练参与方对样本数据集y的特征数据y1的所有分箱信息进行比特切片存储,先算出矩阵Eq2:
Figure 72645DEST_PATH_IMAGE064
,得到特征数据y1的第1个分箱信息比特切片数据001、第2个分箱信息 比特切片数据110。
训练发起方将计算出的所有一阶梯度进行比特切片存储,先算出矩阵C2:
Figure 999012DEST_PATH_IMAGE065
矩阵C2每一行组成一个比特切片数据。
将矩阵C2每一行组成的比特切片数据与特征数据y1的第1个分箱信息比特切片数据001按照安全乘法协议计算得到特征数据y1的第1个分箱对应的一阶梯度和为0,将矩阵C2每一行组成的比特切片数据与特征数据y1的第2个分箱信息比特切片数据110按照安全乘法协议计算得到特征数据y1的第2个分箱对应的一阶梯度和为219+218+217+216+214+29+26。同理,可算出特征数据y1的第1个分箱对应的二阶梯度和、第2个分箱对应的二阶梯度和。
矩阵C2第7行组成的第7个一阶梯度比特切片数据100与第2个分箱信息比特切片数据110按照安全乘法协议计算得到对应的二进制值,然后统计1的个数的方法如下:
训练发起方的比特切片数据100可以分片为100 = 011 XOR 111,训练发起方把分片111发给训练参与方,训练参与方的分箱信息比特切片数据110可以分片为110 = 001XOR 111,训练参与方将分片001发给训练发起方,训练参与方计算001 XOR 111 = 110,将110发给训练发起方,训练发起方计算011 XOR 001 XOR 110 = 100,之后统计100中1的个数得到1。
本例训练发起方、训练参与方只采样了3个样本,一般实际操作中,训练发起方、训练参与方需要采样几千甚至几万的样本,此时会大大降低存储空间,压缩搜索最优分裂点的时间,在保证训练精度的同时大幅压缩通信量。

Claims (8)

1.一种无第三方的联邦梯度提升决策树模型训练方法,用于银行和运营商之间联合风控建模,其特征在于,包括以下步骤:
S1:训练发起方、训练参与方同步初始化各自联邦梯度提升决策树模型的模型参数;
S2:训练发起方从自身数据库中采样d个样本数据集x,每个样本数据集X具有唯一对应的ID,所述样本数据集x包含n个特征数据,训练参与方从自身数据库中同步采样与训练发起方采样的d个样本数据集x具有同样ID的d个样本数据集y,每个样本数据集y具有唯一对应的ID,所述样本数据集y包含m个特征数据;
S3:训练发起方对每个样本数据集x中的每个特征数据进行分箱并记录对应的分箱信息,训练参与方对每个样本数据集y中的每个特征数据进行分箱并记录对应的分箱信息,每个特征数据的分箱数量都为N;
S4:训练发起方对样本数据集x的每个特征数据对应的所有分箱信息进行比特切片存储,训练参与方对样本数据集y的每个特征数据对应的所有分箱信息进行比特切片存储;
S5:训练发起方计算出每个样本数据集x对应的一阶梯度、二阶梯度,将计算出的所有一阶梯度进行比特切片存储,将计算出的所有二阶梯度进行比特切片存储;
S6:训练发起方计算样本数据集x中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和,训练发起方、训练参与方根据安全乘法协议计算出样本数据集y中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和;
S7:训练发起方根据计算出的样本数据集x中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和以及样本数据集y中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和,搜索最优分裂点;
S8:训练发起方将分裂信息、树分裂终止信号发送给训练参与方;
S9:重复执行步骤S2至步骤S8,直到达到初始化的建树棵树或损失函数的变化值小于终止阈值。
2.根据权利要求1所述的一种无第三方的联邦梯度提升决策树模型训练方法,其特征在于,所述步骤S2包括以下步骤:
训练发起方从自身数据库中采样d个样本数据集x,每个样本数据集x具有唯一对应的ID,将d个样本数据集x依次编号为1,2……d,所述样本数据集x包含n个特征数据,这n个特征数据依次标记为x1、x2……xn,则编号为i的样本数据集x(i)的结构为x(i)={x1(i)、x2(i)、……xn(i)},1≤i≤d,训练发起方将d个样本数据集x对应的ID及编号发送给训练参与方;
训练参与方从自身数据库中采样接收到的d个ID对应的样本数据集y,每个样本数据集y具有唯一对应的ID,每个样本数据集y对应的编号与同样ID的样本数据集x对应的编号一样,所述样本数据集y包含m个特征数据,这m个特征数据依次标记为y1、y2……ym,则编号为i的样本数据集y(i)的结构为y(i)={y1(i)、y2(i)、……ym(i)}。
3.根据权利要求2所述的一种无第三方的联邦梯度提升决策树模型训练方法,其特征在于,所述步骤S3包括以下步骤:
训练发起方对每个样本数据集x中的每个特征数据进行分箱并记录对应的分箱信息,训练参与方对每个样本数据集y中的每个特征数据进行分箱并记录对应的分箱信息,每个特征数据的分箱数量都为N;
对编号为i的样本数据集x(i)中的第p个特征数据xp(i)进行分箱并记录分箱信息的方法包括以下步骤,1≤p≤n:
根据d个样本数据集x的第p个特征数据中的最大值Ap、最小值Bp以及分箱数量N计算出 每个分箱的区间边界,N个分箱依次编号为1,2……N,设定特征数据xp(i)对应的分箱信息Xp (i)为N位的二进制数,
Figure 107754DEST_PATH_IMAGE001
Figure 680687DEST_PATH_IMAGE002
表示Xp(i)的第r位,1≤r≤N,如果 特征数据xp(i)属于第r个分箱,则Xp(i)的第r位为1,其余位都为0;
对编号为i的样本数据集y(i)中的第q个特征数据yq(i)进行分箱并记录分箱信息的方法包括以下步骤,1≤q≤m:
根据d个样本数据集y的第q个特征数据中的最大值Aq、最小值Bq以及分箱数量N计算出 每个分箱的区间边界,N个分箱依次编号为1,2……N,设定特征数据yq(i)对应的分箱信息Yq (i)为N位的二进制数,
Figure 991582DEST_PATH_IMAGE003
Figure 793316DEST_PATH_IMAGE004
表示Yq(i)的第r位,如果特征数据 yq(i)属于第r个分箱,则Yq(i)的第r位为1,其余位都为0。
4.根据权利要求3所述的一种无第三方的联邦梯度提升决策树模型训练方法,其特征在于,所述步骤S4包括以下步骤:
训练发起方对样本数据集x的每个特征数据对应的所有分箱信息进行比特切片存储,训练参与方对样本数据集y的每个特征数据对应的所有分箱信息进行比特切片存储;
训练发起方对样本数据集x的第p个特征数据对应的所有分箱信息进行比特切片存储的方法包括以下步骤:
将每个样本数据集x的第p个特征数据对应的分箱信息拼接成矩阵Dp1:
Figure 138847DEST_PATH_IMAGE005
将矩阵Dp1转置得到矩阵Dp2:
Figure 617102DEST_PATH_IMAGE006
矩阵Dp2的每一行组成一个比特切片数据,得到N个分箱信息比特切片数据Dp(1)、Dp (2)…Dp(N),并进行存储,矩阵Dp2的第r行组成的第r个分箱的分箱信息比特切片数据
Figure 556239DEST_PATH_IMAGE007
,1≤r≤N;
训练参与方对样本数据集y的第q个特征数据对应的所有分箱信息进行比特切片存储的方法包括以下步骤:
将每个样本数据集y的第q个特征数据对应的分箱信息拼接成矩阵Eq1:
Figure 286297DEST_PATH_IMAGE008
将矩阵Eq1转置得到矩阵Eq2:
Figure 610968DEST_PATH_IMAGE009
矩阵Eq2的每一行组成一个比特切片数据,得到N个分箱信息比特切片数据Eq (1)、Eq (2)…Eq(N),并进行存储,矩阵Eq2的第r行组成的第r个分箱的分箱信息比特切片数据
Figure 135491DEST_PATH_IMAGE010
5.根据权利要求4所述的一种无第三方的联邦梯度提升决策树模型训练方法,其特征在于,所述步骤S5包括以下步骤:
训练发起方计算出每个样本数据集x对应的一阶梯度、二阶梯度,计算编号为i的样本数据集x(i)对应的一阶梯度gx(i)、二阶梯度hx(i)的公式如下:
Figure 296345DEST_PATH_IMAGE011
Figure 564515DEST_PATH_IMAGE012
其中,
Figure 6342DEST_PATH_IMAGE013
表示样本数据集x(i)对应的真实值,
Figure 701765DEST_PATH_IMAGE014
表示样本数据集x(i)对应的预 测值;
训练发起方将计算出的所有一阶梯度进行比特切片存储,将计算出的所有二阶梯度进行比特切片存储,包括以下步骤:
一阶梯度gx(i)的二进制表示为
Figure 349916DEST_PATH_IMAGE015
二阶梯度hx(i)的二进制表示为
Figure 156198DEST_PATH_IMAGE016
其中,
Figure 455461DEST_PATH_IMAGE017
表示一阶梯度gx(i)的第j位,
Figure 321786DEST_PATH_IMAGE018
表示二阶梯度hx(i)的第j位,M为设定的常 数,1≤j≤M;
将每个样本数据集x对应的一阶梯度拼接成矩阵C1:
Figure 457232DEST_PATH_IMAGE019
将矩阵C1转置得到矩阵:
Figure 67205DEST_PATH_IMAGE020
矩阵C2的每一行组成一个比特切片数据,得到M个一阶梯度比特切片数据C(1)、C(2)… C(M),并进行存储,矩阵C2的第j行组成的第j个一阶梯度比特切片数据
Figure 220974DEST_PATH_IMAGE021
将每个样本数据集x对应的二阶梯度拼接成矩阵F1:
Figure 523780DEST_PATH_IMAGE022
将矩阵F1转置得到矩阵F2:
Figure 880943DEST_PATH_IMAGE023
矩阵F2的每一行组成一个比特切片数据,得到M个二阶梯度比特切片数据F (1)、F (2)…F(M),并进行存储,矩阵F2的第j行组成的第j个二阶梯度比特切片数据
Figure 294607DEST_PATH_IMAGE024
6.根据权利要求5所述的一种无第三方的联邦梯度提升决策树模型训练方法,其特征 在于,所述步骤S6中训练发起方、训练参与方根据安全乘法协议计算出样本数据集y中第q 个特征数据的第r个分箱对应的一阶梯度和
Figure 302883DEST_PATH_IMAGE025
的方法包括以下步骤,1≤r≤N:
将M个一阶梯度比特切片数据C(1)、C(2)…C(M)分别与第r个分箱的分箱信息比特切片 数据Eq(r)按照安全协议计算得到对应的二进制值
Figure 776590DEST_PATH_IMAGE026
训练发起方计算一阶梯度和
Figure 621049DEST_PATH_IMAGE025
Figure 572824DEST_PATH_IMAGE027
其中,
Figure 704116DEST_PATH_IMAGE028
表示第j个一阶梯度比特切片数据C(j) 与第r个分箱的分箱信息比特切片 数据Eq(r)按照安全协议计算得到对应的二进制值,1≤j≤M,
Figure 348724DEST_PATH_IMAGE029
表示统 计二进制数
Figure 680479DEST_PATH_IMAGE030
中1的个数;
将一阶梯度比特切片数据C(j) 与第r个分箱的分箱信息比特切片数据Eq(r)按照安全 协议计算得到对应的二进制值
Figure 435946DEST_PATH_IMAGE031
的方法包括以下步骤:
训练发起方将比特切片数据C(j)分享为两个分片,
Figure 153235DEST_PATH_IMAGE032
Figure 968744DEST_PATH_IMAGE033
发送给训练参与方,其中,
Figure 787795DEST_PATH_IMAGE034
表示C(j)的第0个分片的二进制表示,
Figure 346953DEST_PATH_IMAGE035
表示C(j)的第1个分片的二进制表示,
训练参与方将分箱信息比特切片数据Eq(r) 分享为两个分片,
Figure 184328DEST_PATH_IMAGE036
其中,
Figure 905159DEST_PATH_IMAGE037
表示 Eq(r)的第0个分片的二进制表示,
Figure 211506DEST_PATH_IMAGE038
表示Eq(r)的第1个分片 的二进制表示,
训练参与方计算出
Figure 308775DEST_PATH_IMAGE039
,将K(r)、
Figure 266236DEST_PATH_IMAGE040
发送给训练发起方,
训练发起方计算出
Figure 157969DEST_PATH_IMAGE041
7.根据权利要求5所述的一种无第三方的联邦梯度提升决策树模型训练方法,其特征 在于,所述步骤S6中训练发起方、训练参与方根据安全乘法协议计算出样本数据集y中第q 个特征数据的第r个分箱对应的二阶梯度和
Figure 810667DEST_PATH_IMAGE042
的方法包括以下步骤,1≤r≤N:
将M个二阶梯度比特切片数据F(1)、F(2)…F(M)分别与第r个分箱的分箱信息比特切片 数据Eq(r)按照安全协议计算得到对应的二进制值
Figure 586993DEST_PATH_IMAGE043
训练发起方计算二阶梯度和
Figure 8747DEST_PATH_IMAGE042
Figure 458664DEST_PATH_IMAGE044
其中,
Figure 598659DEST_PATH_IMAGE045
表示第j个二阶梯度比特切片数据F(j) 与第r个分箱的分箱信息比特切片数 据Eq(r)按照安全协议计算得到对应的二进制值,1≤j≤M,
Figure 178676DEST_PATH_IMAGE046
表示统计 二进制数
Figure 720515DEST_PATH_IMAGE047
中1的个数;
将二阶梯度比特切片数据F(j) 与第r个分箱的分箱信息比特切片数据Eq(r)按照安全 协议计算得到对应的二进制值
Figure 344264DEST_PATH_IMAGE048
的方法包括以下步骤:
训练发起方将比特切片数据F(j)分享为两个分片,
Figure 971554DEST_PATH_IMAGE049
Figure 89683DEST_PATH_IMAGE050
发送给训练参与方,其中,
Figure 486029DEST_PATH_IMAGE051
表示F(j)的第0个分片的二进制表示,
Figure 280679DEST_PATH_IMAGE050
表示F(j)的第1个分片的二进制表示,
训练参与方将比特切片数据Eq(r) 分享为两个分片,
Figure 395265DEST_PATH_IMAGE052
其中,
Figure 51506DEST_PATH_IMAGE037
表示 Eq(r)的第0个分片的二进制表示,
Figure 567938DEST_PATH_IMAGE053
表示Eq(r)的第1个分片 的二进制表示,
训练参与方计算出
Figure 533488DEST_PATH_IMAGE054
,将W(r)、
Figure 135371DEST_PATH_IMAGE040
发送给训练发起方,
训练发起方计算出
Figure 595302DEST_PATH_IMAGE055
8.根据权利要求1或2或3或4或5或6或7所述的一种无第三方的联邦梯度提升决策树模型训练方法,其特征在于,所述模型参数包括联邦梯度提升决策树的深度、联邦梯度提升决策树的棵数、大梯度样本采样率、小梯度样本采样率、树列采样率、树行采样率、学习率、最大叶子数量、分裂后最少节点样本数量、分裂的最小收益、分箱数量、L2正则、L1正则、终止阈值、建模方式。
CN202210052120.0A 2022-01-18 2022-01-18 一种无第三方的联邦梯度提升决策树模型训练方法 Active CN114091624B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210052120.0A CN114091624B (zh) 2022-01-18 2022-01-18 一种无第三方的联邦梯度提升决策树模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210052120.0A CN114091624B (zh) 2022-01-18 2022-01-18 一种无第三方的联邦梯度提升决策树模型训练方法

Publications (2)

Publication Number Publication Date
CN114091624A true CN114091624A (zh) 2022-02-25
CN114091624B CN114091624B (zh) 2022-04-26

Family

ID=80308734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210052120.0A Active CN114091624B (zh) 2022-01-18 2022-01-18 一种无第三方的联邦梯度提升决策树模型训练方法

Country Status (1)

Country Link
CN (1) CN114091624B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114362948A (zh) * 2022-03-17 2022-04-15 蓝象智联(杭州)科技有限公司 一种高效的联邦衍生特征逻辑回归建模方法
CN114553395A (zh) * 2022-04-24 2022-05-27 蓝象智联(杭州)科技有限公司 一种风控场景下的纵向联邦特征衍生方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104335219A (zh) * 2012-03-30 2015-02-04 爱迪德加拿大公司 使用变量相关编码来保护可访问的系统
CN110036640A (zh) * 2016-12-14 2019-07-19 深圳市大疆创新科技有限公司 用于支持视频比特流切换的系统和方法
CN111340057A (zh) * 2018-12-19 2020-06-26 杭州海康威视数字技术股份有限公司 一种分类模型训练的方法及装置
CN111368901A (zh) * 2020-02-28 2020-07-03 深圳前海微众银行股份有限公司 基于联邦学习的多方联合建模方法、设备和介质
US20200293952A1 (en) * 2019-03-15 2020-09-17 Microsoft Technology Licensing, Llc Categorical feature enhancement mechanism for gradient boosting decision tree
CN112464287A (zh) * 2020-12-12 2021-03-09 同济大学 基于秘密共享与联邦学习的多方XGBoost安全预测模型训练方法
CN112836830A (zh) * 2021-02-01 2021-05-25 广西师范大学 一种联邦梯度提升决策树投票并行训练方法
CN113343042A (zh) * 2021-06-29 2021-09-03 维沃移动通信有限公司 数据分片存储方法、装置、电子设备及存储介质
WO2021203980A1 (zh) * 2020-11-20 2021-10-14 平安科技(深圳)有限公司 一种气象事件预测方法、装置及相关设备
CN113591152A (zh) * 2021-08-04 2021-11-02 神谱科技(上海)有限公司 一种基于LightGBM算法的纵向联邦建模方法
CN113609843A (zh) * 2021-10-12 2021-11-05 京华信息科技股份有限公司 一种基于梯度提升决策树的句词概率计算方法及系统
CN113688999A (zh) * 2021-08-23 2021-11-23 神州融安科技(北京)有限公司 一种横向联邦xgboost决策树的训练方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104335219A (zh) * 2012-03-30 2015-02-04 爱迪德加拿大公司 使用变量相关编码来保护可访问的系统
CN110036640A (zh) * 2016-12-14 2019-07-19 深圳市大疆创新科技有限公司 用于支持视频比特流切换的系统和方法
CN111340057A (zh) * 2018-12-19 2020-06-26 杭州海康威视数字技术股份有限公司 一种分类模型训练的方法及装置
US20200293952A1 (en) * 2019-03-15 2020-09-17 Microsoft Technology Licensing, Llc Categorical feature enhancement mechanism for gradient boosting decision tree
CN111368901A (zh) * 2020-02-28 2020-07-03 深圳前海微众银行股份有限公司 基于联邦学习的多方联合建模方法、设备和介质
WO2021203980A1 (zh) * 2020-11-20 2021-10-14 平安科技(深圳)有限公司 一种气象事件预测方法、装置及相关设备
CN112464287A (zh) * 2020-12-12 2021-03-09 同济大学 基于秘密共享与联邦学习的多方XGBoost安全预测模型训练方法
CN112836830A (zh) * 2021-02-01 2021-05-25 广西师范大学 一种联邦梯度提升决策树投票并行训练方法
CN113343042A (zh) * 2021-06-29 2021-09-03 维沃移动通信有限公司 数据分片存储方法、装置、电子设备及存储介质
CN113591152A (zh) * 2021-08-04 2021-11-02 神谱科技(上海)有限公司 一种基于LightGBM算法的纵向联邦建模方法
CN113688999A (zh) * 2021-08-23 2021-11-23 神州融安科技(北京)有限公司 一种横向联邦xgboost决策树的训练方法
CN113609843A (zh) * 2021-10-12 2021-11-05 京华信息科技股份有限公司 一种基于梯度提升决策树的句词概率计算方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YANG LIU 等: "Boosting Privately: Federated Extreme Gradient Boosting for Mobile Crowdsensing", 《ARXIV:1907.10218V2》 *
王学敏 等: "一种优化的安全乘法协议", 《中国科技论文在线》 *
郭艳卿 等: "面向隐私安全的联邦决策树算法", 《计算机学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114362948A (zh) * 2022-03-17 2022-04-15 蓝象智联(杭州)科技有限公司 一种高效的联邦衍生特征逻辑回归建模方法
CN114362948B (zh) * 2022-03-17 2022-07-12 蓝象智联(杭州)科技有限公司 一种联邦衍生特征逻辑回归建模方法
CN114553395A (zh) * 2022-04-24 2022-05-27 蓝象智联(杭州)科技有限公司 一种风控场景下的纵向联邦特征衍生方法

Also Published As

Publication number Publication date
CN114091624B (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
CN114091624B (zh) 一种无第三方的联邦梯度提升决策树模型训练方法
CN110909667B (zh) 面向多角度sar目标识别网络的轻量化设计方法
CN109327480B (zh) 一种多步攻击场景挖掘方法
CN112700031B (zh) 一种保护多方数据隐私的XGBoost预测模型训练方法
CN109299185B (zh) 一种针对时序流数据的卷积神经网络提取特征的分析方法
CN107025228B (zh) 一种问题推荐方法及设备
CN110188863A (zh) 一种卷积神经网络的卷积核及其压缩算法
CN107749757A (zh) 一种基于堆栈式自编码和pso算法的数据压缩方法及装置
CN107528824B (zh) 一种基于二维度稀疏化的深度信念网络入侵检测方法
CN109063983B (zh) 一种基于社交媒体数据的自然灾害损失实时评估方法
CN105304078A (zh) 目标声数据训练装置和目标声数据训练方法
CN112766360A (zh) 一种基于时序二维化和宽度学习的时间序列分类方法和系统
CN113568043A (zh) 基于深度卷积神经网络的三阶段震相拾取方法
Cui et al. Enhancing robustness of gradient-boosted decision trees through one-hot encoding and regularization
CN112712855B (zh) 一种基于联合训练的含缺失值基因微阵列的聚类方法
CN113759326A (zh) 一种结合稀疏自编码器和改进lstm的雷达信号干扰预测方法
CN111428821A (zh) 一种基于决策树的资产分类方法
CN114692694B (zh) 一种基于特征融合和集成聚类的设备故障诊断方法
CN113962335B (zh) 一种可灵活配置的数据全过程处理方法
CEME Student performance prediction and risk analysis by using data mining approach
CN115577274A (zh) 一种基于多维度特征的企业批量聚类方法和系统
Bian Application of genetic BP network to discriminating earthquakes and explosions
CN114785608A (zh) 一种基于去中心化联邦学习的工业控制网络入侵检测方法
CN111695229B (zh) 一种基于ga-ica的新型分散式非高斯过程监测方法
Chen et al. A study of applying genetic algorithm to predict reservoir water quality

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant