CN113705727B

CN113705727B - 基于差分隐私的决策树建模方法、预测方法、设备及介质

Info

Publication number: CN113705727B
Application number: CN202111085147.1A
Authority: CN
Inventors: 谢世茂; 王耀乐; 李开宇
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2023-05-12
Anticipated expiration: 2041-09-16
Also published as: CN113705727A

Abstract

本发明公开了基于差分隐私的决策树建模方法、预测方法、设备及介质，该决策树建模方法利用差分隐私保护一阶导数和二阶导数，通过产生随机浮点数Δrate，只会随机发送一部分导数到被动方，被动方无法通过收到的一阶导数和二阶导数进行反推标签y，同时因为主动方知道Δrate的具体值，所以主动方可以通过Δrate将被动方返还的各个分箱的导数和还原，从而不影响计算最佳切分点。该决策树预测方法包括获取待测样本，并将待测样本输入至决策树分类模型中，以通过决策树分类模型获得待测样本的预测分类结果；所述决策树分类模型采用所述决策树建模方法构建得到的决策树分类模型。本发明避免了密文计算，大大降低了CPU开销和网络开销。

Description

基于差分隐私的决策树建模方法、预测方法、设备及介质

技术领域

本发明涉及人工智能领域、数据保护技术领域，具体涉及基于差分隐私的决策树建模方法、预测方法、设备及介质。

背景技术

目前数据隐私安全越来越受到重视，但是人工智能的模型的精度则很大程度上依赖于数据的维度。在个人隐私数据保护以及商业利益的共同驱动下，诞生了联邦学习技术。该技术能够在不使用个人隐私数据的情况下完成机器学习建模。

在联邦学习实现的众多模型中，最常用的算法模型就是secureboost。该算法是xgboost算法的联邦学习版本，是一种集成多棵决策树的联合建模方法，该方法于2019年年底由微众银行提出。

在原有的解决方案当中，为了保障建模的主动方不泄露标签y，主动方发送给合作方的一阶导数g以及二阶导数h均采用同态加密算法加密后发送，被动方此时由于没有解密私钥，无法通过[[g]]和[[h]]反推主动方的标签列y，但被动方可以计算各个分桶的一阶导数的和以及二阶导数的和。求得各个分桶的导数和信息之后返还给主动方，主动方解密后就能计算各个分位点带来的增益gain，从而指导决策树的分裂。

现有的方案有如下缺陷：

1、主动方需要将所有数据的一阶导数g以及二阶导数h的密文[[g]]以及[[h]]发送至合作方，按照一般的加密标准1024bit计算，每行数据至少发送两个密文，也就是256字节。当训练数据规模较大时，网络带宽压力很大。

2、被动方需要对每个分箱当中的[[g]]和[[h]]进行求和，这里因为[[g]]和[[h]]均为密文，所以只能使用同态加密求和，按照一般较为通用的同态加密算法paillier的实现来看，求和的具体操作是将密文进行相乘，并且再对公钥当中的n^2取余。而密文是一个大数，大数的乘法以及取余均会消耗大量的计算资源。

发明内容

本发明所要解决的技术问题是现有基于联邦学习的决策树建模方法中主动方发送给合作方的一阶导数g以及二阶导数h均采用同态加密算法加密后发送，当训练数据规模较大时，存在网络带宽压力大的缺陷；被动方需要对每个分箱当中的[[g]]和[[h]]进行求和，只能使用同态加密求和，存在计算资源消耗量大、执行速度慢等问题。

本发明目的在于提供基于差分隐私的决策树建模方法、预测方法、设备及介质，本发明的决策树建模方法采用差分隐私的思路，不再使用同态加密之后的结果给被动方，而是给g和h的一部分到被动方，此时被动方收到的数据不再是密文而是一个浮点数，通信量大大减少，一般一个浮点数只有8字节，根据实验结果，传输数据量仅为现有技术方案的10％。另外被动方由于接收到的是浮点数，也避免了执行同态加密加法，而只需要进行浮点数加法即可，根据实验结果显示，决策树的执行速度提升了3.5倍左右。

本发明通过下述技术方案实现：

第一方面，本发明提供了基于差分隐私的决策树建模方法，该决策树建模方法应用于进行联邦学习和差分隐私的第一设备，第一设备采用联邦学习和差分隐私与第二设备进行交互，所述第一设备作为主动方，第二设备作为被动方；该决策树建模方法包括：

S1：主动方对每个建模特征数据进行初始化，给出初始随机预测值

计算每个建模特征数据的一阶导数g_i和二阶导数h_i，及生成一个随机浮点数Δrate；将各个建模特征数据的一阶导数g_i和二阶导数h_i均乘以随机浮点数Δrate后发送给被动方，即主动方发送g_iΔrate和h_iΔrate到被动方；

S2：被动方根据分箱数对各个建模特征数据进行等频分箱，并对每个箱当中的g_iΔrate以及h_iΔrate进行求和，并将所有建模特征数据的各个分箱的一阶导数和、二阶导数和返回给主动方；

S3：主动方根据随机浮点数Δrate还原真实的导数和，计算每个可能的分位点增益，并记录最大增益所在的特征数据编号以及分裂点信息，进行一层分裂；

S4：主动方反复执行步骤S2～S3，直至满足停止条件，构建得到建模决策树。

工作原理是：现有基于联邦学习的决策树建模方法中主动方发送给合作方的一阶导数g以及二阶导数h均采用同态加密算法加密后发送，当训练数据规模较大时，存在网络带宽压力大的缺陷；被动方需要对每个分箱当中的[[g]]和[[h]]进行求和，只能使用同态加密求和，存在计算资源消耗量大、执行速度慢等问题。本发明设计了基于差分隐私的决策树建模方法，本发明利用差分隐私保护一阶导数和二阶导数，本发明方案通过产生随机浮点数Δrate，只会随机发送一部分导数到被动方，被动方无法通过收到的一阶导数和二阶导数进行反推标签y，同时因为主动方知道Δrate的具体值，所以主动方可以通过Δrate将被动方返还的各个分箱的导数和还原，从而不影响计算最佳切分点。由于避免了密文计算，所以大大降低了CPU开销和网络开销。

本发明具有如下创新点：(1)整个计算过程未采用同态加密来保护主动方的梯度信息，而是换成了一个Δrate，使得被动方的计算均是在浮点数上进行的，而非大整数乘法以及取余计算，大大提升了计算效率。

(2)主动方发送给被动方的数据只有浮点数，对每个训练样本会发送两个浮点数到被动方，共16个字节，大大降低了现有方案的密文发送形式所带来的带宽消耗。在降低网络要求的同时，也进一步加快了训练速度。

进一步地，步骤S1中根据任务情况计算每个建模特征数据的一阶导数g_i和二阶导数h_i，这里以最常用的二分类sigmoid函数为例，计算出第i个建模特征数据的一阶导数

二阶导数

为初始随机预测值，y_i为样本数据(即建模特征数据)的真实标签值。

进一步地，步骤S1中生成一个随机浮点数Δrate，其中Δrate的取值为0到1之间的一个随机浮点数。

进一步地，步骤S2包括以下子步骤：

S21：被动方根据分箱数对各个建模特征数据进行等频分箱；比如当分箱数为5，特征为用户的年龄时，被动方会将所有用户的年龄小到大排序，并取20％、40％、60％、80％四个分位点，将年龄这个特征编码为0,1,2,3,4五个码值。

S22：被动方对每个箱当中的g_iΔrate以及h_iΔrate进行求和，得到一阶导数和gbin_t＝∑_i∈tg_iΔrate，二阶导数和hbin_t＝∑_i∈th_iΔrate，其中，g_iΔrate以及h_iΔrate是在步骤S1中由主动方发送过来的；i表示第i分箱，i的取值范围为1～t；如果仍然以步骤21当中用户年龄分箱的例子来说明的话，这里被动方相当于分别将年龄编码为0、1、2、3、4的数据进行了求和，计算出了：gbin₀、gbin₁、gbin₂、gbin₃、gbin₄以及hbin₀、hbin₁、hbin₂、hbin₃、hbin₄；

S23：被动方将所有建模特征数据的各个分箱的一阶导数和gbin_t、二阶导数和hbin_t返回给主动方。

进一步地，步骤S3中的主动方根据随机浮点数Δrate还原真实的导数和，包括真实一阶导数和G_t、真实二阶导数和H_t，计算公式为：

和

进一步地，步骤S3中的计算每个可能的分位点增益，增益gain的计算公式为：

其中：

代表t分位点之前所有的一阶导数和；

代表t分位点之后的所有一阶导数和；

代表t分位点之前所有的二阶导数和；

代表t分位点之后所有的二阶导数和；λ和γ为正则化系数。

进一步地，步骤S4中的停止条件为：所有的分裂点都没有带来增益时或者分裂达到预设层数时(比如预设层数为4)。

第二方面，本发明还提供了基于差分隐私的决策树预测方法，该决策树预测方法包括：

获取待测样本，并将所述待测样本输入至决策树分类模型中，以通过所述决策树分类模型获得待测样本的预测分类结果，并输出；其中，

所述决策树分类模型采用所述的基于差分隐私的决策树建模方法构建得到的决策树分类模型。

第三方面，本发明还提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的基于差分隐私的决策树建模方法。

第四方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述的基于差分隐私的决策树建模方法。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明方法利用差分隐私保护一阶导数和二阶导数，本发明方案通过产生随机浮点数Δrate，只会随机发送一部分导数到被动方，被动方无法通过收到的一阶导数和二阶导数进行反推标签y，同时因为主动方知道Δrate的具体值，所以主动方可以通过Δrate将被动方返还的各个分箱的导数和还原，从而不影响计算最佳切分点。由于避免了密文计算，所以大大降低了CPU开销和网络开销。相比传统方法，本发明主要有速度更快、网络开销小两大优势：

1、速度更快

本发明方法中，被动方在对各个分箱的梯度进行求和时，只需要进行浮点数加法即可，而不需要进行同态加密加法，性能上存在数倍的差异，在本发明的具体实现代码上，效率差异在3.5倍左右。

2、网络开销更小

由于传输数据没有进行加密，所以无需传输密文，仅需要传输浮点数即可，根据普遍的加密长度1024bit来计算，采用本发明方法可以将通信数据量降低到原来的10％左右。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明基于差分隐私的决策树建模方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

如图1所示，本发明基于差分隐私的决策树建模方法，该决策树建模方法应用于进行联邦学习和差分隐私的第一设备，第一设备采用联邦学习和差分隐私与第二设备进行交互，所述第一设备作为主动方，第二设备作为被动方；该决策树建模方法包括：

根据任务情况计算每个建模特征数据的一阶导数g_i和二阶导数h_i，这里以最常用的二分类sigmoid函数为例，计算出第i个建模特征数据的一阶导数

二阶导数

为初始随机预测值，y_i为样本数据(即建模特征数据)的真实标签值。及生成一个0到1之间的随机浮点数Δrate；将各个建模特征数据的一阶导数g_i和二阶导数h_i均乘以随机浮点数Δrate后发送给被动方，即主动方发送g_iΔrate和h_iΔrate到被动方；

S2：被动方根据分箱数对各个建模特征数据进行等频分箱，并对每个箱当中的g_iΔrate以及h_iΔrate进行求和，并将所有建模特征数据的各个分箱的一阶导数和、二阶导数和返回给主动方；S2包括以下子步骤：

S3：主动方根据随机浮点数Δrate还原真实的导数和，包括真实一阶导数和G_t、真实二阶导数和H_t，计算公式为：

和

计算每个可能的分位点增益，并记录最大增益所在的特征数据编号以及分裂点信息，进行一层分裂；

具体地，增益gain的计算公式为：

其中：

代表t分位点之前所有的一阶导数和；

代表t分位点之后的所有一阶导数和；

代表t分位点之前所有的二阶导数和；

代表t分位点之后所有的二阶导数和；λ和γ为正则化系数。

S4：主动方反复执行步骤S2～S3，直至满足停止条件(所有的分裂点都没有带来增益时或者分裂达到预设层数时(比如预设层数为4))，构建得到建模决策树模型。

本发明利用差分隐私保护一阶导数和二阶导数，本发明方案通过产生随机浮点数Δrate，只会随机发送一部分导数到被动方，被动方无法通过收到的一阶导数和二阶导数进行反推标签y，同时因为主动方知道Δrate的具体值，所以主动方可以通过Δrate将被动方返还的各个分箱的导数和还原，从而不影响计算最佳切分点。由于避免了密文计算，所以大大降低了CPU开销和网络开销。

实施例2

本实施例与实施例1的区别在于，把实施例1的基于差分隐私的决策树建模方法，运用于风控的实际样例进行说明，如下：

主动方和被动方假设均拥有5个人的数据，主动方掌握了这5个人当中哪些人发生过逾期这一标签(y标签)，被动方掌握了这5个人的特征数据，这里简单起见，被动方假设只掌握了用户的年龄这一属性。这里假设五个人的标签为1,0,1,0,0，年龄为50,30,60,20,25。

在本实施例当中，主动方希望构建一个决策树分类模型，用来预测一个新的用户未来发生逾期的概率。

步骤1：主动方会对5个人每人随机进行一个初始化预测，假设预测值为0.7,0.8,0.5,0.2,0.3。

步骤2：根据5人的真实样本标签和实施例1所述的公式，计算出5个人的一阶导数分别为：0.3,-0.8,0.5,-0.2,-0.3。二阶导数分别为：0.21,0.16,0.25,0.16,0.21。

步骤3：生成一个随机浮点数Δrate，这里假设为0.5。

步骤4：主动方发送一阶导数乘以0.5和二阶导数乘以0.5的结果到被动方，在这个样例中，发送的数据为：g＝0.15,-0.4,0.25,-0.1,-0.15。h＝0.105,0.08,0.125,0.08,0.105。

步骤5：被动方根据年龄进行分箱，这里假设只分为2箱，小于等于30岁为第1箱，编号为0，大于30岁为第二箱，编号为1。这里5个人的年龄会编码成：1,0,1,0,0。

步骤6：被动方分别计算编号为0和1的箱子各阶导数和。在这个例子中：0箱的一阶导数和为：-(0.4+0.1+0.15)＝-0.65，二阶导数和为0.08+0.08+0.105＝0.265。第1箱的一阶导数和为：0.15+0.25＝0.4，二阶导数和为0.105+0.125＝0.225。

步骤7：被动方将第0箱的：-0.65和0.265以及第1箱的0.4和0.225告诉主动方。

步骤8：主动方根据Δrate还原真实的梯度和，第0箱一阶导数和：-0.65/0.5＝-1.3，二阶导数和：0.265/0.5＝0.53，第1箱的一阶导数和：0.4/0.5＝0.8，二阶导数和:0.225/0.5＝0.45

步骤9：计算每个分位点的增益，这里的样例因为只有一个分位点，为了简化计算，假设模型不设置两个正则化系数，所以计算他的增益为：0.5*(1.3*1.3/0.53+0.8*0.8/0.45-(-1.3+0.8)^2/(0.53+0.45))＝2.1778997133444578,这里可以发现增益大于0，所以这个分位点是有价值的。

步骤10：本来还应该重复4～9继续去发掘其他特征的最佳分位点，但这里的样例比较简单，只有一个特征并且分位点也只有一个，所以这里会停止决策树的生成。

此时，已生成一个决策树分类模型，该决策树分类模型用来预测一个新的用户未来发生逾期的概率。

本发明方案主要是针对决策树方法的改进，可以大幅度提升原有方法的建模速度。(1)速度更快：本方案中，被动方在对各个分箱的梯度进行求和时，只需要进行浮点数加法即可，而不需要进行同态加密加法，性能上存在数倍的差异，在本发明的具体实现代码上，效率差异在3.5倍左右。(2)网络开销更小：由于传输数据没有进行加密，所以无需传输密文，仅需要传输浮点数即可，根据普遍的加密长度1024bit来计算，采用本方案可以将通信数据量降低到原来的10％左右。

实施例3

本实施例与实施例1的区别在于，本实施例提供了基于差分隐私的决策树预测方法，该决策树预测方法包括：

所述决策树分类模型采用实施例1或实施例2所述的基于差分隐私的决策树建模方法构建得到的决策树分类模型。

比如，把实施例2生成的决策树分类模型，用来预测一个新的用户未来发生逾期的概率，并输出即可。

同时，本发明还提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的基于差分隐私的决策树建模方法。

同时，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述的基于差分隐私的决策树建模方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于差分隐私的决策树建模方法，其特征在于，该决策树建模方法应用于进行联邦学习和差分隐私的第一设备，第一设备采用联邦学习和差分隐私与第二设备进行交互，所述第一设备作为主动方，第二设备作为被动方；该决策树建模方法包括：

2.根据权利要求1所述的基于差分隐私的决策树建模方法，其特征在于，步骤S1中一阶导数

二阶导数

为初始随机预测值，y_i为样本数据的真实标签值。

3.根据权利要求1所述的基于差分隐私的决策树建模方法，其特征在于，步骤S1中生成一个随机浮点数Δrate，其中Δrate的取值为0到1之间的一个随机浮点数。

4.根据权利要求1所述的基于差分隐私的决策树建模方法，其特征在于，步骤S2包括以下子步骤：

被动方根据分箱数对各个建模特征数据进行等频分箱；

被动方对每个箱当中的g_iΔrate以及h_iΔrate进行求和，得到一阶导数和gbin_t＝∑_i∈ _tg_iΔrate，二阶导数和hbin_t＝∑_i∈th_iΔrate，其中，g_iΔrate以及h_iΔrate是在步骤S1中由主动方发送过来的；i表示第i分箱，i的取值范围为1～t；

被动方将所有建模特征数据的各个分箱的一阶导数和gbin_t、二阶导数和hbin_t返回给主动方。

5.根据权利要求4所述的基于差分隐私的决策树建模方法，其特征在于，步骤S3中的主动方根据随机浮点数Δrate还原真实的导数和，包括真实一阶导数和G_t、真实二阶导数和H_t，计算公式为：

和

6.根据权利要求4所述的基于差分隐私的决策树建模方法，其特征在于，步骤S3中的计算每个可能的分位点增益，增益gain的计算公式为：

其中：

代表t分位点之前所有的一阶导数和；

代表t分位点之后的所有一阶导数和；

代表t分位点之前所有的二阶导数和；

代表t分位点之后所有的二阶导数和；λ和γ为正则化系数。

7.根据权利要求1所述的基于差分隐私的决策树建模方法，其特征在于，步骤S4中的停止条件为：所有的分裂点都没有带来增益时或者分裂达到预设层数时。

8.基于差分隐私的决策树预测方法，其特征在于，该决策树预测方法包括：

所述决策树分类模型采用如权利要求1至7中任一所述的基于差分隐私的决策树建模方法构建得到的决策树分类模型。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于差分隐私的决策树建模方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于差分隐私的决策树建模方法。