CN113705727B - 基于差分隐私的决策树建模方法、预测方法、设备及介质 - Google Patents

基于差分隐私的决策树建模方法、预测方法、设备及介质 Download PDF

Info

Publication number
CN113705727B
CN113705727B CN202111085147.1A CN202111085147A CN113705727B CN 113705727 B CN113705727 B CN 113705727B CN 202111085147 A CN202111085147 A CN 202111085147A CN 113705727 B CN113705727 B CN 113705727B
Authority
CN
China
Prior art keywords
derivative
decision tree
differential privacy
party
δrate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111085147.1A
Other languages
English (en)
Other versions
CN113705727A (zh
Inventor
谢世茂
王耀乐
李开宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan XW Bank Co Ltd
Original Assignee
Sichuan XW Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan XW Bank Co Ltd filed Critical Sichuan XW Bank Co Ltd
Priority to CN202111085147.1A priority Critical patent/CN113705727B/zh
Publication of CN113705727A publication Critical patent/CN113705727A/zh
Application granted granted Critical
Publication of CN113705727B publication Critical patent/CN113705727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于差分隐私的决策树建模方法、预测方法、设备及介质,该决策树建模方法利用差分隐私保护一阶导数和二阶导数,通过产生随机浮点数Δrate,只会随机发送一部分导数到被动方,被动方无法通过收到的一阶导数和二阶导数进行反推标签y,同时因为主动方知道Δrate的具体值,所以主动方可以通过Δrate将被动方返还的各个分箱的导数和还原,从而不影响计算最佳切分点。该决策树预测方法包括获取待测样本,并将待测样本输入至决策树分类模型中,以通过决策树分类模型获得待测样本的预测分类结果;所述决策树分类模型采用所述决策树建模方法构建得到的决策树分类模型。本发明避免了密文计算,大大降低了CPU开销和网络开销。

Description

基于差分隐私的决策树建模方法、预测方法、设备及介质
技术领域
本发明涉及人工智能领域、数据保护技术领域,具体涉及基于差分隐私的决策树建模方法、预测方法、设备及介质。
背景技术
目前数据隐私安全越来越受到重视,但是人工智能的模型的精度则很大程度上依赖于数据的维度。在个人隐私数据保护以及商业利益的共同驱动下,诞生了联邦学习技术。该技术能够在不使用个人隐私数据的情况下完成机器学习建模。
在联邦学习实现的众多模型中,最常用的算法模型就是secureboost。该算法是xgboost算法的联邦学习版本,是一种集成多棵决策树的联合建模方法,该方法于2019年年底由微众银行提出。
在原有的解决方案当中,为了保障建模的主动方不泄露标签y,主动方发送给合作方的一阶导数g以及二阶导数h均采用同态加密算法加密后发送,被动方此时由于没有解密私钥,无法通过[[g]]和[[h]]反推主动方的标签列y,但被动方可以计算各个分桶的一阶导数的和以及二阶导数的和。求得各个分桶的导数和信息之后返还给主动方,主动方解密后就能计算各个分位点带来的增益gain,从而指导决策树的分裂。
现有的方案有如下缺陷:
1、主动方需要将所有数据的一阶导数g以及二阶导数h的密文[[g]]以及[[h]]发送至合作方,按照一般的加密标准1024bit计算,每行数据至少发送两个密文,也就是256字节。当训练数据规模较大时,网络带宽压力很大。
2、被动方需要对每个分箱当中的[[g]]和[[h]]进行求和,这里因为[[g]]和[[h]]均为密文,所以只能使用同态加密求和,按照一般较为通用的同态加密算法paillier的实现来看,求和的具体操作是将密文进行相乘,并且再对公钥当中的n^2取余。而密文是一个大数,大数的乘法以及取余均会消耗大量的计算资源。
发明内容
本发明所要解决的技术问题是现有基于联邦学习的决策树建模方法中主动方发送给合作方的一阶导数g以及二阶导数h均采用同态加密算法加密后发送,当训练数据规模较大时,存在网络带宽压力大的缺陷;被动方需要对每个分箱当中的[[g]]和[[h]]进行求和,只能使用同态加密求和,存在计算资源消耗量大、执行速度慢等问题。
本发明目的在于提供基于差分隐私的决策树建模方法、预测方法、设备及介质,本发明的决策树建模方法采用差分隐私的思路,不再使用同态加密之后的结果给被动方,而是给g和h的一部分到被动方,此时被动方收到的数据不再是密文而是一个浮点数,通信量大大减少,一般一个浮点数只有8字节,根据实验结果,传输数据量仅为现有技术方案的10%。另外被动方由于接收到的是浮点数,也避免了执行同态加密加法,而只需要进行浮点数加法即可,根据实验结果显示,决策树的执行速度提升了3.5倍左右。
本发明通过下述技术方案实现:
第一方面,本发明提供了基于差分隐私的决策树建模方法,该决策树建模方法应用于进行联邦学习和差分隐私的第一设备,第一设备采用联邦学习和差分隐私与第二设备进行交互,所述第一设备作为主动方,第二设备作为被动方;该决策树建模方法包括:
S1:主动方对每个建模特征数据进行初始化,给出初始随机预测值
Figure BDA0003265293950000021
计算每个建模特征数据的一阶导数gi和二阶导数hi,及生成一个随机浮点数Δrate;将各个建模特征数据的一阶导数gi和二阶导数hi均乘以随机浮点数Δrate后发送给被动方,即主动方发送giΔrate和hiΔrate到被动方;
S2:被动方根据分箱数对各个建模特征数据进行等频分箱,并对每个箱当中的giΔrate以及hiΔrate进行求和,并将所有建模特征数据的各个分箱的一阶导数和、二阶导数和返回给主动方;
S3:主动方根据随机浮点数Δrate还原真实的导数和,计算每个可能的分位点增益,并记录最大增益所在的特征数据编号以及分裂点信息,进行一层分裂;
S4:主动方反复执行步骤S2~S3,直至满足停止条件,构建得到建模决策树。
工作原理是:现有基于联邦学习的决策树建模方法中主动方发送给合作方的一阶导数g以及二阶导数h均采用同态加密算法加密后发送,当训练数据规模较大时,存在网络带宽压力大的缺陷;被动方需要对每个分箱当中的[[g]]和[[h]]进行求和,只能使用同态加密求和,存在计算资源消耗量大、执行速度慢等问题。本发明设计了基于差分隐私的决策树建模方法,本发明利用差分隐私保护一阶导数和二阶导数,本发明方案通过产生随机浮点数Δrate,只会随机发送一部分导数到被动方,被动方无法通过收到的一阶导数和二阶导数进行反推标签y,同时因为主动方知道Δrate的具体值,所以主动方可以通过Δrate将被动方返还的各个分箱的导数和还原,从而不影响计算最佳切分点。由于避免了密文计算,所以大大降低了CPU开销和网络开销。
本发明具有如下创新点:(1)整个计算过程未采用同态加密来保护主动方的梯度信息,而是换成了一个Δrate,使得被动方的计算均是在浮点数上进行的,而非大整数乘法以及取余计算,大大提升了计算效率。
(2)主动方发送给被动方的数据只有浮点数,对每个训练样本会发送两个浮点数到被动方,共16个字节,大大降低了现有方案的密文发送形式所带来的带宽消耗。在降低网络要求的同时,也进一步加快了训练速度。
进一步地,步骤S1中根据任务情况计算每个建模特征数据的一阶导数gi和二阶导数hi,这里以最常用的二分类sigmoid函数为例,计算出第i个建模特征数据的一阶导数
Figure BDA0003265293950000031
二阶导数
Figure BDA0003265293950000032
为初始随机预测值,yi为样本数据(即建模特征数据)的真实标签值。
进一步地,步骤S1中生成一个随机浮点数Δrate,其中Δrate的取值为0到1之间的一个随机浮点数。
进一步地,步骤S2包括以下子步骤:
S21:被动方根据分箱数对各个建模特征数据进行等频分箱;比如当分箱数为5,特征为用户的年龄时,被动方会将所有用户的年龄小到大排序,并取20%、40%、60%、80%四个分位点,将年龄这个特征编码为0,1,2,3,4五个码值。
S22:被动方对每个箱当中的giΔrate以及hiΔrate进行求和,得到一阶导数和gbint=∑i∈tgiΔrate,二阶导数和hbint=∑i∈thiΔrate,其中,giΔrate以及hiΔrate是在步骤S1中由主动方发送过来的;i表示第i分箱,i的取值范围为1~t;如果仍然以步骤21当中用户年龄分箱的例子来说明的话,这里被动方相当于分别将年龄编码为0、1、2、3、4的数据进行了求和,计算出了:gbin0、gbin1、gbin2、gbin3、gbin4以及hbin0、hbin1、hbin2、hbin3、hbin4
S23:被动方将所有建模特征数据的各个分箱的一阶导数和gbint、二阶导数和hbint返回给主动方。
进一步地,步骤S3中的主动方根据随机浮点数Δrate还原真实的导数和,包括真实一阶导数和Gt、真实二阶导数和Ht,计算公式为:
Figure BDA0003265293950000033
Figure BDA0003265293950000034
进一步地,步骤S3中的计算每个可能的分位点增益,增益gain的计算公式为:
Figure BDA0003265293950000035
其中:
Figure BDA0003265293950000036
代表t分位点之前所有的一阶导数和;
Figure BDA0003265293950000037
代表t分位点之后的所有一阶导数和;
Figure BDA0003265293950000038
代表t分位点之前所有的二阶导数和;
Figure BDA0003265293950000039
代表t分位点之后所有的二阶导数和;λ和γ为正则化系数。
进一步地,步骤S4中的停止条件为:所有的分裂点都没有带来增益时或者分裂达到预设层数时(比如预设层数为4)。
第二方面,本发明还提供了基于差分隐私的决策树预测方法,该决策树预测方法包括:
获取待测样本,并将所述待测样本输入至决策树分类模型中,以通过所述决策树分类模型获得待测样本的预测分类结果,并输出;其中,
所述决策树分类模型采用所述的基于差分隐私的决策树建模方法构建得到的决策树分类模型。
第三方面,本发明还提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的基于差分隐私的决策树建模方法。
第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于差分隐私的决策树建模方法。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明方法利用差分隐私保护一阶导数和二阶导数,本发明方案通过产生随机浮点数Δrate,只会随机发送一部分导数到被动方,被动方无法通过收到的一阶导数和二阶导数进行反推标签y,同时因为主动方知道Δrate的具体值,所以主动方可以通过Δrate将被动方返还的各个分箱的导数和还原,从而不影响计算最佳切分点。由于避免了密文计算,所以大大降低了CPU开销和网络开销。相比传统方法,本发明主要有速度更快、网络开销小两大优势:
1、速度更快
本发明方法中,被动方在对各个分箱的梯度进行求和时,只需要进行浮点数加法即可,而不需要进行同态加密加法,性能上存在数倍的差异,在本发明的具体实现代码上,效率差异在3.5倍左右。
2、网络开销更小
由于传输数据没有进行加密,所以无需传输密文,仅需要传输浮点数即可,根据普遍的加密长度1024bit来计算,采用本发明方法可以将通信数据量降低到原来的10%左右。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明基于差分隐私的决策树建模方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
如图1所示,本发明基于差分隐私的决策树建模方法,该决策树建模方法应用于进行联邦学习和差分隐私的第一设备,第一设备采用联邦学习和差分隐私与第二设备进行交互,所述第一设备作为主动方,第二设备作为被动方;该决策树建模方法包括:
S1:主动方对每个建模特征数据进行初始化,给出初始随机预测值
Figure BDA0003265293950000051
根据任务情况计算每个建模特征数据的一阶导数gi和二阶导数hi,这里以最常用的二分类sigmoid函数为例,计算出第i个建模特征数据的一阶导数
Figure BDA0003265293950000052
二阶导数
Figure BDA0003265293950000053
为初始随机预测值,yi为样本数据(即建模特征数据)的真实标签值。及生成一个0到1之间的随机浮点数Δrate;将各个建模特征数据的一阶导数gi和二阶导数hi均乘以随机浮点数Δrate后发送给被动方,即主动方发送giΔrate和hiΔrate到被动方;
S2:被动方根据分箱数对各个建模特征数据进行等频分箱,并对每个箱当中的giΔrate以及hiΔrate进行求和,并将所有建模特征数据的各个分箱的一阶导数和、二阶导数和返回给主动方;S2包括以下子步骤:
S21:被动方根据分箱数对各个建模特征数据进行等频分箱;比如当分箱数为5,特征为用户的年龄时,被动方会将所有用户的年龄小到大排序,并取20%、40%、60%、80%四个分位点,将年龄这个特征编码为0,1,2,3,4五个码值。
S22:被动方对每个箱当中的giΔrate以及hiΔrate进行求和,得到一阶导数和gbint=∑i∈tgiΔrate,二阶导数和hbint=∑i∈thiΔrate,其中,giΔrate以及hiΔrate是在步骤S1中由主动方发送过来的;i表示第i分箱,i的取值范围为1~t;如果仍然以步骤21当中用户年龄分箱的例子来说明的话,这里被动方相当于分别将年龄编码为0、1、2、3、4的数据进行了求和,计算出了:gbin0、gbin1、gbin2、gbin3、gbin4以及hbin0、hbin1、hbin2、hbin3、hbin4
S23:被动方将所有建模特征数据的各个分箱的一阶导数和gbint、二阶导数和hbint返回给主动方。
S3:主动方根据随机浮点数Δrate还原真实的导数和,包括真实一阶导数和Gt、真实二阶导数和Ht,计算公式为:
Figure BDA0003265293950000054
Figure BDA0003265293950000055
计算每个可能的分位点增益,并记录最大增益所在的特征数据编号以及分裂点信息,进行一层分裂;
具体地,增益gain的计算公式为:
Figure BDA0003265293950000056
其中:
Figure BDA0003265293950000057
代表t分位点之前所有的一阶导数和;
Figure BDA0003265293950000058
代表t分位点之后的所有一阶导数和;
Figure BDA0003265293950000061
代表t分位点之前所有的二阶导数和;
Figure BDA0003265293950000062
代表t分位点之后所有的二阶导数和;λ和γ为正则化系数。
S4:主动方反复执行步骤S2~S3,直至满足停止条件(所有的分裂点都没有带来增益时或者分裂达到预设层数时(比如预设层数为4)),构建得到建模决策树模型。
本发明利用差分隐私保护一阶导数和二阶导数,本发明方案通过产生随机浮点数Δrate,只会随机发送一部分导数到被动方,被动方无法通过收到的一阶导数和二阶导数进行反推标签y,同时因为主动方知道Δrate的具体值,所以主动方可以通过Δrate将被动方返还的各个分箱的导数和还原,从而不影响计算最佳切分点。由于避免了密文计算,所以大大降低了CPU开销和网络开销。
本发明具有如下创新点:(1)整个计算过程未采用同态加密来保护主动方的梯度信息,而是换成了一个Δrate,使得被动方的计算均是在浮点数上进行的,而非大整数乘法以及取余计算,大大提升了计算效率。
(2)主动方发送给被动方的数据只有浮点数,对每个训练样本会发送两个浮点数到被动方,共16个字节,大大降低了现有方案的密文发送形式所带来的带宽消耗。在降低网络要求的同时,也进一步加快了训练速度。
实施例2
本实施例与实施例1的区别在于,把实施例1的基于差分隐私的决策树建模方法,运用于风控的实际样例进行说明,如下:
主动方和被动方假设均拥有5个人的数据,主动方掌握了这5个人当中哪些人发生过逾期这一标签(y标签),被动方掌握了这5个人的特征数据,这里简单起见,被动方假设只掌握了用户的年龄这一属性。这里假设五个人的标签为1,0,1,0,0,年龄为50,30,60,20,25。
在本实施例当中,主动方希望构建一个决策树分类模型,用来预测一个新的用户未来发生逾期的概率。
步骤1:主动方会对5个人每人随机进行一个初始化预测,假设预测值为0.7,0.8,0.5,0.2,0.3。
步骤2:根据5人的真实样本标签和实施例1所述的公式,计算出5个人的一阶导数分别为:0.3,-0.8,0.5,-0.2,-0.3。二阶导数分别为:0.21,0.16,0.25,0.16,0.21。
步骤3:生成一个随机浮点数Δrate,这里假设为0.5。
步骤4:主动方发送一阶导数乘以0.5和二阶导数乘以0.5的结果到被动方,在这个样例中,发送的数据为:g=0.15,-0.4,0.25,-0.1,-0.15。h=0.105,0.08,0.125,0.08,0.105。
步骤5:被动方根据年龄进行分箱,这里假设只分为2箱,小于等于30岁为第1箱,编号为0,大于30岁为第二箱,编号为1。这里5个人的年龄会编码成:1,0,1,0,0。
步骤6:被动方分别计算编号为0和1的箱子各阶导数和。在这个例子中:0箱的一阶导数和为:-(0.4+0.1+0.15)=-0.65,二阶导数和为0.08+0.08+0.105=0.265。第1箱的一阶导数和为:0.15+0.25=0.4,二阶导数和为0.105+0.125=0.225。
步骤7:被动方将第0箱的:-0.65和0.265以及第1箱的0.4和0.225告诉主动方。
步骤8:主动方根据Δrate还原真实的梯度和,第0箱一阶导数和:-0.65/0.5=-1.3,二阶导数和:0.265/0.5=0.53,第1箱的一阶导数和:0.4/0.5=0.8,二阶导数和:0.225/0.5=0.45
步骤9:计算每个分位点的增益,这里的样例因为只有一个分位点,为了简化计算,假设模型不设置两个正则化系数,所以计算他的增益为:0.5*(1.3*1.3/0.53+0.8*0.8/0.45-(-1.3+0.8)^2/(0.53+0.45))=2.1778997133444578,这里可以发现增益大于0,所以这个分位点是有价值的。
步骤10:本来还应该重复4~9继续去发掘其他特征的最佳分位点,但这里的样例比较简单,只有一个特征并且分位点也只有一个,所以这里会停止决策树的生成。
此时,已生成一个决策树分类模型,该决策树分类模型用来预测一个新的用户未来发生逾期的概率。
本发明方案主要是针对决策树方法的改进,可以大幅度提升原有方法的建模速度。(1)速度更快:本方案中,被动方在对各个分箱的梯度进行求和时,只需要进行浮点数加法即可,而不需要进行同态加密加法,性能上存在数倍的差异,在本发明的具体实现代码上,效率差异在3.5倍左右。(2)网络开销更小:由于传输数据没有进行加密,所以无需传输密文,仅需要传输浮点数即可,根据普遍的加密长度1024bit来计算,采用本方案可以将通信数据量降低到原来的10%左右。
实施例3
本实施例与实施例1的区别在于,本实施例提供了基于差分隐私的决策树预测方法,该决策树预测方法包括:
获取待测样本,并将所述待测样本输入至决策树分类模型中,以通过所述决策树分类模型获得待测样本的预测分类结果,并输出;其中,
所述决策树分类模型采用实施例1或实施例2所述的基于差分隐私的决策树建模方法构建得到的决策树分类模型。
比如,把实施例2生成的决策树分类模型,用来预测一个新的用户未来发生逾期的概率,并输出即可。
同时,本发明还提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的基于差分隐私的决策树建模方法。
同时,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于差分隐私的决策树建模方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于差分隐私的决策树建模方法,其特征在于,该决策树建模方法应用于进行联邦学习和差分隐私的第一设备,第一设备采用联邦学习和差分隐私与第二设备进行交互,所述第一设备作为主动方,第二设备作为被动方;该决策树建模方法包括:
S1:主动方对每个建模特征数据进行初始化,给出初始随机预测值
Figure FDA0003265293940000011
计算每个建模特征数据的一阶导数gi和二阶导数hi,及生成一个随机浮点数Δrate;将各个建模特征数据的一阶导数gi和二阶导数hi均乘以随机浮点数Δrate后发送给被动方,即主动方发送giΔrate和hiΔrate到被动方;
S2:被动方根据分箱数对各个建模特征数据进行等频分箱,并对每个箱当中的giΔrate以及hiΔrate进行求和,并将所有建模特征数据的各个分箱的一阶导数和、二阶导数和返回给主动方;
S3:主动方根据随机浮点数Δrate还原真实的导数和,计算每个可能的分位点增益,并记录最大增益所在的特征数据编号以及分裂点信息,进行一层分裂;
S4:主动方反复执行步骤S2~S3,直至满足停止条件,构建得到建模决策树。
2.根据权利要求1所述的基于差分隐私的决策树建模方法,其特征在于,步骤S1中一阶导数
Figure FDA0003265293940000012
二阶导数
Figure FDA0003265293940000013
Figure FDA0003265293940000014
为初始随机预测值,yi为样本数据的真实标签值。
3.根据权利要求1所述的基于差分隐私的决策树建模方法,其特征在于,步骤S1中生成一个随机浮点数Δrate,其中Δrate的取值为0到1之间的一个随机浮点数。
4.根据权利要求1所述的基于差分隐私的决策树建模方法,其特征在于,步骤S2包括以下子步骤:
被动方根据分箱数对各个建模特征数据进行等频分箱;
被动方对每个箱当中的giΔrate以及hiΔrate进行求和,得到一阶导数和gbint=∑i∈ tgiΔrate,二阶导数和hbint=∑i∈thiΔrate,其中,giΔrate以及hiΔrate是在步骤S1中由主动方发送过来的;i表示第i分箱,i的取值范围为1~t;
被动方将所有建模特征数据的各个分箱的一阶导数和gbint、二阶导数和hbint返回给主动方。
5.根据权利要求4所述的基于差分隐私的决策树建模方法,其特征在于,步骤S3中的主动方根据随机浮点数Δrate还原真实的导数和,包括真实一阶导数和Gt、真实二阶导数和Ht,计算公式为:
Figure FDA0003265293940000015
Figure FDA0003265293940000016
6.根据权利要求4所述的基于差分隐私的决策树建模方法,其特征在于,步骤S3中的计算每个可能的分位点增益,增益gain的计算公式为:
Figure FDA0003265293940000021
其中:
Figure FDA0003265293940000022
代表t分位点之前所有的一阶导数和;
Figure FDA0003265293940000023
代表t分位点之后的所有一阶导数和;
Figure FDA0003265293940000024
代表t分位点之前所有的二阶导数和;
Figure FDA0003265293940000025
代表t分位点之后所有的二阶导数和;λ和γ为正则化系数。
7.根据权利要求1所述的基于差分隐私的决策树建模方法,其特征在于,步骤S4中的停止条件为:所有的分裂点都没有带来增益时或者分裂达到预设层数时。
8.基于差分隐私的决策树预测方法,其特征在于,该决策树预测方法包括:
获取待测样本,并将所述待测样本输入至决策树分类模型中,以通过所述决策树分类模型获得待测样本的预测分类结果,并输出;其中,
所述决策树分类模型采用如权利要求1至7中任一所述的基于差分隐私的决策树建模方法构建得到的决策树分类模型。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于差分隐私的决策树建模方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于差分隐私的决策树建模方法。
CN202111085147.1A 2021-09-16 2021-09-16 基于差分隐私的决策树建模方法、预测方法、设备及介质 Active CN113705727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111085147.1A CN113705727B (zh) 2021-09-16 2021-09-16 基于差分隐私的决策树建模方法、预测方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111085147.1A CN113705727B (zh) 2021-09-16 2021-09-16 基于差分隐私的决策树建模方法、预测方法、设备及介质

Publications (2)

Publication Number Publication Date
CN113705727A CN113705727A (zh) 2021-11-26
CN113705727B true CN113705727B (zh) 2023-05-12

Family

ID=78661130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111085147.1A Active CN113705727B (zh) 2021-09-16 2021-09-16 基于差分隐私的决策树建模方法、预测方法、设备及介质

Country Status (1)

Country Link
CN (1) CN113705727B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417388B (zh) * 2022-01-25 2022-08-26 云南电网有限责任公司信息中心 基于纵向联邦学习的电力负荷预测方法、系统、设备及介质
CN117235796B (zh) * 2023-09-27 2024-05-07 宁远县大麦电子商务有限公司 一种电子商务数据的处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165683A (zh) * 2018-08-10 2019-01-08 深圳前海微众银行股份有限公司 基于联邦训练的样本预测方法、装置及存储介质
CN111445032A (zh) * 2020-06-12 2020-07-24 支付宝(杭州)信息技术有限公司 利用业务决策模型进行决策处理的方法及装置
CN111598186A (zh) * 2020-06-05 2020-08-28 腾讯科技(深圳)有限公司 基于纵向联邦学习的决策模型训练方法、预测方法及装置
CN111695697A (zh) * 2020-06-12 2020-09-22 深圳前海微众银行股份有限公司 多方联合决策树构建方法、设备及可读存储介质
WO2020220823A1 (zh) * 2019-04-30 2020-11-05 京东城市(南京)科技有限公司 用于构建决策树的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726153B2 (en) * 2015-11-02 2020-07-28 LeapYear Technologies, Inc. Differentially private machine learning using a random forest classifier
US10977737B2 (en) * 2018-01-10 2021-04-13 Liberty Mutual Insurance Company Training gradient boosted decision trees with progressive maximum depth for parsimony and interpretability

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165683A (zh) * 2018-08-10 2019-01-08 深圳前海微众银行股份有限公司 基于联邦训练的样本预测方法、装置及存储介质
WO2020220823A1 (zh) * 2019-04-30 2020-11-05 京东城市(南京)科技有限公司 用于构建决策树的方法和装置
CN111598186A (zh) * 2020-06-05 2020-08-28 腾讯科技(深圳)有限公司 基于纵向联邦学习的决策模型训练方法、预测方法及装置
CN111445032A (zh) * 2020-06-12 2020-07-24 支付宝(杭州)信息技术有限公司 利用业务决策模型进行决策处理的方法及装置
CN111695697A (zh) * 2020-06-12 2020-09-22 深圳前海微众银行股份有限公司 多方联合决策树构建方法、设备及可读存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Parallel Distributed Logistic Regression for Vertical Federated Learning without Third-Party Coordinator;Shengwen Yang等;《arXiv》;1-6 *
SecureBoost: A Lossless Federated Learning Framework;Kewei Cheng等;《IEEE Intelligent Systems》;第36卷(第6期);87-98 *
Tianqi Chen等.XGBoost: A Scalable Tree Boosting System.《KDD '16: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining》.2016,785–794. *
差分隐私定量与定性保护研究;白轩宇;《中国优秀硕士学位论文全文数据库 信息科技辑》(第01期);I138-172 *
联邦学习算法综述;王健宗等;《大数据》;第6卷(第06期);64-82 *

Also Published As

Publication number Publication date
CN113705727A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
Lukas et al. Sok: How robust is image classification deep neural network watermarking?
Al Badawi et al. Privft: Private and fast text classification with homomorphic encryption
CN113705727B (zh) 基于差分隐私的决策树建模方法、预测方法、设备及介质
Zhang et al. Privacy preserving deep computation model on cloud for big data feature learning
WO2021223663A1 (zh) 基于差分隐私的数据生成系统的训练
CN113051557B (zh) 基于纵向联邦学习的社交网络跨平台恶意用户检测方法
CN108259158A (zh) 一种云计算环境下高效和隐私保护的单层感知机学习方法
CN112464292B (zh) 基于隐私保护训练图神经网络的方法及装置
Masters et al. Towards a homomorphic machine learning big data pipeline for the financial services sector
Zhang et al. Additively homomorphical encryption based deep neural network for asymmetrically collaborative machine learning
Liu et al. Intelligent and secure content-based image retrieval for mobile users
Duan et al. Efficient image encryption and compression based on a VAE generative model
CN113378160A (zh) 一种基于生成式对抗网络的图神经网络模型防御方法及装置
Bu et al. Privacy preserving back-propagation based on BGV on cloud
WO2021010896A1 (en) Method and system for distributed data management
Zhang et al. A survey on privacy inference attacks and defenses in cloud-based deep neural network
Sun et al. Image steganalysis based on convolutional neural network and feature selection
Ding et al. Efficient BiSRU combined with feature dimensionality reduction for abnormal traffic detection
Teo et al. Privacy preserving support vector machine using non-linear kernels on hadoop mahout
CN113055153B (zh) 一种基于全同态加密算法的数据加密方法、系统和介质
Yang et al. Quantum-assisted encryption for digital audio signals
US11580195B1 (en) Quantum modulation-based data compression
Jiménez et al. Acoustic scene classification using discrete random hashing for Laplacian kernel machines
Wang et al. Popcorn: Paillier meets compression for efficient oblivious neural network inference
Bittner et al. Private speech characterization with secure multiparty computation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant