CN114817946A - 基于可信执行环境的联邦学习梯度提升决策树训练方法 - Google Patents

基于可信执行环境的联邦学习梯度提升决策树训练方法 Download PDF

Info

Publication number
CN114817946A
CN114817946A CN202210270250.1A CN202210270250A CN114817946A CN 114817946 A CN114817946 A CN 114817946A CN 202210270250 A CN202210270250 A CN 202210270250A CN 114817946 A CN114817946 A CN 114817946A
Authority
CN
China
Prior art keywords
decision tree
training
local
participant
execution environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210270250.1A
Other languages
English (en)
Other versions
CN114817946B (zh
Inventor
李先贤
高士淇
刘鹏
李春培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Normal University
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN202210270250.1A priority Critical patent/CN114817946B/zh
Publication of CN114817946A publication Critical patent/CN114817946A/zh
Application granted granted Critical
Publication of CN114817946B publication Critical patent/CN114817946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于可信执行环境的联邦学习梯度提升决策树训练方法,把联邦梯度提升决策树的训练过程中多个参与方轮流训练决策树的方法改进为多个参与方本地模型竞争的方法,每一轮迭代中选择质量最高的本地模型成为联邦模型的一部分,降低了低质量本地模型对全局模型的影响。并且,由于竞争本地模型的方式会使每个联邦参与方消耗更多的隐私预算,本发明设计了基于可信执行环境的模型评估方法,在可信执行环境中完成竞争过程,使隐私预算消耗与传统方式相同。最终,本发明应用于金融、医疗等场景下,多个社会实体可以在隐私保护的前提下,训练高质量模型,处理金融风险预测、疾病预测等业务。

Description

基于可信执行环境的联邦学习梯度提升决策树训练方法
技术领域
本发明涉及联邦学习技术领域,具体涉及一种基于可信执行环境的联邦学习梯度提升决策树训练方法。
背景技术
基于梯度提升决策树(Gradient Boosting Decision Tree,GBDT)的学习算法在表格类数据挖掘、预测方面具有巨大的优势,在贷款风险、疾病预测、入侵检测等领域具有广泛的应用。但是,由于用户的数据信息(患者电子病历、用户资产状况等数据)分散在各个不同的主体(地方性医院、地方性银行)中,导致了以下几个现实问题:(1)由于样本数量不足,对于单个地方性医院和银行来说,其用户数量往往是比较少的,数据量不足以驱动大规模、高精度的数据挖掘任务。(2)单个地方性医院和银行往往局限于单一的分布,例如地方性医院患者的性别比例或年龄层次等分布情况具有一定偏差,因此其进行数据挖掘建模也会具有一定的局限性。(3)某些罕见疾病、信用诈骗等案例往往在用户总量中占有很小的比例,但是如果能更好的预测出罕见疾病或者信用卡诈骗,都可以为主体带来巨大的利益,甚至挽救生命。然而现实中每一个地方性医院和地方性银行中可能仅仅存在很少的案例,也就是存在正负样本不平衡问题,无法完成这一具有挑战性的数据挖掘任务。(4)由于信息时代各个国家对公民隐私保护的重视,不同的地方性医院或银行需要保护各自用户的隐私信息,简单的共享数据来实现海量数据挖掘甚至会触犯法律法规。
联邦GBDT技术为上述情况提出了一种在不共享数据的前提下协同训练机器学习模型的范式,但当前联邦GBDT技术主要面临的挑战是隐私保护力度与GBDT模型训练精度的协调问题。当前一部分研究为了保护隐私,实现了差分隐私级别的保护力度,但也使模型效果大大降低;另一部分研究为了达到可用的模型预测精度,使用隐私保护力度更弱的匿名化技术。以上两种方法,都无法实现高精度、高隐私保护力度的联邦梯度提升机学习。
发明内容
本发明所要解决的是现有联邦GBDT技术存在隐私保护力度与训练精度的协调问题,提供一种基于可信执行环境的联邦学习梯度提升决策树训练方法。
为解决上述问题,本发明是通过以下技术方案实现的:
基于可信执行环境的联邦学习梯度提升决策树训练方法,包括步骤如下:
步骤1、每个参与方的可信执行环境从本地数据集中随机选择一定比例的样本作为验证数据集,并将验证数据集存储在本地可信执行环境的保留区域内;
步骤2、每个参与方从本地数据集中随机选择一定比例的样本作为训练数据集,并使用训练数据集训练本地决策树;在利用基于梯度提升决策树算法训练本地决策树的过程中加入差分隐私噪声,得到本地差分隐私决策树;
步骤3、每个参与方的可信执行环境使用联邦训练统一密钥对中的公钥加密本地差分隐私决策树,得到本地加密决策树,并广播给全部参与方;
步骤4、每个参与方的可信执行环境使用联邦训练统一密钥对中的私钥对其他参与方的本地加密决策树进行解密,得到其他参与方的本地差分隐私决策树;
步骤5、每个参与方的可信执行环境利用其验证数据集对所有参与方的本地差分隐私决策树进行评估,得到每个本地差分隐私决策树的均方误差评估值;
步骤6、每个参与方的可信执行环境先每个本地差分隐私决策树的均方误差评估值签名,再使用联邦训练统一密钥对中的公钥对其进行加密后,得到每个本地差分隐私决策树的加密均方误差评估值,并广播给全部参与方;
步骤7、每个参与方的可信执行环境使用联邦训练统一密钥对中的私钥对所有参与方对每个本地差分隐私决策树的加密均方误差评估值进行解密,得到所有参与方对每个本地差分隐私决策树的均方误差评估值;
步骤8、每个参与方的可信执行环境将所有参与方对每个本地差分隐私决策树的均方误差评估值进行累加,得到每个本地差分隐私决策树的最终评分,并选择最终评分最高的本地差分隐私决策树最为本轮训练的最优差分隐私决策树;参与方的可信执行环境将该最优差分隐私决策树Tt输出给参与方,参与方将其加入全局决策树集合中;
步骤9、重复步骤2-8,直到达到预设的最大训练次数,由此得到每个参与方的最终全局决策树集合;
步骤10、每个参与方将其最终全局决策树集合中的所有最优差分隐私决策树进行融合,得到最终决策树模型;
步骤11、参与方将所需预测的样本实例输入到步骤10所得到的最终决策树模型中,由此完成对样本实例的预测。
上述步骤3中,利用基于梯度提升决策树算法训练本地决策树的过程中加入差分隐私噪声具体包括:
1)在寻找最具信息增益的分割点对节点进行分裂时,使用指数机制差分隐私返回最佳特征,返回概率P为:
Figure BDA0003553012020000021
2)在节点分裂达到最大深度并成为叶子节点时,将Laplace噪声加入到权重中,权重V为:
V=Value+Y
式中,∈t为第t轮训练任务分配的隐私预算,Gain(f)为基于梯度提升决策树算法中每个特征f的增益值,λ为基于梯度提升决策树算法目标函数的正则化项,Nnode为给定的本地决策树的节点总数,g为训练数据集中所有样本中梯度绝对值的最大值,Value为基于梯度提升决策树算法所计算出的叶子节点权重,Y为Laplace噪声。
上述Laplace噪声Y从以下分布中抽取的随机数:
Figure BDA0003553012020000031
式中,Nnode为给定的本地决策树的节点总数,g为训练数据集中所有样本中梯度绝对值的最大值,∈t为第t轮训练任务分配隐私预算,λ为基于梯度提升决策树算法目标函数的正则化项。
上述第t轮训练任务分配隐私预算∈t为:
Figure BDA0003553012020000032
式中,t为当前训练次数,∈为给定的总的隐私预算,η为给定的采样率。
上述步骤5中,第t轮训练中第i个参与方对第j个参与方的本地差分隐私决策树的均方误差评估值
Figure BDA0003553012020000033
为:
Figure BDA0003553012020000034
式中,
Figure BDA0003553012020000035
为第i个参与方的验证数据集的样本数量,T1,T2,…,Tt-1分别为第1轮训练至第t-1轮训练所得到的最优差分隐私决策树,
Figure BDA0003553012020000036
为第t轮训练中第j个参与方的本地差分隐私决策树,MSE()为均方误差函数,i,j=1,2,…,M,M为参与方的个数。
与现有技术相比,本发明着重于实现严格差分隐私、高可用性的联邦GBDT模型训练,其具有特点如下:
1、竞争获得模型训练权限。当前联邦GBDT训练都是多个参与方顺序性地训练单棵决策树,当遇到数据集样本较差,甚至是恶意损坏训练精度的参与方时,质量低下的决策树也会被加入到联邦模型中,使得联邦模型精度大大降低。本发明中,每个参与方都会训练单棵决策树,但只有精度最高的决策树会被加入到联邦模型中,大大降低了联邦模型被极个别低质量模型影响的可能性,从而使模型效果变高。
2、动态调整隐私预算。根据大量实验表明,在整个联邦GBDT训练过程中,前几次迭代产生的决策树对模型影响非常大,因此把所有隐私预算均匀分配是不合理的。本发明中,随着迭代此处的不断增加,隐私预算逐步减少,这意味者迭代次数较小的模型,加入噪声量更少,从而使联邦模型效果更好。另外,根据无穷级数的收敛性保证总隐私预算消耗严格控制在隐私预算内。
3、TEE保证在竞争过程不会消耗隐私预算。考虑到每轮迭代中参与竞争的参与方也会发布自己的本地模型,并且同步消耗隐私预算,这会导致在模型训练中期随着隐私预算的减少,模型中的噪声量迅速上升,从而联邦模型中无法加入新的高质量模型。本发明中,使用了TEE可信执行环境,通过TEE来选择本地决策树的优胜者,这一过程并不会对外部暴漏,也就意味着,如果一个参与方的模型没有被吸纳进全局模型中时,并不会泄漏任何一个参与方,因此不会消耗任何隐私预算。
附图说明
图1为一种基于可信执行环境的联邦学习梯度提升决策树训练方法的原理图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,对本发明进一步详细说明。
参见图1,一种基于可信执行环境的联邦学习梯度提升决策树训练方法,其包括步骤如下:
参与联邦训练的参与方为M个,Pi代表第i个参与方,i=1,2,…,M。每个参与方的客户端程序分为两部分,分别是TEE(可信执行环境)内部程序Processtrusted和外部程序Processuntrusted
每个参与方的本地数据集中包括多个带有标签的样本。在本实施例中,参与方为金融机构,本地数据集包括若干个带有是否存在金融风险标签的用户金融数据样本,其中用户金融数据中的特征包括公司行业,公司成立年限、公司规模、公司融资情况、贷款金额等。
在开始联邦训练之前,所有参与方同步训练参数,其中包括样本数据集要求(样本的特征要求)、最大迭代次数、决策树模型的参数(初始值、损失函数、正则化项参数、决策树模型的最大深度、最大叶子节点个数,采样比例)、加密模型最大等待时延、加密评分最大等待时延。联邦训练统一密钥对为(sktask,pktask)。
步骤1、每个参与方Pi的可信执行环境从本地数据集中随机选择一定比例的样本作为验证数据集
Figure BDA0003553012020000041
并将验证数据集存储在本地可信执行环境的保留区域内。
在本发明中,所有参与方从其本地数据集中所选择的作为验证数据集的比例相同或不同。每个参与方TEE将遍历本地数据集,并且选择其中的一部分(例如:30%),作为验证数据集存储在TEE的保留区域内,例如使用intelSGX作为TEE硬件,并同时使用MRENCLAVE安全区标识存储策略来存放验证数据集。
步骤2、每个参与方Pi从本地数据集中随机选择一定比例的样本作为训练数据集,并使用训练数据集训练本地决策树;在利用基于梯度提升决策树算法训练本地决策树模型的过程中加入差分隐私噪声,得到本地差分隐私决策树。
步骤2.1、参与方开始第t轮训练任务时,每个参与方基于梯度提升决策树算法(GBDT算法)使用训练数据集和当前联邦决策树集合,计算样本梯度。
每个参与方从本地数据集中选择一部分作为训练数据集,则参与方所得到的训练数据集的样本数量为η*Ni,其中Ni为本地数据集的样本数量,η为预设的采样率,默认为0.2。
对于第t轮的训练任务,其之前第1至t-1轮的训练任务所得到的当前联邦决策树分别为T1,T2,…,Tt-1,则当前联邦决策树集合为{T1,T2,…,Tt-1}。
在基于梯度提升决策树算法(GBDT算法)中梯度代表当前已有模型对某个样本的预测误差大小。假设当前的样本为xi,当前预测值为
Figure BDA0003553012020000051
这个预测值由当前的已有决策树集合的输出值相加得出(如果当前已有决策树为空,则所有样本的预测值都设置为初始值),GBDT损失函数为
Figure BDA0003553012020000052
则当前样本梯度为
Figure BDA0003553012020000053
步骤2.2、参与方为第t轮训练任务分配隐私预算∈t
假设每一个参与方整个联邦任务的隐私预算为∈,每次使用η比例的本地样本,则在第t轮训练任务分配隐私预算∈t为:
Figure BDA0003553012020000054
步骤2.3、参与方在利用基于梯度提升决策树算法(GBDT算法)在寻找最具信息增益的分割点对节点进行分裂时,使用指数机制差分隐私返回最佳特征,返回概率为:
Figure BDA0003553012020000055
Figure BDA0003553012020000056
其中:Nnode是给定的决策树的节点总数,Gain(f)是GBDT算法中每个特征f的增益值,
Figure BDA0003553012020000057
是隐私预算,ΔG为概率敏感度,g=max{i∈D}|gi|,代表了所有样本中梯度绝对值的最大值,λ是GBDT目标函数的正则化项。
步骤2.4、参与方在利用基于梯度提升决策树算法(GBDT算法)在节点达到最大深度并成为叶子节点时,将Laplace噪声加入到权重中,权重V为:
GBDT决策树训练过程中,当一个节点达到最大深度,则成为叶子节点,不进行分裂,而是计算权重,本发明使用Laplace噪声加入权重计算中:
V=Value+Y
其中Value是GBDT算法所计算出的节点权重,Y是Laplace噪声,Y是从以下分布中抽取的随机数:
Figure BDA0003553012020000061
Figure BDA0003553012020000062
其中:Nnode是给定的决策树的节点总数,
Figure BDA0003553012020000063
是隐私预算,ΔV为权重敏感度,g=max{i∈D}|gi|,代表了所有样本中梯度绝对值的最大值,λ是GBDT目标函数的正则化项。
步骤2.5当参与方本地计算完成,参与方Pi将会得到一棵加入差分隐私噪声的本地差分隐私决策树
Figure BDA0003553012020000064
步骤3、每个参与方Pi的可信执行环境使用联邦训练统一密钥对中的公钥pktask加密自己的本地差分隐私决策树
Figure BDA0003553012020000065
得到本地加密决策树
Figure BDA0003553012020000066
Figure BDA0003553012020000067
并广播给全部参与方。广播完成后,每个参与方均得到其他参与方的本地加密决策树,其他参与方的本地加密决策树与自己的本地加密决策树构成本地加密决策树集合。
步骤4、每个参与方Pi的可信执行环境使用联邦训练统一密钥对中的私钥sktask对其他参与方的本地加密决策树
Figure BDA0003553012020000068
进行解密,得到其他参与方的本地差分隐私决策树
Figure BDA0003553012020000069
其他参与方的本地差分隐私决策树与自己的本地差分隐私决策树构成本地差分隐私决策树集合。
步骤5、每个参与方Pi的可信执行环境利用其验证数据集对所有参与方的本地差分隐私决策树进行评估,得到每个本地差分隐私决策树的均方误差。
本发明使用MSE(均方误差)测量指标来对本地差分隐私决策树进行评估,得到每个本地差分隐私决策树的均方误差评估值:
Figure BDA00035530120200000610
式中,
Figure BDA00035530120200000611
为第t轮训练中第i个参与方对第j个参与方的本地差分隐私决策树的均方误差评估值,
Figure BDA00035530120200000612
为第i个参与方的验证数据集的样本数量,T1,T2,…Tt-1分别为第1轮训练至第t-1轮训练所得到的最优差分隐私决策树,
Figure BDA00035530120200000613
为第t轮训练中第j个参与方的本地差分隐私决策树,MSE()为均方误差函数,i,j=1,2,…,M,M为参与方的个数。
步骤6、每个参与方Pi的可信执行环境先对每个本地差分隐私决策树的均方误差评估值签名,再使用联邦训练统一密钥对中的公钥pktask对其进行加密后,得到每个本地差分隐私决策树的加密均方误差评估值
Figure BDA00035530120200000614
并广播给全部参与方。广播完成后,每个参与方均收到各个参与方对自己的本地差分隐私决策树的加密均方误差评估值。其中
Figure BDA00035530120200000615
为参与方Pi的本地TEE签名。
步骤7、每个参与方Pi的可信执行环境使用联邦训练统一密钥对中的私钥sktask对所有参与方对每个本地差分隐私决策树的加密均方误差评估值进行解密,得到所有参与方对每个本地差分隐私决策树的均方误差评估值
Figure BDA0003553012020000071
步骤8、每个参与方Pi的可信执行环境将所有参与方对每个本地差分隐私决策树的均方误差评估值进行累加,得到每个本地差分隐私决策树的最终评分,并选择最终评分最高的本地差分隐私决策树最为作为本轮胜出模型即本轮训练的最优差分隐私决策树Tt,参与方的可信执行环境即Processtrusted将该最优差分隐私决策树Tt输出给参与方即Processuntrusted,参与方将其加入全局决策树集合中。
每个本地差分隐私决策树的最终评分为:
Figure BDA0003553012020000072
式中,
Figure BDA0003553012020000073
为第t轮训练中第j个参与方的本地差分隐私决策树的最终评分,
Figure BDA0003553012020000074
为第t轮训练中第i个参与方对第j个参与方的本地差分隐私决策树的均方误差评估值,i,j=1,2,…,M,M为参与方的个数。
在本发明中,由于每个参与方会通过全局广播的方式,同步所有估值,因此对每个本地差分隐私决策树的均方误差累计评估值相同,因此每个参与方所得到本轮训练的最优差分隐私决策树Tt均相同。
步骤9、重复步骤2-8,直到达到预设的最大训练次数,由此得到每个参与方Pi的最终全局决策树集合。
在本发明中,每个参与方的全局决策树集合均相同,即为Model={T1,T2,…,TN},其中N为最大训练次数。
步骤10、参与方将所需预测的样本实例输入到步骤9所得到的最终全局决策树集合中,分别利用最终全局决策树集合中的各个最优差分隐私决策树对所需预测的样本实例进行预测得到预测值,并将这些预测值进行累加后得到所需预测的样本实例的最终预测值。
在本实施例中,所需预测的样本实例为不带标签的用户金融数据样本,所得到的最终预测值为该条不带标签的用户金融数据样本是否存在金融风险的概率。如果最终预测值大于设定阈值,则该条不带标签的用户金融数据样本具有金融风险,否则,该条不带标签的用户金融数据样本没有金融风险。
例如,现在存在一笔小公司贷款交易即用户金融数据样本s,则金融机构会将用户金融数据样本s(s中的特征值可能包括:公司行业,公司成立年限、公司规模、公司融资情况、贷款金额等)输入Model中,最终得到预测结果Result:
Result=T1(s)+T2(s)+…+TN(s)
例如,将贷款交易s的特征输入决策树T1,s落入决策树的叶子节点权重为输出值r1,再将s的特征依次输入决策树T2,T3,…,TN,获得r2,r3,…,rN,最后累加所有决策树的输出值,得到最终预测值。
本发明把联邦梯度提升决策树的训练过程中多个参与方轮流训练决策树的方法改进为多个参与方本地模型竞争的方法,每一轮迭代中选择质量最高的本地模型成为联邦模型的一部分,降低了低质量本地模型对全局模型的影响。并且,由于竞争本地模型的方式会使每个联邦参与方消耗更多的隐私预算,本发明设计了基于可信执行环境的模型评估方法,在可信执行环境中完成竞争过程,使隐私预算消耗与传统方式相同。最终,本发明应用于金融、医疗等场景下,多个社会实体可以在隐私保护的前提下,训练高质量模型,处理金融风险预测、疾病预测等业务。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。

Claims (5)

1.基于可信执行环境的联邦学习梯度提升决策树训练方法,其特征是,包括步骤如下:
步骤1、每个参与方的可信执行环境从本地数据集中随机选择一定比例的样本作为验证数据集,并将验证数据集存储在本地可信执行环境的保留区域内;
步骤2、每个参与方从本地数据集中随机选择一定比例的样本作为训练数据集,并使用训练数据集训练本地决策树;在利用基于梯度提升决策树算法训练本地决策树的过程中加入差分隐私噪声,得到本地差分隐私决策树;
步骤3、每个参与方的可信执行环境使用联邦训练统一密钥对中的公钥加密本地差分隐私决策树,得到本地加密决策树,并广播给全部参与方;
步骤4、每个参与方的可信执行环境使用联邦训练统一密钥对中的私钥对其他参与方的本地加密决策树进行解密,得到其他参与方的本地差分隐私决策树;
步骤5、每个参与方的可信执行环境利用其验证数据集对所有参与方的本地差分隐私决策树进行评估,得到每个本地差分隐私决策树的均方误差评估值;
步骤6、每个参与方的可信执行环境先每个本地差分隐私决策树的均方误差评估值签名,再使用联邦训练统一密钥对中的公钥对其进行加密后,得到每个本地差分隐私决策树的加密均方误差评估值,并广播给全部参与方;
步骤7、每个参与方的可信执行环境使用联邦训练统一密钥对中的私钥对所有参与方对每个本地差分隐私决策树的加密均方误差评估值进行解密,得到所有参与方对每个本地差分隐私决策树的均方误差评估值;
步骤8、每个参与方的可信执行环境将所有参与方对每个本地差分隐私决策树的均方误差评估值进行累加,得到每个本地差分隐私决策树的最终评分,并选择最终评分最高的本地差分隐私决策树最为本轮训练的最优差分隐私决策树;参与方的可信执行环境将该最优差分隐私决策树Tt输出给参与方,参与方将其加入全局决策树集合中;
步骤9、重复步骤2-8,直到达到预设的最大训练次数,由此得到每个参与方的最终全局决策树集合;
步骤10、每个参与方将其最终全局决策树集合中的所有最优差分隐私决策树进行融合,得到最终决策树模型;
步骤11、参与方将所需预测的样本实例输入到步骤10所得到的最终决策树模型中,由此完成对样本实例的预测。
2.根据权利要求1所述的基于可信执行环境的联邦学习梯度提升决策树训练方法,其特征是,步骤3中,利用基于梯度提升决策树算法训练本地决策树的过程中加入差分隐私噪声具体包括:
1)在寻找最具信息增益的分割点对节点进行分裂时,使用指数机制差分隐私返回最佳特征,返回概率P为:
Figure FDA0003553012010000021
2)在节点分裂达到最大深度并成为叶子节点时,将Laplace噪声加入到权重中,权重V为:
V=Value+Y
式中,∈t为第t轮训练任务分配的隐私预算,Gain(f)为基于梯度提升决策树算法中每个特征f的增益值,λ为基于梯度提升决策树算法目标函数的正则化项,Nnode为给定的本地决策树的节点总数,g为训练数据集中所有样本中梯度绝对值的最大值,Value为基于梯度提升决策树算法所计算出的叶子节点权重,Y为Laplace噪声。
3.根据权利要求2所述的基于可信执行环境的联邦学习梯度提升决策树训练方法,其特征是,Laplace噪声Y从以下分布中抽取的随机数:
Figure FDA0003553012010000022
式中,Nnode为给定的本地决策树的节点总数,g为训练数据集中所有样本中梯度绝对值的最大值,∈t为第t轮训练任务分配隐私预算,λ为基于梯度提升决策树算法目标函数的正则化项。
4.根据权利要求2或3所述的基于可信执行环境的联邦学习梯度提升决策树训练方法,其特征是,第t轮训练任务分配隐私预算∈t为:
Figure FDA0003553012010000023
式中,t为当前训练次数,∈为给定的总的隐私预算,η为给定的采样率。
5.根据权利要求1所述的基于可信执行环境的联邦学习梯度提升决策树训练方法,其特征是,步骤5中,第t轮训练中第i个参与方对第j个参与方的本地差分隐私决策树的均方误差评估值
Figure FDA0003553012010000024
为:
Figure FDA0003553012010000025
式中,
Figure FDA0003553012010000026
为第i个参与方的验证数据集的样本数量,T1,T2,…,Tt-1分别为第1轮训练至第t-1轮训练所得到的最优差分隐私决策树,
Figure FDA0003553012010000027
为第t轮训练中第j个参与方的本地差分隐私决策树,MSE()为均方误差函数,i,j=1,2,…,M,M为参与方的个数。
CN202210270250.1A 2022-03-18 2022-03-18 基于可信执行环境的联邦学习梯度提升决策树训练方法 Active CN114817946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210270250.1A CN114817946B (zh) 2022-03-18 2022-03-18 基于可信执行环境的联邦学习梯度提升决策树训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210270250.1A CN114817946B (zh) 2022-03-18 2022-03-18 基于可信执行环境的联邦学习梯度提升决策树训练方法

Publications (2)

Publication Number Publication Date
CN114817946A true CN114817946A (zh) 2022-07-29
CN114817946B CN114817946B (zh) 2024-03-19

Family

ID=82530998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210270250.1A Active CN114817946B (zh) 2022-03-18 2022-03-18 基于可信执行环境的联邦学习梯度提升决策树训练方法

Country Status (1)

Country Link
CN (1) CN114817946B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115130140A (zh) * 2022-08-31 2022-09-30 北京锘崴信息科技有限公司 多方隐私数据及金融隐私数据的安全联合分析方法
CN115422596A (zh) * 2022-11-02 2022-12-02 北京锘崴信息科技有限公司 采用隐私保护算法确定数据、金融和医疗数据有效性方法
CN116092683A (zh) * 2023-04-12 2023-05-09 深圳达实旗云健康科技有限公司 一种原始数据不出域的跨医疗机构疾病预测方法
CN116151388A (zh) * 2022-12-01 2023-05-23 广州大学 一种基于本地化差分隐私的联邦随机森林方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931242A (zh) * 2020-09-30 2020-11-13 国网浙江省电力有限公司电力科学研究院 一种数据共享方法以及应用其的计算机设备及可读存储介质
CN112364908A (zh) * 2020-11-05 2021-02-12 浙江大学 一种面向决策树的纵向联邦学习方法
CN112749749A (zh) * 2021-01-14 2021-05-04 深圳前海微众银行股份有限公司 基于分类决策树模型的分类方法、装置及电子设备
CN112836830A (zh) * 2021-02-01 2021-05-25 广西师范大学 一种联邦梯度提升决策树投票并行训练方法
CN113688999A (zh) * 2021-08-23 2021-11-23 神州融安科技(北京)有限公司 一种横向联邦xgboost决策树的训练方法
CN114139202A (zh) * 2021-12-02 2022-03-04 贵州数据宝网络科技有限公司 基于联邦学习的隐私保护样本预测应用方法及系统
CN115146292A (zh) * 2022-06-16 2022-10-04 上海富数科技有限公司广州分公司 一种树模型构建方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931242A (zh) * 2020-09-30 2020-11-13 国网浙江省电力有限公司电力科学研究院 一种数据共享方法以及应用其的计算机设备及可读存储介质
CN112364908A (zh) * 2020-11-05 2021-02-12 浙江大学 一种面向决策树的纵向联邦学习方法
CN112749749A (zh) * 2021-01-14 2021-05-04 深圳前海微众银行股份有限公司 基于分类决策树模型的分类方法、装置及电子设备
CN112836830A (zh) * 2021-02-01 2021-05-25 广西师范大学 一种联邦梯度提升决策树投票并行训练方法
CN113688999A (zh) * 2021-08-23 2021-11-23 神州融安科技(北京)有限公司 一种横向联邦xgboost决策树的训练方法
CN114139202A (zh) * 2021-12-02 2022-03-04 贵州数据宝网络科技有限公司 基于联邦学习的隐私保护样本预测应用方法及系统
CN115146292A (zh) * 2022-06-16 2022-10-04 上海富数科技有限公司广州分公司 一种树模型构建方法、装置、电子设备及存储介质

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
JINHUAN DUAN等: "SSGD: A Safe and Efficient Method of Gradient Descent", HINDAWI SECURITY AND COMMUNICATION NETWORKS, vol. 2021, 10 August 2021 (2021-08-10), pages 1 - 11 *
SHIQI GAO 等: "Towards Fair and Decentralized Federated Learning System for Gradient Boosting Decision Trees", HINDAWI SECURITY AND COMMUNICATION NETWORKS, vol. 2022, 2 August 2022 (2022-08-02), pages 1 - 18 *
XIANXIAN LI等: "Blockchain-Based Privacy-Preserving RBAC in IoT", 17TH EAI INTERNATIONAL CONFERENCE, QSHINE 2021, 17 November 2021 (2021-11-17), pages 94 - 110 *
YUNCHENG WU等: "Privacy Preserving Vertical Federated Learning for Tree-based Models", COMPUTER SCIENCE, 14 August 2020 (2020-08-14) *
佛耶_: "ε-差分隐私之拉普拉斯噪声机制(定义 + 证明 + 代码)", Retrieved from the Internet <URL:https://blog.csdn.net/A13526_/article/details/121300367> *
粥少女的拧发条鸟: "深度学习中的差分隐私为什么在梯度中加噪声?", Retrieved from the Internet <URL:https://www.zhihu.com/question/395261985> *
高士淇: "基于区块链的公平联邦梯度提升决策树算法与系统研究", 中国优秀硕士学位论文全文数据库 信息科技辑, 15 January 2023 (2023-01-15), pages 138 - 963 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115130140A (zh) * 2022-08-31 2022-09-30 北京锘崴信息科技有限公司 多方隐私数据及金融隐私数据的安全联合分析方法
CN115422596A (zh) * 2022-11-02 2022-12-02 北京锘崴信息科技有限公司 采用隐私保护算法确定数据、金融和医疗数据有效性方法
CN115422596B (zh) * 2022-11-02 2023-01-13 北京锘崴信息科技有限公司 采用隐私保护算法确定数据、金融和医疗数据有效性方法
CN116151388A (zh) * 2022-12-01 2023-05-23 广州大学 一种基于本地化差分隐私的联邦随机森林方法
CN116092683A (zh) * 2023-04-12 2023-05-09 深圳达实旗云健康科技有限公司 一种原始数据不出域的跨医疗机构疾病预测方法

Also Published As

Publication number Publication date
CN114817946B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN114817946B (zh) 基于可信执行环境的联邦学习梯度提升决策树训练方法
Li et al. On social event organization
Vogt et al. Integrating data on ethnicity, geography, and conflict: The ethnic power relations data set family
CN113240509B (zh) 一种基于多源数据联邦学习的贷款风险评估方法
Tripathy et al. A framework for intelligent medical diagnosis using rough set with formal concept analysis
CN112836830B (zh) 一种联邦梯度提升决策树投票并行训练方法
CN108647800B (zh) 一种基于节点嵌入的在线社交网络用户缺失属性预测方法
KR102061625B1 (ko) 전문가 경력 관리 방법, 장치 및 프로그램
CN103034963B (zh) 一种基于相关性的服务选择系统及选择方法
Ahmed et al. Discovering diverse, high quality design ideas from a large corpus
Masyutin Credit scoring based on social network data
WO2020135642A1 (zh) 一种基于生成对抗网络的模型训练方法及设备
CN112101577B (zh) 基于XGBoost的跨样本联邦学习、测试方法、系统、设备和介质
CN115952532A (zh) 一种基于联盟链联邦学习的隐私保护方法
CN111461793B (zh) 基于活跃度概率选择的积分链共识方法
CN114741721A (zh) 针对文件区块链的基于贡献值证明的共识装置及共识方法
Zhang et al. The influence of demographic characteristics on employee promotion: research based on data mining and game theory
You et al. Accuracy Degrading: Toward Participation-Fair Federated Learning
Greenberg Criminal careers: Discrete or continuous?
CN113239985A (zh) 一种面向分布式小规模医疗数据集的分类检测方法
KR102240888B1 (ko) 전문가에 의해 생성되는 프로젝트 결과물을 블록체인에 저장된 빅데이터 기반으로 관리하는 방법 및 시스템
US20090083169A1 (en) Financial opportunity information obtainment and evaluation
CN116451806A (zh) 一种基于区块链的联邦学习激励分配方法及装置
KR20210004792A (ko) 비정형정보를 바탕으로 생성된 정형정보를 이용한 전문가 경력 관리 방법, 장치 및 프로그램
CN116361542A (zh) 产品推荐方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant