CN115796305A - 一种纵向联邦学习的树模型训练方法及装置 - Google Patents

一种纵向联邦学习的树模型训练方法及装置 Download PDF

Info

Publication number
CN115796305A
CN115796305A CN202310053302.4A CN202310053302A CN115796305A CN 115796305 A CN115796305 A CN 115796305A CN 202310053302 A CN202310053302 A CN 202310053302A CN 115796305 A CN115796305 A CN 115796305A
Authority
CN
China
Prior art keywords
gradient
participant
power
order gradient
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310053302.4A
Other languages
English (en)
Other versions
CN115796305B (zh
Inventor
杨云波
卞阳
陈立峰
蔡晓娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fucun Technology Shanghai Co ltd
Original Assignee
Fucun Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fucun Technology Shanghai Co ltd filed Critical Fucun Technology Shanghai Co ltd
Priority to CN202310053302.4A priority Critical patent/CN115796305B/zh
Publication of CN115796305A publication Critical patent/CN115796305A/zh
Application granted granted Critical
Publication of CN115796305B publication Critical patent/CN115796305B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种纵向联邦学习的树模型训练方法及装置,其是一种多个梯度数据共享一个密态对象的纵向联邦学习方法,该方法包括合并部分和拆分部分两部分,首先,生成梯度的时候确定一阶梯度的幂次、二阶梯度幂次、分离一阶梯度和二阶梯度幂次,其次,通过一阶梯度的幂次和二阶梯度的幂次合并一阶梯度和二阶梯度,然后把加密合并的梯度发给其他参与方,再次,在计算最优分割信息的时候对合并的梯度进行拆分,最后,还原本方和其他参与方的原始直方图,计算最优分割信息。本实施例提出的方法把一阶梯度和二阶梯度进行合并,在不影响精度的情况下,使密态通讯量减少一半,提高了树模型的训练效率。

Description

一种纵向联邦学习的树模型训练方法及装置
技术领域
本申请涉及隐私计算技术领域,具体而言,涉及一种纵向联邦学习的树模型训练方法及装置。
背景技术
随着互联网的快速发展,以及对数据安全的重视,如何在充分利用数据信息而不泄露数据的情况下诞生了联邦学习,该联邦学习的方法实际是一种分布式的机器学习方法,其实际是将拥有不同领域的数据的各个企业作为参与方,由各个参与方对机器学习模型进行训练,然后获得各个参与方训练完成的机器学习模型的中间训练结果,进而基于各个参与方的模型的中间训练结果,继续对机器学习模型进行训练,最终获得符合各个参与方要求的机器学习模型,从而间接实现不同领域的数据的融合。
而在纵向联邦学习方法中,树模型是常用的机器学习模型。现有的基于联邦学习的树模型的建立方法中,含有标签值的一方在计算出一阶梯度和二阶梯度之后,需将一阶梯度和二阶梯度加密后发送给其他参与方,因此,密态对象至少有一阶梯度和二阶梯度,密态通讯量较高,降低了树模型的训练效率。
发明内容
本申请实施例的目的在于提供一种纵向联邦学习的树模型训练方法及装置,用以解决现有的基于联邦学习的树模型的建立方法中,含有标签值的一方在计算出一阶梯度和二阶梯度之后,需将一阶梯度和二阶梯度加密后发送给其他参与方,导致密态通讯量较高,降低了树模型的训练效率的问题。
本申请实施例提供的一种纵向联邦学习的树模型训练方法,应用于具有标签值的第一参与方,方法包括:
根据标签值,得到一阶梯度和二阶梯度;
根据样本量和正负样本权重,得到一阶梯度的第一幂次、二阶梯度的第二幂次和用于分离一阶梯度和二阶梯度的第三幂次;
根据第一幂次和第二幂次,合并一阶梯度和二阶梯度,得到合并梯度;
对合并梯度进行加密,得到加密合并梯度;
将加密合并梯度发送给第二参与方;其中,第二参与方包括参与纵向联邦学习的一个或多个其他参与方;
根据加密合并梯度构建第一参与方的加密合并梯度直方图,并从第二参与方接收第二参与方的加密合并梯度直方图;
根据第三幂次,将所有加密合并梯度直方图还原为一阶梯度和二阶梯度的原始直方图,并计算最优分割信息。
上述技术方案中,提出了纵向树模型一种多个梯度数据共享一个密态对象方法,该方法包括合并部分和拆分部分两部分,首先,生成梯度的时候确定一阶梯度的幂次、二阶梯度幂次、分离一阶梯度和二阶梯度幂次,其次,通过一阶梯度的幂次和二阶梯度的幂次合并一阶梯度和二阶梯度,然后把加密合并的梯度发给其他参与方,再次,在计算最优分割信息的时候对合并的梯度进行拆分,最后,还原本方和其他参与方的原始直方图,计算最优分割信息。本实施例提出的方法把一阶梯度和二阶梯度进行合并,在不影响精度的情况下,使密态通讯量减少一半,提高了树模型的训练效率。
在一些可选的实施方式中,其中,根据样本量和正负样本权重,得到一阶梯度的第一幂次、二阶梯度的第二幂次和用于分离一阶梯度和二阶梯度的第三幂次,包括:
根据样本量的位次、一阶梯度和二阶梯度中最大的小数点位数以及正负样本权重,计算得到第一幂次和第二幂次;
其中,第一幂次:
g_power=(n_point+decimal_point+log10V)×2
第二幂次:
h_power=n_point+decimal_point+log10V
第三幂次为样本量的位次和第二幂次之和:
separate_power=h_power+n_point
其中,n_point为样本量的位次;decimal_point为一阶梯度和二阶梯度中最大的小数点位数;V为正负样本权重。
在一些可选的实施方式中,合并梯度由一阶梯度、二阶梯度、第一幂次和第二幂次计算得到:
Figure SMS_1
其中,g为一阶梯度;h为二阶梯度。
上述技术方案中,上述合并梯度的计算,在合并过程中,一阶梯度和二阶梯度不会串位,从而保证了后续根据合并梯度还原一阶梯度和二阶梯度时的结果的正确性。
在一些可选的实施方式中,根据第三幂次,将所有加密合并梯度直方图还原为一阶梯度和二阶梯度的原始直方图,包括:
将合并梯度与10的第三幂次的商向下取整,再除去多余的位数,得到一阶梯度:
Figure SMS_2
Figure SMS_3
根据合并梯度和一阶梯度,得到二阶梯度:
Figure SMS_4
Figure SMS_5
其中,g1和h1为中间变量。
需明确的是,合并梯度的计算也可以采用其他计算公式,相应地,需要对应调整根据合并梯度还原一阶梯度和二阶梯度的方法。
在一些可选的实施方式中,计算最优分割信息之后,还包括:
判断最优分裂点属于哪一参与方:
若最优分裂点属于第二参与方,则将最优分裂点发送给第二参与方。
若最优分裂点属于第一参与方,则持有该最优分裂点,对第一参与方的树模型的节点上的样本进行分裂划分,并将分裂划分结果发送给第二参与方。
上述技术方案中,第一参与方根据己方以及其他参与方的原始直方图,利用分裂增益计算公式,计算出最优分割信息,得到各方的全局最优分裂点,若最优分裂点属于某一第二参与方,则第一参与方将最优分裂点返回给该第二参与方,该第二参与方根据该最优分裂点对自身树模型的节点上的样本进行分裂划分,该第二参与方再将分裂划分结果发送给其他参与方,使得所有参与方同步更新己方的树模型;若最优分裂点属于第一参与方,则第一参与方根据最优分裂点对自身树模型的节点上的样本进行分裂划分,第一参与方再将分裂划分结果发送给其他参与方,使得所有参与方同步更新己方的树模型。
本申请实施例提供的一种纵向联邦学习的树模型训练方法,应用于第二参与方,包括:
接收第一参与方发送的加密合并梯度;
根据加密合并梯度,得到加密合并梯度直方图,并将加密合并梯度直方图发送给第一参与方。
上述技术方案中,由于,第一参与方在生成梯度的时候,确定了一阶梯度的幂次、二阶梯度幂次、分离一阶梯度和二阶梯度幂次,并通过一阶梯度的幂次和二阶梯度的幂次合并一阶梯度和二阶梯度,然后把加密合并的梯度发给其他参与方,使得在计算最优分割信息的时候对合并的梯度进行拆分,最后,还原本方和其他参与方的原始直方图,计算最优分割信息。对应地,第二参与方只需接收第一参与方发送的加密合并梯度,并根据加密合并梯度,得到加密合并梯度直方图,并将加密合并梯度直方图发送给第一参与方,在不影响精度的情况下,使密态通讯量减少一半,提高了树模型的训练效率。
在一些可选的实施方式中,将加密合并梯度直方图发送给第一参与方之后,还包括:
接收第一参与方发送的最优分裂点,其中最优分裂点属于第二参与方;对第二参与方的树模型的节点上的样本进行分裂划分,并将分裂划分结果发送给第一参与方。
上述技术方案中,第一参与方根据己方以及其他参与方的原始直方图,利用分裂增益计算公式,计算出最优分割信息,得到各方的全局最优分裂点,若最优分裂点属于某一第二参与方,则第一参与方将最优分裂点返回给该第二参与方,该第二参与方根据该最优分裂点对自身树模型的节点上的样本进行分裂划分,该第二参与方再将分裂划分结果发送给第一参与方和其他第二参与方,使得所有参与方同步更新己方的树模型;
在一些可选的实施方式中,将加密合并梯度直方图发送给第一参与方之后,还包括:
接收第一参与方发送的分裂划分结果并进行切分同步。
上述技术方案中,第一参与方根据己方以及其他参与方的原始直方图,利用分裂增益计算公式,计算出最优分割信息,得到各方的全局最优分裂点,若最优分裂点属于第一参与方,则第一参与方根据最优分裂点对自身树模型的节点上的样本进行分裂划分,第一参与方再将分裂划分结果发送给所有的第二参与方,使得所有的第二参与方在接收到分裂划分结果时同步更新己方的树模型。
本申请实施例提供的一种纵向联邦学习的树模型训练装置,包括:
梯度计算模块,用于根据标签值,得到一阶梯度和二阶梯度;
幂次计算模块,用于根据样本量和正负样本权重,得到一阶梯度的第一幂次、二阶梯度的第二幂次和用于分离一阶梯度和二阶梯度的第三幂次;
合并梯度模块,用于根据第一幂次和第二幂次,合并一阶梯度和二阶梯度,得到合并梯度;
加密模块,用于对合并梯度进行加密,得到加密合并梯度;
发送模块,用于将加密合并梯度发送给第二参与方;其中,第二参与方包括参与纵向联邦学习的一个或多个其他参与方;
直方图获取模块,用于根据加密合并梯度构建第一参与方的加密合并梯度直方图,并从第二参与方接收第二参与方的加密合并梯度直方图;
分割模块,用于根据第三幂次,将所有加密合并梯度直方图还原为一阶梯度和二阶梯度的原始直方图,并计算最优分割信息。
在一些可选的实施方式中,还包括:
判断模块,用于判断最优分裂点属于哪一参与方:若最优分裂点属于第二参与方,则将最优分裂点发送给第二参与方;若最优分裂点属于第一参与方,则持有该最优分裂点,对第一参与方的树模型的节点上的样本进行分裂划分,并将分裂划分结果发送给第二参与方。
本申请实施例提供的一种纵向联邦学习的树模型训练装置,包括:
接收模块,用于接收第一参与方发送的加密合并梯度;
直方图发送模块,用于根据加密合并梯度,得到加密合并梯度直方图,并将加密合并梯度直方图发送给第一参与方。
在一些可选的实施方式中,还包括:
分裂划分模块,用于接收第一参与方发送的最优分裂点,其中最优分裂点属于第二参与方;对第二参与方的树模型的节点上的样本进行分裂划分,并将分裂划分结果发送给第一参与方。
在一些可选的实施方式中,分裂划分模块,还用于:
接收第一参与方发送的分裂划分结果并进行切分同步。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种纵向联邦学习的树模型训练方法步骤流程图;
图2为本申请实施例提供的一种纵向联邦学习的树模型训练装置功能模块图;
图3为本申请实施例提供的电子设备的一种可能的结构示意图。
图标:1-梯度计算模块,2-幂次计算模块,3-合并梯度模块,4-加密模块,5-发送模块,6-直方图获取模块,7-分割模块,81-处理器,82-存储器,83-通信接口,84-通信总线。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
本申请的一个或多个实施例的一种纵向联邦学习的树模型训练方法,可以应用于纵向xgboost的建立树模型过程,也可以应用于纵向随机森林建立树模型过程等,其中,基于xgboost的联邦学习是根据xgboost算法对至少两个参与方所拥有的样本数据进行联邦学习训练,每个参与方均得到一个树模型,从而各参与方能够对预测样本进行预测。
本申请实施例中,参与联邦学习的参与方为一个银行端和至少一个移动端,根据银行端提供的用户数据与移动端提供的用户数据结合,共同构建树模型,用于后期银行判断是否应该对用户进行贷款。银行有用户的身份信息、信用信息、是否贷款等信息,移动端有用户的身份信息、转账记录等信息。每一个用户为一个样本,将是否贷款作为样本标签,每一个信息作为样本的特征,也就是说银行端是具有标签的参与方。
本实施例就是根据银行端提供的样本数据与移动端提供的样本数据相结合在保证数据安全的情况下共同构建树模型,可以用于银行判断新用户是否能够对其进行放贷。
请参照图1,图1为本申请实施例提供的一种纵向联邦学习的树模型训练方法步骤流程图,应用于具有标签值的第一参与方(银行端),方法包括:
步骤100、根据标签值,得到一阶梯度和二阶梯度;
步骤200、根据样本量和正负样本权重,得到一阶梯度的第一幂次、二阶梯度的第二幂次和用于分离一阶梯度和二阶梯度的第三幂次;
步骤300、根据第一幂次和第二幂次,合并一阶梯度和二阶梯度,得到合并梯度;
步骤400、对合并梯度进行加密,得到加密合并梯度;
步骤500、将加密合并梯度发送给第二参与方;其中,第二参与方包括参与纵向联邦学习的一个或多个其他参与方;
步骤600、根据加密合并梯度构建第一参与方的加密合并梯度直方图,并从第二参与方接收第二参与方的加密合并梯度直方图;
步骤700、根据第三幂次,将所有加密合并梯度直方图还原为一阶梯度和二阶梯度的原始直方图,并计算最优分割信息。
本申请实施例中,实现了多个梯度数据共享一个密态对象的树模型训练方法,在银行端,该方法包括了对一阶梯度和二阶梯度合并,以及将合并梯度拆分为一阶梯度和二阶梯度的步骤,首先,生成梯度的时候确定一阶梯度的幂次、二阶梯度幂次、分离一阶梯度和二阶梯度幂次,其次,通过一阶梯度的幂次和二阶梯度的幂次合并一阶梯度和二阶梯度,然后把加密合并的梯度发给其他参与方(即移动端),再次,在计算最优分割信息的时候对合并的梯度进行拆分,最后,还原本方和其他参与方的原始直方图,计算最优分割信息。本实施例提出的方法把一阶梯度和二阶梯度进行合并,在不影响精度的情况下,银行端仅需对合并梯度进行加密并发送,移动端仅需接收加密合并梯度,密态通讯量减少一半,提高了树模型的训练效率。
其中,步骤200中,根据样本量和正负样本权重,得到一阶梯度的第一幂次、二阶梯度的第二幂次和用于分离一阶梯度和二阶梯度的第三幂次,包括:根据样本量的位次、一阶梯度和二阶梯度中最大的小数点位数以及正负样本权重,计算得到第一幂次和第二幂次;
其中,第一幂次:
g_power=(n_point+decimal_point+log10V)×2
第二幂次:
h_power=n_point+decimal_point+log10V
第三幂次为样本量的位次和第二幂次之和:
separate_power=h_power+n_point
其中,n_point为样本量的位次;decimal_point为一阶梯度和二阶梯度中最大的小数点位数;V为正负样本权重。
步骤300中,合并梯度由一阶梯度、二阶梯度、第一幂次和第二幂次计算得到:
Figure SMS_6
其中,g为一阶梯度;h为二阶梯度。
本实施例的上述合并梯度的计算,在合并过程中,一阶梯度和二阶梯度不会串位,从而保证了后续根据合并梯度还原一阶梯度和二阶梯度时的结果的正确性。
步骤700中,根据第三幂次,将所有加密合并梯度直方图还原为一阶梯度和二阶梯度的原始直方图,包括:将合并梯度与10的第三幂次的商向下取整,再除去多余的位数,得到一阶梯度:
Figure SMS_7
Figure SMS_8
根据合并梯度和一阶梯度,得到二阶梯度:
Figure SMS_9
Figure SMS_10
其中,g1和h1为中间变量。
需明确的是,合并梯度的计算也可以采用其他计算公式,相应地,需要对应调整根据合并梯度还原一阶梯度和二阶梯度的方法。
在一些可选的实施方式中,计算最优分割信息之后,还包括:判断最优分裂点属于哪一参与方:若最优分裂点属于第二参与方,则将最优分裂点发送给第二参与方;若最优分裂点属于第一参与方,则持有该最优分裂点,对第一参与方的树模型的节点上的样本进行分裂划分,并将分裂划分结果发送给第二参与方。
本申请实施例中,第一参与方根据己方以及其他参与方的原始直方图,利用分裂增益计算公式,计算出最优分割信息,得到各方的全局最优分裂点,若最优分裂点属于某一第二参与方,则第一参与方将最优分裂点返回给该第二参与方,该第二参与方根据该最优分裂点对自身树模型的节点上的样本进行分裂划分,该第二参与方再将分裂划分结果发送给其他参与方,使得所有参与方同步更新己方的树模型;若最优分裂点属于第一参与方,则第一参与方根据最优分裂点对自身树模型的节点上的样本进行分裂划分,第一参与方再将分裂划分结果发送给其他参与方,使得所有参与方同步更新己方的树模型。
本申请实施例提供的一种纵向联邦学习的树模型训练方法,应用于第二参与方(移动端),包括:接收第一参与方发送的加密合并梯度;根据加密合并梯度,得到加密合并梯度直方图,并将加密合并梯度直方图发送给第一参与方。
本申请实施例中,由于,银行端在生成梯度的时候,确定了一阶梯度的幂次、二阶梯度幂次、分离一阶梯度和二阶梯度幂次,并通过一阶梯度的幂次和二阶梯度的幂次合并一阶梯度和二阶梯度,然后把加密合并的梯度发给其他参与方,使得在计算最优分割信息的时候对合并的梯度进行拆分,最后,还原本方和其他参与方的原始直方图,计算最优分割信息。对应地,移动端只需接收银行端发送的加密合并梯度,并根据加密合并梯度,得到加密合并梯度直方图,并将加密合并梯度直方图发送给银行端,在不影响精度的情况下,银行端仅需对合并梯度进行加密并发送,移动端仅需接收加密合并梯度,使密态通讯量减少一半,提高了树模型的训练效率。
在一些可选的实施方式中,将加密合并梯度直方图发送给第一参与方之后,还包括:接收第一参与方发送的最优分裂点,其中最优分裂点属于第二参与方;对第二参与方的树模型的节点上的样本进行分裂划分,并将分裂划分结果发送给第一参与方。
本申请实施例中,第一参与方根据己方以及其他参与方的原始直方图,利用分裂增益计算公式,计算出最优分割信息,得到各方的全局最优分裂点,若最优分裂点属于某一第二参与方,则第一参与方将最优分裂点返回给该第二参与方,该第二参与方根据该最优分裂点对自身树模型的节点上的样本进行分裂划分,该第二参与方再将分裂划分结果发送给第一参与方和其他第二参与方,使得所有参与方同步更新己方的树模型;
在一些可选的实施方式中,将加密合并梯度直方图发送给第一参与方之后,还包括:接收第一参与方发送的分裂划分结果并进行切分同步。
本申请实施例中,第一参与方根据己方以及其他参与方的原始直方图,利用分裂增益计算公式,计算出最优分割信息,得到各方的全局最优分裂点,若最优分裂点属于第一参与方,则第一参与方根据最优分裂点对自身树模型的节点上的样本进行分裂划分,第一参与方再将分裂划分结果发送给所有的第二参与方,使得所有的第二参与方在接收到分裂划分结果时同步更新己方的树模型。
请参照图2,图2为本申请实施例提供的一种纵向联邦学习的树模型训练装置功能模块图,包括梯度计算模块1、幂次计算模块2、合并梯度模块3、加密模块4、发送模块5、直方图获取模块6和分割模块7。
其中,梯度计算模块1,用于根据标签值,得到一阶梯度和二阶梯度;幂次计算模块2,用于根据样本量和正负样本权重,得到一阶梯度的第一幂次、二阶梯度的第二幂次和用于分离一阶梯度和二阶梯度的第三幂次;合并梯度模块3,用于根据第一幂次和第二幂次,合并一阶梯度和二阶梯度,得到合并梯度;加密模块4,用于对合并梯度进行加密,得到加密合并梯度;发送模块5,用于将加密合并梯度发送给第二参与方;其中,第二参与方包括参与纵向联邦学习的一个或多个其他参与方;直方图获取模块6,用于根据加密合并梯度构建第一参与方的加密合并梯度直方图,并从第二参与方接收第二参与方的加密合并梯度直方图;分割模块7,用于根据第三幂次,将所有加密合并梯度直方图还原为一阶梯度和二阶梯度的原始直方图,并计算最优分割信息。
在一些可选的实施方式中,纵向联邦学习的树模型训练装置还包括:判断模块,用于判断最优分裂点属于哪一参与方:若最优分裂点属于第二参与方,则将最优分裂点发送给第二参与方;若最优分裂点属于第一参与方,则持有该最优分裂点,对第一参与方的树模型的节点上的样本进行分裂划分,并将分裂划分结果发送给第二参与方。
本申请实施例提供的一种纵向联邦学习的树模型训练装置,包括接收模块和直方图发送模块。
其中,接收模块,用于接收第一参与方发送的加密合并梯度;直方图发送模块,用于根据加密合并梯度,得到加密合并梯度直方图,并将加密合并梯度直方图发送给第一参与方。
在一些可选的实施方式中,树模型训练装置还包括:分裂划分模块,用于接收第一参与方发送的最优分裂点,其中最优分裂点属于第二参与方;对第二参与方的树模型的节点上的样本进行分裂划分,并将分裂划分结果发送给第一参与方。
在一些可选的实施方式中,分裂划分模块,还用于:接收第一参与方发送的分裂划分结果并进行切分同步。
图3示出了本申请实施例提供的电子设备的一种可能的结构。参照图3,电子设备包括:处理器81、存储器82和通信接口83,这些组件通过通信总线84和/或其他形式的连接机构(未示出)互连并相互通讯。
其中,存储器82包括一个或多个(图中仅示出一个),其可以是,但不限于,随机存取存储器(Random AccessMemory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(ProgrammableRead-Only Memory,简称PROM),可擦除可编程只读存储器(Erasable ProgrammableRead-Only Memory,简称EPROM),电可擦除可编程只读存储器(ElectricErasable Programmable Read-Only Memory,简称EEPROM)等。处理器81以及其他可能的组件可对存储器82进行访问,读和/或写其中的数据。
处理器81包括一个或多个(图中仅示出一个),其可以是一种集成电路芯片,具有信号的处理能力。上述的处理器81可以是通用处理器,包括中央处理器(CentralProcessing Unit,简称CPU)、微控制单元(MicroController Unit,简称MCU)、网络处理器(NetworkProcessor,简称NP)或者其他常规处理器;还可以是专用处理器,包括神经网络处理器(Neural-networkProcessing Unit,简称NPU)、图形处理器(GraphicsProcessing Unit,简称GPU)、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(ApplicationSpecific Integrated Circuits,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。并且,在处理器81为多个时,其中的一部分可以是通用处理器,另一部分可以是专用处理器。
通信接口83包括一个或多个(图中仅示出一个),可以用于和其他设备进行直接或间接地通信,以便进行数据的交互。通信接口83可以包括进行有线和/或无线通信的接口。
在存储器82中可以存储一个或多个计算机程序指令,处理器81可以读取并运行这些计算机程序指令,以实现本申请实施例提供的方法。
可以理解的,图3所示的结构仅为示意,电子设备还可以包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的结构。图3中所示的各组件可以采用硬件、软件或其组合实现。电子设备可能是实体设备,例如PC机、笔记本电脑、平板电脑、手机、服务器、嵌入式设备等,也可能是虚拟设备,例如虚拟机、虚拟化容器等。并且,电子设备也不限于单台设备,也可以是多台设备的组合或者大量设备构成的集群。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被计算机的处理器读取并运行时,执行本申请实施例提供的方法。例如,计算机可读存储介质可以实现为图3中电子设备中的存储器82。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种纵向联邦学习的树模型训练方法,其特征在于,应用于具有标签值的第一参与方,所述方法包括:
根据标签值,得到一阶梯度和二阶梯度;
根据样本量和正负样本权重,得到一阶梯度的第一幂次、二阶梯度的第二幂次和用于分离所述一阶梯度和二阶梯度的第三幂次;
根据所述第一幂次和第二幂次,合并一阶梯度和二阶梯度,得到合并梯度;
对所述合并梯度进行加密,得到加密合并梯度;
将所述加密合并梯度发送给第二参与方;其中,所述第二参与方包括参与所述纵向联邦学习的一个或多个其他参与方;
根据所述加密合并梯度构建第一参与方的加密合并梯度直方图,并从所述第二参与方接收所述第二参与方的加密合并梯度直方图;
根据所述第三幂次,将所有加密合并梯度直方图还原为一阶梯度和二阶梯度的原始直方图,并计算最优分割信息。
2.如权利要求1所述的方法,其特征在于,其中,所述根据样本量和正负样本权重,得到一阶梯度的第一幂次、二阶梯度的第二幂次和用于分离所述一阶梯度和二阶梯度的第三幂次,包括:
根据样本量的位次、一阶梯度和二阶梯度中最大的小数点位数以及正负样本权重,计算得到第一幂次和第二幂次;
其中,所述第一幂次:
g_power=(n_point+decimal_point+log10 V)×2
所述第二幂次:
h_power=n_point+decimal_point+log10 V
所述第三幂次为样本量的位次和第二幂次之和:
separate_power=h_power+n_point
其中,n_point为样本量的位次;decimal_point为一阶梯度和二阶梯度中最大的小数点位数;V为正负样本权重。
3.如权利要求2所述的方法,其特征在于,所述合并梯度由所述一阶梯度、二阶梯度、第一幂次和第二幂次计算得到:
Figure QLYQS_1
其中,g为一阶梯度;h为二阶梯度。
4.如权利要求3所述的方法,其特征在于,所述根据所述第三幂次,将所有加密合并梯度直方图还原为一阶梯度和二阶梯度的原始直方图,包括:
将所述合并梯度与10的第三幂次的商向下取整,再除去多余的位数,得到一阶梯度g:
Figure QLYQS_2
Figure QLYQS_3
根据所述合并梯度和一阶梯度,得到二阶梯度h:
Figure QLYQS_4
Figure QLYQS_5
其中,g1和h1为中间变量。
5.如权利要求1所述的方法,其特征在于,所述计算最优分割信息之后,还包括:
判断最优分裂点属于哪一参与方:
若最优分裂点属于第二参与方,则将最优分裂点发送给第二参与方;
若最优分裂点属于第一参与方,则持有该最优分裂点,对第一参与方的树模型的节点上的样本进行分裂划分,并将分裂划分结果发送给第二参与方。
6.一种纵向联邦学习的树模型训练方法,其特征在于,应用于第二参与方,包括:
接收第一参与方发送的加密合并梯度;
根据所述加密合并梯度,得到加密合并梯度直方图,并将加密合并梯度直方图发送给所述第一参与方。
7.如权利要求6所述的方法,其特征在于,所述将加密合并梯度直方图发送给第一参与方之后,还包括:
接收第一参与方发送的最优分裂点,其中所述最优分裂点属于所述第二参与方;
对第二参与方的树模型的节点上的样本进行分裂划分,并将分裂划分结果发送给第一参与方。
8.如权利要求6所述的方法,其特征在于,所述将加密合并梯度直方图发送给第一参与方之后,还包括:
接收第一参与方发送的分裂划分结果并进行切分同步。
9.一种纵向联邦学习的树模型训练装置,其特征在于,包括:
梯度计算模块,用于根据标签值,得到一阶梯度和二阶梯度;
幂次计算模块,用于根据样本量和正负样本权重,得到一阶梯度的第一幂次、二阶梯度的第二幂次和用于分离所述一阶梯度和二阶梯度的第三幂次;
合并梯度模块,用于根据所述第一幂次和第二幂次,合并一阶梯度和二阶梯度,得到合并梯度;
加密模块,用于对所述合并梯度进行加密,得到加密合并梯度;
发送模块,用于将所述加密合并梯度发送给第二参与方;其中,所述第二参与方包括参与所述纵向联邦学习的一个或多个其他参与方;
直方图获取模块,用于根据所述加密合并梯度构建第一参与方的加密合并梯度直方图,并从所述第二参与方接收所述第二参与方的加密合并梯度直方图;
分割模块,用于根据所述第三幂次,将所有加密合并梯度直方图还原为一阶梯度和二阶梯度的原始直方图,并计算最优分割信息。
10.一种计算机可读存储介质,其特征在于,该存储介质上存储有计算机程序,该计算机程序被处理器运行时,执行如权利要求1-5任一所述的方法,或如权利要求6-8任一所述的方法。
CN202310053302.4A 2023-02-03 2023-02-03 一种纵向联邦学习的树模型训练方法及装置 Active CN115796305B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310053302.4A CN115796305B (zh) 2023-02-03 2023-02-03 一种纵向联邦学习的树模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310053302.4A CN115796305B (zh) 2023-02-03 2023-02-03 一种纵向联邦学习的树模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN115796305A true CN115796305A (zh) 2023-03-14
CN115796305B CN115796305B (zh) 2023-07-07

Family

ID=85429612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310053302.4A Active CN115796305B (zh) 2023-02-03 2023-02-03 一种纵向联邦学习的树模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN115796305B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368901A (zh) * 2020-02-28 2020-07-03 深圳前海微众银行股份有限公司 基于联邦学习的多方联合建模方法、设备和介质
US20210150372A1 (en) * 2019-09-30 2021-05-20 Tencent Technology (Shenzhen) Company Limited Training method and system for decision tree model, storage medium, and prediction method
CN114422105A (zh) * 2022-01-14 2022-04-29 卫盈联信息技术(深圳)有限公司 联合建模方法、装置、电子设备及存储介质
CN114611713A (zh) * 2022-05-11 2022-06-10 富算科技(上海)有限公司 一种基于纵向联邦学习的树模型的构建方法及系统
WO2022142366A1 (zh) * 2020-12-31 2022-07-07 华为技术有限公司 机器学习模型更新的方法和装置
WO2022206510A1 (zh) * 2021-03-30 2022-10-06 腾讯科技(深圳)有限公司 联邦学习的模型训练方法、装置、设备及存储介质
US11468370B1 (en) * 2022-03-07 2022-10-11 Shandong University Communication compression method based on model weight distribution in federated learning

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210150372A1 (en) * 2019-09-30 2021-05-20 Tencent Technology (Shenzhen) Company Limited Training method and system for decision tree model, storage medium, and prediction method
CN111368901A (zh) * 2020-02-28 2020-07-03 深圳前海微众银行股份有限公司 基于联邦学习的多方联合建模方法、设备和介质
WO2022142366A1 (zh) * 2020-12-31 2022-07-07 华为技术有限公司 机器学习模型更新的方法和装置
WO2022206510A1 (zh) * 2021-03-30 2022-10-06 腾讯科技(深圳)有限公司 联邦学习的模型训练方法、装置、设备及存储介质
CN114422105A (zh) * 2022-01-14 2022-04-29 卫盈联信息技术(深圳)有限公司 联合建模方法、装置、电子设备及存储介质
US11468370B1 (en) * 2022-03-07 2022-10-11 Shandong University Communication compression method based on model weight distribution in federated learning
CN114611713A (zh) * 2022-05-11 2022-06-10 富算科技(上海)有限公司 一种基于纵向联邦学习的树模型的构建方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHILU WANG ET AL.: "Efficient and Verifiable Privacy-Preserving Federal Learning Framework", 《2022 IEEE 5TH INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS AND COMPUTER AIDED EDUCATION (ICISCAE)》 *
ZHIRUI PAN ET AL.: "2SFGL: A Simple And Robust Protocol For Graph-Based Fraud Detection", 《2022 IEEE INTERNATIONAL CONFERENCE ON CLOUD COMPUTING TECHNOLOGY AND SCIENCE (CLOUDCOM)》 *
余晟兴 等: "基于同态加密的高效安全联邦学习聚合框架", 《通信学报》 *

Also Published As

Publication number Publication date
CN115796305B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN112001502B (zh) 高延时网络环境鲁棒的联邦学习训练方法及装置
CN113505882B (zh) 基于联邦神经网络模型的数据处理方法、相关设备及介质
CN111898137A (zh) 一种联邦学习的隐私数据处理方法、设备及系统
CN113159327A (zh) 基于联邦学习系统的模型训练方法、装置、电子设备
US11500992B2 (en) Trusted execution environment-based model training methods and apparatuses
CN111639080A (zh) 一种数据处理方法、装置、节点设备及存储介质
CN111949998B (zh) 对象检测及请求方法、数据处理系统、装置及存储介质
CN111597167A (zh) 一种应用区块链技术的大数据管理系统及方法
CN113051239A (zh) 数据共享方法、应用其的模型的使用方法及相关设备
CN111949735A (zh) 一种应用区块链的账本实现数据查询的系统及方法
CN111008384A (zh) 人工智能平台配置文件加密方法、系统、终端及存储介质
CN114036581A (zh) 基于神经网络模型的隐私计算方法
CN112949866A (zh) 泊松回归模型的训练方法、装置、电子设备及存储介质
CN115796305A (zh) 一种纵向联邦学习的树模型训练方法及装置
CN115002196B (zh) 一种数据处理方法、装置、车端采集设备
CN116032590A (zh) 一种ddos攻击的检测模型训练方法及相关装置
CN114429190A (zh) 基于联邦学习的模型构建方法、授信评估方法及装置
CN114298699A (zh) 非同质化代币的生成方法、获取方法及装置
CN113191072A (zh) 基于纵向联邦逻辑回归的可疑交易监测方法及装置
CN112434064A (zh) 数据处理方法、装置、介质及电子设备
CN111881426A (zh) 一种集成地缘空间与物联技术的城市管理方法、系统以及存储介质
CN112118366A (zh) 一种人脸图片数据的传输方法及装置
CN113965314B (zh) 同态加密处理方法及相关设备
CN117151068B (zh) 数字化智慧财务共享方法及共享中台
CN113468567B (zh) 数据处理方法及数据处理设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant