CN114841374A - 一种基于随机贪心算法的横向联邦梯度提升树优化方法 - Google Patents

一种基于随机贪心算法的横向联邦梯度提升树优化方法 Download PDF

Info

Publication number
CN114841374A
CN114841374A CN202110046246.2A CN202110046246A CN114841374A CN 114841374 A CN114841374 A CN 114841374A CN 202110046246 A CN202110046246 A CN 202110046246A CN 114841374 A CN114841374 A CN 114841374A
Authority
CN
China
Prior art keywords
segmentation
node
information
gradient
participant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110046246.2A
Other languages
English (en)
Other versions
CN114841374B (zh
Inventor
张金义
李振飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ennew Digital Technology Co Ltd
Original Assignee
Ennew Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ennew Digital Technology Co Ltd filed Critical Ennew Digital Technology Co Ltd
Priority to CN202110046246.2A priority Critical patent/CN114841374B/zh
Priority to EP21918850.5A priority patent/EP4131078A4/en
Priority to PCT/CN2021/101319 priority patent/WO2022151654A1/zh
Publication of CN114841374A publication Critical patent/CN114841374A/zh
Priority to US18/050,595 priority patent/US20230084325A1/en
Application granted granted Critical
Publication of CN114841374B publication Critical patent/CN114841374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于随机贪心算法的横向联邦梯度提升树优化方法,包括如下步骤协调方设置梯度提升树模型相关参数,包括但不限于决策树最大数量T、树最大深度L、初始预测值base等,并下发到各个参与方pi,各个参与方根据分割特征f和分割值v分割当前节点数据集,并将新的分割数据分配给子节点,该基于随机贪心算法的横向联邦梯度提升树优化方法,利支持的横向联邦学习中包括参与方和协调方,参与方拥有本地数据,协调方不拥有任何数据,进行参与方信息聚合的中心,参与方分别计算直方图,将直方图发送给协调方,协调方汇总全部直方图信息后,根据贪心算法寻找最优分割点,然后分享给各个参与方,配合内部的算法进行工作。

Description

一种基于随机贪心算法的横向联邦梯度提升树优化方法
技术领域
本发明涉及联邦学习技术领域,具体为一种基于随机贪心算法的横向联邦梯度提升树优化方法。
背景技术
联邦学习是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模,让参与方在未共享数据的基础上联合建模,能从技术上打破数据孤岛,实现AI协作,在此框架下通过设计虚拟模型解决不同数据拥有方在不交换数据的情况下进行协作的问题,虚拟模型是各方将数据聚合在一起的最优模型,各自区域依据模型为本地目标服务,联邦学习要求建模结果应当无限接近传统模式,即将多个数据拥有方的数据汇聚到一处进行建模的结果,在联邦机制下,各参与者的身份和地位相同,可建立共享数据策略,贪心算法是一种对某些求最优解问题的更简单、更迅速的设计技术,贪心算法的特点是一步一步地进行,常以当前情况为基础根据某个优化测度作最优选择,而不考虑各种可能的整体情况,省去了为找最优解要穷尽所有可能而必须耗费的大量时间,贪心算法采用自顶向下,以迭代的方法做出相继的贪心选择,每做一次贪心选择,就将所求问题简化为一个规模更小的子问题,通过每一步贪心选择,可得到问题的一个最优解,虽然每一步上都要保证能获得局部最优解,但由此产生的全局解有时不一定是最优的,所以贪心算法不要回溯。
然而,现有横向联邦梯度提升树算法需要各个参与方和协调方在频繁传递直方图信息,对协调方网络带宽要求很高,训练效率容易受网络稳定性的影响,并且由于传递的直方图信息中包含用户信息,存在泄漏用户隐私的风险,在引入多方安全计算、同态加密、秘密共享等隐私保护方案后,可以减少用户隐私泄漏的可能性,但会更加本地计算负担,降低训练效率。
发明内容
本发明的目的在于提供一种基于随机贪心算法的横向联邦梯度提升树优化方法,以解决上述背景技术中提出现有横向联邦梯度提升树算法需要各个参与方和协调方在频繁传递直方图信息,对协调方网络带宽要求很高,训练效率容易受网络稳定性的影响,并且由于传递的直方图信息中包含用户信息,存在泄漏用户隐私的风险,在引入多方安全计算、同态加密、秘密共享等隐私保护方案后,可以减少用户隐私泄漏的可能性,但会更加本地计算负担,降低训练效率的问题。
为实现上述目的,本发明提供如下技术方案:一种基于随机贪心算法的横向联邦梯度提升树优化方法,包括其步骤如下:
步骤一:协调方设置梯度提升树模型相关参数,包括但不限于决策树最大数量T、树最大深度L、初始预测值base等,并下发到各个参与方pi
步骤二:令树计数器t=1。
步骤三:对每个参与方pi,初始化第k棵树训练目标
Figure BDA0002897294550000021
其中
Figure BDA0002897294550000022
步骤四:令树层数计数器l=1。
步骤五:令当前层节点计数器n=1。
步骤六:对每个参与方pi,根据本地当前节点n的数据,根据最优分割点算法,确定当前节点的分割点,并将分割点信息发送给协调方。
步骤七:协调方统计全部参与方的切割点信息,根据epsilon-贪心算法,确定分割特征f和分割值v。
步骤八:协调方将最终确定的分割信息,包括但不限于确定分割特征f和分割值v,下发给各个参与方。
步骤九:各个参与方根据分割特征f和分割值v分割当前节点数据集,并将新的分割数据分配给子节点。
步骤十:令n=n+1,如果n小于或等于当前层最大节点数,继续步骤六;反之,继续下一步。
步骤十一:根据l层节点的子节点重置当前层节点信息,令l=l+1,如果l小于或等于树最大深度L,继续步骤五;反之,继续下一步。
步骤十二:令t=t+1,如果t大于或等于决策树最大数量T,继续步骤3;反之,结束。
优选的,所述步骤六中的最优分割点算法:
一、确定分割目标函数:包括但不限于以下目标函数,
信息增益:信息增益是度量样本集合纯度最常用的一种指标。假设节点样本集合D中共有K类样本,其中第k类样本所占的比例为pk,则D的信息熵定义为
Figure BDA0002897294550000031
假设节点根据属性a切分为V个可能的取值,则信息增益定义为
Figure BDA0002897294550000032
信息增益率:
Figure BDA0002897294550000033
其中
Figure BDA0002897294550000034
基尼系数:
Figure BDA0002897294550000035
Figure BDA0002897294550000041
结构系数:
Figure BDA0002897294550000042
其中GL为根据分割点分割数据集后划分到左节点的数据集的一阶梯度和,HL为左节点的数据集的二阶梯度和,GR及HR为相应右节点的梯度信息和,γ为树模型复杂度惩罚项,λ为二阶正则项。
二、确定分割值候选列表:根据当前节点数据分布,确定分割值列表;分割值包括分割特征和分割特征值;分割值列表可以根据以下方法确定:
数据集中所有特征的所有取值;
针对数据集中每个特征的取值范围,确定离散分割点;分割点的选择可以根据数据的分布,均匀分布在取值范围内;其中均匀体现在分割点间的数据量近似相等或者二阶梯度和近似相等。
遍历分割值候选列表,寻找使目标函数最优的分割点。
优选的,所述步骤七中的Epsilon贪心算法:针对节点n各参与方把节点分割点信息发送给协调方,包括分割特征fi,分割值vi,节点样本数量Ni,本地目标函数增益gi;其中i代表各参与方;
协调方根据各参与方分割信息,基于最大数原则,确定最优分割特征fmax设X为均匀分布在[0,1]之间的随机数,对X随机取样得x;如果x<=epsilon,则在各参与方分割特征中随机选择一个作为全局分割特征;反之,选择fmax为全局分割特征;
各参与方根据全局分割特征重新计算分割信息,并发送给协调方;
协调方根据一下公式确定全局分割值:如果参与方总数为P;
Figure BDA0002897294550000051
将分割值分发到各参与方,进行节点分割。
优选的,所述横向联邦学习,是联邦学习的一种分布式结构,其中各个分布式节点的数据特征相同,样本空间不同。
优选的,所述梯度提升树算法,是一种基于梯度提升和决策树的集成模型。
优选的,所述决策树是梯度提升树模型的基础模型,基于树结构,在节点通过给定特征判断样本的预测方向。
优选的,所述分割点是决策树中非叶节点进行数据分割的切分位置。
优选的,所述直方图是表示节点数据中一阶梯度和二阶梯度的统计信息。
优选的,所述录入设备可以是计算机、手机等数据终端或者是移动终端的一种或多种。
优选的,所述录入设备包括处理器,被所述处理器执行时实现步骤一到十二中的任一项所述算法。
与现有技术相比,本发明的有益效果是:该基于随机贪心算法的横向联邦梯度提升树优化方法,通过协调方设置梯度提升树模型相关参数,包括但不限于决策树最大数量T、树最大深度L、初始预测值base等,并下发到各个参与方pi,令树计数器t=1,对每个参与方pi,令树层数计数器l=1,令当前层节点计数器n=1,对每个参与方pi,根据本地当前节点n的数据,根据最优分割点算法,确定当前节点的分割点,并将分割点信息发送给协调方,协调方统计全部参与方的切割点信息,根据epsilon-贪心算法,确定分割特征f和分割值v,协调方将最终确定的分割信息,包括但不限于确定分割特征f和分割值v,下发给各个参与方,各个参与方根据分割特征f和分割值v分割当前节点数据集,并将新的分割数据分配给子节点,令n=n+1,如果n小于或等于当前层最大节点数,继续步骤六,反之,继续下一步,根据l层节点的子节点重置当前层节点信息,令l=l+1,如果l小于或等于树最大深度L,继续步骤五,反之,继续下一步,令t=t+1,如果t大于或等于决策树最大数量T,继续步骤3,反之,结束,利支持的横向联邦学习中包括参与方和协调方,参与方拥有本地数据,协调方不拥有任何数据,进行参与方信息聚合的中心,参与方分别计算直方图,将直方图发送给协调方,协调方汇总全部直方图信息后,根据贪心算法寻找最优分割点,然后分享给各个参与方,配合内部的算法进行工作。
附图说明
图1为本发明基于随机贪心算法的横向联邦梯度提升树优化方法架构示意图;
图2为本发明基于随机贪心算法的横向联邦梯度提升树优化方法步骤示意图;
图3为本发明基于随机贪心算法的横向联邦梯度提升树优化方法判断示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,本发明提供一种技术方案:一种基于随机贪心算法的横向联邦梯度提升树优化方法,包括其步骤如下:
步骤一:协调方设置梯度提升树模型相关参数,包括但不限于决策树最大数量T、树最大深度L、初始预测值base等,并下发到各个参与方pi
步骤二:令树计数器t=1。
步骤三:对每个参与方pi,初始化第k棵树训练目标
Figure BDA0002897294550000071
其中
Figure BDA0002897294550000072
步骤四:令树层数计数器l=1。
步骤五:令当前层节点计数器n=1。
步骤六:对每个参与方pi,根据本地当前节点n的数据,根据最优分割点算法,确定当前节点的分割点,并将分割点信息发送给协调方。
步骤七:协调方统计全部参与方的切割点信息,根据epsilon-贪心算法,确定分割特征f和分割值v。
步骤八:协调方将最终确定的分割信息,包括但不限于确定分割特征f和分割值v,下发给各个参与方。
步骤九:各个参与方根据分割特征f和分割值v分割当前节点数据集,并将新的分割数据分配给子节点。
步骤十:令n=n+1,如果n小于或等于当前层最大节点数,继续步骤六;反之,继续下一步。
步骤十一:根据l层节点的子节点重置当前层节点信息,令l=l+1,如果l小于或等于树最大深度L,继续步骤五;反之,继续下一步。
步骤十二:令t=t+1,如果t大于或等于决策树最大数量T,继续步骤3;反之,结束;
进一步的,步骤六中的最优分割点算法:
一、确定分割目标函数:包括但不限于以下目标函数,
信息增益:信息增益是度量样本集合纯度最常用的一种指标。假设节点样本集合D中共有K类样本,其中第k类样本所占的比例为pk,则D的信息熵定义为
Figure BDA0002897294550000081
假设节点根据属性a切分为V个可能的取值,则信息增益定义为
Figure BDA0002897294550000082
信息增益率:
Figure BDA0002897294550000083
其中
Figure BDA0002897294550000084
基尼系数:
Figure BDA0002897294550000085
Figure BDA0002897294550000086
结构系数:
Figure BDA0002897294550000087
其中GL为根据分割点分割数据集后划分到左节点的数据集的一阶梯度和,HL为左节点的数据集的二阶梯度和,GR及HR为相应右节点的梯度信息和,γ为树模型复杂度惩罚项,λ为二阶正则项。
二、确定分割值候选列表:根据当前节点数据分布,确定分割值列表;分割值包括分割特征和分割特征值;分割值列表可以根据以下方法确定:
数据集中所有特征的所有取值;
针对数据集中每个特征的取值范围,确定离散分割点;分割点的选择可以根据数据的分布,均匀分布在取值范围内;其中均匀体现在分割点间的数据量近似相等或者二阶梯度和近似相等。
遍历分割值候选列表,寻找使目标函数最优的分割点;
进一步的,步骤七中的Epsilon贪心算法:针对节点n
各参与方把节点分割点信息发送给协调方,包括分割特征fi,分割值vi,节点样本数量Ni,本地目标函数增益gi;其中i代表各参与方;
协调方根据各参与方分割信息,基于最大数原则,确定最优分割特征fmax
设X为均匀分布在[0,1]之间的随机数,对X随机取样得x;如果x<=epsilon,则在各参与方分割特征中随机选择一个作为全局分割特征;
反之,选择fmax为全局分割特征;
各参与方根据全局分割特征重新计算分割信息,并发送给协调方;
协调方根据一下公式确定全局分割值:如果参与方总数为P;
Figure BDA0002897294550000091
将分割值分发到各参与方,进行节点分割;
进一步的,横向联邦学习,是联邦学习的一种分布式结构,其中各个分布式节点的数据特征相同,样本空间不同,更好的进行比对工作;
进一步的,梯度提升树算法,是一种基于梯度提升和决策树的集成模型,更好的进行工作;
进一步的,决策树是梯度提升树模型的基础模型,基于树结构,在节点通过给定特征判断样本的预测方向,能够更好的帮助预测;
进一步的,分割点是决策树中非叶节点进行数据分割的切分位置,更好的进行分割;
进一步的,直方图是表示节点数据中一阶梯度和二阶梯度的统计信息,更直观的进行表示;
进一步的,录入设备可以是计算机、手机等数据终端或者是移动终端的一种或多种,更好的进行数据录入;
进一步的,录入设备包括处理器,被处理器执行时实现步骤一到十二中的任一项算法。
工作原理:步骤一:协调方设置梯度提升树模型相关参数,包括但不限于决策树最大数量T、树最大深度L、初始预测值base等,并下发到各个参与方pi,步骤二:令树计数器t=1,步骤三:对每个参与方pi,初始化第k棵树训练目标
Figure BDA0002897294550000101
其中
Figure BDA0002897294550000102
步骤四:令树层数计数器l=1,步骤五:令当前层节点计数器n=1,步骤六:对每个参与方pi,根据本地当前节点n的数据,根据最优分割点算法,确定当前节点的分割点,并将分割点信息发送给协调方,一、确定分割目标函数:包括但不限于以下目标函数,
信息增益:信息增益是度量样本集合纯度最常用的一种指标,假设节点样本集合D中共有K类样本,其中第k类样本所占的比例为pk,则D的信息熵定义为
Figure BDA0002897294550000103
假设节点根据属性a切分为V个可能的取值,则信息增益定义为
Figure BDA0002897294550000104
信息增益率:
Figure BDA0002897294550000105
其中
Figure BDA0002897294550000111
基尼系数:
Figure BDA0002897294550000112
Figure BDA0002897294550000113
结构系数:
Figure BDA0002897294550000114
其中GL为根据分割点分割数据集后划分到左节点的数据集的一阶梯度和,HL为左节点的数据集的二阶梯度和,GR及HR为相应右节点的梯度信息和,γ为树模型复杂度惩罚项,λ为二阶正则项,
二、确定分割值候选列表:根据当前节点数据分布,确定分割值列表;分割值包括分割特征和分割特征值;分割值列表可以根据以下方法确定:
数据集中所有特征的所有取值;
针对数据集中每个特征的取值范围,确定离散分割点;分割点的选择可以根据数据的分布,均匀分布在取值范围内;其中均匀体现在分割点间的数据量近似相等或者二阶梯度和近似相等,
遍历分割值候选列表,寻找使目标函数最优的分割点,步骤七:协调方统计全部参与方的切割点信息,根据epsilon-贪心算法,确定分割特征f和分割值v,步骤七中的Epsilon贪心算法:针对节点n
各参与方把节点分割点信息发送给协调方,包括分割特征fi,分割值vi,节点样本数量Ni,本地目标函数增益gi;其中i代表各参与方;
协调方根据各参与方分割信息,基于最大数原则,确定最优分割特征fmax
设X为均匀分布在[0,1]之间的随机数,对X随机取样得x;如果x<=epsilon,则在各参与方分割特征中随机选择一个作为全局分割特征;
反之,选择fmax为全局分割特征;
各参与方根据全局分割特征重新计算分割信息,并发送给协调方;
协调方根据一下公式确定全局分割值:如果参与方总数为P;
Figure BDA0002897294550000121
将分割值分发到各参与方,进行节点分割,步骤八:协调方将最终确定的分割信息,包括但不限于确定分割特征f和分割值v,下发给各个参与方,步骤九:各个参与方根据分割特征f和分割值v分割当前节点数据集,并将新的分割数据分配给子节点,步骤十:令n=n+1,如果n小于或等于当前层最大节点数,继续步骤六;反之,继续下一步,步骤十一:根据l层节点的子节点重置当前层节点信息,令l=l+1,如果l小于或等于树最大深度L,继续步骤五;反之,继续下一步,步骤十二:令t=t+1,如果t大于或等于决策树最大数量T,继续步骤3;反之,结束,通过协调方设置梯度提升树模型相关参数,包括但不限于决策树最大数量、树最大深度、初始预测值等,并下发到各个参与方,协调方将最终确定的分割信息,包括但不限于确定分割特征和分割值,下发给各个参与方,各个参与方根据分割特征和分割值分割当前节点数据集,利支持的横向联邦学习中包括参与方和协调方,参与方拥有本地数据,协调方不拥有任何数据,进行参与方信息聚合的中心,参与方分别计算直方图,将直方图发送给协调方,协调方汇总全部直方图信息后,根据贪心算法寻找最优分割点,然后分享给各个参与方,配合内部的算法进行工作。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种基于随机贪心算法的横向联邦梯度提升树优化方法,其特征在于:其步骤如下:
步骤一:协调方设置梯度提升树模型相关参数,包括决策树最大数量T、树最大深度L、初始预测值base等,并下发到各个参与方pi
步骤二:对每个参与方pi,初始化第k棵树训练目标
Figure FDA0002897294540000011
其中
Figure FDA0002897294540000012
步骤三:对每个参与方pi,根据本地当前节点n的数据,根据最优分割点算法,确定当前节点的分割点,并将分割点信息发送给协调方;
步骤四:协调方统计全部参与方的切割点信息,根据epsilon-贪心算法,确定分割特征f和分割值v;
步骤五:协调方将最终确定的分割信息,包括确定分割特征f和分割值v,下发给各个参与方;
步骤六:各个参与方根据分割特征f和分割值v分割当前节点数据集,并将新的分割数据分配给子节点。
步骤七:令n=n+1,如果n小于或等于当前层最大节点数,继续步骤三;反之,继续下一步。
步骤八:根据l层节点的子节点重置当前层节点信息,令l=l+1,如果l小于或等于树最大深度L,继续步骤五;反之,继续下一步。
步骤九:令t=t+1,如果t大于或等于决策树最大数量T,继续步骤3;反之,结束。
2.根据权利要求1所述的一种基于随机贪心算法的横向联邦梯度提升树优化方法,其特征在于:所述步骤三中的最优分割点算法:
确定分割目标函数:包括目标函数,
信息增益:信息增益是度量样本集合纯度最常用的一种指标。假设节点样本集合D中共有K类样本,其中第k类样本所占的比例为pk,则D的信息熵定义为
Figure FDA0002897294540000021
假设节点根据属性a切分为V个可能的取值,则信息增益定义为
Figure FDA0002897294540000022
信息增益率:
Figure FDA0002897294540000023
其中
Figure FDA0002897294540000024
基尼系数:
Figure FDA0002897294540000025
Figure FDA0002897294540000026
结构系数:
Figure FDA0002897294540000027
其中GL为根据分割点分割数据集后划分到左节点的数据集的一阶梯度和,HL为左节点的数据集的二阶梯度和,GR及HR为相应右节点的梯度信息和,γ为树模型复杂度惩罚项,λ为二阶正则项。
确定分割值候选列表:根据当前节点数据分布,确定分割值列表;分割值包括分割特征和分割特征值;分割值列表根据以下方法确定:
数据集中所有特征的所有取值;
针对数据集中每个特征的取值范围,确定离散分割点;
分割点的选择可以根据数据的分布,均匀分布在取值范围内;其中均匀体现在分割点间的数据量近似相等或者二阶梯度和近似相等;
遍历分割值候选列表,寻找使目标函数最优的分割点。
3.根据权利要求1所述的一种基于随机贪心算法的横向联邦梯度提升树优化方法,其特征在于:所述步骤七中的Epsilon贪心算法包含:
针对节点n各参与方把节点分割点信息发送给协调方,包括分割特征fi,分割值vi,节点样本数量Ni,本地目标函数增益gi;其中i代表各参与方;
协调方根据各参与方分割信息,基于最大数原则,确定最优分割特征fmax设X为均匀分布在[0,1]之间的随机数,对X随机取样得x;如果x<=epsilon,则在各参与方分割特征中随机选择一个作为全局分割特征;反之,选择fmax为全局分割特征;
各参与方根据全局分割特征重新计算分割信息,并发送给协调方;
协调方根据一下公式确定全局分割值:如果参与方总数为P;
Figure FDA0002897294540000031
将分割值分发到各参与方,进行节点分割。
4.根据权利要求1所述的一种基于随机贪心算法的横向联邦梯度提升树优化方法,其特征在于:所述横向联邦学习,是联邦学习的一种分布式结构,其中各个分布式节点的数据特征相同,样本空间不同。
5.根据权利要求1所述的一种基于随机贪心算法的横向联邦梯度提升树优化方法,其特征在于:所述梯度提升树算法,是一种基于梯度提升和决策树的集成模型。
6.根据权利要求1所述的一种基于随机贪心算法的横向联邦梯度提升树优化方法,其特征在于:所述决策树是梯度提升树模型的基础模型,基于树结构,在节点通过给定特征判断样本的预测方向。
7.根据权利要求1所述的一种基于随机贪心算法的横向联邦梯度提升树优化方法,其特征在于:所述分割点是决策树中非叶节点进行数据分割的切分位置。
8.根据权利要求1所述的一种基于随机贪心算法的横向联邦梯度提升树优化方法,其特征在于:所述直方图是表示节点数据中一阶梯度和二阶梯度的统计信息。
9.根据权利要求1所述的一种基于随机贪心算法的横向联邦梯度提升树优化方法,其特征在于:所述录入设备可以是计算机、手机等数据终端或者是移动终端的一种或多种。
10.根据权利要求1所述的一种基于随机贪心算法的横向联邦梯度提升树优化方法,其特征在于:所述录入设备包括处理器,被所述处理器执行时实现步骤一到十二中的任一项所述算法。
CN202110046246.2A 2021-01-14 2021-01-14 一种基于随机贪心算法的横向联邦梯度提升树优化方法 Active CN114841374B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202110046246.2A CN114841374B (zh) 2021-01-14 2021-01-14 一种基于随机贪心算法的横向联邦梯度提升树优化方法
EP21918850.5A EP4131078A4 (en) 2021-01-14 2021-06-21 HORIZONTAL FEDERATED GRADIENT BOOSTED TREE OPTIMIZATION METHOD BASED ON A RANDOM GREEDY ALGORITHM
PCT/CN2021/101319 WO2022151654A1 (zh) 2021-01-14 2021-06-21 一种基于随机贪心算法的横向联邦梯度提升树优化方法
US18/050,595 US20230084325A1 (en) 2021-01-14 2022-10-28 Random greedy algorithm-based horizontal federated gradient boosted tree optimization method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110046246.2A CN114841374B (zh) 2021-01-14 2021-01-14 一种基于随机贪心算法的横向联邦梯度提升树优化方法

Publications (2)

Publication Number Publication Date
CN114841374A true CN114841374A (zh) 2022-08-02
CN114841374B CN114841374B (zh) 2024-09-27

Family

ID=82447785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110046246.2A Active CN114841374B (zh) 2021-01-14 2021-01-14 一种基于随机贪心算法的横向联邦梯度提升树优化方法

Country Status (4)

Country Link
US (1) US20230084325A1 (zh)
EP (1) EP4131078A4 (zh)
CN (1) CN114841374B (zh)
WO (1) WO2022151654A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116205313A (zh) * 2023-04-27 2023-06-02 数字浙江技术运营有限公司 联邦学习参与方的选择方法、装置及电子设备
CN117251805A (zh) * 2023-11-20 2023-12-19 杭州金智塔科技有限公司 基于广度优先算法的联邦梯度提升决策树模型更新系统

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821838B (zh) * 2023-08-31 2023-12-29 浙江大学 一种隐私保护的异常交易检测方法及装置
CN117075884B (zh) * 2023-10-13 2023-12-15 南京飓风引擎信息技术有限公司 一种基于可视化脚本的数字化处理系统及方法
CN117648646B (zh) * 2024-01-30 2024-04-26 西南石油大学 基于特征选择和堆叠异构集成学习的钻采成本预测方法
CN117724854B (zh) * 2024-02-08 2024-05-24 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536650A (zh) * 2018-04-03 2018-09-14 北京京东尚科信息技术有限公司 生成梯度提升树模型的方法和装置
CN109165683A (zh) * 2018-08-10 2019-01-08 深圳前海微众银行股份有限公司 基于联邦训练的样本预测方法、装置及存储介质
AU2018102040A4 (en) * 2018-12-10 2019-01-17 Chen, Shixuan Mr The method of an efficient and accurate credit rating system through the gradient boost decision tree
CN109299728A (zh) * 2018-08-10 2019-02-01 深圳前海微众银行股份有限公司 联邦学习方法、系统及可读存储介质
CN111275207A (zh) * 2020-02-10 2020-06-12 深圳前海微众银行股份有限公司 基于半监督的横向联邦学习优化方法、设备及存储介质
CN111695697A (zh) * 2020-06-12 2020-09-22 深圳前海微众银行股份有限公司 多方联合决策树构建方法、设备及可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388860B (zh) * 2018-02-12 2020-04-28 大连理工大学 一种基于功率熵谱-随机森林的航空发动机滚动轴承故障诊断方法
CN111985270B (zh) * 2019-05-22 2024-01-05 中国科学院沈阳自动化研究所 一种基于梯度提升树的sEMG信号最优通道选择方法
CN111553483B (zh) * 2020-04-30 2024-03-29 同盾控股有限公司 基于梯度压缩的联邦学习的方法、装置及系统
CN111553470B (zh) * 2020-07-10 2020-10-27 成都数联铭品科技有限公司 适用于联邦学习的信息交互系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536650A (zh) * 2018-04-03 2018-09-14 北京京东尚科信息技术有限公司 生成梯度提升树模型的方法和装置
CN109165683A (zh) * 2018-08-10 2019-01-08 深圳前海微众银行股份有限公司 基于联邦训练的样本预测方法、装置及存储介质
CN109299728A (zh) * 2018-08-10 2019-02-01 深圳前海微众银行股份有限公司 联邦学习方法、系统及可读存储介质
AU2018102040A4 (en) * 2018-12-10 2019-01-17 Chen, Shixuan Mr The method of an efficient and accurate credit rating system through the gradient boost decision tree
CN111275207A (zh) * 2020-02-10 2020-06-12 深圳前海微众银行股份有限公司 基于半监督的横向联邦学习优化方法、设备及存储介质
CN111695697A (zh) * 2020-06-12 2020-09-22 深圳前海微众银行股份有限公司 多方联合决策树构建方法、设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
L. HUANG 等: "Research on Taxi Travel Time Prediction Based on GBDT Machine Learning Method", 《2018 EIGHTH INTERNATIONAL CONFERENCE ON INSTRUMENTATION & MEASUREMENT, COMPUTER, COMMUNICATION AND CONTROL 》, 21 July 2018 (2018-07-21), pages 718 - 722, XP033746133, DOI: 10.1109/IMCCC.2018.00155 *
毕云帆 等: "基于梯度提升决策树的电力短期负荷预测模型", 青岛大学学报(工程技术版), no. 03, 29 August 2018 (2018-08-29), pages 74 - 79 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116205313A (zh) * 2023-04-27 2023-06-02 数字浙江技术运营有限公司 联邦学习参与方的选择方法、装置及电子设备
CN116205313B (zh) * 2023-04-27 2023-08-11 数字浙江技术运营有限公司 联邦学习参与方的选择方法、装置及电子设备
CN117251805A (zh) * 2023-11-20 2023-12-19 杭州金智塔科技有限公司 基于广度优先算法的联邦梯度提升决策树模型更新系统
CN117251805B (zh) * 2023-11-20 2024-04-16 杭州金智塔科技有限公司 基于广度优先算法的联邦梯度提升决策树模型更新系统

Also Published As

Publication number Publication date
WO2022151654A1 (zh) 2022-07-21
US20230084325A1 (en) 2023-03-16
CN114841374B (zh) 2024-09-27
EP4131078A1 (en) 2023-02-08
EP4131078A4 (en) 2023-09-06

Similar Documents

Publication Publication Date Title
CN114841374A (zh) 一种基于随机贪心算法的横向联邦梯度提升树优化方法
CN110177094A (zh) 一种用户团体识别方法、装置、电子设备及存储介质
CN110222029A (zh) 一种大数据多维分析计算效率提升方法及系统
CN106528773A (zh) 一种基于Spark平台支持空间数据管理的图计算系统及方法
CN106709001A (zh) 一种面向流式大数据的基数估计方法
CN113422695B (zh) 一种提高物联网拓扑结构鲁棒性能的优化方法
CN104965846B (zh) MapReduce平台上的虚拟人建立方法
CN116628360A (zh) 一种基于差分隐私的社交网络直方图发布方法及装置
CN108764307A (zh) 自然最近邻优化的密度峰值聚类方法
CN115130044B (zh) 一种基于二阶h指数的影响力节点识别方法和系统
CN108345699A (zh) 获取多媒体数据的方法、装置及存储介质
Aghajani et al. A large scale analysis of unreliable stochastic networks
CN107506473A (zh) 一种基于云计算的大数据检索方法
CN107103381A (zh) 一种数据中心的规划方法和系统
CN108776707B (zh) 针对探索性查询的抽样方法
CN108710796B (zh) 入侵操作检测方法、装置、设备及计算机可读存储介质
CN112380267A (zh) 一种基于隐私图的社区发现方法
CN114155012A (zh) 欺诈群体识别方法、装置、服务器及存储介质
Wang et al. Automated allocation of detention rooms based on inverse graph partitioning
CN110674524A (zh) 一种混合密文索引方法及系统
CN118297742B (zh) 一种基于复杂网络关键圈的高影响力节点群识别方法
CN116305262B (zh) 基于负调查的社交网络拓扑隐私保护方法
CN115473817B (zh) 一种考虑空间特性的电力信息网的构建方法及系统
CN117591705B (zh) 基于图搜索的分表关联方法及设备
CN108804626A (zh) 一种基于分布感知的二元等值连接倾斜优化方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant